chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

深度學習:基于語境的文本分類弱監(jiān)督學習

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:丁磊 ? 2021-01-18 16:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

高成本的人工標簽使得弱監(jiān)督學習備受關注。seed-driven 是弱監(jiān)督學習中的一種常見模型。該模型要求用戶提供少量的seed words,根據(jù)seed words對未標記的訓練數(shù)據(jù)生成偽標簽,增加訓練樣本。

但是由于一詞多義現(xiàn)象的存在,同一個seed word會出現(xiàn)在不同的類別中,從而增加生成正確偽標簽的難度;同時,單詞w在語料庫中的所有位置都使用一個的詞向量,也會降低分類模型的準確性。

而本篇論文主要貢獻有:

開發(fā)一種無監(jiān)督的方法,可以根據(jù)詞向量和seed words,解決語料庫中單詞的一詞多義問題。

設計一種排序機制,消除seed words中一些無效的單詞;并將有效的單詞擴充進seed words中。

模型整體結(jié)構(gòu)為:

23886e4c-58b3-11eb-8b86-12bb97331649.png

第一步:使用聚類算法解決語料庫中單詞的一詞多義問題

對于每一個單詞 w, 假設w出現(xiàn)在語料庫的n個不同位置, 分別為 ,使用K-Means算法將分成K類,這里K可理解為單詞w的K個不同解釋。

用下列公式計算K的值:

23bb05f0-58b3-11eb-8b86-12bb97331649.png

其中代表第i個聚類中心的向量。的計算方法如下:

240a0f10-58b3-11eb-8b86-12bb97331649.png

這里s表示一個seed word,且表示s在語料庫第i次出現(xiàn),對應的詞向量為。

sim() 表示余弦函數(shù),median( )表示取中位數(shù)。

則對于任意,有

24453194-58b3-11eb-8b86-12bb97331649.png

綜上,一詞多義問題解決算法如下:

249a483c-58b3-11eb-8b86-12bb97331649.png

使用上面算法,我們就可以將原始語料庫轉(zhuǎn)變?yōu)榛谡Z境下的語料庫:

24f7145e-58b3-11eb-8b86-12bb97331649.png

第二步:對未標記的訓練數(shù)據(jù)生成偽標簽令表示文檔d的偽標簽;表示類別為的seed word 集合;表示單詞w出現(xiàn)在文檔d的詞頻

2578e2f4-58b3-11eb-8b86-12bb97331649.png

第三步:使用基于語境下的語料庫進行文檔分類

本篇論文使用Hierarchical Attention Networks (HAN) 進行文本分類。

25a2678c-58b3-11eb-8b86-12bb97331649.png

第四步:設計排序函數(shù),更新seed words我們設計出一個打分函數(shù),用于表示單詞w僅高頻的出現(xiàn)在類別為的文檔。分值越高,表示單詞w對類別越重要。我們可以選擇分值最高的前幾個單詞作為新的seed word。也可以剔除一些不重要的seed word。

264f65a4-58b3-11eb-8b86-12bb97331649.png

其中:

268ed78e-58b3-11eb-8b86-12bb97331649.png

表示類別為的文檔的數(shù)量。表示類別為且含有單詞w的文檔的數(shù)量。表示在類別為的文檔中,單詞w的詞頻。

n為語料庫D的文檔總數(shù)目表示語料庫D中含有單詞w的文檔的數(shù)量。

結(jié)果

我們的完整模型稱為 ConWea,

而 ConWea-NoCon是 ConWea確實缺少第一步的變體。

ConWea-NoExpan是 ConWea確實缺少第四步的變體。

ConWea-WSD是將 ConWea第一步的方法換成Lesk算法。

271870fc-58b3-11eb-8b86-12bb97331649.png

責任編輯:xj

原文標題:【ACL2020】基于語境的文本分類弱監(jiān)督學習

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 文本分類
    +關注

    關注

    0

    文章

    18

    瀏覽量

    7435
  • 機器學習
    +關注

    關注

    66

    文章

    8532

    瀏覽量

    135987
  • 深度學習
    +關注

    關注

    73

    文章

    5587

    瀏覽量

    123737

原文標題:【ACL2020】基于語境的文本分類弱監(jiān)督學習

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛中常提的“強化學習”是個啥?

    下,就是一個智能體在環(huán)境里行動,它能觀察到環(huán)境的一些信息,并做出一個動作,然后環(huán)境會給出一個反饋(獎勵或懲罰),智能體的目標是把長期得到的獎勵累積到最大。和監(jiān)督學習不同,強化學習沒有一一對應的“正確答案”給它看,而是靠與環(huán)境交互、自我探索來發(fā)現(xiàn)
    的頭像 發(fā)表于 10-23 09:00 ?136次閱讀
    自動駕駛中常提的“強化<b class='flag-5'>學習</b>”是個啥?

    深度學習對工業(yè)物聯(lián)網(wǎng)有哪些幫助

    、實施路徑三個維度展開分析: 一、深度學習如何突破工業(yè)物聯(lián)網(wǎng)的技術(shù)瓶頸? 1. 非結(jié)構(gòu)化數(shù)據(jù)處理:解鎖“沉睡數(shù)據(jù)”價值 傳統(tǒng)困境 :工業(yè)物聯(lián)網(wǎng)中70%以上的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)(如設備振動波形、紅外圖像、日志文本),傳統(tǒng)方法難以
    的頭像 發(fā)表于 08-20 14:56 ?579次閱讀

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學習”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?3786次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學習</b>嗎?

    任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進來呢?

    的基本理論。了解監(jiān)督學習、無監(jiān)督學習和強化學習的基本原理。例如,在監(jiān)督學習中,理解如何通過標注數(shù)據(jù)來訓練模型進行分類或回歸任務,像通過大量的
    發(fā)表于 07-08 17:44

    使用MATLAB進行無監(jiān)督學習

    監(jiān)督學習是一種根據(jù)未標注數(shù)據(jù)進行推斷的機器學習方法。無監(jiān)督學習旨在識別數(shù)據(jù)中隱藏的模式和關系,無需任何監(jiān)督或關于結(jié)果的先驗知識。
    的頭像 發(fā)表于 05-16 14:48 ?1040次閱讀
    使用MATLAB進行無<b class='flag-5'>監(jiān)督學習</b>

    軍事應用中深度學習的挑戰(zhàn)與機遇

    人工智能尤其是深度學習技術(shù)的最新進展,加速了不同應用領域的創(chuàng)新與發(fā)展。深度學習技術(shù)的發(fā)展深刻影響了軍事發(fā)展趨勢,導致戰(zhàn)爭形式和模式發(fā)生重大變化。本文將概述
    的頭像 發(fā)表于 02-14 11:15 ?728次閱讀

    BP神經(jīng)網(wǎng)絡與深度學習的關系

    BP神經(jīng)網(wǎng)絡與深度學習之間存在著密切的關系,以下是對它們之間關系的介紹: 一、BP神經(jīng)網(wǎng)絡的基本概念 BP神經(jīng)網(wǎng)絡,即反向傳播神經(jīng)網(wǎng)絡(Backpropagation Neural Network
    的頭像 發(fā)表于 02-12 15:15 ?1206次閱讀

    xgboost在圖像分類中的應用

    和易用性,在各種機器學習任務中得到了廣泛應用,包括分類、回歸和排序問題。在圖像分類領域,盡管深度學習模型(如卷積神經(jīng)網(wǎng)絡CNN)占據(jù)主導地位
    的頭像 發(fā)表于 01-19 11:16 ?1381次閱讀

    時空引導下的時間序列自監(jiān)督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯(lián)合發(fā)布了一篇時間序列無監(jiān)督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發(fā)表于 11-15 11:41 ?1084次閱讀
    時空引導下的時間序列自<b class='flag-5'>監(jiān)督學習</b>框架

    NPU在深度學習中的應用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學習作為其核心驅(qū)動力之一,已經(jīng)在眾多領域展現(xiàn)出了巨大的潛力和價值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡處理單元)是專門為深度學習
    的頭像 發(fā)表于 11-14 15:17 ?2587次閱讀

    使用LLM進行自然語言處理的優(yōu)缺點

    語言任務,如文本分類、情感分析、機器翻譯等。以下是使用LLM進行NLP的一些優(yōu)缺點: 優(yōu)點 強大的語言理解能力 : LLM通過訓練學習了大量的語言模式和結(jié)構(gòu),能夠理解和生成自然語言文本。 它們能夠捕捉到語言中的細微差別,包括
    的頭像 發(fā)表于 11-08 09:27 ?3451次閱讀

    Pytorch深度學習訓練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學習訓練。
    的頭像 發(fā)表于 10-28 14:05 ?911次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學習</b>訓練的方法

    GPU深度學習應用案例

    GPU在深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是深度學習
    的頭像 發(fā)表于 10-27 11:13 ?1964次閱讀

    激光雷達技術(shù)的基于深度學習的進步

    信息。這使得激光雷達在自動駕駛、無人機、機器人等領域具有廣泛的應用前景。 二、深度學習技術(shù)的發(fā)展 深度學習是機器學習的一個分支,它通過模擬人
    的頭像 發(fā)表于 10-27 10:57 ?1346次閱讀

    FPGA加速深度學習模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學習模型是當前硬件加速領域的一個熱門研究方向。以下是一些FPGA加速深度學習模型的案例: 一、基于FPGA的AlexNet卷積運算加速 項目名稱
    的頭像 發(fā)表于 10-25 09:22 ?1558次閱讀