chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí):基于語(yǔ)境的文本分類(lèi)弱監(jiān)督學(xué)習(xí)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:丁磊 ? 2021-01-18 16:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

高成本的人工標(biāo)簽使得弱監(jiān)督學(xué)習(xí)備受關(guān)注。seed-driven 是弱監(jiān)督學(xué)習(xí)中的一種常見(jiàn)模型。該模型要求用戶提供少量的seed words,根據(jù)seed words對(duì)未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽,增加訓(xùn)練樣本。

但是由于一詞多義現(xiàn)象的存在,同一個(gè)seed word會(huì)出現(xiàn)在不同的類(lèi)別中,從而增加生成正確偽標(biāo)簽的難度;同時(shí),單詞w在語(yǔ)料庫(kù)中的所有位置都使用一個(gè)的詞向量,也會(huì)降低分類(lèi)模型的準(zhǔn)確性。

而本篇論文主要貢獻(xiàn)有:

開(kāi)發(fā)一種無(wú)監(jiān)督的方法,可以根據(jù)詞向量和seed words,解決語(yǔ)料庫(kù)中單詞的一詞多義問(wèn)題。

設(shè)計(jì)一種排序機(jī)制,消除seed words中一些無(wú)效的單詞;并將有效的單詞擴(kuò)充進(jìn)seed words中。

模型整體結(jié)構(gòu)為:

23886e4c-58b3-11eb-8b86-12bb97331649.png

第一步:使用聚類(lèi)算法解決語(yǔ)料庫(kù)中單詞的一詞多義問(wèn)題

對(duì)于每一個(gè)單詞 w, 假設(shè)w出現(xiàn)在語(yǔ)料庫(kù)的n個(gè)不同位置, 分別為 ,使用K-Means算法將分成K類(lèi),這里K可理解為單詞w的K個(gè)不同解釋。

用下列公式計(jì)算K的值:

23bb05f0-58b3-11eb-8b86-12bb97331649.png

其中代表第i個(gè)聚類(lèi)中心的向量。的計(jì)算方法如下:

240a0f10-58b3-11eb-8b86-12bb97331649.png

這里s表示一個(gè)seed word,且表示s在語(yǔ)料庫(kù)第i次出現(xiàn),對(duì)應(yīng)的詞向量為。

sim() 表示余弦函數(shù),median( )表示取中位數(shù)。

則對(duì)于任意,有

24453194-58b3-11eb-8b86-12bb97331649.png

綜上,一詞多義問(wèn)題解決算法如下:

249a483c-58b3-11eb-8b86-12bb97331649.png

使用上面算法,我們就可以將原始語(yǔ)料庫(kù)轉(zhuǎn)變?yōu)榛谡Z(yǔ)境下的語(yǔ)料庫(kù):

24f7145e-58b3-11eb-8b86-12bb97331649.png

第二步:對(duì)未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽令表示文檔d的偽標(biāo)簽;表示類(lèi)別為的seed word 集合;表示單詞w出現(xiàn)在文檔d的詞頻

2578e2f4-58b3-11eb-8b86-12bb97331649.png

第三步:使用基于語(yǔ)境下的語(yǔ)料庫(kù)進(jìn)行文檔分類(lèi)

本篇論文使用Hierarchical Attention Networks (HAN) 進(jìn)行文本分類(lèi)。

25a2678c-58b3-11eb-8b86-12bb97331649.png

第四步:設(shè)計(jì)排序函數(shù),更新seed words我們?cè)O(shè)計(jì)出一個(gè)打分函數(shù),用于表示單詞w僅高頻的出現(xiàn)在類(lèi)別為的文檔。分值越高,表示單詞w對(duì)類(lèi)別越重要。我們可以選擇分值最高的前幾個(gè)單詞作為新的seed word。也可以剔除一些不重要的seed word。

264f65a4-58b3-11eb-8b86-12bb97331649.png

其中:

268ed78e-58b3-11eb-8b86-12bb97331649.png

表示類(lèi)別為的文檔的數(shù)量。表示類(lèi)別為且含有單詞w的文檔的數(shù)量。表示在類(lèi)別為的文檔中,單詞w的詞頻。

n為語(yǔ)料庫(kù)D的文檔總數(shù)目表示語(yǔ)料庫(kù)D中含有單詞w的文檔的數(shù)量。

結(jié)果

我們的完整模型稱(chēng)為 ConWea,

而 ConWea-NoCon是 ConWea確實(shí)缺少第一步的變體。

ConWea-NoExpan是 ConWea確實(shí)缺少第四步的變體。

ConWea-WSD是將 ConWea第一步的方法換成Lesk算法。

271870fc-58b3-11eb-8b86-12bb97331649.png

責(zé)任編輯:xj

原文標(biāo)題:【ACL2020】基于語(yǔ)境的文本分類(lèi)弱監(jiān)督學(xué)習(xí)

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:【ACL2020】基于語(yǔ)境的文本分類(lèi)弱監(jiān)督學(xué)習(xí)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器學(xué)習(xí)深度學(xué)習(xí)中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性

    無(wú)論你是剛?cè)腴T(mén)還是已經(jīng)從事人工智能模型相關(guān)工作一段時(shí)間,機(jī)器學(xué)習(xí)深度學(xué)習(xí)中都存在一些我們需要時(shí)刻關(guān)注并銘記的常見(jiàn)錯(cuò)誤。如果對(duì)這些錯(cuò)誤置之不理,日后可能會(huì)引發(fā)諸多麻煩!只要我們密切關(guān)注數(shù)據(jù)、模型架構(gòu)
    的頭像 發(fā)表于 01-07 15:37 ?112次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    、GPU加速訓(xùn)練(可選) 雙軌教學(xué):傳統(tǒng)視覺(jué)算法+深度學(xué)習(xí)方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設(shè)備集成 無(wú)監(jiān)督學(xué)習(xí):無(wú)需缺陷樣本即可訓(xùn)練高精度檢測(cè)模型 持續(xù)更新:課程內(nèi)容持續(xù)更新,已
    發(fā)表于 12-04 09:28

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    、GPU加速訓(xùn)練(可選) 雙軌教學(xué):傳統(tǒng)視覺(jué)算法+深度學(xué)習(xí)方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設(shè)備集成 無(wú)監(jiān)督學(xué)習(xí):無(wú)需缺陷樣本即可訓(xùn)練高精度檢測(cè)模型 持續(xù)更新:課程內(nèi)容持續(xù)更新,已
    發(fā)表于 12-03 13:50

    如何深度學(xué)習(xí)機(jī)器視覺(jué)的應(yīng)用場(chǎng)景

    深度學(xué)習(xí)視覺(jué)應(yīng)用場(chǎng)景大全 工業(yè)制造領(lǐng)域 復(fù)雜缺陷檢測(cè):處理傳統(tǒng)算法難以描述的非標(biāo)準(zhǔn)化缺陷模式 非標(biāo)產(chǎn)品分類(lèi):對(duì)形狀、顏色、紋理多變的產(chǎn)品進(jìn)行智能分類(lèi) 外觀質(zhì)量評(píng)估:基于
    的頭像 發(fā)表于 11-27 10:19 ?167次閱讀

    自動(dòng)駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?

    下,就是一個(gè)智能體在環(huán)境里行動(dòng),它能觀察到環(huán)境的一些信息,并做出一個(gè)動(dòng)作,然后環(huán)境會(huì)給出一個(gè)反饋(獎(jiǎng)勵(lì)或懲罰),智能體的目標(biāo)是把長(zhǎng)期得到的獎(jiǎng)勵(lì)累積到最大。和監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)沒(méi)有一一對(duì)應(yīng)的“正確答案”給它看,而是靠與環(huán)境交互、自我探索來(lái)發(fā)現(xiàn)
    的頭像 發(fā)表于 10-23 09:00 ?544次閱讀
    自動(dòng)駕駛中常提的“強(qiáng)化<b class='flag-5'>學(xué)習(xí)</b>”是個(gè)啥?

    如何在機(jī)器視覺(jué)中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    圖 1:基于深度學(xué)習(xí)的目標(biāo)檢測(cè)可定位已訓(xùn)練的目標(biāo)類(lèi)別,并通過(guò)矩形框(邊界框)對(duì)其進(jìn)行標(biāo)識(shí)。 在討論人工智能(AI)或深度學(xué)習(xí)時(shí),經(jīng)常會(huì)出現(xiàn)“神經(jīng)網(wǎng)絡(luò)”、“黑箱”、“標(biāo)注”等術(shù)語(yǔ)。這些概
    的頭像 發(fā)表于 09-10 17:38 ?812次閱讀
    如何在機(jī)器視覺(jué)中部署<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    深度學(xué)習(xí)對(duì)工業(yè)物聯(lián)網(wǎng)有哪些幫助

    、實(shí)施路徑三個(gè)維度展開(kāi)分析: 一、深度學(xué)習(xí)如何突破工業(yè)物聯(lián)網(wǎng)的技術(shù)瓶頸? 1. 非結(jié)構(gòu)化數(shù)據(jù)處理:解鎖“沉睡數(shù)據(jù)”價(jià)值 傳統(tǒng)困境 :工業(yè)物聯(lián)網(wǎng)中70%以上的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)(如設(shè)備振動(dòng)波形、紅外圖像、日志文本),傳統(tǒng)方法難以
    的頭像 發(fā)表于 08-20 14:56 ?907次閱讀

    自動(dòng)駕駛中Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來(lái),隨著ChatGPT、Claude、文心一言等大語(yǔ)言模型在生成文本、對(duì)話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4044次閱讀
    自動(dòng)駕駛中Transformer大模型會(huì)取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    任正非說(shuō) AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進(jìn)來(lái)呢?

    的基本理論。了解監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的基本原理。例如,在監(jiān)督學(xué)習(xí)中,理解如何通過(guò)標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型進(jìn)行分類(lèi)或回歸任務(wù),像通過(guò)大量的
    發(fā)表于 07-08 17:44

    使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無(wú)監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)中隱藏的模式和關(guān)系,無(wú)需任何監(jiān)督或關(guān)于結(jié)果的先驗(yàn)知識(shí)。
    的頭像 發(fā)表于 05-16 14:48 ?1330次閱讀
    使用MATLAB進(jìn)行無(wú)<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    嵌入式AI技術(shù)之深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過(guò)程中使用合適的特征變換對(duì)深度學(xué)習(xí)的意義

    ? 作者:蘇勇Andrew 使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器學(xué)習(xí),網(wǎng)絡(luò)的每個(gè)層都將對(duì)輸入的數(shù)據(jù)做一次抽象,多層神經(jīng)網(wǎng)絡(luò)構(gòu)成深度學(xué)習(xí)的框架,可以深度理解數(shù)據(jù)中所要表示的規(guī)律。從原理上看,使用
    的頭像 發(fā)表于 04-02 18:21 ?1417次閱讀

    如何排除深度學(xué)習(xí)工作臺(tái)上量化OpenVINO?的特定層?

    無(wú)法確定如何排除要在深度學(xué)習(xí)工作臺(tái)上量化OpenVINO?特定層
    發(fā)表于 03-06 07:31

    SLAMTEC Aurora:把深度學(xué)習(xí)“卷”進(jìn)機(jī)器人日常

    在人工智能和機(jī)器人技術(shù)飛速發(fā)展的今天,深度學(xué)習(xí)與SLAM(同步定位與地圖構(gòu)建)技術(shù)的結(jié)合,正引領(lǐng)著智能機(jī)器人行業(yè)邁向新的高度。最近科技圈頂流DeepSeek簡(jiǎn)直殺瘋了!靠著逆天的深度學(xué)習(xí)
    的頭像 發(fā)表于 02-19 15:49 ?819次閱讀

    軍事應(yīng)用中深度學(xué)習(xí)的挑戰(zhàn)與機(jī)遇

    人工智能尤其是深度學(xué)習(xí)技術(shù)的最新進(jìn)展,加速了不同應(yīng)用領(lǐng)域的創(chuàng)新與發(fā)展。深度學(xué)習(xí)技術(shù)的發(fā)展深刻影響了軍事發(fā)展趨勢(shì),導(dǎo)致戰(zhàn)爭(zhēng)形式和模式發(fā)生重大變化。本文將概述
    的頭像 發(fā)表于 02-14 11:15 ?913次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)之間存在著密切的關(guān)系,以下是對(duì)它們之間關(guān)系的介紹: 一、BP神經(jīng)網(wǎng)絡(luò)的基本概念 BP神經(jīng)網(wǎng)絡(luò),即反向傳播神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network
    的頭像 發(fā)表于 02-12 15:15 ?1611次閱讀