chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟在EMNLP2020上發(fā)表最新工作

深度學(xué)習(xí)自然語言處理 ? 來源:NLPCAB ? 作者:NLPCAB ? 2020-10-22 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來自:NLPCAB

句子表示在很多任務(wù)中都是重要的一環(huán)。尤其是在大數(shù)據(jù)量的場(chǎng)景下,很多場(chǎng)景都需要召回+排序兩個(gè)步驟,如果第一個(gè)環(huán)節(jié)沒有召回候選結(jié)果,那最后的排序模型再怎么優(yōu)秀也沒法給出正確答案。

今天就給大家介紹一個(gè)微軟在EMNLP2020上發(fā)表的最新工作,利用transformer生成更高質(zhì)量的句子編碼。

雖然BERT式模型的出現(xiàn)解決了很多判別問題,但直接用無監(jiān)督語料訓(xùn)練出的BERT做句子表示并不理想:

如果只取CLS,這個(gè)表示是針對(duì)NSP進(jìn)行優(yōu)化的,表示的信息有限

如果取平均或最大池化,可能會(huì)把無用信息計(jì)算進(jìn)來,增加噪聲

所以作者的改進(jìn)目的是設(shè)計(jì)一個(gè)下游任務(wù),直接優(yōu)化得到的句子embedding。

那怎么設(shè)計(jì)目標(biāo)才能充分利用無監(jiān)督數(shù)據(jù)呢?

作者給出了一個(gè)巧妙的方法,就是用周邊其他句子的表示預(yù)測(cè)當(dāng)前句子的token。

具體的做法是:先利用Transformer抽取句子表示,再對(duì)句子表示進(jìn)行attention,選取相關(guān)的句子預(yù)測(cè)當(dāng)前token。有點(diǎn)Hierarchical Attention的意思。

比如在預(yù)測(cè)上圖中最后一句的黃藍(lán)兩個(gè)token時(shí),明顯第一句的信息就夠用了,那目標(biāo)函數(shù)的設(shè)置會(huì)讓第一句的權(quán)重變大,也會(huì)讓抽取出的句子表示去包含這些信息。

接下來詳細(xì)介紹一下預(yù)訓(xùn)練和精調(diào)的步驟,以及作者加入的其他tricks。

Cross-Thought模型

預(yù)訓(xùn)練

下圖是預(yù)訓(xùn)練的模型結(jié)構(gòu),計(jì)算的步驟是:

將段落按順序拆成獨(dú)立短句,通過12層Transformer(藍(lán)色半透明的矩形)分別進(jìn)行編碼。在實(shí)際的預(yù)訓(xùn)練中,每個(gè)sample包含500個(gè)長(zhǎng)度為64的短句,batch size是128(16張V100)

取出 ... 等special token的輸出(大紅點(diǎn))作為句子表示

把每列句子表示作為一個(gè)序列輸入到cross-sequence transformer(藍(lán)色弧線,每一列的cross-sequence transformer參數(shù)都不同),輸出attention分?jǐn)?shù)加權(quán)后的新表示

將新的句子表示與第一步的token表示進(jìn)行拼接,經(jīng)過一層transformer,預(yù)測(cè)被mask的15%個(gè)token(每個(gè)句子都這么處理,圖中只畫了第一個(gè)句子的)

整體流程理解起來比較簡(jiǎn)單,作者還用了一些額外的tricks提升效果:

為了抽取更多的信息,在句子開頭加入了多個(gè)占位token(之前BERT只有一個(gè)[CLS]),在實(shí)驗(yàn)結(jié)論中發(fā)現(xiàn)5個(gè)占位的表現(xiàn)較好(但占位token的增加會(huì)加大計(jì)算量)

占位token的位置表示是固定的,而真實(shí)token是隨機(jī)從0-564中抽取連續(xù)的64個(gè),這樣可以訓(xùn)練更多的位置表示,方便之后對(duì)更長(zhǎng)的序列進(jìn)行編碼

精調(diào)

精調(diào)主要是考慮和下游任務(wù)的銜接。作者選擇了問答和句子對(duì)分類來驗(yàn)證模型的表現(xiàn)。

對(duì)于問答任務(wù),假設(shè)答案句子的表示都已經(jīng)編碼好了:

輸入問題,經(jīng)過12層Transformer得到問題表示

利用cross-sequence transformers,對(duì)問題表示與答案表示進(jìn)行計(jì)算,得到各個(gè)答案的權(quán)重 (每列都會(huì)得到一個(gè),作者對(duì)所有列取了平均)

根據(jù)gold answer的index m,計(jì)算Ranking loss(代表第0個(gè)答案的權(quán)重)

對(duì)于句子對(duì)分類任務(wù)比較簡(jiǎn)潔,輸入兩個(gè)句子A和B:

分別對(duì)A和B進(jìn)行編碼,取出句子表示,輸入cross-sequence transformers得到融合后的句子表示

將兩個(gè)句子的所有表示拼接起來,得到2Nxd的矩陣(N是占位token的個(gè)數(shù),d是表示的維度)

把第二步得到的表示flatten,得到一個(gè)長(zhǎng)度 2Nd 的一維向量,輸入到分類層

實(shí)驗(yàn)效果

作者在不少數(shù)據(jù)集上都驗(yàn)證了效果,單純從輸出句子表示的效果來看,不僅是句間關(guān)系還是問答的候選召回上都有不小的提升,尤其是召回:

除了指標(biāo)對(duì)比外,作者還展示了兩個(gè)無監(jiān)督預(yù)訓(xùn)練模型的打分結(jié)果:

總結(jié)

近兩年句子表示的研究越來越少了,因?yàn)榫渥颖硎窘?jīng)常用于句間關(guān)系判斷的任務(wù),而交互式的判別顯然比雙塔效果要好。所以研究者們要不在研究更輕量的句間匹配模型(比如RE2、Deformer),要不就是繼續(xù)用BERT類模型做出更好的效果。但對(duì)于業(yè)界來說,句子表示在召回上的速度還是最快的,效果也比單純的字面匹配要好。

為了充分利用無監(jiān)督數(shù)據(jù)、得到更高質(zhì)量的句子表示,Cross-Thought提供了一個(gè)新的預(yù)訓(xùn)練思路:用句子表示預(yù)測(cè)token。同時(shí)也給我們展現(xiàn)出了它在候選召回上的巨大潛力,添加的額外cross-sequence transformer對(duì)速度的影響也不會(huì)太大。另外,作者只使用了wiki語料進(jìn)行預(yù)訓(xùn)練,如果有更多語料相信效果會(huì)更好。

目前源碼還未放出,希望開源社區(qū)的富有大佬們?cè)缛沼?xùn)一個(gè)中文的Cross-Thought~

原文標(biāo)題:【EMNLP2020】超越MLM,微軟打造全新預(yù)訓(xùn)練任務(wù)

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6685

    瀏覽量

    105753
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4381

    瀏覽量

    64865

原文標(biāo)題:【EMNLP2020】超越MLM,微軟打造全新預(yù)訓(xùn)練任務(wù)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    EtherCAT轉(zhuǎn)CANopen網(wǎng)關(guān)與伺服器匯川組態(tài)軟件的配置步驟

    EtherCAT轉(zhuǎn)CANopen網(wǎng)關(guān)與伺服器匯川組態(tài)軟件的配置步驟 匯川組態(tài)軟件工業(yè)自動(dòng)化領(lǐng)域具有廣泛的應(yīng)用,該軟件能夠有效地實(shí)現(xiàn)EtherCAT轉(zhuǎn)CANopen網(wǎng)關(guān)與伺服器的集成配置
    的頭像 發(fā)表于 06-12 10:06 ?300次閱讀
    EtherCAT轉(zhuǎn)CANopen網(wǎng)關(guān)與伺服器<b class='flag-5'>在</b>匯川組態(tài)軟件<b class='flag-5'>上</b>的配置步驟

    微軟科技重磅發(fā)布兩款企業(yè)級(jí)AI應(yīng)用

    和智能體功能,旨在借助AI技術(shù)革新工作效率,助力企業(yè)的智能化轉(zhuǎn)型。新增功能涵蓋了定制化智能體、銷售自動(dòng)化、客戶服務(wù)集成和ERP創(chuàng)新等。
    的頭像 發(fā)表于 05-12 15:32 ?431次閱讀

    晶科能源受邀擔(dān)任B20南非工業(yè)轉(zhuǎn)型與創(chuàng)新工作組聯(lián)席主席

    日前,作為唯一光伏企業(yè),晶科能源受邀擔(dān)任B20南非“工業(yè)轉(zhuǎn)型與創(chuàng)新工作組”的聯(lián)席主席。B20是G20的官方工商論壇,匯集了全球工商界塑造國際經(jīng)濟(jì)政策方面的建言獻(xiàn)策,以推動(dòng)可持續(xù)和包容性增長(zhǎng)。
    的頭像 發(fā)表于 04-21 17:44 ?467次閱讀

    無人機(jī)消防巡檢的新工作日志

    ? ? ? ?無人機(jī)消防巡檢的新工作日志 ? ? ? ?二十層樓高的寫字樓外墻,盤旋著四個(gè)旋翼的銀色飛行器。它沿著建筑輪廓?jiǎng)蛩僖苿?dòng),鏡頭對(duì)準(zhǔn)每扇窗戶仔細(xì)掃描。這并非科幻電影場(chǎng)景,而是現(xiàn)代城市里每天
    的頭像 發(fā)表于 03-10 17:34 ?316次閱讀

    龍芯中科榮獲2024年度信息技術(shù)應(yīng)用創(chuàng)新工作委員會(huì)卓越貢獻(xiàn)成員單位

    近日,中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)信息技術(shù)應(yīng)用創(chuàng)新工作委員會(huì)(以下簡(jiǎn)稱“信創(chuàng)工委會(huì)”)北京召開2024年度工作總結(jié)座談會(huì)暨信創(chuàng)“大比武”總結(jié)大會(huì)。中國工程院院士、信創(chuàng)工委會(huì)專家技術(shù)委員會(huì)副主任委員倪
    的頭像 發(fā)表于 01-23 10:50 ?703次閱讀

    RT-Thread睿賽德出席中國工博會(huì)科技論壇,共話開源硬件與新工業(yè)革命

    行業(yè)領(lǐng)袖和技術(shù)專家,共同探討開源硬件推動(dòng)新工業(yè)革命中的重要作用。RT-Thread睿賽德作為上海開源信息技術(shù)協(xié)會(huì)理事長(zhǎng)單位出席本次論壇,并發(fā)表主題演講。RT-Th
    的頭像 發(fā)表于 01-22 18:53 ?541次閱讀
    RT-Thread睿賽德出席中國工博會(huì)科技論壇,共話開源硬件與<b class='flag-5'>新工</b>業(yè)革命

    芯盛智能榮獲2024年信息技術(shù)應(yīng)用創(chuàng)新工作委員會(huì)卓越貢獻(xiàn)成員單位

    日前,中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)信息技術(shù)應(yīng)用創(chuàng)新工作委員會(huì)(以下簡(jiǎn)稱 “信創(chuàng)工委會(huì)”)2024 年度總結(jié)座談會(huì)于北京隆重舉行。此次會(huì)議對(duì)信創(chuàng)工作中作出突出貢獻(xiàn)的成員單位予以表彰。江蘇芯盛智能
    的頭像 發(fā)表于 01-20 09:56 ?639次閱讀

    微軟尋求365 Copilot中引入非OpenAI模型

    擔(dān)心企業(yè)用戶使用365 Copilot時(shí)面臨的成本和速度問題,因此正在尋求更多樣化的技術(shù)來源。盡管微軟與OpenAI之間有著緊密的合作關(guān)系,并允許微軟定制OpenAI的模型,但微軟
    的頭像 發(fā)表于 12-25 10:41 ?610次閱讀

    微軟美國面臨反壟斷調(diào)查

    近日,美國聯(lián)邦貿(mào)易委員會(huì)(FTC)宣布已正式對(duì)微軟公司啟動(dòng)了一項(xiàng)廣泛的反壟斷調(diào)查。此次調(diào)查旨在深入了解微軟多個(gè)領(lǐng)域的市場(chǎng)行為,以判斷其是否存在濫用市場(chǎng)支配地位的行為。 據(jù)悉,調(diào)查內(nèi)容涵蓋了
    的頭像 發(fā)表于 11-28 10:47 ?701次閱讀

    微軟發(fā)布Azure AI Foundry,推動(dòng)云服務(wù)增長(zhǎng)

    。 Azure AI Foundry為用戶提供了一個(gè)更為便捷的平臺(tái),使得支持人工智能的大型語言模型之間切換變得輕松自如。這一創(chuàng)新工具的發(fā)布,無疑將極大地降低AI應(yīng)用的開發(fā)門檻,進(jìn)一步推動(dòng)AI技術(shù)的普及與應(yīng)用。 11月19日于
    的頭像 發(fā)表于 11-21 11:32 ?882次閱讀

    微軟東京開設(shè)日本首個(gè)研究基地

    近日,微軟東京正式啟用了其日本首個(gè)研究基地——微軟亞洲研究院東京分院。作為微軟全球技術(shù)實(shí)驗(yàn)室網(wǎng)絡(luò)中的最新成員,該基地將專注于人工智能和機(jī)
    的頭像 發(fā)表于 11-19 16:26 ?613次閱讀

    NVIDIA ResearchECCV 2024展示多項(xiàng)創(chuàng)新成果

    米蘭舉行的歐洲計(jì)算機(jī)視覺國際會(huì)議 (ECCV) ,NVIDIA Research 展示了多項(xiàng)突破性的創(chuàng)新成果,共發(fā)表了 14 篇論文。
    的頭像 發(fā)表于 11-19 15:07 ?765次閱讀

    微軟高管談AI將如何改變工作方式

    企業(yè)領(lǐng)導(dǎo)者們渴望了解AI將如何改變工作方式,微軟愿意為他們提供所需的幫助。整個(gè)公司范圍內(nèi),智能 Copilot 副駕駛(國際版)已成為我們提升工作效率、重塑涵蓋客戶服務(wù)至銷售等多個(gè)環(huán)
    的頭像 發(fā)表于 11-15 14:00 ?684次閱讀

    經(jīng)緯恒潤功能安全AI 智能體論文成功入選EMNLP 2024!

    近日,經(jīng)緯恒潤智能體(AIAgent)領(lǐng)域再獲佳績(jī),其論文《Aegis
    的頭像 發(fā)表于 10-18 08:00 ?707次閱讀
    經(jīng)緯恒潤功能安全AI 智能體論文成功入選<b class='flag-5'>EMNLP</b> 2024!

    【P2020無法電】付費(fèi)咨詢

    P2020RDB-PCA NXP加載Linux時(shí)卡死,斷電重啟后無法電。P2020通過TFTP的方式加載Linux鏡像和設(shè)備樹,一般情況下卡死后斷電可正常重啟并加載uboot,但某次斷電后再也
    發(fā)表于 10-16 10:55