chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

哈工大訊飛聯(lián)合實驗室發(fā)布基于全詞覆蓋的中文BERT預訓練模型

WpOh_rgznai100 ? 來源:lq ? 2019-07-18 14:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了進一步促進中文自然語言處理的研究發(fā)展,哈工大訊飛聯(lián)合實驗室發(fā)布基于全詞覆蓋(Whole Word Masking)的中文BERT預訓練模型。我們在多個中文數(shù)據(jù)集上得到了較好的結(jié)果,覆蓋了句子級到篇章級任務(wù)。同時,我們對現(xiàn)有的中文預訓練模型進行了對比,并且給出了若干使用建議。我們歡迎大家下載試用。

下載地址:https://github.com/ymcui/Chinese-BERT-wwm

技術(shù)報告:https://arxiv.org/abs/1906.08101

摘要

基于Transformers的雙向編碼表示(BERT)在多個自然語言處理任務(wù)中取得了廣泛的性能提升。近期,谷歌發(fā)布了基于全詞覆蓋(Whold Word Masking)的BERT預訓練模型,并且在SQuAD數(shù)據(jù)中取得了更好的結(jié)果。應用該技術(shù)后,在預訓練階段,同屬同一個詞的WordPiece會被全部覆蓋掉,而不是孤立的覆蓋其中的某些WordPiece,進一步提升了Masked Language Model (MLM)的難度。在本文中我們將WWM技術(shù)應用在了中文BERT中。我們采用中文維基百科數(shù)據(jù)進行了預訓練。該模型在多個自然語言處理任務(wù)中得到了測試和驗證,囊括了句子級到篇章級任務(wù),包括:情感分類,命名實體識別,句對分類,篇章分類,機器閱讀理解。實驗結(jié)果表明,基于全詞覆蓋的中文BERT能夠帶來進一步性能提升。同時我們對現(xiàn)有的中文預訓練模型BERT,ERNIE和本文的BERT-wwm進行了對比,并給出了若干使用建議。預訓練模型將發(fā)布在:https://github.com/ymcui/Chinese-BERT-wwm

簡介

Whole Word Masking (wwm),暫翻譯為全詞Mask,是谷歌在2019年5月31日發(fā)布的一項BERT的升級版本,主要更改了原預訓練階段的訓練樣本生成策略。簡單來說,原有基于WordPiece的分詞方式會把一個完整的詞切分成若干個詞綴,在生成訓練樣本時,這些被分開的詞綴會隨機被[MASK]替換。在全詞Mask中,如果一個完整的詞的部分WordPiece被[MASK]替換,則同屬該詞的其他部分也會被[MASK]替換,即全詞Mask。

同理,由于谷歌官方發(fā)布的BERT-base(Chinese)中,中文是以字為粒度進行切分,沒有考慮到傳統(tǒng)NLP中的中文分詞(CWS)。我們將全詞Mask的方法應用在了中文中,即對組成同一個詞的漢字全部進行[MASK]。該模型使用了中文維基百科(包括簡體和繁體)進行訓練,并且使用了哈工大語言技術(shù)平臺LTP(http://ltp.ai)作為分詞工具。

下述文本展示了全詞Mask的生成樣例。

基線測試結(jié)果

我們選擇了若干中文自然語言處理數(shù)據(jù)集來測試和驗證預訓練模型的效果。同時,我們也對近期發(fā)布的谷歌BERT,百度ERNIE進行了基準測試。為了進一步測試這些模型的適應性,我們特別加入了篇章級自然語言處理任務(wù),來驗證它們在長文本上的建模效果。

以下是我們選用的基準測試數(shù)據(jù)集。

我們列舉其中部分實驗結(jié)果,完整結(jié)果請查看我們的技術(shù)報告。為了確保結(jié)果的穩(wěn)定性,每組實驗均獨立運行10次,匯報性能最大值和平均值(括號內(nèi)顯示)。

▌中文簡體閱讀理解:CMRC 2018

CMRC 2018是哈工大訊飛聯(lián)合實驗室發(fā)布的中文機器閱讀理解數(shù)據(jù)。根據(jù)給定問題,系統(tǒng)需要從篇章中抽取出片段作為答案,形式與SQuAD相同。

▌中文繁體閱讀理解:DRCD

DRCD數(shù)據(jù)集由中國***臺達研究院發(fā)布,其形式與SQuAD相同,是基于繁體中文的抽取式閱讀理解數(shù)據(jù)集。

▌中文命名實體識別:人民日報,MSRA-NER

中文命名實體識別(NER)任務(wù)中,我們采用了經(jīng)典的人民日報數(shù)據(jù)以及微軟亞洲研究院發(fā)布的NER數(shù)據(jù)。

▌句對分類:LCQMC,BQ Corpus

LCQMC以及BQ Corpus是由哈爾濱工業(yè)大學(深圳)發(fā)布的句對分類數(shù)據(jù)集。

▌篇章級文本分類:THUCNews

由清華大學自然語言處理實驗室發(fā)布的新聞數(shù)據(jù)集,需要將新聞分成10個類別中的一個。

使用建議

基于以上實驗結(jié)果,我們給出以下使用建議(部分),完整內(nèi)容請查看我們的技術(shù)報告。

初始學習率是非常重要的一個參數(shù)(不論是BERT還是其他模型),需要根據(jù)目標任務(wù)進行調(diào)整。

ERNIE的最佳學習率和BERT/BERT-wwm相差較大,所以使用ERNIE時請務(wù)必調(diào)整學習率(基于以上實驗結(jié)果,ERNIE需要的初始學習率較高)。

由于BERT/BERT-wwm使用了維基百科數(shù)據(jù)進行訓練,故它們對正式文本建模較好;而ERNIE使用了額外的百度百科、貼吧、知道等網(wǎng)絡(luò)數(shù)據(jù),它對非正式文本(例如微博等)建模有優(yōu)勢。

在長文本建模任務(wù)上,例如閱讀理解、文檔分類,BERT和BERT-wwm的效果較好。

如果目標任務(wù)的數(shù)據(jù)和預訓練模型的領(lǐng)域相差較大,請在自己的數(shù)據(jù)集上進一步做預訓練。

如果要處理繁體中文數(shù)據(jù),請使用BERT或者BERT-wwm。因為我們發(fā)現(xiàn)ERNIE的詞表中幾乎沒有繁體中文。

聲明

雖然我們極力的爭取得到穩(wěn)定的實驗結(jié)果,但實驗中難免存在多種不穩(wěn)定因素(隨機種子,計算資源,超參),故以上實驗結(jié)果僅供學術(shù)研究參考。由于ERNIE的原始發(fā)布平臺是PaddlePaddle(https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE),我們無法保證在本報告中的效果能反映其真實性能(雖然我們在若干數(shù)據(jù)集中復現(xiàn)了效果)。同時,上述使用建議僅供參考,不能作為任何結(jié)論性依據(jù)。

該項目不是谷歌官方發(fā)布的中文Whole Word Masking預訓練模型。

總結(jié)

我們發(fā)布了基于全詞覆蓋的中文BERT預訓練模型,并在多個自然語言處理數(shù)據(jù)集上對比了BERT、ERNIE以及BERT-wwm的效果。實驗結(jié)果表明,在大多數(shù)情況下,采用了全詞覆蓋的預訓練模型(ERNIE,BERT-wwm)能夠得到更優(yōu)的效果。由于這些模型在不同任務(wù)上的表現(xiàn)不一致,我們也給出了若干使用建議,并且希望能夠進一步促進中文信息處理的研究與發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26187
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14665

原文標題:刷新中文閱讀理解水平,哈工大訊飛聯(lián)合發(fā)布基于全詞覆蓋中文BERT預訓練模型

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    3年10億,攜手攻堅:“AI計算開放架構(gòu)聯(lián)合實驗室”協(xié)同創(chuàng)新計劃正式啟動

    在剛剛結(jié)束的光合組織2025人工智能創(chuàng)新大會(HAIC2025)上,一項項助力中國AI產(chǎn)業(yè)發(fā)展、推動產(chǎn)業(yè)底層協(xié)同等的關(guān)鍵舉措逐一發(fā)布,包括30余家生態(tài)企業(yè)聯(lián)合發(fā)起的“AI計算開放架構(gòu)聯(lián)合實驗室
    發(fā)表于 12-21 16:15 ?1909次閱讀
    3年10億,攜手攻堅:“AI計算開放架構(gòu)<b class='flag-5'>聯(lián)合</b><b class='flag-5'>實驗室</b>”協(xié)同創(chuàng)新計劃正式啟動

    江波龍與華曦達聯(lián)合創(chuàng)新實驗室揭牌,共建AI存儲創(chuàng)新生態(tài)

    切入點,旨在構(gòu)建覆蓋端側(cè)AI設(shè)備與智能家庭場景的技術(shù)驗證體系。實驗室秉承開源協(xié)作理念,致力于解決存儲與AI終端適配中的關(guān)鍵痛點,形成從聯(lián)合調(diào)試、場景驗證到可靠性評估的流程
    的頭像 發(fā)表于 12-05 13:36 ?1396次閱讀
    江波龍與華曦達<b class='flag-5'>聯(lián)合</b>創(chuàng)新<b class='flag-5'>實驗室</b>揭牌,共建AI存儲創(chuàng)新生態(tài)

    北京化工大學與昱櫟技術(shù)聯(lián)合實驗室正式揭牌

    2025年11月14日上午,北京化工大學信息科學與技術(shù)學院與北京昱櫟技術(shù)有限公司(以下簡稱“昱櫟技術(shù)”)共同設(shè)立的“人工智能終端校企聯(lián)合實驗室”在昱櫟技術(shù)正式揭牌。這一重要時刻標志著雙方在產(chǎn)學研協(xié)同
    的頭像 發(fā)表于 11-18 15:50 ?598次閱讀
    北京化<b class='flag-5'>工大</b>學與昱櫟技術(shù)<b class='flag-5'>聯(lián)合</b><b class='flag-5'>實驗室</b>正式揭牌

    科大發(fā)布星火X1.5及系列AI產(chǎn)品

    11月6日,第八屆世界聲博會暨2025科大全球1024開發(fā)者節(jié)發(fā)布會上,科大以《更懂你的AI》為主題
    的頭像 發(fā)表于 11-10 11:49 ?917次閱讀

    強強聯(lián)合:之江實驗室與沐曦股份共建智算集群聯(lián)合實驗室

    2025年10月22日, 之江實驗室與沐曦集成電路(上海)股份有限公司(以下簡稱“沐曦股份”)正式簽署合作協(xié)議,共同組建“智算集群聯(lián)合實驗室”,攜手推進人工智能算力基礎(chǔ)設(shè)施創(chuàng)新發(fā)展 。之江實驗
    的頭像 發(fā)表于 10-23 10:50 ?1357次閱讀

    光峰科技與深圳技術(shù)大學簽署聯(lián)合實驗室合作協(xié)議

    10月16日,光峰科技公告官宣,與深圳技術(shù)大學擬簽署《光峰科技與深圳技術(shù)大學聯(lián)合實驗室合作協(xié)議》,圍繞半導體激光前沿領(lǐng)域進行合作研發(fā),共同建立聯(lián)合實驗室,預計在協(xié)議有效期的6年內(nèi),向
    的頭像 發(fā)表于 10-17 17:32 ?1417次閱讀

    東風汽車與華為聯(lián)合創(chuàng)新實驗室揭牌

    近日,在2025年華為聯(lián)接大會制造與大企業(yè)全球峰會汽車行業(yè)分論壇上,東風汽車與華為聯(lián)合創(chuàng)新實驗室正式揭牌,這是繼2025年5月23日雙方戰(zhàn)略合作協(xié)議簽署后又一重要里程碑,標志著雙方的合作邁上了一個新臺階,雙方將以促進汽車全價值
    的頭像 發(fā)表于 09-23 18:04 ?1036次閱讀

    華為星辰聯(lián)合創(chuàng)新實驗室揭牌成立

    以“躍升行業(yè)智能化”為主題的華為聯(lián)接大會2025在上海舉行。大會期間,華為“星辰·聯(lián)合創(chuàng)新實驗室”在深圳市人才集團有限公司(以下簡稱“深圳人才集團”)正式揭牌成立。
    的頭像 發(fā)表于 09-20 09:48 ?1299次閱讀

    傳音控股與DXOMARK聯(lián)合影像實驗室落成

    近日,傳音控股與國際權(quán)威影像評測機構(gòu)DXOMARK聯(lián)合打造的影像實驗室在傳音重慶研發(fā)中心正式落成啟用,這是行業(yè)首個基于DXOMARK第六版智能手機影像測試基準,打造的全自動化客觀影像測評實驗室。這一
    的頭像 發(fā)表于 09-02 10:51 ?833次閱讀

    高鴻信安出席飛騰基礎(chǔ)軟件聯(lián)合實驗室第四屆年會

    近日,以 “芯軟融合·智啟未來”為主題的飛騰基礎(chǔ)軟件聯(lián)合實驗室(簡稱 “實驗室”)第四屆年會暨技術(shù)交流分享會在南京順利召開。大唐高鴻信安(浙江)信息科技有限公司(簡稱“高鴻信安”)作為實驗室
    的頭像 發(fā)表于 07-16 15:08 ?910次閱讀

    奧迪威攜手華南理工大學共建聯(lián)合創(chuàng)新實驗室,校企深度合作助力產(chǎn)業(yè)升級

    2025年5月21日,廣東奧迪威傳感科技股份有限公司與華南理工大學聯(lián)合設(shè)立的創(chuàng)新實驗室正式揭牌。
    的頭像 發(fā)表于 05-23 08:48 ?1609次閱讀
    奧迪威攜手華南理<b class='flag-5'>工大</b>學共建<b class='flag-5'>聯(lián)合</b>創(chuàng)新<b class='flag-5'>實驗室</b>,校企深度合作助力產(chǎn)業(yè)升級

    實驗室安全管理成焦點,漢威科技賦能實驗室安全升級

    實驗室是國家科技創(chuàng)新體系的重要組成部分,是國家組織高水平基礎(chǔ)研究和應用基礎(chǔ)研究、聚集和培養(yǎng)優(yōu)秀科學家、開展學術(shù)交流的重要基地。近年來,各高校、研究院所、科創(chuàng)園區(qū)、高新產(chǎn)業(yè)園區(qū)相關(guān)企業(yè)的實驗室呈現(xiàn)爆發(fā)
    的頭像 發(fā)表于 04-10 10:41 ?913次閱讀
    <b class='flag-5'>實驗室</b>安全管理成焦點,漢威科技賦能<b class='flag-5'>實驗室</b>安全升級

    中汽信科牽頭成立汽車北斗應用聯(lián)合實驗室

    近日,由中汽信科牽頭組建的“汽車北斗應用聯(lián)合實驗室”(以下簡稱“聯(lián)合實驗室”)正式通過中國產(chǎn)學研合作促進會評審,并獲批授牌。
    的頭像 發(fā)表于 03-27 15:22 ?991次閱讀

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數(shù)據(jù)集

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過分詞化(Tokenize),轉(zhuǎn)換為大語言模型能直接使用的二進制數(shù)據(jù),以便提升訓練效果。 ChatGPT發(fā)布后,當代大
    的頭像 發(fā)表于 03-21 18:24 ?4288次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數(shù)據(jù)集

    &quot;大模型+智能體&quot;雙驅(qū)動!中控技術(shù)×大華股份成立視覺AI聯(lián)合實驗室

    傅利泉、執(zhí)行總裁趙宇寧等雙方領(lǐng)導出席揭牌儀式。傅利泉、褚健為"中控技術(shù)x大華股份視覺AI聯(lián)合實驗室"共同揭牌。此次強強聯(lián)合標志著工業(yè)大模型與視覺智能體的深度融合,雙方將圍繞"大
    的頭像 發(fā)表于 03-10 21:48 ?801次閱讀
    &quot;大<b class='flag-5'>模型</b>+智能體&quot;雙驅(qū)動!中控技術(shù)×大華股份成立視覺AI<b class='flag-5'>聯(lián)合</b><b class='flag-5'>實驗室</b>