chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于標簽數(shù)據(jù)提升語法錯誤糾正效果

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-09-23 15:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語法錯誤糾正 (GEC) 指的是試圖對語法和其他類型的寫作錯誤進行建模,并給出語法和拼寫建議,從而改善文檔、電子郵件、文章甚至非正式聊天中的書面輸出質(zhì)量。在過去 15 年里,GEC 的質(zhì)量有了很大提高,其中很大一部分原因是它將問題重塑為一項“翻譯”任務(wù)。例如,將這種方法引入 Google 文檔后,用戶采納的語法糾正建議數(shù)量顯著增加。

將問題重塑為一項“翻譯”任務(wù)

https://aclanthology.org/P06-1032/

但是,GEC 模型面臨的最大挑戰(zhàn)之一是數(shù)據(jù)稀少。不同于其他語音識別 (Speech recognition) 和機器翻譯 (Machine translation) 等自然語言處理 (NLP) 任務(wù),即便是針對英語這樣的高資源語言,GEC 可用的訓練數(shù)據(jù)非常有限。對于這類問題,一個常見的補救措施是使用一系列技術(shù)來生成合成數(shù)據(jù),其中包括啟發(fā)式隨機詞或字符級的損壞,以及基于模型的方法。然而,這些方法往往是簡化的,不能反映實際用戶錯誤類型的真實分布。

在 EACL 第 16 屆創(chuàng)新使用 NLP 構(gòu)建教育應(yīng)用研討會上發(fā)表的《使用有標簽損壞模型進行語法錯誤糾正的合成數(shù)據(jù)生成》 (Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models) 一文中,我們介紹了有標簽損壞模型。這種方法受到機器翻譯中流行的回譯數(shù)據(jù)合成技術(shù)啟發(fā),能夠精確控制合成數(shù)據(jù)的生成,確保產(chǎn)生與實踐中錯誤分布更加一致的多樣化輸出。我們使用有標簽損壞模型來生成一個新的數(shù)據(jù)集(包含 2 億個句子)。目前這個數(shù)據(jù)集應(yīng)發(fā)布,可供研究人員提供真實的 GEC 預(yù)訓練數(shù)據(jù)。通過將新的數(shù)據(jù)集整合到訓練流水線,我們能夠顯著改善 GEC 的基線。

使用有標簽損壞模型進行語法錯誤糾正的合成數(shù)據(jù)生成

https://aclanthology.org/2021.bea-1.4/

回譯

https://aclanthology.org/P16-1009/

數(shù)據(jù)集(包含 2 億個句子)

https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction

有標簽損壞模型

將傳統(tǒng)的損壞模型應(yīng)用于 GEC,其背后的理念是,從一個語法正確的句子開始,然后通過添加錯誤“損壞”它。通過在現(xiàn)有 GEC 數(shù)據(jù)集中切換源句和目標句,可以輕松地訓練出損壞模型,之前的研究已經(jīng)表明,這種方法對生成改進的 GEC 數(shù)據(jù)集非常有效。

提供干凈的輸入句(綠色)后,傳統(tǒng)損壞模型會生成一個不符合語法的句子(紅色)

之前的研究

https://aclanthology.org/D19-1119.pdf

我們提出的有標簽損壞模型建立在這一理念的基礎(chǔ)之上,它將一個干凈的句子作為輸入,加上一個錯誤類型標簽,描述所要重現(xiàn)的錯誤類型。然后,它為輸入句生成一個包含指定錯誤類型的語法錯誤版本。與傳統(tǒng)的損壞模型相比,為不同句子選擇不同的錯誤類型增加了損壞的多樣性。

有標簽損壞模型會根據(jù)錯誤類型標簽,為干凈的輸入句(綠色)生成損壞(紅色)。限定詞錯誤可能會導致丟失限定詞 “a”,而名詞屈折變化錯誤可能導致錯誤的復(fù)數(shù)形式 “sheeps”

為使用此模型生成數(shù)據(jù),我們首先從 C4 語料庫中隨機選擇了 2 億個干凈的句子,并為每個句子分配了一個錯誤類型標簽,令其相對頻率與小型開發(fā)集 BEA-dev 的錯誤類型標簽分布相匹配。由于 BEA-dev 是一個精心制作的集合,涵蓋各種英語水平,范圍很廣,我們預(yù)計其標簽分布能夠代表現(xiàn)實中出現(xiàn)的寫作錯誤。然后,我們用一個有標簽損壞模型來合成源句。

使用有標簽損壞模型生成合成數(shù)據(jù)。在合成的 GEC 訓練語料庫中,干凈的 C4 句子(綠色)與損壞的句子(紅色)配對。遵循開發(fā)集(條形圖)中錯誤類型的頻率,使用有標簽損壞模型生成損壞的句子

C4 語料庫

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

BEA-dev

https://aclanthology.org/W19-4406.pdf

結(jié)果

在我們的實驗中,有標簽損壞模型在兩個標準開發(fā)集(CoNLL-13 和 BEA-dev)上表現(xiàn)優(yōu)于無標簽損壞模型,比后者高出三個 F0.5-點(GEC 研究中的一個標準指標,結(jié)合了精確率和召回率 (Precision and recall),更注重精確率),并在兩個廣泛使用的學術(shù)測試集(CoNLL-14 和 BEA-test)上體現(xiàn)了最先進的水平。

CoNLL-13

https://aclanthology.org/W13-3601.pdf

標準指標

https://aclanthology.org/P17-1074/

CoNLL-14

https://aclanthology.org/W14-1701.pdf

此外,使用有標簽損壞模型不僅能在標準的 GEC 測試集上獲得收益,還能夠讓 GEC 系統(tǒng)適應(yīng)用戶的語言水平。這一點會十分有用,原因之一是英語母語寫作者的錯誤標簽分布往往與非英語母語寫作者的分布有很大不同。例如,英語母語者通常會犯更多標點符號和拼寫錯誤,而限定詞錯誤(例如缺少或多加冠詞,如 “a”、“an” 或 “the”)在非英語母語寫作者的文本中更為常見。

結(jié)論

眾所周知,神經(jīng)序列模型對數(shù)據(jù)的需求非常大,但用于語法錯誤糾正的注釋訓練數(shù)據(jù)卻很少。新的 C4_200M 語料庫是一個包含各種語法錯誤的合成數(shù)據(jù)集,用于預(yù)訓練 GEC 系統(tǒng)時,它體現(xiàn)出了最先進的性能。通過發(fā)布該數(shù)據(jù)集,我們希望為 GEC 研究人員提供寶貴的資源來訓練強大的基線系統(tǒng)。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7324

    瀏覽量

    94285
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3692

    瀏覽量

    51944
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    FEC前向糾錯技術(shù):讓無線傳輸“自我修復(fù)”的通信衛(wèi)士

    一、什么是前向糾錯(FEC)?前向糾錯(Forward Error Correction,F(xiàn)EC)是一種通過在數(shù)據(jù)傳輸中增加冗余校驗信息,使接收端能夠自行檢測并糾正錯誤的通信技術(shù)。它特別適用于單向
    發(fā)表于 01-09 14:12

    C語言中除數(shù)為0屬于什么錯誤

    0 的錯誤,以及援引數(shù)組元素時下標溢出等。 靜態(tài)錯誤又可以分為語法錯誤和靜態(tài)語義錯誤。語法錯誤指有關(guān)語言結(jié)構(gòu)上的
    發(fā)表于 12-08 06:38

    e203仿真報Syntax error: \"&\"unexpected錯誤的原因

    “NO” 再試一下: ls -l /bin/sh 改成bash 再跑測試程序: 成功! 原因分析:dash和bash應(yīng)該是shell腳本語言的兩種解釋方式,Ubuntu默認采用dash,導致語法錯誤。
    發(fā)表于 11-05 13:39

    語法糾錯和testbench的自動生成

    ,每次跑仿真都需要修改語法錯誤;另外在寫完一個模塊之后,每次跑仿真前都需要搭建testbench,模塊的實例化,這顯然是很麻煩的,查閱資料發(fā)現(xiàn)vscode有插件可以解決上述問題,故來分享給大家
    發(fā)表于 10-27 07:07

    如何解決將e203的rtl導入vivado后報語法錯誤的問題

    主要內(nèi)容是介紹一下如何解決將e203的rtl導入vivado后,報語法錯誤的問題。 二、分享內(nèi)容 如圖所示,導入源碼后跑仿真,會報語法錯誤。 這是因為這些文件里面有用system verilog
    發(fā)表于 10-24 09:49

    使用ming64和vs2019編譯v5.0.2和master的bsp/simulator報錯怎么解決?

    :repositoryrt-threadrt-threadcomponentsdriversrtcrtc.c(372,1): error C2143: 語法錯誤: 缺少“)”(在“,”的前面) 1>D
    發(fā)表于 09-29 08:13

    程序編譯運行正常但是顯示語法錯誤,為什么?

    樣例程序:can_sample.c rtconfig.h里啟用了#define RT_CAN_USING_HDR 代碼從圖中這里開始大段標識語法錯誤: 跳轉(zhuǎn)到宏
    發(fā)表于 09-25 06:27

    AI技術(shù)在工程設(shè)計的應(yīng)用

    在不需要硬件交互的純軟件項目中,ChatGPT和Gemini等大語言模型(LLM)可以幫助程序員以前所未有的速度加速開發(fā)進程。這種輔助通常包括在開發(fā)人員編寫代碼時提供補全建議,或在排查錯誤語法錯誤時提供故障排除建議——這些都是耗時的編程環(huán)節(jié)。
    的頭像 發(fā)表于 09-23 16:21 ?735次閱讀
    AI技術(shù)在工程設(shè)計的應(yīng)用

    NFC讀寫器助力標簽質(zhì)量檢測,提升應(yīng)用優(yōu)勢!

    NFC讀寫器在智能標簽質(zhì)量檢測中展現(xiàn)出顯著優(yōu)勢:采用非接觸式檢測,避免標簽損傷且提升效率;能全面驗證標簽功能與性能,確??煽啃裕恢С肿詣踊繖z測,大幅提高生產(chǎn)效率;易于集成開發(fā),成本
    的頭像 發(fā)表于 09-17 10:22 ?540次閱讀
    NFC讀寫器助力<b class='flag-5'>標簽</b>質(zhì)量檢測,<b class='flag-5'>提升</b>應(yīng)用優(yōu)勢!

    pkgs下載報python語法錯誤怎么解決?

    發(fā)表于 09-12 07:51

    小紅書:通過商品標簽API自動生成內(nèi)容標簽,優(yōu)化社區(qū)推薦算法

    ? ?小紅書作為領(lǐng)先的社交電商平臺,用戶生成內(nèi)容(UGC)是其核心驅(qū)動力。隨著商品數(shù)量和用戶互動激增,傳統(tǒng)推薦算法面臨效率瓶頸。本文探討小紅書如何利用商品標簽API自動生成內(nèi)容標簽,顯著提升社區(qū)
    的頭像 發(fā)表于 09-10 16:46 ?839次閱讀
    小紅書:通過商品<b class='flag-5'>標簽</b>API自動生成內(nèi)容<b class='flag-5'>標簽</b>,優(yōu)化社區(qū)推薦算法

    如何評估通信協(xié)議優(yōu)化對數(shù)據(jù)傳輸效率的提升效果?

    評估通信協(xié)議優(yōu)化對數(shù)據(jù)傳輸效率的提升效果,核心邏輯是 “控制變量 + 多維度量化對比”—— 即通過定義明確的評估目標、構(gòu)建一致的測試環(huán)境、選取關(guān)鍵效率指標,對比優(yōu)化前后的協(xié)議表現(xiàn),最終驗證優(yōu)化是否達到預(yù)期(如降低延遲、
    的頭像 發(fā)表于 08-29 17:52 ?959次閱讀

    RFID扎帶標簽的應(yīng)用管理

    :減少了人工操作的錯誤率,提高了數(shù)據(jù)的準確性和可靠性。安全性:RFID標簽可以加密,防止數(shù)據(jù)被非法讀取或篡改,保障物流信息安全。二、RFID扎帶標簽
    的頭像 發(fā)表于 08-29 16:44 ?702次閱讀
    RFID扎帶<b class='flag-5'>標簽</b>的應(yīng)用管理

    使用s32ds軟件時,無法生成是怎么回事?

    使用s32ds軟件時,無法生成,并顯示以下錯誤消息。 請幫忙。 生成器:錯誤錯誤:LinStackCfg.npf 行:5 “bus_clock” - 語法錯誤
    發(fā)表于 04-04 08:04

    云里物里ESL電子標簽如何推動工業(yè)倉儲智能化升級

    ESL電子標簽可聯(lián)動貨架警示燈,通過LED燈閃爍指引人員快速定位操作區(qū)域,電子墨水屏實時更新貨物信息。貨物的出入庫操作完成后,工作人員通過PDA掃描條碼或標簽按鍵,可快速同步更新后臺數(shù)據(jù),減少人工錄入
    的頭像 發(fā)表于 03-17 15:22 ?900次閱讀