chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何對(duì)typo 進(jìn)行檢測和糾正

深度學(xué)習(xí)自然語言處理 ? 來源:瀾舟科技 ? 作者:瀾舟科技 ? 2022-07-13 14:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

自然語言文本中經(jīng)常會(huì)出現(xiàn)一些拼寫錯(cuò)誤(typo),在中文文本里即所謂的錯(cuò)別字,中文拼寫糾錯(cuò)(Chinese Spelling Correction,CSC)可以對(duì)中文文本中的 typo 進(jìn)行檢測和糾正。拼寫糾錯(cuò)在諸多 NLP 任務(wù)和應(yīng)用中都有重要作用,如 OCR、語音識(shí)別和搜索引擎等。在 NLP 任務(wù)和日常工作生活場景中,中文文本中的 typo 主要是拼音和字形相似導(dǎo)致的,示例如表 1 所示。

c7507018-01c9-11ed-ba43-dac502259ad0.png

表 1

一般 CSC 系統(tǒng)的輸入和輸出序列長度相同,所以現(xiàn)在 CSC 系統(tǒng)主要采用基于 BERT 的非自回歸生成模型,這些模型依據(jù)輸入序列中的所有字符來平行生成每個(gè)位置的字符,而隨著 BERT 等預(yù)訓(xùn)練模型的成功,CSC 模型的性能也有了極大的提升。

雖然 BERT 模型很強(qiáng)大,但其在解決 CSC 任務(wù)時(shí)也會(huì)遇到一些問題。

首先,基于 BERT 的 CSC 模型根據(jù) typo 本身及其上下文對(duì)該處 typo 進(jìn)行檢測和糾正,但當(dāng)一個(gè)句子中有多處拼寫錯(cuò)誤(multi-typo)時(shí),則句子中每個(gè)字符的上下文都至少包含一處 typo,這導(dǎo)致其信息中含有噪聲,從而影響模型的效果。論文統(tǒng)計(jì)了中文拼寫糾錯(cuò)任務(wù) SIGHAN13、14、15 的測試集中的 multi-typo 數(shù)據(jù),如表 2 所示,并且把這些數(shù)據(jù)抽出做成測試集,測試模型對(duì) multi-typo 文本的糾錯(cuò)能力,結(jié)果如表 3 所示(character-level),結(jié)果證實(shí)了上述結(jié)論。

其次,BERT 是掩碼語言模型,其從大規(guī)模語料中學(xué)習(xí)怎樣根據(jù)上下文恢復(fù)被遮掩的 token,但對(duì)于一個(gè)被遮掩的位置可能有多個(gè)有效的字符,這時(shí)候 BERT 模型則會(huì)傾向于恢復(fù)成最常見的那一個(gè),而在 CSC 任務(wù)中,則表現(xiàn)為模型可能會(huì)把一個(gè)有效的表述改成另外一種更常見的表述,比如將“這并非是說……”改成“這并不是說……”。

c76ce52c-01c9-11ed-ba43-dac502259ad0.png

表 2

c79924de-01c9-11ed-ba43-dac502259ad0.png

表 3

針對(duì)上述的兩個(gè)問題,來自騰訊 AI 平臺(tái)部門和北京大學(xué)的研究人員提出了一種名為 CRASpell 的解決方法,讓我們一起來看看吧。

論文標(biāo)題

CRASpell: A Contextual Typo Robust Approach to Improve Chinese Spelling Correction

論文作者

Shulin Liu, Shengkang Song, Tianchi Yue, Tao Yang, Huihui Cai, Tinghao Yu, Shengli Sun

作者單位

Tencent AI Platform Department, China

Peking University, China

論文鏈接

https://aclanthology.org/2022.findings-acl.237/

項(xiàng)目代碼

https://github.com/liushulinle/CRASpell

CRASpell 介紹

該論文將 multi-typo 降低模型性能的問題稱作 Contextual Typo Disturbance,將模型對(duì)文本不必要的糾正稱為 Overcorrection,并針對(duì)這兩個(gè)問題提出了 CRASpell 模型,其結(jié)構(gòu)如圖 1 所示:

c7cf88a8-01c9-11ed-ba43-dac502259ad0.png

圖 1

由圖 1 我們可以看到,CRASpell 主要分為兩部分,左邊為 Correction Module,右邊為 Noise Modeling Module。

1. Correction Module

Correction Module 中,Transformer Encoder 加 Generative Block 就是一個(gè)基本的 CSC 模型,Generative Block 計(jì)算并輸出一個(gè) generative distribution,其過程可以描述為:

(1)

論文中使用 copy mechanism [1-2] 來解決 Overcorrection 的問題,其對(duì)于輸入序列中的每一個(gè) token,都有一個(gè) one-shot 向量的 copy distribution,其形式可以描述為:

(2)

Copy Block 則是用來輸出一個(gè) copy probability,計(jì)算過程如下:

(3)

然后以 copy probability 為權(quán)重,將 copy distribution 和 generative distribution 相加作為最后輸出,這樣相當(dāng)于給輸入的 token 額外加上了一個(gè)偏重,讓模型更加傾向于保留原來的 token:

(4)

2. Noise Modeling Module

針對(duì) Contextual Typo Disturbance 問題,CRASpell 提出了 Noise Modeling Module,其思想是訓(xùn)練模型在原始上下文和有噪聲的上下文中輸出相似的概率分布。

Noise Modeling Module 的結(jié)構(gòu)也是 Transformer Encoder 加 Generative Block,不同的是其前面還有一個(gè) Noisy Block,其通過替換的方式在 typo 的上下文中插入噪聲,而噪聲上下文的質(zhì)量又受到兩個(gè)因素的影響:

a. 插入噪聲的位置

作者根據(jù)表 3 的實(shí)驗(yàn)結(jié)果,決定在 typo 周圍 個(gè)字符內(nèi)選擇, 時(shí)如圖 2 所示,如果句子中沒有錯(cuò)誤或者選擇的位置正好是一處 typo,則不插入噪聲。

c7ff6dde-01c9-11ed-ba43-dac502259ad0.png

圖 2

b. 應(yīng)該替換成什么字符

論文中使用公開的混淆集(confusion set)[3],將選擇位置上的字符替換成其相似字符,這也是 CSC 任務(wù)中制作偽數(shù)據(jù)的常用方法,不同類型字符的替換比例為:70%近音字、15%近形字以及 15%隨機(jī)選擇的字符。

原始輸入經(jīng)過 Noisy Block 插入噪聲后得到新的輸入,經(jīng)過 Noise Modeling Module 后的輸出為 , 最后將其與 Correction Module 中的 generative distribution 共同計(jì)算 KL 散度損失:

(5)

在 Correction Module 中,給定訓(xùn)練樣本 (X, Y),對(duì)于式 (4) 中的 ,其每個(gè)位置的 token 的 loss 為:

(6)

結(jié)合式 (5) 和式 (6),得到整個(gè)模型訓(xùn)練的損失函數(shù)為:

(7)

(8)

這里我們可以看到,Noise Modeling Module 只在訓(xùn)練時(shí)被用到,而插入噪聲的位置沒有計(jì)算在 loss 內(nèi),這樣做是為了不改變訓(xùn)練過程中數(shù)據(jù)里 typo 的數(shù)量,讓插入的噪聲只起到改變上下文信息的作用。

實(shí)驗(yàn)設(shè)置和結(jié)果

數(shù)據(jù)集方面,論文中的訓(xùn)練集包括 10K 人工標(biāo)注的 SIGHAN 數(shù)據(jù) [3-5],加上 271K 的自動(dòng)生成的數(shù)據(jù) [6],測試集使用的是 SIGHAN15 的測試集,另外作者還抽取了 SIGHAN15 測試集中所有的 multi-typo 數(shù)據(jù)以及相同數(shù)量的 negative(不含 typo)數(shù)據(jù),組成了 multi-typo 測試集,如表 4 所示。指標(biāo)采用了 character-level 的 precision、recall 和 F1 分?jǐn)?shù),即預(yù)測對(duì)一個(gè) typo 標(biāo)簽算一個(gè)正確的預(yù)測結(jié)果,這樣更能體現(xiàn)論文提出的方法對(duì) multi-typo 的提升效果。

c81e0848-01c9-11ed-ba43-dac502259ad0.png

表 4

基線模型:

SoftMask:提出 soft-masking 策略提升 BERT 的錯(cuò)誤檢測性能;

SpellGCN:將 GCN 與 BERT 結(jié)合對(duì)字符間的關(guān)系進(jìn)行建模;

Tail2Tail:基于 BERT 的模型,但把解碼器換成了 CRF;

cBERT:論文作者發(fā)表于 2021 年的工作,用 CSC 數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的 BERT,論文提出的 CRASpell 模型也用 cBERT 進(jìn)行初始化;

PLOME:與 cBERT 相同,但另外融合了從拼音和筆畫獲取的發(fā)音和字形特征;

cBERTCopy:將 copy mechanism 應(yīng)用在 cBERT 上;

cBERTNoise:將 Noise Modeling Module 應(yīng)用在 cBERT 上;

cBERTRdrop:基于 cBERT 實(shí)現(xiàn)的 Rdrop 方法 [7]。

1. Main Results

c843c0c4-01c9-11ed-ba43-dac502259ad0.png

表 5

我們可以從表 5 中看到,Noise Modeling Module 和 copy mechanism 都能提升模型性能,使用了 Noise Modeling Module 的 cBERTNoise 和 CRASpell 在 multi-typo 測試集上均取得了優(yōu)于其他方法的結(jié)果(Correction-level 的 Precision 高于 Detection-level,是因?yàn)槠浞帜甘窃?ground-truth 范圍內(nèi)的預(yù)測標(biāo)簽的數(shù)量,而不是所有預(yù)測標(biāo)簽的數(shù)量),而另外還使用了 copy mechanism 的 CRASpell 則在兩個(gè)測試集都取得了最好結(jié)果。作者也從 SIGHAN14 的測試集中篩選出了一個(gè) multi-typo 測試集,結(jié)果如表 6 所示。

c8829eac-01c9-11ed-ba43-dac502259ad0.png

表6

2. Effects of Different Replaced Positions

論文中對(duì)比了 Noisy Block 在輸入句子中選擇插入噪聲位置的兩種方式:

在整個(gè)句子中隨機(jī)選擇

在 typo 附近選擇結(jié)果如表 7 所示,作者還在測試集的數(shù)據(jù)中插入噪聲,測試噪聲與 typo 的距離對(duì)結(jié)果的影響,結(jié)果如圖 3 所示,兩組實(shí)驗(yàn)的結(jié)果都表明距離 typo 較近的噪聲對(duì)模型的性能影響較大。

c8ad8f2c-01c9-11ed-ba43-dac502259ad0.png

表 7

c8cc35a8-01c9-11ed-ba43-dac502259ad0.png

圖 3

3. Effects of Different Replaced Characters & the Copy Block

表 8 展示了插入噪聲的兩種方法:隨機(jī)從詞典中選取和從 confusion set 中選取的結(jié)果,可以看出 confusion set 的效果更好,因?yàn)閺?confusion set 中選取的近音、近形字更接近實(shí)際場景下的 typo。Copy Block 被用來減少 BERT 模型對(duì)有效字符的修改,從表 9 可以看出其對(duì) BERT 模型性能的提升,cBERT 因?yàn)樵?CSC 數(shù)據(jù)上預(yù)訓(xùn)練過,所以 Copy Block 對(duì)其提升幅度較小。

c90c9c92-01c9-11ed-ba43-dac502259ad0.png

表 8

c92efb20-01c9-11ed-ba43-dac502259ad0.png

表 9

4. Comparison of Different Methods for Multi-typo Texts

作者為了展示 Noise Modeling Module 對(duì)模型的提升,另外實(shí)現(xiàn)了兩種基于 cBERT 的方法:

MultiRound:用 cBERT 對(duì)輸入進(jìn)行多輪預(yù)測,直至不再修改;

NoiseTrain:用 Noise Block 生成的數(shù)據(jù)訓(xùn)練 cBERT,插入噪聲的位置也參與 loss 計(jì)算。結(jié)果如表 10 所示,可以看出 NoiseTrain 提升效果最差,作者猜測是因?yàn)椴迦氲脑肼暿褂?xùn)練數(shù)據(jù)中 typo 數(shù)量增加,且質(zhì)量偏低,從而導(dǎo)致模型在 single-typo 和 zero-typo 的數(shù)據(jù)上的效果變差,而 Noise Modeling Module 中插入的噪聲只作為上下文,不參與 loss 計(jì)算,作者認(rèn)為這是導(dǎo)致結(jié)果差別巨大的關(guān)鍵所在。

c9534aac-01c9-11ed-ba43-dac502259ad0.png

表 10

總結(jié)

針對(duì)之前 CSC 模型的兩個(gè)限制:Contextual Typo Disturbance 和 Overcorrection,這篇論文提出了一種新的拼寫糾錯(cuò)模型。針對(duì)第一個(gè)問題,論文提出了 Noise Modeling Module,在訓(xùn)練過程中生成含噪聲的上下文,該方法有效地提升了模型在 multi-typo 文本上的糾錯(cuò)效果。針對(duì) Overcorrection 問題,論文將 Copy Block 與 CSC 模型結(jié)合,訓(xùn)練模型在原字符有效的情況下盡量不進(jìn)行修改。最終,該方法也是在 SIGHAN15 任務(wù)上取得了新的 SOTA。

原文標(biāo)題:文本糾錯(cuò) | 怎樣改善模型對(duì) multi-typo 的糾正效果?

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7292

    瀏覽量

    93392
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3611

    瀏覽量

    51431
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13840

原文標(biāo)題:文本糾錯(cuò) | 怎樣改善模型對(duì) multi-typo 的糾正效果?

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    普蘭店來看看你的產(chǎn)品是否適用單軸測徑儀進(jìn)行檢測?

    是否符合公差要求(平臺(tái)型號(hào)測量精度在±0.01mm)。 管材制造:無縫鋼管、精密合金管的外徑測量,避免因軋制參數(shù)偏差導(dǎo)致管徑超差,對(duì)大口徑管材的檢測更有為其研制的大直徑測徑儀,可對(duì)外徑為幾米的直徑進(jìn)行檢測
    發(fā)表于 08-22 15:25

    K230在同時(shí)使用H265編碼與yolo進(jìn)行檢測時(shí)出現(xiàn)錯(cuò)誤怎么解決?

    1、單獨(dú)使用H265編碼時(shí)或者yolo檢測沒有問題 2.一旦將二者結(jié)合,因?yàn)镠265編碼時(shí)YUV格式,所以我另外開了一個(gè)RGB平面格式來運(yùn)行yolo推理 3.報(bào)錯(cuò)信息顯示:兩者的空間會(huì)沖突然后導(dǎo)致
    發(fā)表于 07-11 08:15

    基于RK3576開發(fā)板的車輛檢測算法

    車輛檢測是一種基于深度學(xué)習(xí)的對(duì)人進(jìn)行檢測定位的目標(biāo)檢測,能廣泛的用于園區(qū)管理、交通分析等多種場景,是違停識(shí)別、堵車識(shí)別、車流統(tǒng)計(jì)等多種算法的基石算法。
    的頭像 發(fā)表于 05-08 17:34 ?1182次閱讀
    基于RK3576開發(fā)板的車輛<b class='flag-5'>檢測</b>算法

    基于RV1126開發(fā)板的車輛檢測算法開發(fā)

    車輛檢測是一種基于深度學(xué)習(xí)的對(duì)人進(jìn)行檢測定位的目標(biāo)檢測,能廣泛的用于園區(qū)管理、交通分析等多種場景,是違停識(shí)別、堵車識(shí)別、車流統(tǒng)計(jì)等多種算法的基石算法。
    的頭像 發(fā)表于 04-14 16:00 ?499次閱讀
    基于RV1126開發(fā)板的車輛<b class='flag-5'>檢測</b>算法開發(fā)

    基于RV1126開發(fā)板的吸煙檢測算法開發(fā)

    吸煙檢測是一種基于深度學(xué)習(xí)的對(duì)抽煙人群進(jìn)行檢測定位的目標(biāo)檢測,能廣泛的用于安防、生產(chǎn)安全、園區(qū)管理等多種場景。配合攝像頭,實(shí)時(shí)識(shí)別監(jiān)控區(qū)內(nèi)人員行為情況。
    的頭像 發(fā)表于 04-14 15:37 ?492次閱讀
    基于RV1126開發(fā)板的吸煙<b class='flag-5'>檢測</b>算法開發(fā)

    如何在NXP MCU Boot Utility中對(duì)電路板進(jìn)行檢測

    、2-OFF、3-OFF、4-ON(串行下載器編程模式),并且還在 J86 中連接 USB。 并附上(問題的屏幕截圖)文件。 我需要如何在 NXP MCU Boot Utility 中對(duì)電路板進(jìn)行檢測?
    發(fā)表于 03-17 06:33

    回流焊時(shí)光學(xué)檢測方法

    ,是基于光學(xué)原理來對(duì)焊接生產(chǎn)中遇到的常見缺陷進(jìn)行檢測的設(shè)備。它使用攝像頭拍攝PCB上的元件和焊點(diǎn),并將其與預(yù)設(shè)的標(biāo)準(zhǔn)圖像進(jìn)行比對(duì),從而發(fā)現(xiàn)任何差異或缺陷。 二、AOI在回流焊中的應(yīng)用 在回流焊過程中,AOI主要用于檢測SMT元件
    的頭像 發(fā)表于 01-20 09:33 ?1131次閱讀

    漏電開關(guān)使用誤區(qū)及糾正

    :漏電開關(guān)可以代替過載保護(hù) 誤區(qū)解釋: 許多人認(rèn)為漏電開關(guān)可以同時(shí)提供過載保護(hù),但實(shí)際上漏電開關(guān)的主要功能是檢測漏電并切斷電源,而不是保護(hù)電路不受過載損害。 糾正方法: 應(yīng)使用專門的過載保護(hù)裝置,如熔斷器或過載繼
    的頭像 發(fā)表于 12-30 17:18 ?1055次閱讀

    電子電器氣密性檢測儀使用方法:操作中的常見錯(cuò)誤與糾正

    一:未進(jìn)行儀器校準(zhǔn)錯(cuò)誤描述:操作人員忽略了定期對(duì)氣密性檢測進(jìn)行校準(zhǔn),導(dǎo)致儀器測量精度下降。糾正方法:按照儀器說明書,使用標(biāo)準(zhǔn)校準(zhǔn)件對(duì)儀器進(jìn)行
    的頭像 發(fā)表于 11-29 11:20 ?726次閱讀
    電子電器氣密性<b class='flag-5'>檢測</b>儀使用方法:操作中的常見錯(cuò)誤與<b class='flag-5'>糾正</b>

    無損檢測與傳統(tǒng)檢測的區(qū)別

    。 1. 定義與原理 1.1 無損檢測(NDT) 無損檢測是一種在不損害或不改變被檢測對(duì)象的前提下,對(duì)材料或產(chǎn)品的內(nèi)部和表面缺陷進(jìn)行檢測的技術(shù)。無損
    的頭像 發(fā)表于 11-25 11:38 ?2024次閱讀

    無損檢測方法的種類與優(yōu)勢

    無損檢測(Non-Destructive Testing,簡稱NDT)是指在不破壞被檢測對(duì)象的前提下,對(duì)材料或工件進(jìn)行內(nèi)部和表面缺陷、尺寸、形狀、物理性能等進(jìn)行檢查和測試的方法。 1.
    的頭像 發(fā)表于 11-25 11:36 ?2249次閱讀

    如何檢測阻尼器的性能

    檢測阻尼器的性能是確保其在實(shí)際應(yīng)用中可靠性的關(guān)鍵步驟。以下是一些常見的阻尼器性能檢測方法: 一、外觀檢查 目的 :檢查阻尼器的外部是否有損傷、變形、銹蝕等缺陷。 方法 :通過視覺和觸摸進(jìn)行檢查,確保
    的頭像 發(fā)表于 11-14 10:54 ?2127次閱讀

    無線測溫技術(shù)在高爐爐殼溫度檢測中的應(yīng)用

    安科瑞馮東鋮 ?17821170233 摘要: 應(yīng)用方便靈活的無線測溫和熱成像技術(shù)對(duì)高爐爐殼進(jìn)行檢測,利用熱成像進(jìn)行檢測,發(fā)現(xiàn)了溫度異常區(qū)域后對(duì)關(guān)注部位進(jìn)行點(diǎn)的檢測,預(yù)防爐殼的燒穿,對(duì)
    的頭像 發(fā)表于 11-13 14:11 ?812次閱讀
    無線測溫技術(shù)在高爐爐殼溫度<b class='flag-5'>檢測</b>中的應(yīng)用

    基于衍射光柵的渦旋光束軌道角動(dòng)量檢測

    近年來,隨著渦旋光束和空間結(jié)構(gòu)光場的發(fā)展或應(yīng)用,渦旋光束軌道角動(dòng)量(OAM)的檢測成為重要的課題。本文基于空間光調(diào)制器(SLM)的全息衍射光柵方法,通過設(shè)計(jì)強(qiáng)度分布和衍射角可調(diào)的衍射光柵對(duì)單模渦旋光束的OAM進(jìn)行檢測。
    的頭像 發(fā)表于 10-31 14:18 ?1263次閱讀
    基于衍射光柵的渦旋光束軌道角動(dòng)量<b class='flag-5'>檢測</b>

    氣密性檢測設(shè)備的通道數(shù)解析

    通道的氣密性檢測設(shè)備,意味著它可以同時(shí)進(jìn)行檢測4個(gè)不同的工件進(jìn)行氣密性檢測。二、通道數(shù)的重要性1.提高檢測效率多通道設(shè)計(jì)顯著提高了
    的頭像 發(fā)表于 10-28 11:57 ?795次閱讀
    氣密性<b class='flag-5'>檢測</b>設(shè)備的通道數(shù)解析