chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器翻譯中細粒度領(lǐng)域自適應(yīng)的數(shù)據(jù)集和基準實驗

深度學習自然語言處理 ? 來源:南大NLP ? 作者:南大NLP ? 2022-04-26 10:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01

研究動機

近年來,神經(jīng)機器翻譯(Neural Machine Translation, NMT)研究取得了重大的進展。從大規(guī)模平行數(shù)據(jù)中學習具有大規(guī)模參數(shù)的通用神經(jīng)機器翻譯模型已經(jīng)比較成熟。當需要處理特定場景中的翻譯任務(wù)時,人們廣泛采用領(lǐng)域自適應(yīng)技術(shù)將一個通用領(lǐng)域的神經(jīng)機器翻譯模型遷移到目標領(lǐng)域。

然而現(xiàn)有領(lǐng)域自適應(yīng)研究考慮的領(lǐng)域仍比較粗糙,例如法律、醫(yī)療、科技、字幕等領(lǐng)域。事實上,在這些領(lǐng)域下還存在著非常多的細粒度領(lǐng)域。例如,科技領(lǐng)域下還包含著自動駕駛(Autonomous Vehicles, AV)、AI教育(AI Education, AIE)、實時網(wǎng)絡(luò)通信(Real-Time Networks, RTN)、智能手機(Smart Phone, SP)等等細粒度領(lǐng)域。即使這些領(lǐng)域都屬于科技領(lǐng)域,但是在這些領(lǐng)域中卻存在著不同的翻譯現(xiàn)象。在詞級別,以中文“卡”字為例,它在不同的細粒度科技領(lǐng)域中其實對應(yīng)著不同的英文翻譯(表格1)。在句子級別,在科技領(lǐng)域(FGraDA)和通用領(lǐng)域(CWMT)的分布存在著較大的差異的同時(圖1的左圖),科技領(lǐng)域內(nèi)部的細粒度領(lǐng)域的分布仍然存在著一定的差異(圖1的右圖)。

表格1中文“卡”在幾個科技細粒度領(lǐng)域?qū)?yīng)的翻譯

c742f592-c497-11ec-bce3-dac502259ad0.png

c758ef32-c497-11ec-bce3-dac502259ad0.png

圖1數(shù)據(jù)分布差異可視化分析

細粒度領(lǐng)域自適應(yīng)問題是一個重要的實際應(yīng)用問題。當研發(fā)人員需要為某個特定主題提供翻譯服務(wù)(比如為某個主題的會議提供翻譯)時,往往需要在特定的細粒度領(lǐng)域上取得更好的翻譯性能。在這些場景中,細粒度領(lǐng)域的專業(yè)性、研發(fā)部署的預(yù)算要求使得人們難以獲取大規(guī)模的細粒度領(lǐng)域平行數(shù)據(jù),這進一步加大了建模細粒度領(lǐng)域的難度。當細粒度領(lǐng)域建模不準確時,NMT模型很容易出現(xiàn)翻譯錯誤,包括專有名詞錯誤、一詞多義錯誤、漏譯錯誤等(表格2)。為了精確建模細粒度領(lǐng)域、解決細粒度領(lǐng)域自適應(yīng)問題,需要思考如何從多樣的非平行數(shù)據(jù)中挖掘有效的目標領(lǐng)域信息。

表格2三種典型翻譯錯誤及樣例

c777b372-c497-11ec-bce3-dac502259ad0.png

02

貢獻

本文構(gòu)建了一份細粒度領(lǐng)域自適應(yīng)的中英機器翻譯數(shù)據(jù)集(FGraDA)。該數(shù)據(jù)集并不是為特定領(lǐng)域的翻譯提供數(shù)據(jù)支持,而是展示了一個包含多個細粒度領(lǐng)域的實際場景,制作了評估領(lǐng)域翻譯效果的驗證集和測試集數(shù)據(jù),并提供了實際應(yīng)用中可能面臨的多種類型的數(shù)據(jù)資源。希望該數(shù)據(jù)集可以支持在細粒度領(lǐng)域自適應(yīng)方向的研究。

在FGraDA數(shù)據(jù)集上,我們比較了現(xiàn)有的部分自適應(yīng)方法,可以作為后續(xù)研究工作的實驗基準;也分析了現(xiàn)有方法在進行細粒度領(lǐng)域自適應(yīng)時存在的一些缺陷,希望能為后續(xù)研究工作提供參考。

03

數(shù)據(jù)集構(gòu)建

為了模擬真實場景,我們以四個有代表性的會議(CCF-GAIR, GIIS, RTC, Apple-Events)為基礎(chǔ)構(gòu)建FGraDA數(shù)據(jù)集。這四個會議對應(yīng)的領(lǐng)域分別是:自動駕駛、AI教育、實時網(wǎng)絡(luò)通信、智能手機,這些領(lǐng)域都屬于科技領(lǐng)域下的細分領(lǐng)域。我們?yōu)槊總€領(lǐng)域配備了詞典資源、wiki資源、驗證集、測試集(數(shù)據(jù)規(guī)模如表格3所示)。詞典資源和wiki資源作為獲取成本較低的非平行資源,包含著豐富的領(lǐng)域信息,用于細粒度領(lǐng)域建模及自適應(yīng)。驗證集和測試集則用于評估自適應(yīng)效果。下面將具體介紹這些資源的構(gòu)建過程。

表格3FGraDA數(shù)據(jù)集各領(lǐng)域數(shù)據(jù)規(guī)模報告

c793b900-c497-11ec-bce3-dac502259ad0.png

詞典相比于平行句對是一種獲取成本更低的資源。與此同時,詞典資源可以提供領(lǐng)域詞語的翻譯信息,這對于處理細粒度領(lǐng)域翻譯任務(wù)是非常有幫助的。因此,我們?yōu)槊總€領(lǐng)域人工標注了一定規(guī)模的雙語詞典資源。表格4中展示了一些我們標注的詞典條目示例。標注完成后,我們請語言專家確認了詞典的準確性和可靠性。

表格4詞典條目示例

c7ac6f0e-c497-11ec-bce3-dac502259ad0.png

Wiki資源是機器翻譯研究中的一種重要的可利用資源。鑒于領(lǐng)域詞典中包含大量的領(lǐng)域詞語,我們利用這些英文領(lǐng)域詞語抽取細粒度領(lǐng)域相關(guān)的wiki頁面。具體來說,我們首先抽取標題中包含領(lǐng)域詞語的wiki頁面作為種子頁面(seed page)。這些種子頁面中的內(nèi)容是與細粒度領(lǐng)域高度相關(guān)的,并且這些頁面中的部分內(nèi)容還會鏈接到其他相關(guān)頁面(如圖2所示)。因此我們利用這種天然存在的鏈接關(guān)系,收集種子頁面所鏈接到的一跳頁面(one-hop-link page),進一步擴充wiki資源。最終,抽取出的種子頁面和一跳頁面共同構(gòu)成了細粒度領(lǐng)域相關(guān)的wiki資源(數(shù)據(jù)規(guī)模如表格5所示)。該資源不僅包含了大量的單語文本,還包含了諸如鏈接關(guān)系的結(jié)構(gòu)知識,具有非常大的利用價值。

c7cad2fa-c497-11ec-bce3-dac502259ad0.png

圖2Wiki資源示例

表格5Wiki資源數(shù)據(jù)規(guī)模報告

c7e6b6fa-c497-11ec-bce3-dac502259ad0.png

最后,為了評估細粒度領(lǐng)域自適應(yīng)效果,我們?yōu)楦鱾€細粒度領(lǐng)域標注了平行數(shù)據(jù)作為驗證集和測試集。我們從上面提到的四個會議上收集了70個小時的錄音,然后使用內(nèi)部工具將其轉(zhuǎn)錄為文本。隨后我們進行了數(shù)據(jù)清洗和數(shù)據(jù)脫敏,去除了文本語料中領(lǐng)域無關(guān)的句子和涉及隱私的人名、公司名。最終,經(jīng)過語言專家標注,一共在四個領(lǐng)域上得到了4767條中英平行句對。我們把每個領(lǐng)域的平行數(shù)據(jù)分為兩部分:200條作為驗證集,剩下的作為測試集。我們可以看到,僅僅是收集少量平行數(shù)據(jù)用于評估就需要花費大量的人力、物力代價。在這種情況下,期望收集更多的平行數(shù)據(jù)用于自適應(yīng)學習是不現(xiàn)實的,因此本數(shù)據(jù)集也沒有提供這種資源。

04

基線結(jié)果

我們在FGraDA數(shù)據(jù)集上比較了部分現(xiàn)有自適應(yīng)方法(實驗結(jié)果如表格6所示)。實驗結(jié)果表明現(xiàn)有方法能夠利用數(shù)據(jù)集中提供的資源取得一定的提升,并且綜合使用詞典資源和wiki資源取得的提升最多。但是,這些方法在部分領(lǐng)域上的翻譯性能仍然較弱。為了進一步對自適應(yīng)效果進行分析,我們統(tǒng)計了表現(xiàn)最好的基線方法在測試集上的句子級別BLEU的分布情況(如圖3所示)。分布情況顯示自適應(yīng)模型在大部分句子上的翻譯狀況還不理想(BLEU分數(shù)低于20),這也表明細粒度領(lǐng)域的翻譯效果仍然有待提升。

表格6基線方法在細粒度領(lǐng)域上的翻譯性能(BLEU)

c802598c-c497-11ec-bce3-dac502259ad0.png

c81aa992-c497-11ec-bce3-dac502259ad0.png

圖3句子級別BLEU分布情況

05

有待解決的挑戰(zhàn)

在詞典資源方面,我們發(fā)現(xiàn)現(xiàn)有的領(lǐng)域自適應(yīng)方法還無法充分利用這些詞語翻譯知識。我們在測試集上統(tǒng)計了領(lǐng)域詞典條目的翻譯準確率(實驗結(jié)果如表格7所示)。實驗結(jié)果表明,即使采用詞約束解碼算法Grid Beam Search(GBS),自適應(yīng)模型也無法100%正確翻譯出領(lǐng)域詞典中的領(lǐng)域詞語。為了進一步分析在細粒度領(lǐng)域自適應(yīng)中使用詞典資源的挑戰(zhàn),我們嘗試了調(diào)節(jié)GBS算法中的權(quán)重超參數(shù)(實驗結(jié)果如圖4所示)。實驗結(jié)果表明盡管我們可以調(diào)節(jié)GBS算法中的權(quán)重超參數(shù)強制模型翻譯出更多領(lǐng)域詞語,但是翻譯結(jié)果的BLEU分數(shù)會大幅下降。這說明,簡單地通過詞約束解碼的方式并不能翻譯好領(lǐng)域詞語,如何更好地利用領(lǐng)域詞典仍然有待探索。

表格7領(lǐng)域詞典條目翻譯準確率(%)

c839ce08-c497-11ec-bce3-dac502259ad0.png

c854adb8-c497-11ec-bce3-dac502259ad0.png

圖4不同權(quán)重下詞典詞語翻譯準確率和BLEU分數(shù)的變化情況

在wiki資源方面,現(xiàn)有的領(lǐng)域自適應(yīng)方法主要將wiki頁面中包含的文本作為單語數(shù)據(jù)使用,忽視了wiki頁面中包含的各種結(jié)構(gòu)化知識。這些知識對于理解領(lǐng)域詞語語義可能會起到非常重要的作用。我們在這里列舉出兩種重要的結(jié)構(gòu)化知識:(1)wiki頁面正文的第一句話通常是標題的定義。以圖2中的頁面標題“HDR”為例,正文的第一句話“High dynamic range (HDR) is a dynamic range higher than usual”,這是“HDR”的定義,可以幫助理解HDR的含義。(2)當前wiki頁面中鏈接到其他wiki頁面的詞語往往和當前wiki頁面的標題是高度相關(guān)的。同樣以圖2中的頁面標題“HDR”為例,該頁面中包含的“dynamic range”,“display devices”,“photography”等詞語都是和“HDR”高度相關(guān)的,也可以幫助理解“HDR”的含義。

在領(lǐng)域?qū)蛹壏矫?,現(xiàn)有的領(lǐng)域自適應(yīng)方法只考慮使用目標領(lǐng)域?qū)?yīng)的領(lǐng)域資源進行領(lǐng)域自適應(yīng),忽略了利用相近細粒度領(lǐng)域中的資源。為了量化細粒度領(lǐng)域之間的近似關(guān)系,我們評估了適應(yīng)到各個領(lǐng)域的模型在另外三個領(lǐng)域的翻譯性能(實驗結(jié)果如表格8所示)。從翻譯性能的差異可以看出細粒度領(lǐng)域之間有的差距較大,有的差距較小。如何利用相近細粒度領(lǐng)域中的資源輔助當前目標細粒度領(lǐng)域建模,以及如何利用粗細粒度領(lǐng)域間的層級關(guān)系仍然是值得探究的問題。

表格8遷移到不同細粒度領(lǐng)域上的模型翻譯性能對比(BLEU)

c87009a0-c497-11ec-bce3-dac502259ad0.png

06

總結(jié)

本文從實際問題出發(fā),構(gòu)建了細粒度領(lǐng)域自適應(yīng)機器翻譯數(shù)據(jù)集FGraDA。我們在FGraDA 數(shù)據(jù)集對比了現(xiàn)有的部分領(lǐng)域自適應(yīng)方法,發(fā)現(xiàn)細粒度領(lǐng)域的翻譯效果仍然有待提升。進一步的分析顯示FGraDA數(shù)據(jù)集中提供的多樣非平行資源中仍然存在著非常多有待挖掘的、對自適應(yīng)有益的信息。如何從各種不同資源中挖掘、利用這些信息建模細粒度領(lǐng)域,實現(xiàn)細粒度領(lǐng)域自適應(yīng)是一個有待研究的重要課題。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    15526
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26184

原文標題:LREC'22 | 機器翻譯中細粒度領(lǐng)域自適應(yīng)的數(shù)據(jù)集和基準實驗

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    時間基準的核心力量:低相噪銣原子振蕩時鐘的多領(lǐng)域應(yīng)用解析

    噪銣原子振蕩器以其穩(wěn)定可靠的性能,為工業(yè)控制領(lǐng)域注入強勁動力。 在電力系統(tǒng),電網(wǎng)的調(diào)度、繼電保護、電能計量等環(huán)節(jié)需要高度的時間同步。準確的時間基準能夠確保故障檢測的及時性、保護動作的協(xié)調(diào)性和計量
    發(fā)表于 01-16 10:20

    自適應(yīng)濾波算法介紹之匹配濾波器的基本原理和應(yīng)用示例

    自適應(yīng)濾波理論在統(tǒng)計信號處理占據(jù)非常重要的地位,在通信、控制、雷達等領(lǐng)域獲得廣泛應(yīng)用。自適應(yīng)濾波器的基本目標,是通過某種方式對參數(shù)θ(k)進行調(diào)整,使濾波器輸出盡可能使得包含參考信號
    的頭像 發(fā)表于 01-07 14:52 ?1738次閱讀
    <b class='flag-5'>自適應(yīng)</b>濾波算法介紹之匹配濾波器的基本原理和應(yīng)用示例

    高壓放大器驅(qū)動:基于FPGA的SPGD自適應(yīng)光學控制平臺的探索

    實驗名稱: 基于FPGA的SPGD自適應(yīng)光學控制平臺整體設(shè)計 測試目的: 在分析優(yōu)化式自適應(yīng)光學系統(tǒng)平臺的基礎(chǔ)上,結(jié)合SPGD算法原理以及項目實際需求,對SPGD自適應(yīng)光學控制平臺進行
    的頭像 發(fā)表于 10-11 17:48 ?850次閱讀
    高壓放大器驅(qū)動:基于FPGA的SPGD<b class='flag-5'>自適應(yīng)</b>光學控制平臺的探索

    電磁干擾自適應(yīng)抑制系統(tǒng)平臺全面解析

    電磁干擾自適應(yīng)抑制系統(tǒng)平臺全面解析
    的頭像 發(fā)表于 09-17 16:12 ?659次閱讀
    電磁干擾<b class='flag-5'>自適應(yīng)</b>抑制系統(tǒng)平臺全面解析

    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計

    DeepSeek-V3 / R1 等模型采用大規(guī)模細粒度混合專家模型 (MoE) 架構(gòu),大幅提升了開源模型的質(zhì)量。Llama 4 和 Qwen3 等新發(fā)布的開源模型的設(shè)計原則也采用了類似的大規(guī)模細粒度 MoE 架構(gòu)。但大規(guī)模 MoE 模型為推理系統(tǒng)帶來了新的挑戰(zhàn),如高顯存
    的頭像 發(fā)表于 09-06 15:21 ?1216次閱讀
    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計

    傳音斬獲WMT 2025國際機器翻譯大賽四項冠軍

    近日,在由國際計算語言學協(xié)會(ACL)主辦的WMT 2025國際機器翻譯大賽,傳音在低資源印度語言翻譯任務(wù)(Low-Resource Indic Language Translation)
    的頭像 發(fā)表于 08-06 18:21 ?1223次閱讀

    Commvault Cloud平臺如何應(yīng)對勒索軟件攻擊

    在之前的文章,我們探討了可能影響AD小規(guī)模中斷的因素,例如意外刪除對象等,以及為何快速、細粒度的恢復(fù)至關(guān)重要。
    的頭像 發(fā)表于 07-29 15:07 ?775次閱讀

    基于FPGA LMS算法的自適應(yīng)濾波器設(shè)計

    自適應(yīng)濾波是近幾十年發(fā)展起來的信號處理理論的的新分支。隨著人們在該領(lǐng)域研究的不斷深入,自適應(yīng)處理的理論和技術(shù)日趨完善,其應(yīng)用領(lǐng)域也越來越廣泛。自適應(yīng)
    的頭像 發(fā)表于 07-10 11:25 ?3442次閱讀
    基于FPGA LMS算法的<b class='flag-5'>自適應(yīng)</b>濾波器設(shè)計

    無刷直流電機自適應(yīng)模糊直接轉(zhuǎn)矩控制研究

    針對無刷直流電機( BLDCM)轉(zhuǎn)矩脈動較大和傳統(tǒng) P1速度環(huán)調(diào)節(jié)能力差的問題,提出了自適應(yīng)模糊直接轉(zhuǎn)矩控制的策略。集成了轉(zhuǎn)矩直接控制和模糊控制自適應(yīng)強的優(yōu)點,可以有效抑制轉(zhuǎn)矩脈動和加快轉(zhuǎn)矩響應(yīng)速度
    發(fā)表于 07-09 14:20

    CYW43907使用AP功能時是否具有自適應(yīng)功能?

    我們想在我們的產(chǎn)品中使用這種芯片來獲得 CE 注冊證書,CE 需要自適應(yīng)功能,但是我們在數(shù)據(jù)表和源包找不到任何消息。functions 要執(zhí)行如下: 啟動時自動掃描并選擇干擾較小的頻道,遇到干擾
    發(fā)表于 07-09 08:21

    無模型自適應(yīng)控制在永磁同步電機轉(zhuǎn)速的仿真研究

    的可行性和有效性。 純分享帖,點擊下方附件免費獲取完整資料~~~ *附件:無模型自適應(yīng)控制在永磁同步電機轉(zhuǎn)速的仿真研究.pdf 【免責聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時間告知,刪除內(nèi)容,謝謝!
    發(fā)表于 06-25 13:01

    芯盾時代解決方案守護企業(yè)數(shù)據(jù)安全

    想要消除“過度信任”,零信任是最好的選擇。與基于網(wǎng)絡(luò)位置構(gòu)建信任區(qū)的傳統(tǒng)網(wǎng)絡(luò)安全架構(gòu)相比,零信任默認所有網(wǎng)絡(luò)流量不可信,需要基于認證和授權(quán)重構(gòu)訪問控制的信任基礎(chǔ),從網(wǎng)絡(luò)中心化走向身份中心化,以身份為中心實施細粒度的動態(tài)訪問控制。
    的頭像 發(fā)表于 04-18 15:48 ?942次閱讀

    基于事件相機的統(tǒng)一幀插值與自適應(yīng)去模糊框架(REFID)

    高質(zhì)量的插幀與模糊圖像還原。此外,研究團隊還發(fā)布了高分辨率事件-視頻數(shù)據(jù) HighREV,為事件相機低級視覺任務(wù)提供了新的測試基準。
    的頭像 發(fā)表于 03-14 11:48 ?1613次閱讀
    基于事件相機的統(tǒng)一幀插值與<b class='flag-5'>自適應(yīng)</b>去模糊框架(REFID)

    GLAD應(yīng)用:大氣像差與自適應(yīng)光學

    概述 激光在大氣湍流傳輸時會拾取大氣湍流導(dǎo)致的相位畸變,特別是在長距離傳輸?shù)募す馔ㄐ畔到y(tǒng)。這種畸變會使傳輸激光的波前劣化。通過在系統(tǒng)引入自適應(yīng)光學系統(tǒng),可以對激光傳輸時拾取的低頻
    發(fā)表于 03-10 08:55

    六足仿生機器人地形自適應(yīng)步態(tài)規(guī)劃研究

    本研究針對六足機器人在復(fù)雜地形環(huán)境下的運動適應(yīng)性問題,提出了一種融合多模態(tài)感知與動態(tài)優(yōu)化的地形自適應(yīng)步態(tài)規(guī)劃方法。首先建立基于改進DH參數(shù)的機器人運動學模型,并通過三維點云特征提取構(gòu)建
    的頭像 發(fā)表于 03-07 16:56 ?1824次閱讀