chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在風格遷移中如何進行數(shù)據(jù)增強

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:丁磊 ? 2021-01-13 09:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這是一篇關于風格遷移中如何進行數(shù)據(jù)增強的論文。在introduction部分,informal-->formal 的風格遷移問題,最大的障礙是訓練數(shù)據(jù)的不足。為了解決此問題,本篇論文提出三種數(shù)據(jù)增強的方法來獲得有用的語句對,分別為

back translation (BT)

我們使用原始語料庫訓練一個seq2seq模型。其中將formal語句作為模型的輸入,讓seq2seq模型有能力輸出對應的informal句子。則 模型輸入的formal語句和輸出的informal語句就構成了一個新的語句對。

formality discrimination (F-Dis)

F-Dis方法使用機器翻譯模型,將一個informal句子重寫為formal句子。首先使用Google翻譯API 將這些informal語句翻譯成 其他語種(比如法語),然后又翻譯回英語。如下圖所示:

831f1182-549c-11eb-8b86-12bb97331649.jpg

其中,informal語句可以從網(wǎng)上論壇上收集得到。

表示收集到的第i條句子(informal), 是最后翻譯回的句子(formal), 二者構成了一個新的語句對。

本方法同時使用CNN構建了一個“格式判別器”:用來給一個句子的“正規(guī)”程度 打分。就是上圖中右邊括號內的小數(shù)。最終選出的新數(shù)據(jù)集要求如下:

837b0564-549c-11eb-8b86-12bb97331649.png

其中表示句子的“正規(guī)”程度, 是閾值

multi-task transfer (M-Task)

我們觀察到,formal語句通常語法正確,而informal語句的語法經(jīng)常出錯。

前人研究表明,對FST的輸出再使用一個語法錯誤糾正模型( grammatical error correction model,GEC)可以提高模型效果。受此啟發(fā),本論文直接使用GEC的訓練數(shù)據(jù)作為增強的新數(shù)據(jù)集。如下圖

83e7497c-549c-11eb-8b86-12bb97331649.png

模型訓練

上面提到的seq2seq模型為Transformer (base)。

本論文首先使用增強的新數(shù)據(jù)用于 預訓練,然后使用原始語料數(shù)據(jù)做微調,將這稱為pre-training & finetuning (PT&FT)方法。下面結果證明了PT&FT的效果優(yōu)于ST方法。ST是把增強數(shù)據(jù)和原數(shù)據(jù)一起訓練。

843ca7b4-549c-11eb-8b86-12bb97331649.jpg

下圖展現(xiàn)了三種數(shù)據(jù)增強方法的效果:

84b0048e-549c-11eb-8b86-12bb97331649.jpg

下圖展現(xiàn)了我們的方法與前人模型的比較結果:

84cef614-549c-11eb-8b86-12bb97331649.jpg

責任編輯:xj

原文標題:【ACL2020】關于正式風格遷移的數(shù)據(jù)增強方法

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7314

    瀏覽量

    93919
  • 機器學習
    +關注

    關注

    66

    文章

    8541

    瀏覽量

    136207
  • 自然語言處理

    關注

    1

    文章

    629

    瀏覽量

    14558

原文標題:【ACL2020】關于正式風格遷移的數(shù)據(jù)增強方法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    無質量損失的數(shù)據(jù)遷移:Nikon SLM Solutions信賴3Dfindit企業(yè)版

    制造和航空航天,其中整個渦輪機部件都可以通過3D打印實現(xiàn)。 使用3Dfindit企業(yè)版進行數(shù)據(jù)遷移引入新的PLM和CAD軟件時,Nikon SLM Solutions曾面臨著數(shù)據(jù)
    發(fā)表于 11-25 10:06

    溫度循環(huán)測試后如何進行數(shù)據(jù)記錄和分析?

    溫度循環(huán)測試后的數(shù)據(jù)記錄和分析是驗證電能質量在線監(jiān)測裝置精度穩(wěn)定性、功能完整性、硬件可靠性的核心環(huán)節(jié),需圍繞 “數(shù)據(jù)溯源可查、分析邏輯閉環(huán)、結論依據(jù)充分” 展開,結合測試標準(IEC
    的頭像 發(fā)表于 09-26 14:22 ?314次閱讀

    使用Cypress FX2 EZ USB進行數(shù)據(jù)采集應用,為什么采集到的數(shù)據(jù)不是連續(xù)的?

    我正在使用Cypress FX2 EZ USB進行數(shù)據(jù)采集應用。 我已經(jīng)將其配置為 512 字節(jié),BULK-IN 和 EP6 端點,AUTO IN。我 labview 開發(fā)了一個應用程序,用于
    發(fā)表于 05-28 07:38

    KaihongOS應用開發(fā),如何利用Socket進行數(shù)據(jù)傳輸

    Socket KaihongOS應用開發(fā),可以利用Socket進行數(shù)據(jù)傳輸?shù)哪芰?,支持TCPSocket、UDPSocket、WebSocket和TLSSocket。詳細的API接口文檔請
    發(fā)表于 05-08 07:25

    數(shù)據(jù)臺接入富士PLC進行數(shù)據(jù)采集并遠程維護

    要實現(xiàn)數(shù)據(jù)臺接入富士PLC進行數(shù)據(jù)采集并遠程維護,可以參考以下方案: 硬件連接 通過富士PLC支持的通信接口(如以太網(wǎng)口、串口等),使用相應的通信線纜將PLC與數(shù)據(jù)
    的頭像 發(fā)表于 04-24 14:24 ?437次閱讀

    請問STM32WBA65如何進行matter的學習?

    STM32WBA65如何進行matter的學習?相關的支持都有哪些?有一個X-CUBE-MATTER,可是這個沒有集成STM32CubeMX
    發(fā)表于 04-24 07:22

    AD7768與STM32F407進行數(shù)據(jù)通信,SPI1讀取到的數(shù)據(jù)不完整,整體數(shù)據(jù)字節(jié)上出現(xiàn)偏移,怎么解決?

    進行數(shù)據(jù)通信,我們采用所有數(shù)據(jù)都在DOUT0上輸出的模式。 然后使用DRDY信息來進行數(shù)據(jù)中斷觸發(fā)。 但是目前存在問題:SPI1讀取到的數(shù)據(jù)不完整,整體
    發(fā)表于 04-24 06:40

    請問ldc1000與主機進行數(shù)據(jù)傳輸?shù)倪^程數(shù)據(jù)傳輸速率設置為多大合適?

    你好,請問ldc1000與主機進行數(shù)據(jù)傳輸?shù)倪^程數(shù)據(jù)傳輸速率設置為多大合適(我的差不多1M),但數(shù)據(jù)一直不對····
    發(fā)表于 01-17 06:37

    HarmonyOS Next 應用元服務開發(fā)-應用接續(xù)動態(tài)配置遷移按需遷移頁面

    。 如果應用使用navigation路由,可以設置不進行頁面棧遷移,并將需要接續(xù)的頁面(或頁面棧)信息保存在want傳遞,然后目標端手動加載指定頁面。應用在源端的頁面棧
    發(fā)表于 12-26 15:23

    HarmonyOS Next 應用元服務開發(fā)-分布式數(shù)據(jù)對象遷移數(shù)據(jù)文件資產(chǎn)遷移

    數(shù)據(jù)對象組網(wǎng)進行數(shù)據(jù)恢復。 創(chuàng)建空的分布式數(shù)據(jù)對象,用于接收恢復的數(shù)據(jù); 從want讀取分布式數(shù)據(jù)
    發(fā)表于 12-24 10:11

    HarmonyOS Next 應用元服務開發(fā)-分布式數(shù)據(jù)對象遷移數(shù)據(jù)權限與基礎數(shù)據(jù)

    向用戶申請授權。 二、基礎數(shù)據(jù)遷移 使用分布式數(shù)據(jù)對象,與上述開發(fā)步驟類似,需要在源端onContinue()接口中進行數(shù)據(jù)保存,并在對端的onCreate()/onNewWant()
    發(fā)表于 12-24 09:40

    使用CAN總線進行數(shù)據(jù)采集的方法

    是汽車內部各個模塊之間進行通信的一種協(xié)議,通過它可以獲取到車輛的各種狀態(tài)信息、傳感器數(shù)據(jù)等。因此,進行數(shù)據(jù)采集之前,需要熟悉CAN總線的工作原理、通信協(xié)議以及
    的頭像 發(fā)表于 12-20 18:18 ?3426次閱讀

    zeta的定義和應用 如何使用zeta進行數(shù)據(jù)分析

    Zeta(ζ)電位是描述懸浮粒子液體中移動時所產(chǎn)生的電位差的一個物理量,以下是對其定義、應用以及如何進行數(shù)據(jù)分析的詳細解釋: Zeta電位的定義 Zeta電位是通過理論推導和實驗測量得到的,它反映
    的頭像 發(fā)表于 12-19 18:10 ?6633次閱讀

    如何使用ddc進行數(shù)據(jù)分類

    探討如何使用DDC(Dewey Decimal Classification,即杜威十進制分類法)進行數(shù)據(jù)分類時,我們首先需要明確DDC是一種用于圖書館分類和組織圖書的體系,它按照一定的體系將各種
    的頭像 發(fā)表于 12-18 15:05 ?1747次閱讀

    如何使用cmp進行數(shù)據(jù)庫管理的技巧

    使用 cmp 命令時進行有效的數(shù)據(jù)庫管理。 1. 理解 cmp 命令 cmp 命令用于比較兩個文件是否在內容上完全相同。它逐字節(jié)比較文件,并在找到第一個不同的地方時停止。這對于檢查數(shù)據(jù)
    的頭像 發(fā)表于 12-17 09:31 ?949次閱讀