chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP:用Cluster-to-Cluster生成更多樣化的新數(shù)據(jù)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2021-02-14 09:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文名稱:C2C-GenDA: Cluster-to-Cluster Generation for Data Augmentation of Slot Filling 論文作者:侯宇泰、陳三元、車萬翔、陳成、劉挺 原創(chuàng)作者:侯宇泰 論文鏈接:https://arxiv.org/abs/2012.07004 出處:哈工大SCIR

1. 簡介

1.1 研究背景

對話語言理解(Spoken Language Understanding,SLU)[1]經(jīng)常面臨領(lǐng)域和需求的頻繁切換,這常常會導(dǎo)致訓(xùn)練數(shù)據(jù)在數(shù)量和質(zhì)量上的不足。

數(shù)據(jù)增強(qiáng)(Data Augmentation)是一種自動生成新數(shù)據(jù)擴(kuò)充訓(xùn)練集的技術(shù),能夠有效地緩解上述數(shù)據(jù)不足的帶來的挑戰(zhàn) [2,3]。

1.2 研究動機(jī)

如圖1(上)所示,現(xiàn)有數(shù)據(jù)增強(qiáng),如基于Seq2Seq 的句子復(fù)述(re-phrasing)方法 [4,5,6],經(jīng)常無法避免地生成沒有意義的重復(fù)數(shù)據(jù)。這很大程度要?dú)w咎于現(xiàn)有的one-by-one數(shù)據(jù)生成模式。

相較之下,如圖1(下)所示,one-by-one數(shù)據(jù)生成弊病可以天然地通過多到多(cluster-to-cluster)生成方式得到緩解。

0b2a19a6-549c-11eb-8b86-12bb97331649.png

圖1 示例:從已有句子生成新表述,現(xiàn)有one-by-one復(fù)述方法無法避免生成重復(fù)數(shù)據(jù)

1.3 我們的貢獻(xiàn)

我們提出了一種全新的Cluster-to-Cluster生成范式來生成新數(shù)據(jù),并基于此提出了一個全新的數(shù)據(jù)增強(qiáng)框架,稱為C2C-GenDA。C2C-GenDA通過將現(xiàn)有句子重構(gòu)為表達(dá)方式不同但語義相同的新句子,來擴(kuò)大訓(xùn)練集。與過往的Data Augmentation(DA)方法逐句(One-by-one)構(gòu)造新句子的做法不同,C2C-GenDA采用一種多到多(Cluster-to-Cluster)的全新的新語料生成方式。

具體的,C2C-GenDA聯(lián)合地編碼具有相同語義的多個現(xiàn)有句子,并同時(shí)解碼出多個未見表達(dá)方式的新句子。

這樣種的生成方式會直接帶來如下好處:

(1)同時(shí)生成多個新話語可以讓模型建模生成的新句子之間的關(guān)系,減少新句子間內(nèi)部重復(fù)。

(2)聯(lián)合地對多個現(xiàn)有句子進(jìn)行編碼讓模型可以更廣泛地看到已有的現(xiàn)有表達(dá)式,從而減少無意義的對已有數(shù)據(jù)的重復(fù)。

1.4實(shí)驗(yàn)效果

當(dāng)只有數(shù)百句訓(xùn)練語料時(shí),C2C-GenDA數(shù)據(jù)增強(qiáng)方法在了兩個公開的槽位提?。╯lot filling)數(shù)據(jù)集上分別帶來了 7.99 (11.9%↑) and 5.76 (13.6%↑) F-scores 的提升。

2. 方法

2.1 Cluster2Cluster 生成模型

給定具有相同語義框架(semantic frame)的一組多個句子,即input cluster, 模型一次性生成多個新句子,即output cluster。這些輸出與輸入的語義框架相同,但是具有不同的表達(dá)方式。

0b6b5420-549c-11eb-8b86-12bb97331649.png

圖2 Cluster2Cluster 生成模型

如圖2所示,Cluster2Cluster模型采用基于Transformer的Encoder和Decoder。具體的,我們用特殊分割Token拼接input cluster中的句子,作為模型輸入。在解碼時(shí),模型用多個共享參數(shù)的decoder同步解碼多個新句子。

我們采用了前人添加Rank Token作為解碼起步的方法[5]來讓模型區(qū)分不同的輸出句子。

同時(shí),為了進(jìn)一步提升句子的多樣性,我們提出Duplication-aware Attention和Diverse-Oriented Regularization來進(jìn)一步強(qiáng)化模型,如圖2所示:

(1)Duplication-aware Attention(DAA):通過Attention為模型提供兩方面的信息,即Input Cluster中已有的表達(dá)方式,和其他正在解碼的句子中的表達(dá)方法。根據(jù)這些信息,我們采用一種類似Coverage Attention的方式對重復(fù)的表達(dá)生成進(jìn)行懲罰。

(2)Diverse-Oriented Regularization(DOR):我們提出DOR來從Loss層面引導(dǎo)模型生成多樣的句子。具體的,我們用不同句子,解碼詞分布之間的KL-散度作為loss,來約束模型避免在不同的句子中的相同step解碼出相同的詞。

2.2 Cluster2Cluster 模型訓(xùn)練

僅有多到多的生成模型顯然不足以生成新的數(shù)據(jù)。為了讓Cluster2Cluster模型具有生成新表述的能力,我們提出了Dispersed Cluster Pairing算法來構(gòu)造多到多的復(fù)寫(Paraphrase)訓(xùn)練數(shù)據(jù)。

具體的,如圖3 和圖4所示,給定具有相同語義的一組數(shù)據(jù),我們首先找到一組表述相近的句子作為Input Cluster,然后貪心地構(gòu)造Output Cluster:每次添加一句和Input Cluster以及現(xiàn)有Output Cluster表述差異最大的句子到 Output Cluster。

這樣的作法旨在模擬從少量說法有限的句子生成多樣的未見表述的過程。

0bb0e382-549c-11eb-8b86-12bb97331649.png

圖3構(gòu)造多到多的Paraphrase訓(xùn)練數(shù)據(jù)

0c082ad4-549c-11eb-8b86-12bb97331649.png

圖4多到多的Paraphrase訓(xùn)練數(shù)據(jù)構(gòu)造算法

2.3 數(shù)據(jù)增強(qiáng)實(shí)現(xiàn)

我們將原有的訓(xùn)練數(shù)據(jù)分為兩份,一份訓(xùn)練C2C-GenDA模型,一份用來做數(shù)據(jù)增強(qiáng)的輸入。

最后我們用所有新生成的句子和原有的句子作為增強(qiáng)后的訓(xùn)練集。

3. 實(shí)驗(yàn):

3.1 主實(shí)驗(yàn)結(jié)果

如表1所示,我們的方法能夠大幅地提升Slot Filling模型效果(Baseline),并優(yōu)于現(xiàn)有的數(shù)據(jù)增強(qiáng)方法。

表1 主實(shí)驗(yàn)結(jié)果

0c34358e-549c-11eb-8b86-12bb97331649.png

3.2 分析實(shí)驗(yàn)

如表2所示,在消融實(shí)驗(yàn)中,我們提出的各個模塊都對最終的實(shí)驗(yàn)效果起到了作用。

表2 消融實(shí)驗(yàn)

0c630a12-549c-11eb-8b86-12bb97331649.png

表3展示不同生成模型的生成數(shù)據(jù)和Inter和Intra多樣性,結(jié)果顯示采用Cluster2Cluster的生成方法可以讓新數(shù)據(jù)的多樣性產(chǎn)生巨大的提升。

表3 多樣性分析實(shí)驗(yàn)

0c8ff928-549c-11eb-8b86-12bb97331649.png

表4展示了由Cluster2Cluster模型生成的一些樣例,可以看到Cluster2Cluster模型可以從多個角度生成一些有趣的新表述方式。

表4 樣例分析

0ccd8b1c-549c-11eb-8b86-12bb97331649.png

4.參考文獻(xiàn)

[1] Young, S.; Gasiˇ c, M.; Thomson, B.; and Williams, J. D. ′ 2013. Pomdp-based statistical spoken dialog systems: A review. Proc. of the IEEE 101(5): 1160–1179.

[2] Kim, H.-Y.; Roh, Y.-H.; and Kim, Y.-G. 2019. Data Augmentation by Data Noising for Open-vocabulary Slots in Spoken Language Understanding. In Proc. of NAACL, 97– 102.

[3] Shin, Y.; Yoo, K. M.; and Lee, S.-G. 2019. Utterance Generation With Variational Auto-Encoder for Slot Filling in Spoken Language Understanding. IEEE Signal Processing Letters 26(3): 505–509.

[4] Yoo, K. M. 2020. Deep Generative Data Augmentation for Natural Language Processing. Ph.D. thesis, Seoul National University

[5] Hou, Y.; Liu, Y.; Che, W.; and Liu, T. 2018. Sequence-to-Sequence Data Augmentation for Dialogue Language Understanding. In Proc. of COLING, 1234–1245.

[6] Kurata, G.; Xiang, B.; and Zhou, B. 2016. Labeled Data Generation with Encoder-Decoder LSTM for Semantic Slot Filling. In Proc. of INTERSPEECH, 725–729.

責(zé)任編輯:xj

原文標(biāo)題:【SCIR AAAI2021】數(shù)據(jù)增強(qiáng)沒效果?試試用Cluster-to-Cluster生成更多樣化的新數(shù)據(jù)吧

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7314

    瀏覽量

    93919
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13913
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23182

原文標(biāo)題:【SCIR AAAI2021】數(shù)據(jù)增強(qiáng)沒效果?試試用Cluster-to-Cluster生成更多樣化的新數(shù)據(jù)吧

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA發(fā)布Isaac GR00T-Dreams合成數(shù)據(jù)生成與神經(jīng)仿真框架

    機(jī)器人需要借助大規(guī)模、高物理精度且多樣化數(shù)據(jù)集進(jìn)行訓(xùn)練,才能在復(fù)雜環(huán)境中進(jìn)行推理并完成多種任務(wù),而目前這些數(shù)據(jù)難以公開獲取。
    的頭像 發(fā)表于 11-03 15:12 ?556次閱讀

    Redis Sentinel和Cluster模式如何選擇

    在我十年的運(yùn)維生涯中,見過太多團(tuán)隊(duì)在Redis集群方案選擇上踩坑。有的團(tuán)隊(duì)盲目追求"高大上"的Cluster模式,結(jié)果運(yùn)維復(fù)雜度爆表;有的團(tuán)隊(duì)死守Sentinel不放,最后擴(kuò)展性成了瓶頸。今天,我想通過這篇萬字長文,把我在生產(chǎn)環(huán)境中積累的經(jīng)驗(yàn)全部分享給你。
    的頭像 發(fā)表于 09-08 09:31 ?354次閱讀

    NVIDIA助力湯元科技突破智能駕駛數(shù)據(jù)獲取與生成瓶頸

    蘇州湯元科技有限公司(以下簡稱“湯元科技”)是一家專注于三維重建與世界模型的科技公司,為自動駕駛與具身智能提供高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)。通過將自研的世界模型技術(shù)與 NVIDIA Cosmos 結(jié)合,實(shí)現(xiàn)真實(shí)物理世界的三維重建、場景泛
    的頭像 發(fā)表于 09-06 15:16 ?1238次閱讀

    iTOF技術(shù),多樣化的3D視覺應(yīng)用

    and 應(yīng)用場景, 飛行時(shí)間 (TOF) 傳感器三大三大三維傳感技術(shù)中,在不同領(lǐng)域的功能和商業(yè)場景的實(shí)現(xiàn)越來越多。它們用于各種專業(yè)應(yīng)用,為最終用戶提供高效、安全的環(huán)境并節(jié)省勞動力和時(shí)間。新唐科技的iToF
    發(fā)表于 09-05 07:24

    接口多樣化:M-ITX國產(chǎn)主板的豐富連接性能

    在數(shù)字化時(shí)代,設(shè)備間的互聯(lián)互通愈發(fā)重要。對于主板而言,豐富且實(shí)用的接口不僅是連接外部設(shè)備的橋梁,更是決定其能否廣泛應(yīng)用于各種復(fù)雜場景的關(guān)鍵因素。高能計(jì)算機(jī)的國產(chǎn)飛騰主板GM-M201F-D作為一款標(biāo)準(zhǔn)M-ITX 主板,在接口設(shè)計(jì)上獨(dú)具匠心,為用戶帶來了多樣化的連接選擇。
    的頭像 發(fā)表于 08-14 09:22 ?560次閱讀
    接口<b class='flag-5'>多樣化</b>:M-ITX國產(chǎn)主板的豐富連接性能

    T2G Cluster 4M Lite 上的 (S26HL512T) 中的數(shù)據(jù)在重置后會被覆蓋,如何確保持久性?

    我們正在使用TRAVEO? T2G Cluster 4M LITE開發(fā)板。 我們的目的是利用映射到 SMIF0 的HYPERFLASH? (S26HL512T) 來存儲特定數(shù)據(jù)。 我們使用了圖形
    發(fā)表于 07-22 06:56

    華興變壓器:SG-10kVA三相隔離變壓器,定制服務(wù)滿足高海拔地區(qū)多樣化需求

    高海拔地區(qū)地理環(huán)境復(fù)雜,不同用戶的電力需求也存在差異。華興變壓器深入了解高海拔地區(qū)用戶的實(shí)際需求,推出了SG-10kVA三相隔離變壓器,并提供靈活的定制服務(wù),滿足用戶的多樣化需求,贏得了廣泛的市場
    的頭像 發(fā)表于 07-09 16:06 ?421次閱讀
    華興變壓器:SG-10kVA三相隔離變壓器,定制<b class='flag-5'>化</b>服務(wù)滿足高海拔地區(qū)<b class='flag-5'>多樣化</b>需求

    介紹三種常見的MySQL高可用方案

    在生產(chǎn)環(huán)境中,為了確保數(shù)據(jù)庫系統(tǒng)的連續(xù)可用性、降低故障恢復(fù)時(shí)間以及實(shí)現(xiàn)業(yè)務(wù)的無縫切換,高可用(High Availability, HA)方案至關(guān)重要。本文將詳細(xì)介紹三種常見的 MySQL 高可用
    的頭像 發(fā)表于 05-28 17:16 ?984次閱讀

    適配多種系統(tǒng),米爾瑞芯微RK3576核心板解鎖多樣化應(yīng)用

    米爾電子發(fā)布的基于瑞芯微 RK3576 核心板和開發(fā)板,具備高性能數(shù)據(jù)處理能力、領(lǐng)先的AI智能分析功能、多樣化的顯示與操作體驗(yàn)以及強(qiáng)大的擴(kuò)展性與兼容性,適用于多種應(yīng)用場景。目前米爾電子為
    發(fā)表于 05-23 16:07

    米爾RK3576核心板適配多種系統(tǒng),解鎖多樣化應(yīng)用

    米爾電子發(fā)布的基于瑞芯微RK3576核心板和開發(fā)板,具備高性能數(shù)據(jù)處理能力、領(lǐng)先的AI智能分析功能、多樣化的顯示與操作體驗(yàn)以及強(qiáng)大的擴(kuò)展性與兼容性,適用于多種應(yīng)用場景。目前米爾電子為RK3576
    的頭像 發(fā)表于 05-23 08:03 ?1388次閱讀
    米爾RK3576核心板適配多種系統(tǒng),解鎖<b class='flag-5'>多樣化</b>應(yīng)用

    滿足多樣化需求的 MCX 連接器解決方案

    面對多樣化的市場需求,MCX 連接器充分發(fā)揮自身優(yōu)勢,為不同行業(yè)量身定制適配的解決方案。展望未來,隨著科技的持續(xù)創(chuàng)新與進(jìn)步,MCX 連接器必將繼續(xù)在各個領(lǐng)域發(fā)揮重要作用,以其可靠的性能為科技發(fā)展注入強(qiáng)勁動力,推動各行業(yè)邁向新的高度。
    的頭像 發(fā)表于 04-02 13:54 ?505次閱讀
    滿足<b class='flag-5'>多樣化</b>需求的 MCX 連接器解決方案

    閃迪攜創(chuàng)新閃存解決方案亮相CFMS,以多樣化產(chǎn)品組合賦能企業(yè)構(gòu)建數(shù)字世界的&quot;記憶宮殿&quot;

    、毫秒級延遲響應(yīng)、EB級存儲容量?,這就需要更高性能、更大容量和更加穩(wěn)定可靠的存儲產(chǎn)品,閃存存儲由此也得到了飛速的發(fā)展。 在3月12日舉辦的CFMS | MemoryS 2025上,閃迪攜多樣化閃存解決方案亮相本次盛會。峰會現(xiàn)場,閃迪圍繞閃存市場趨勢
    的頭像 發(fā)表于 03-14 12:39 ?840次閱讀
    閃迪攜創(chuàng)新閃存解決方案亮相CFMS,以<b class='flag-5'>多樣化</b>產(chǎn)品組合賦能企業(yè)構(gòu)建數(shù)字世界的&quot;記憶宮殿&quot;

    AMD攜多樣化產(chǎn)品組合亮相ISE 2025

    在 ISE 2025 上,AMD 將展示其多樣化產(chǎn)品組合,這些產(chǎn)品組合支持多種 AV-over-IP、連接和視頻處理應(yīng)用,同時(shí)還支持基于 AI 的創(chuàng)新,以增強(qiáng)用戶體驗(yàn)。我們將與主要合作伙伴一道,在巴塞羅那 Fira Gran Via 的 5 號廳 B510 展臺展示我們的解決方案。
    的頭像 發(fā)表于 02-06 11:13 ?1321次閱讀

    Redis Cluster之故障轉(zhuǎn)移

    1. Redis Cluster 簡介 Redis Cluster 是 Redis 官方提供的 Redis 集群功能。 為什么要實(shí)現(xiàn) Redis Cluster? Redis 是單線程的(從網(wǎng)絡(luò) I
    的頭像 發(fā)表于 01-20 09:21 ?1239次閱讀
    Redis <b class='flag-5'>Cluster</b>之故障轉(zhuǎn)移

    漫途遠(yuǎn)程采集終端小巧強(qiáng)大,滿足多樣化數(shù)據(jù)采集需求!

    數(shù)據(jù)采集
    無錫漫途科技有限公司
    發(fā)布于 :2024年12月13日 14:43:52