chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

淺析Google Research的LaserTagger和Seq2Edits

深度學習自然語言處理 ? 來源:哈工大訊飛聯(lián)合實驗室 ? 作者:吳珂 ? 2021-07-23 16:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本期導讀:近年來,序列到序列(seq2seq)方法成為許多文本生成任務的主流思路,在機器翻譯、文本摘要等絕大多數(shù)生成任務上都得到了廣泛的應用。與此同時,一些研究人員另辟蹊徑,跳脫出傳統(tǒng)的seq2seq方法,探索如何將 編輯方法(edit-based approach) 應用于一些文本生成任務,從而提升模型在生成任務上的表現(xiàn)。本期結合Google Research的三篇工作,對基于編輯方法的文本生成技術進行介紹。

1. 引言

在文本生成任務中引入編輯方法的 motivation 主要有兩方面:

首先,基于Transformer結構的seq2seq模型在當前各項文本生成任務上得到了廣泛使用。而這類傳統(tǒng)seq2seq模型的不足主要有以下幾點:

(1)數(shù)據(jù)效率: 為使模型在文本生成任務上獲得較好的表現(xiàn),傳統(tǒng)seq2seq模型通常需要在大量數(shù)據(jù)上進行訓練,時間長,計算量龐大。

(2)推理時間: 傳統(tǒng)seq2seq模型在解碼時主要采用自回歸的方式。這種方式按順序從左至右一個詞一個詞地預測輸出,雖然遵循了人類語言的單向順序性,但大大增加了模型的推理時間。

(3)可控性與可解釋性: 傳統(tǒng)seq2seq模型在輸出時會發(fā)生一些錯誤。例如,產生輸入文本中并不支持的輸出(hallucination)。此外,模型在輸出時的可解釋性也較差。

其次,以句子融合、語法糾錯等為代表的一些文本生成任務均具有 “重合”(overlap) 的特點,即源文本和目標文本在語言上重復性較大,只需要對源文本做微小的改動就能生成目標文本(圖1)。因此從頭訓練一個seq2seq模型然后自回歸地預測輸出就顯得較為浪費?;诖耍瑥椭茩C制(copy mechanism)的引入使得模型能夠對當前輸出是復制原詞還是生成新詞進行選擇。但即使模型使用了復制機制,仍需要較大規(guī)模的訓練數(shù)據(jù)來滿足解碼時的詞匯量需求,從而保證模型性能。

綜上,在文本生成任務中引入文本編輯的方法,意在針對一些生成任務中的overlap特點,合理利用源文本與目標文本的相似部分,改善傳統(tǒng)seq2seq模型的不足。這種方法直觀上保留了從源文本到目標文本的編輯過程(如哪些詞保留,哪些詞需要刪除等),與人類實際處理這類生成任務的思路不謀而合,從而也帶來了較好的可解釋性。

2. LaserTagger

LaserTagger是Google Research在 “Encode, Tag, Realize: High-Precision Text Editing” 一文中提出的文本生成模型,該論文發(fā)表于EMNLP 2019。

這篇工作的主要貢獻有:

(1)將序列標注作為源文本到目標文本的跳板,即首先對源文本標注編輯操作標簽,再根據(jù)標注得到的標簽序列將源文本并行轉化為目標文本(圖2)。

(2)基于(1)的思路,設計了基于編輯操作的文本生成模型LaserTagger(包括LaserTaggerFF和LaserTaggerAR兩種模型變體),并且在四種文本生成任務上進行了對比實驗,獲得了較好的效果。

2.1 主要方法

標注操作定義

本文定義文本編輯操作標簽由兩部分構成:基本標簽B和附加標簽P,表示為。

基本標簽分為兩種:保留()或刪除(),指對當前位置的token進行保留還是刪除操作。

附加標簽指需要在當前位置插入新短語(可以是單個詞、多個詞或標點等,也可以為空)。

在構造編輯標簽序列時,由匹配算法(見圖4)從訓練語料構造出的phrase vocabulary 中選出合適的短語插入。因此,若詞典的大小為,則編輯標簽的總規(guī)模則約為。

此外,可以根據(jù)不同的下游任務定義一些特殊標簽。例如在句子融合任務中有時需要交換輸入句子的語序,此時可以設置標簽SWAP代表交換語序操作。

構造phrase vocabulary

在構造訓練數(shù)據(jù)對應的編輯標簽序列時,若詞典無法提供可插入的新短語,則該條訓練數(shù)據(jù)會被篩掉。因此理想的詞典應滿足以下兩點:一方面,詞典規(guī)模應盡可能的??;另一方面,該詞典應能夠盡可能的覆蓋更多的訓練數(shù)據(jù)。

構造詞典的步驟為:

(1) 將源文本和目標文本對齊,計算出它們的最長公共子序列(longest common subsequence, LCS)。

(2) 將目標文本中不屬于LCS的n-grams加入詞典中。

(3) 最終保留出現(xiàn)頻率最高的個phrases。

在實驗中發(fā)現(xiàn),詞典保留頻率最高的500個phrases已能覆蓋85%的訓練樣本,且再繼續(xù)增大詞典規(guī)模對LaserTagger的性能幫助很小。因此,在本文的各主要實驗中,詞典的大小均被設置為500。

構造編輯標簽序列

在定義好標簽、構造完詞典之后,就可以根據(jù)訓練語料中的源文本和目標文本構造出對應編輯標簽序列,進行有監(jiān)督學習。

構造編輯標簽序列的算法如圖4中偽代碼所示。該算法主要采用貪心匹配的思想,通過設置兩個指針(is與it)對源文本和目標文本進行遍歷,進而構造出標簽序列。值得注意的是偽代碼中并未給出PDELETE標簽如何生成。筆者猜測可能是由于PDELETE標簽與PKEEP標簽實際上可以相互替代(如圖5所示),在實驗中二者使用一個即可。

2.2 模型概述

本文設計的LaserTagger有兩種變體:LaserTaggerFF與LaserTaggerAR。前者Decoder部分采用前饋網絡(feed forward network),推理速度更快;后者Decoder部分采用的是1層Transformer Decoder,推理效果更好。兩種變體Encoder部分均與BERT-base結構相同,為12層Transformer Encoder。

3. Seq2Edits

Seq2Edits是Google Research在 “Seq2Edits: Sequence Transduction Using Span-level Edit Operations” 一文中提出的文本生成模型,該論文發(fā)表于EMNLP 2020。

本篇工作的主要改進有:

(1)與LaserTagger不同,Seq2Edits是在span-level上進行標簽標注。即,LaserTagger對每一個詞(token)標注一個編輯標簽,而Seq2Edits對一個或多個詞(span)標注一個編輯標簽。

論文作者認為在span-level上進行標注操作能夠更好地對局部依賴(local dependencies)進行建模,而對于語法糾錯等生成任務而言,人類實際解決這類問題時的主要根據(jù)也是span與span間的局部依賴,因此在span-level上進行標注操作也與人類實際解決問題時的思路相吻合。

(2)Seq2Edits將標注操作進一步細化,每一個span對應的編輯標簽都由一個三元組組成,相比LaserTagger的標簽定義方式粒度更細,因此可解釋性也更好。

(3)推理時間不再取決于目標文本的長度,而是依賴于編輯操作的規(guī)模。推理速度相比傳統(tǒng)seq2seq模型仍得到大幅提升。

3.1 主要方法

標注操作定義

Seq2Edits的標注操作與LaserTagger主要有兩點不同:(1)Seq2Edits是在span-level上打標簽;(2)Seq2Edits的編輯標簽被定義為三元組的形式。

編輯標簽被定義為一個三元組,其中代表編輯操作類型(例如修改標點,修改動詞形式等),代表編輯操作的結束位置(默認當前操作的開始位置為上一個標簽的結束位置),為替換短語(保留原文為)。

生成任務表示

設源文本為序列,長度為;目標文本為序列,長度為。

則傳統(tǒng)seq2seq思路下文本生成任務可表示為:

使用本文方法,則任務可表示為:

以圖7中句子為例,若源文本、目標文本分別為:

則編輯標簽序列為:

從源文本到目標文本的過程則可表示為:

從本文對生成任務的概率表示中可以看出,在每一個上,標簽三元組中相互并不是條件獨立的,而是有著一定的依賴關系,即:

因此,模型在預測標簽三元組時存在著先后順序:在第個上,先預測,然后預測,最后預測。

3.2 模型概述

在理解Seq2Edits生成文本的概率表示后就不難理解其模型結構。Seq2Edits沿用了標準的Transformer Encoder-Decoder結構,將Decoder分為A和B兩部分來分別預測標簽、和。Decoder A和Decoder B之間使用殘差連接(residual connections)。

對于位置標簽的預測基于pointer-network,使用了類似Transformer中attention的機制,即:其中(queries)來自歷史的decoder states,(keys)和(values)來自當前的encoder states。

本期介紹了Google Research的LaserTagger和Seq2Edits兩篇工作,下一期將繼續(xù)介紹Google的第三篇工作FELIX以及三篇工作的實驗評價部分和總結,敬請關注。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1807

    瀏覽量

    60536

原文標題:基于編輯方法的文本生成(上)

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Faraday Future即將亮相Wolfe Research汽車科技及半導體大會

    “FF”或“公司”)今日宣布,公司將參加于2026年2月11日在紐約舉行的 Wolfe Research 汽車科技及半導體大會,F(xiàn)F全球總裁Jerry Wang將出席該活動。
    的頭像 發(fā)表于 02-10 13:44 ?453次閱讀

    nordic NRF54藍牙設備在Google Pixel 10上“聽診”藍牙信道示例

    說明如何使用 nRF Connect SDK 中的藍牙信道探測反射器示例程序(運行于 nRF54L15 SoC),配合搭載 Android 16 系統(tǒng)藍牙信道探測發(fā)起器及算法實現(xiàn)的 Google Pixel
    發(fā)表于 11-26 17:44

    炬芯科技正式支持Google Find Hub

    9月19日,炬芯科技宣布正式支持 Google Find Hub。依托炬芯科技在低功耗無線技術領域的深厚積累與持續(xù)突破,助力各類 AloT 終端設備高效、穩(wěn)定地接入 Google 龐大的設備定位網絡
    的頭像 發(fā)表于 09-19 16:15 ?1228次閱讀

    谷歌查找我的設備配件(Google Find My Device Accessory)詳解和應用

    谷歌查找我的設備配件(Google Find My Device Accessory)介紹 谷歌查找我的設備配件是與谷歌 “查找我的設備” 應用程序配合使用的配件,旨在幫助用戶更方便地追蹤和定位個人
    發(fā)表于 08-31 21:10

    Google Cloud展示一系列前沿技術更新

    在 2025 Google 谷歌開發(fā)者大會上,Google Cloud 展示了一系列前沿技術更新——不僅是模型升級,更是智能體、創(chuàng)意、行業(yè)應用的全面進化。這些前沿技術,正為出海開發(fā)者提供強大的技術支撐,助力他們打造面向全球用戶的創(chuàng)新產品與服務,加速開拓海外市場。
    的頭像 發(fā)表于 08-29 09:38 ?1156次閱讀

    Google Fast Pair服務簡介

    Google Fast Pair 是一項利用低功耗藍牙(Bluetooth LE)技術,實現(xiàn)設備間快速安全配對及提供多種服務的協(xié)議。其主要功能包括: 設備處于配對模式時,顯示半頁通知,便于用戶進行
    發(fā)表于 06-29 19:28

    同步電機失步淺析

    純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:同步電機失步淺析.pdf【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容!
    發(fā)表于 06-20 17:42

    2025 Google I/O大會演講亮點回顧

    在今年的 Google I/O 大會上,我們展示了如何在 Google 的各個平臺進行應用構建,并利用 Google DeepMind 的卓越 AI 模型實現(xiàn)創(chuàng)新,大展拳腳。以下是開發(fā)者主旨演講中的重磅亮點內容,不容錯過。
    的頭像 發(fā)表于 05-28 09:34 ?969次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過 Gemini API 訪問 Google 最先進的圖像生成模型 Imagen 3。該模型最初僅對付費用戶開放,不久后也將面向免費用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?1281次閱讀

    Google推出全新Cloud WAN解決方案

    超過 25 年來,Google 一直在推動網絡技術的邊界,其創(chuàng)新連接了全球數(shù)十億用戶使用 Gmail、YouTube 和 Search 等核心服務。這一切的基礎是 Google 龐大的骨干網絡。憑借
    的頭像 發(fā)表于 05-14 16:48 ?1444次閱讀

    NVIDIA Research在多個領域不斷取得突破

    近二十年來,NVIDIA Research 的研究成果催生了包括 NVIDIA DLSS、NVLink 和 Cosmos 在內的標志性產品。
    的頭像 發(fā)表于 03-28 09:52 ?940次閱讀

    【米爾-全志T536開發(fā)板試用體驗】Wi-Fi連接測試體驗

    ms 64 bytes from 36.152.44.93: seq=1 ttl=51 time=120.037 ms 64 bytes from 36.152.44.93: seq=2 ttl=51
    發(fā)表于 03-18 11:29

    Google發(fā)布最新AI模型Gemma 3

    Gemma 開放模型系列是 Google 推動實用 AI 技術普惠大眾的重要基石。上個月,Gemma 迎來了首個生日?;赝^去一年,其成果斐然:全球下載量突破 1 億,社區(qū)欣欣向榮,衍生模型超過 6 萬個1。Gemma 生態(tài)的蓬勃發(fā)展,不斷激發(fā)我們的創(chuàng)新熱情。
    的頭像 發(fā)表于 03-18 09:51 ?1737次閱讀

    函數(shù)HAL_I2C_Slave_Seq_Transmit_IT和HAL_I2C_Slave_Seq_Receive_IT實現(xiàn)代碼里有處理DMA請求,這是出于什么考慮?

    函數(shù)HAL_I2C_Slave_Seq_Transmit_IT和HAL_I2C_Slave_Seq_Receive_IT實現(xiàn)代碼里有處理DMA請求,這是出于什么考慮?求解答!
    發(fā)表于 03-14 09:01

    求助,關于STM32G070調用HAL_I2C_Mem_Read_IT測試疑問求解

    HAL_I2C_Slave_Seq_Receive_IT接收內存地址后再調用HAL_I2C_Slave_Seq_Transmit_IT發(fā)送10個數(shù)據(jù); 現(xiàn)象: 從機正常接收,給主機發(fā)送第1個數(shù)據(jù)正常,到第2
    發(fā)表于 03-11 07:00