chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

電子發(fā)燒友App

硬聲App

掃碼添加小助手

加入工程師交流群

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示
創(chuàng)作
電子發(fā)燒友網>電子資料下載>電子資料>PyTorch教程11.9之使用Transformer進行大規(guī)模預訓練

PyTorch教程11.9之使用Transformer進行大規(guī)模預訓練

2023-06-05 | pdf | 1.63 MB | 次下載 | 免費

資料介紹

到目前為止,在我們的圖像分類和機器翻譯實驗中,模型是在具有輸入輸出示例的數據集上從頭開始訓練的,以執(zhí)行特定任務。例如,Transformer 使用英法對(第 11.7 節(jié))進行訓練,因此該模型可以將輸入的英文文本翻譯成法文。因此,每個模型都成為一個特定的專家,即使是數據分布的微小變化也很敏感(第 4.7 節(jié))。對于更好的泛化模型,或者更勝任的通才,可以在有或沒有適應的情況下執(zhí)行多項任務,大數據的預訓練模型越來越普遍。

給定更大的預訓練數據,Transformer 架構在模型大小和訓練計算增加的??情況下表現更好,展示了卓越的縮放行為。具體而言,基于 Transformer 的語言模型的性能與模型參數、訓練標記和訓練計算的數量成冪律關系 Kaplan等人,2020 年。Transformers 的可擴展性還可以通過在更大數據上訓練的更大視覺 Transformers 的顯著提升性能得到證明(在第 11.8 節(jié)中討論 )。最近的成功案例包括 Gato,這是一個可以玩 Atari、字幕圖像、聊天并充當機器人多面手模型Reed等。, 2022 )。Gato 是一個單一的 Transformer,在對不同模式(包括文本、圖像、關節(jié)力矩??和按鈕按下)進行預訓練時可以很好地擴展。值得注意的是,所有此類多模態(tài)數據都被序列化為一個扁平的標記序列, Transformers可以將其處理為類似于文本標記(第11.7 節(jié))或圖像補丁(第 11.8 節(jié))。

在為多模態(tài)數據預訓練 Transformers 取得令人矚目的成功之前,Transformers 使用大量文本進行了廣泛的預訓練。最初提出用于機器翻譯,圖 11.7.1中的 Transformer 架構由一個用于表示輸入序列的編碼器和一個用于生成目標序列的解碼器組成。基本上,Transformer 可以用于三種不同的模式: encoder-only、encoder-decoderdecoder-only。作為本章的總結,我們將回顧這三種模式并解釋預訓練 Transformers 的可擴展性。

11.9.1。僅編碼器

當僅使用 Transformer 編碼器時,一系列輸入標記被轉換為相同數量的表示,這些表示可以進一步投影到輸出(例如,分類)。Transformer 編碼器由自注意力層組成,其中所有輸入標記相互關注。例如,圖 11.8.1中描述的視覺 Transformers 僅是編碼器,將一系列輸入圖像塊轉換為特殊“”標記的表示。由于這種表示依賴于所有輸入標記,因此它被進一步投射到分類標簽中。這種設計的靈感來自早期在文本上預訓練的僅編碼器 Transformer:BERT(Bidirectional Encoder Representations from Transformers)Devlin等人,2018 年。

11.9.1.1。預訓練 BERT

https://file.elecfans.com/web2/M00/AA/44/pYYBAGR9OHeAKeDfAAJrEjsu3QU829.svg

圖 11.9.1左:使用掩碼語言建模預訓練 BERT。對被屏蔽的“l(fā)ove”token 的預測取決于“l(fā)ove”前后的所有輸入 token。右圖:Transformer 編碼器中的注意力模式。垂直軸上的每個標記都涉及水平軸上的所有輸入標記。

BERT 使用掩碼語言建模在文本序列上進行預訓練:帶有隨機掩碼標記的輸入文本被送入 Transformer 編碼器以預測掩碼標記。如圖11.9.1所示 ,原始文本序列“I”、“l(fā)ove”、“this”、“red”、“car”前面加上“”標記,“” token隨機替換“l(fā)ove”;那么在預訓練期間,掩碼標記“l(fā)ove”與其預測之間的交叉熵損失將被最小化。請注意,Transformer 編碼器的注意力模式沒有約束( 圖 11.9.1右側)) 所以所有的代幣都可以互相關注。因此,“愛”的預測取決于序列中它前后的輸入標記。這就是 BERT 是“雙向編碼器”的原因。無需人工標注,可以使用書籍和維基百科中的大規(guī)模文本數據來預訓練 BERT。

11.9.1.2。微調 BERT

預訓練的 BERT 可以針對涉及單個文本或文本對的下游編碼任務進行微調。在微調期間,可以使用隨機參數向 BERT 添加額外的層:這些參數和那些預訓練的 BERT 參數將被更新以適應下游任務的訓練數據。

https://file.elecfans.com/web2/M00/AA/44/pYYBAGR9OHqAAQ5HAADj-I3Ueu4017.svg

圖 11.9.2微調 BERT 以進行情緒分析。

圖 11.9.2說明了用于情緒分析的 BERT 微調。Transformer 編碼器是一個預訓練的 BERT,它將文本序列作為輸入并將“”表示(輸入的全局表示)饋送到額外的全連接層以預測情緒。在微調期間,通過基于梯度的算法最小化預測和情感分析數據標簽之間的交叉熵損失,其中從頭開始訓練附加層,同時更新 BERT 的預訓練參數。BERT 做的不僅僅是情緒分析。3.5 億參數 BERT 從 2500 億個訓練標記中學習到的通用語言表征提升了自然語言任務的最新水平,例如單一文本分類、文本對分類或回歸、文本標記和問答

您可能會注意到這些下游任務包括文本對理解。BERT 預訓練還有另一個損失,用于預測一個句子是否緊跟另一個句子。然而,后來發(fā)現在對 20000 億個令牌預訓練相同大小的 BERT 變體 RoBERTa 時,這種損失沒有用Liu等人,2019 年。BERT 的其他衍生產品改進了模型架構或預訓練目標,例如 ALBERT(強制參數共享)Lan等人,2019 年、SpanBERT(表示和預測文本跨度)Joshi等人,2020 年、DistilBERT(輕量級通過知識蒸餾) (等人。, 2019 )和 ELECTRA(替代令牌檢測) Clark等人,2020。此外,BERT 啟發(fā)了計算機視覺中的 Transformer 預訓練,例如視覺 Transformers ( Dosovitskiy et al. , 2021 )、Swin Transformers ( Liu et al. , 2021 )和 MAE (masked autoencoders) ( He et al. , 2022 )。

11.9.2。編碼器-解碼器

由于 Transformer 編碼器將一系列輸入標記轉換為相同數量的輸出表示,因此僅編碼器模式無法像機器翻譯那樣生成任意長度的序列。正如最初為機器翻譯提出的那樣,Transformer 架構可以配備一個解碼器,該解碼器可以自動回歸預測任意長度的目標序列,逐個標記,以編碼器輸出和解碼器輸出為條件:(i)對于編碼器輸出的條件,編碼器-解碼器交叉注意力(圖 11.7.1中解碼器的多頭注意力)允許目標標記關注所有輸入標記;(ii) 對解碼器輸出的調節(jié)是通過所謂的因果關系實現的注意(這個名稱在文獻中很常見,但具有誤導性,因為它與正確的因果關系研究幾乎沒有聯系)模式(圖 11.7.1中解碼器的屏蔽多頭注意),其中任何目標標記只能關注過去在目標序列中呈現標記。

為了在人工標記的機器翻譯數據之外預訓練編碼器-解碼器 Transformer,BART Lewis等人,2019 年和 T5 Raffel等人,2020 年是兩個同時提出的在大規(guī)模文本語料庫上預訓練的編碼器-解碼器 Transformer。兩者都試圖在其預訓練目標中重建原始文本,而前者強調噪聲輸入(例如,掩蔽、刪除、排列和旋轉),后者則強調通過綜合消融研究實現多任務統(tǒng)一。

11.9.2.1。預訓練T5

作為預訓練的 Transformer 編碼器-解碼器的示例,T5(文本到文本傳輸轉換器)將許多任務統(tǒng)一為相同的文本到文本問題:對于任何任務,編碼器的輸入都是任務描述(例如, “總結”、“:”)之后是任務輸入(例如,文章中的一系列標記),解碼器預測任務輸出(例如,一系列標記對輸入文章的總結)。為了執(zhí)行文本到文本,T5 被訓練為根據輸入文本生成一些目標文本。

../_images/t5-編碼器-解碼器.svg

圖 11.9.3左:通過預測連續(xù)跨度來預訓練 T5。原句為“I”、“l(fā)ove”、“this”、“red”、“car”,其中“l(fā)ove”被特殊的“”token 代替,連續(xù)的“red”、“car”為替換為特殊的“”標記。目標序列以特殊的“”標記結尾。右圖:Transformer 編碼器-解碼器中的注意力模式。在編碼器自注意力(下方塊)中,所有輸入標記都相互關注;在編碼器-解碼器交叉注意力(上部矩形)中,每個目標標記關注所有輸入標記;在解碼器自我關注(上三角)中,每個目標標記僅關注當前和過去的目標標記(因果關系)。

為了從任何原始文本中獲取輸入和輸出,T5 被預訓練以預測連續(xù)的跨度。具體來說,來自文本的標記被隨機替換為特殊標記,其中每個連續(xù)的跨度被相同的特殊標記替換。考慮圖 11.9.3中的示例 ,其中原始文本是“I”、“l(fā)ove”、“this”、“red”、“car”。標記“l(fā)ove”、“red”、“car”隨機替換為特殊標記。由于“red”和“car”是連續(xù)的跨度,因此它們被相同的特殊標記替換。結果,輸入序列為“I”、“”、“this”、“”,目標序列為“”、“l(fā)ove”、“”、“ red”,“car”,“”,其中“”是另一個標記結束的特殊標記。如圖 11.9.3,解碼器有一個因果注意模式,以防止自己在序列預測期間關注未來的標記。

在 T5 中,預測連續(xù)跨度也稱為重建損壞的文本。為了實現這一目標,T5 使用來自 C4(Colossal Clean Crawled Corpus)數據的 10000 億個標記進行了預訓練,該數據由來自 Web 的干凈英文文本組成Raffel等人,2020 年

11.9.2.2。微調T5

與 BERT 類似,T5 需要在任務特定的訓練數據上進行微調(更新 T5 參數)以執(zhí)行此任務。與 BERT 微調的主要區(qū)別包括:(i)T5 輸入包括任務描述;(ii) T5 可以通過其 Transformer 解碼器生成任意長度的序列;(iii) 不需要額外的層。

https://file.elecfans.com/web2/M00/A9/CA/poYBAGR9OH-AQYWyAAJRdL4n87Y472.svg

圖 11.9.4為文本摘要微調 T5。任務描述和文章標記都被送入 Transformer 編碼器以預測摘要。

圖 11.9.4以文本摘要為例解釋了微調 T5。在這個下游任務中,任務描述標記“Summarize”、“:”和文章標記被輸入到編碼器。

經過微調后,110 億參數的 T5 (T5-11B) 在多個編碼(例如分類)和生成(例如摘要)基準測試中取得了最先進的結果。自發(fā)布以來,T5在后期研究中得到了廣泛的應用。例如,開關 Transformer 的設計基于 T5 以激活參數子集以提高計算效率Fedus等人,2022 年。在名為 Imagen 的文本到圖像模型中,文本被輸入到具有 46 億個參數的凍結 T5 編碼器 (T5-XXL) Saharia等人,2022 年。圖 11.9.5中逼真的文本到圖像示例建議即使沒有微調,單獨的 T5 編碼器也可以有效地表示文本。

https://file.elecfans.com/web2/M00/A8/BD/poYBAGR3JQGATIw4ABtygny81nQ051.png

圖 11.9.5 Imagen 模型的文本到圖像示例,其文本編碼器來自 T5(圖片來自Saharia等人( 2022 ))。

11.9.3。僅解碼器

我們已經回顧了僅編碼器和編碼器-解碼器 Transformers。或者,僅解碼器的 Transformer 從圖 11.7.1中描繪的原始編碼器-解碼器架構中移除了整個編碼器和具有編碼器-解碼器交叉注意力的解碼器子層 如今,只有解碼器的 Transformer 已經成為大規(guī)模語言建模(第 9.3 節(jié))中的實際架構,它通過自監(jiān)督學習利用世界上豐富的未標記文本語料庫。

11.9.3.1。GPT 和 GPT-2

GPT(生成預訓練)模型以語言建模為訓練目標,選擇 Transformer 解碼器作為其主干 Radford等人,2018 年

https://file.elecfans.com/web2/M00/AA/44/pYYBAGR9OI-AaD8JAAHtfc_5TVA349.svg

圖 11.9.6左:使用語言建模預訓練 GPT。目標序列是輸入序列移位一個標記。“”和“”都是分別標記序列開始和結束的特殊標記。右圖:Transformer 解碼器中的注意力模式。垂直軸上的每個標記僅關注其過去沿水平軸的標記(因果關系)。

按照第 9.3.3 節(jié)中描述的自回歸語言模型訓練 ,圖 11.9.6 說明了使用 Transformer 編碼器進行 GPT 預訓練,其中目標序列是輸入序列移位一個標記。請注意,Transformer 解碼器中的注意力模式強制每個標記只能關注其過去的標記(無法關注未來的標記,因為它們尚未被選擇)。

GPT 有 1 億個參數,需要針對個別下游任務進行微調。一年后推出了更大的 Transformer-decoder 語言模型 GPT-2


編碼器 GPT Transformer pytorch
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

查看更多

下載排行

本周

  1. 1新一代網絡可視化(NPB 2.0)
  2. 3.40 MB  |  1次下載  |  免費
  3. 2冷柜-電氣控制系統(tǒng)講解
  4. 13.68 MB   |  1次下載  |  10 積分
  5. 3MDD品牌三極管MMBT3906數據手冊
  6. 2.33 MB  |  次下載  |  免費
  7. 4MDD品牌三極管S9012數據手冊
  8. 2.62 MB  |  次下載  |  免費
  9. 5LAT1218 如何選擇和設置外部晶體適配 BlueNRG-X
  10. 0.60 MB   |  次下載  |  3 積分
  11. 6LAT1216 Blue NRG-1/2 系列芯片 Flash 操作與 BLE 事件的互斥處理
  12. 0.89 MB   |  次下載  |  3 積分
  13. 7收音環(huán)繞擴音機 AVR-1507手冊
  14. 2.50 MB   |  次下載  |  免費
  15. 8MS1000TA 超聲波測量模擬前端芯片技術手冊
  16. 0.60 MB   |  次下載  |  免費

本月

  1. 1愛華AIWA HS-J202維修手冊
  2. 3.34 MB   |  37次下載  |  免費
  3. 2PC5502負載均流控制電路數據手冊
  4. 1.63 MB   |  23次下載  |  免費
  5. 3NB-IoT芯片廠商的資料說明
  6. 0.31 MB   |  22次下載  |  1 積分
  7. 4UWB653Pro USB口測距通信定位模塊規(guī)格書
  8. 838.47 KB  |  5次下載  |  免費
  9. 5蘇泊爾DCL6907(即CHK-S007)單芯片電磁爐原理圖資料
  10. 0.04 MB   |  4次下載  |  1 積分
  11. 6蘇泊爾DCL6909(即CHK-S009)單芯片電磁爐原理圖資料
  12. 0.08 MB   |  2次下載  |  1 積分
  13. 7100W準諧振反激式恒流電源電路圖資料
  14. 0.09 MB   |  2次下載  |  1 積分
  15. 8FS8025B USB的PD和OC快充協議電壓誘騙控制器IC技術手冊
  16. 1.81 MB   |  1次下載  |  免費

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935137次下載  |  10 積分
  3. 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉換器 PCB layout 設計
  4. 1.48MB  |  420064次下載  |  10 積分
  5. 3Altium DXP2002下載入口
  6. 未知  |  233089次下載  |  10 積分
  7. 4電路仿真軟件multisim 10.0免費下載
  8. 340992  |  191439次下載  |  10 積分
  9. 5十天學會AVR單片機與C語言視頻教程 下載
  10. 158M  |  183353次下載  |  10 積分
  11. 6labview8.5下載
  12. 未知  |  81602次下載  |  10 積分
  13. 7Keil工具MDK-Arm免費下載
  14. 0.02 MB  |  73822次下載  |  10 積分
  15. 8LabVIEW 8.6下載
  16. 未知  |  65991次下載  |  10 積分