chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

21個Transformer面試題的簡單回答

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:研究員易顯維 ? 2021-04-15 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1.Transformer為何使用多頭注意力機(jī)制?(為什么不使用一個頭)

答:多頭可以使參數(shù)矩陣形成多個子空間,矩陣整體的size不變,只是改變了每個head對應(yīng)的維度大小,這樣做使矩陣對多方面信息進(jìn)行學(xué)習(xí),但是計算量和單個head差不多。

2.Transformer為什么Q和K使用不同的權(quán)重矩陣生成,為何不能使用同一個值進(jìn)行自身的點乘?

答:請求和鍵值初始為不同的權(quán)重是為了解決可能輸入句長與輸出句長不一致的問題。并且假如QK維度一致,如果不用Q,直接拿K和K點乘的話,你會發(fā)現(xiàn)attention score 矩陣是一個對稱矩陣。因為是同樣一個矩陣,都投影到了同樣一個空間,所以泛化能力很差。

3.Transformer計算attention的時候為何選擇點乘而不是加法?兩者計算復(fù)雜度和效果上有什么區(qū)別?

答:K和Q的點乘是為了得到一個attention score 矩陣,用來對V進(jìn)行提純。K和Q使用了不同的W_k, W_Q來計算,可以理解為是在不同空間上的投影。正因為 有了這種不同空間的投影,增加了表達(dá)能力,這樣計算得到的attention score矩陣的泛化能力更高。

4.為什么在進(jìn)行softmax之前需要對attention進(jìn)行scaled(為什么除以dk的平方根),并使用公式推導(dǎo)進(jìn)行講解

答:假設(shè) Q 和 K 的均值為0,方差為1。它們的矩陣乘積將有均值為0,方差為dk,因此使用dk的平方根被用于縮放,因為,Q 和 K 的矩陣乘積的均值本應(yīng)該為 0,方差本應(yīng)該為1,這樣可以獲得更平緩的softmax。當(dāng)維度很大時,點積結(jié)果會很大,會導(dǎo)致softmax的梯度很小。為了減輕這個影響,對點積進(jìn)行縮放。

643dedc2-9cd8-11eb-8b86-12bb97331649.png

5.在計算attention score的時候如何對padding做mask操作?

答:對需要mask的位置設(shè)為負(fù)無窮,再對attention score進(jìn)行相加

6.為什么在進(jìn)行多頭注意力的時候需要對每個head進(jìn)行降維?

答:將原有的高維空間轉(zhuǎn)化為多個低維空間并再最后進(jìn)行拼接,形成同樣維度的輸出,借此豐富特性信息,降低了計算量

7.大概講一下Transformer的Encoder模塊?

答:輸入嵌入-加上位置編碼-多個編碼器層(每個編碼器層包含全連接層,多頭注意力層和點式前饋網(wǎng)絡(luò)層(包含激活函數(shù)層))

8.為何在獲取輸入詞向量之后需要對矩陣乘以embedding size的開方?

embedding matrix的初始化方式是xavier init,這種方式的方差是1/embedding size,因此乘以embedding size的開方使得embedding matrix的方差是1,在這個scale下可能更有利于embedding matrix的收斂。

9.簡單介紹一下Transformer的位置編碼?有什么意義和優(yōu)缺點?

答:因為self-attention是位置無關(guān)的,無論句子的順序是什么樣的,通過self-attention計算的token的hidden embedding都是一樣的,這顯然不符合人類的思維。因此要有一個辦法能夠在模型中表達(dá)出一個token的位置信息,transformer使用了固定的positional encoding來表示token在句子中的絕對位置信息。

10.你還了解哪些關(guān)于位置編碼的技術(shù),各自的優(yōu)缺點是什么?

答:相對位置編碼(RPE)1.在計算attention score和weighted value時各加入一個可訓(xùn)練的表示相對位置的參數(shù)。2.在生成多頭注意力時,把對key來說將絕對位置轉(zhuǎn)換為相對query的位置3.復(fù)數(shù)域函數(shù),已知一個詞在某個位置的詞向量表示,可以計算出它在任何位置的詞向量表示。前兩個方法是詞向量+位置編碼,屬于亡羊補(bǔ)牢,復(fù)數(shù)域是生成詞向量的時候即生成對應(yīng)的位置信息。

11.簡單講一下Transformer中的殘差結(jié)構(gòu)以及意義。

答:encoder和decoder的self-attention層和ffn層都有殘差連接。反向傳播的時候不會造成梯度消失。

12.為什么transformer塊使用LayerNorm而不是BatchNorm?LayerNorm 在Transformer的位置是哪里?

答:多頭注意力層和激活函數(shù)層之間。CV使用BN是認(rèn)為channel維度的信息對cv方面有重要意義,如果對channel維度也歸一化會造成不同通道信息一定的損失。而同理nlp領(lǐng)域認(rèn)為句子長度不一致,并且各個batch的信息沒什么關(guān)系,因此只考慮句子內(nèi)信息的歸一化,也就是LN。

13.簡答講一下BatchNorm技術(shù),以及它的優(yōu)缺點。

答:批歸一化是對每一批的數(shù)據(jù)在進(jìn)入激活函數(shù)前進(jìn)行歸一化,可以提高收斂速度,防止過擬合,防止梯度消失,增加網(wǎng)絡(luò)對數(shù)據(jù)的敏感度。

14.簡單描述一下Transformer中的前饋神經(jīng)網(wǎng)絡(luò)?使用了什么激活函數(shù)?相關(guān)優(yōu)缺點?

答:輸入嵌入-加上位置編碼-多個編碼器層(每個編碼器層包含全連接層,多頭注意力層和點式前饋網(wǎng)絡(luò)層(包含激活函數(shù)層))-多個解碼器層(每個編碼器層包含全連接層,多頭注意力層和點式前饋網(wǎng)絡(luò)層)-全連接層,使用了relu激活函數(shù)

15.Encoder端和Decoder端是如何進(jìn)行交互的?

答:通過轉(zhuǎn)置encoder_ouput的seq_len維與depth維,進(jìn)行矩陣兩次乘法,即q*kT*v輸出即可得到target_len維度的輸出

16.Decoder階段的多頭自注意力和encoder的多頭自注意力有什么區(qū)別?

答:Decoder有兩層mha,encoder有一層mha,Decoder的第二層mha是為了轉(zhuǎn)化輸入與輸出句長,Decoder的請求q與鍵k和數(shù)值v的倒數(shù)第二個維度可以不一樣,但是encoder的qkv維度一樣。

17.Transformer的并行化提現(xiàn)在哪個地方?

答:Transformer的并行化主要體現(xiàn)在self-attention模塊,在Encoder端Transformer可以并行處理整個序列,并得到整個輸入序列經(jīng)過Encoder端的輸出,但是rnn只能從前到后的執(zhí)行

18.Decoder端可以做并行化嗎?

訓(xùn)練的時候可以,但是交互的時候不可以

19.簡單描述一下wordpiece model 和 byte pair encoding,有實際應(yīng)用過嗎?

答“傳統(tǒng)詞表示方法無法很好的處理未知或罕見的詞匯(OOV問題)

傳統(tǒng)詞tokenization方法不利于模型學(xué)習(xí)詞綴之間的關(guān)系”BPE(字節(jié)對編碼)或二元編碼是一種簡單的數(shù)據(jù)壓縮形式,其中最常見的一對連續(xù)字節(jié)數(shù)據(jù)被替換為該數(shù)據(jù)中不存在的字節(jié)。后期使用時需要一個替換表來重建原始數(shù)據(jù)。優(yōu)點:可以有效地平衡詞匯表大小和步數(shù)(編碼句子所需的token次數(shù))。

缺點:基于貪婪和確定的符號替換,不能提供帶概率的多個分片結(jié)果。

20.Transformer訓(xùn)練的時候?qū)W習(xí)率是如何設(shè)定的?Dropout是如何設(shè)定的,位置在哪里?Dropout 在測試的需要有什么需要注意的嗎?

LN是為了解決梯度消失的問題,dropout是為了解決過擬合的問題。在embedding后面加LN有利于embedding matrix的收斂。

21.bert的mask為何不學(xué)習(xí)transformer在attention處進(jìn)行屏蔽score的技巧?

答:BERT和transformer的目標(biāo)不一致,bert是語言的預(yù)訓(xùn)練模型,需要充分考慮上下文的關(guān)系,而transformer主要考慮句子中第i個元素與前i-1個元素的關(guān)系。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3900

    瀏覽量

    141353
  • 矩陣
    +關(guān)注

    關(guān)注

    1

    文章

    441

    瀏覽量

    35802
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    154

    瀏覽量

    6801

原文標(biāo)題:21個Transformer面試題的簡單回答

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    人工智能工程師高頻面試題匯總:循環(huán)神經(jīng)網(wǎng)絡(luò)篇(題目+答案)

    后臺私信雯雯老師,備注:循環(huán)神經(jīng)網(wǎng)絡(luò),領(lǐng)取更多相關(guān)面試題隨著人工智能技術(shù)的突飛猛進(jìn),AI工程師成為了眾多求職者夢寐以求的職業(yè)。想要拿下這份工作,面試的時候得展示出你不僅技術(shù)過硬,還得能解決問題。所以
    的頭像 發(fā)表于 10-17 16:36 ?471次閱讀
    人工智能工程師高頻<b class='flag-5'>面試題</b>匯總:循環(huán)神經(jīng)網(wǎng)絡(luò)篇(題目+答案)

    用30道電子工程師面試題來拷問墮落的你...

    今天用30道電子工程師面試題來拷問墮落的你,你能扛住第幾題?1、下面是一些基本的數(shù)字電路知識問題,請簡要回答之。(1)什么是Setup和Hold時間?答:Setup/HoldTime用于測試芯片
    的頭像 發(fā)表于 10-15 17:37 ?673次閱讀
    用30道電子工程師<b class='flag-5'>面試題</b>來拷問墮落的你...

    每周推薦!硬件設(shè)計指南+無刷電機(jī)原理圖大全+工程師面試題庫匯總

    、硬件工程師或研發(fā)類筆試面試題庫匯總 一、模擬電路(基本概念和知識總攬) 1、基本放大電路種類 (電壓放大器,電流放大器,互導(dǎo)放大器和互阻放大器),優(yōu)缺點,特別是廣泛采用差分結(jié)構(gòu)的原因。 2、負(fù)反饋種類
    發(fā)表于 07-07 14:38

    最全的硬件工程師筆試試題

    硬件面試題之一 1、下面是一些基本的數(shù)字電路知識問題,請簡要回答之。 (1) 什么是 Setup 和 Hold 時間? 答:Setup/Hold Time 用于測試芯片對輸入信號和時鐘信號之間的時間
    發(fā)表于 06-26 15:34

    【硬件方向】名企面試筆試真題:大疆創(chuàng)新校園招聘筆試題

    名企面試筆試真題:大疆創(chuàng)新校園招聘筆試題-硬件 是幾年前的題目,不過值得參考一下哦 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內(nèi)容有幫助可以關(guān)注、點贊、評論支持一下哦~)
    發(fā)表于 05-16 17:31

    硬件工程師面試必看試題(經(jīng)典)

    硬件工程師面試試題 模擬電路 1、基爾霍夫定理的內(nèi)容是什么?(仕蘭微電子) 2、平板電容公式(C=εS/4πkd)。(未知) 3、最基本的如三極管曲線特性。(未知) 4、描述反饋電路的概念
    發(fā)表于 04-21 15:36

    Nginx常見面試題總結(jié)

    Nginx是一 輕量級/高性能的反向代理Web服務(wù)器,用于 HTTP、HTTPS、SMTP、POP3 和 IMAP 協(xié)議。
    的頭像 發(fā)表于 03-03 09:36 ?1520次閱讀
    Nginx常見<b class='flag-5'>面試題</b>總結(jié)

    硬件面試(一)

    硬件面試(一)
    的頭像 發(fā)表于 02-26 13:55 ?1046次閱讀
    硬件<b class='flag-5'>面試</b>(一)

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計初衷是為了解決自然語言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?5706次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    面試題】人工智能工程師高頻面試題匯總:概率論與統(tǒng)計篇(題目+答案)

    、機(jī)器學(xué)習(xí)的那些算法,或者深度學(xué)習(xí)的框架,還有怎么優(yōu)化模型,Transformer等,這些都是加分項,能有效提高面試通過率。本篇小編整理了一些高頻的概率論與統(tǒng)計——貝
    的頭像 發(fā)表于 01-22 13:00 ?1381次閱讀
    【<b class='flag-5'>面試題</b>】人工智能工程師高頻<b class='flag-5'>面試題</b>匯總:概率論與統(tǒng)計篇(題目+答案)

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會統(tǒng)治世界。 我們花了兩年時間打造Sohu,這是世界上第一用于transformer(ChatGPT中的“T”)的專用芯片。 將transform
    的頭像 發(fā)表于 01-06 09:13 ?1663次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    Redis使用重要的兩機(jī)制:Reids持久化和主從復(fù)制

    持久化的,也就是說要先存儲到磁盤上嘛,這樣才方便主從之間的數(shù)據(jù)同步。 此外,因為Redis 主從復(fù)制的原理也是后端面試必考知識點,所以先送上一份福利【77道redis高頻面試題匯總(帶答案)】,面試用到率85%! 部分內(nèi)容展示:
    的頭像 發(fā)表于 12-18 10:33 ?618次閱讀
    Redis使用重要的兩<b class='flag-5'>個</b>機(jī)制:Reids持久化和主從復(fù)制

    面試題】人工智能工程師高頻面試題匯總:機(jī)器學(xué)習(xí)深化篇(題目+答案)

    ,或者深度學(xué)習(xí)的框架,還有怎么優(yōu)化模型,這些都是加分項,能有效提高面試通過率。本篇小編整理了一些高頻的機(jī)器學(xué)習(xí)深化方面的面試題,這些題目都是從實際面試中總結(jié)出來的,非
    的頭像 發(fā)表于 12-16 13:42 ?3291次閱讀
    【<b class='flag-5'>面試題</b>】人工智能工程師高頻<b class='flag-5'>面試題</b>匯總:機(jī)器學(xué)習(xí)深化篇(題目+答案)

    面試題】人工智能工程師高頻面試題匯總:Transformer篇(題目+答案)

    ,或者深度學(xué)習(xí)的框架,還有怎么優(yōu)化模型,Transformer的一些知識,這些都是加分項,能有效提高面試通過率。本篇小編整理了一些高頻的Transformer方面的面
    的頭像 發(fā)表于 12-13 15:06 ?2375次閱讀
    【<b class='flag-5'>面試題</b>】人工智能工程師高頻<b class='flag-5'>面試題</b>匯總:<b class='flag-5'>Transformer</b>篇(題目+答案)

    人工智能工程師高頻面試題匯總——機(jī)器學(xué)習(xí)篇

    ,或者深度學(xué)習(xí)的框架,還有怎么優(yōu)化模型,這些都是加分項,能有效提高面試通過率。本篇小編整理了一些高頻的機(jī)器學(xué)習(xí)方面的面試題,這些題目都是從實際面試中總結(jié)出來的,非常具
    的頭像 發(fā)表于 12-04 17:00 ?2156次閱讀
    人工智能工程師高頻<b class='flag-5'>面試題</b>匯總——機(jī)器學(xué)習(xí)篇