關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實(shí)現(xiàn)方案

今天給大家分享一篇關(guān)于深度學(xué)習(xí)模型Transformer的文章。我愿稱之為講解Transformer模型最好的文章。

文章內(nèi)容主要介紹 Transformer 模型的具體實(shí)現(xiàn)：

Transformer整體架構(gòu)

Transformer概覽

引入張量

自注意力機(jī)制Self-Attention

多頭注意力機(jī)制Mutil-Head Attention

位置反饋網(wǎng)絡(luò)(Position-wise Feed-Forward Networks)

殘差連接和層歸一化（Add & Normalize）

位置編碼（Positional Encoding）

解碼器Decoder

掩碼Mask：Padding Mask + Sequence Mask

最后的線性層和Softmax層

嵌入層和最終的線性層

正則化操作

博客地址：https://blog.csdn.net/benzhujie1245com/article/details/117173090

英文地址：http://jalammar.github.io/illustrated-transformer/

文章有點(diǎn)長(zhǎng)，建議收藏

1、Transformer模型架構(gòu)

2017 年，Google 在論文 Attentions is All you need（論文地址：https://arxiv.org/abs/1706.03762）中提出了 Transformer 模型，其使用 Self-Attention 結(jié)構(gòu)取代了在 NLP 任務(wù)中常用的 RNN 網(wǎng)絡(luò)結(jié)構(gòu)。

相比 RNN 網(wǎng)絡(luò)結(jié)構(gòu)，其最大的優(yōu)點(diǎn)是可以并行計(jì)算。Transformer 的整體模型架構(gòu)如圖所示：

Transformer模型架構(gòu)

2、Transformer 概覽

首先，讓我們先將 Transformer 模型視為一個(gè)黑盒，如圖所示。在機(jī)器翻譯任務(wù)中，將一種語言的一個(gè)句子作為輸入，然后將其翻譯成另一種語言的一個(gè)句子作為輸出：

Transformer 模型（黑盒模式）

2.1 Encoder-Decoder

Transformer 本質(zhì)上是一個(gè) Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個(gè)部分：編碼組件和解碼組件

Transformer 模型（Encoder-Decoder 架構(gòu)模式）

其中，編碼組件由多層編碼器（Encoder）組成（在論文中作者使用了 6 層編碼器，在實(shí)際使用過程中你可以嘗試其他層數(shù)）。解碼組件也是由相同層數(shù)的解碼器（Decoder）組成（在論文也使用了 6 層）。

編碼器/解碼器組成

每個(gè)編碼器由兩個(gè)子層組成：

Self-Attention層（自注意力層）

Position-wise Feed Forward Network（前饋網(wǎng)絡(luò)，縮寫為 FFN）

如下圖所示：每個(gè)編碼器的結(jié)構(gòu)都是相同的，但是它們使用不同的權(quán)重參數(shù)（6個(gè)編碼器的架構(gòu)相同，但是參數(shù)不同）

Encoder編碼器組成

編碼器的輸入會(huì)先流入 Self-Attention 層。它可以讓編碼器在對(duì)特定詞進(jìn)行編碼時(shí)使用輸入句子中的其他詞的信息（可以理解為：當(dāng)我們翻譯一個(gè)詞時(shí)，不僅只關(guān)注當(dāng)前的詞，而且還會(huì)關(guān)注其他詞的信息）。

注：關(guān)注詞語的上下文環(huán)境，不僅僅是詞語本身

后面我們將會(huì)詳細(xì)介紹 Self-Attention 的內(nèi)部結(jié)構(gòu)。然后，Self-Attention 層的輸出會(huì)流入前饋網(wǎng)絡(luò)。

解碼器也有編碼器中這兩層，但是它們之間還有一個(gè)注意力層（即 Encoder-Decoder Attention），其用來幫忙解碼器關(guān)注輸入句子的相關(guān)部分（類似于 seq2seq 模型中的注意力）

編碼器：self-attention層 + 前饋網(wǎng)絡(luò)FFN（Position-wise Feed Forward Network）

解碼器：self-attention層 + Encoder-Decoder Attention + 前饋網(wǎng)絡(luò)FFN（Position-wise Feed Forward Network）

3、引入張量

現(xiàn)在我們已經(jīng)了解了模型的主要組成部分，讓我們開始研究各種向量/張量，以及他們?cè)谶@些組成部分之間是如何流動(dòng)的，從而將輸入經(jīng)過已訓(xùn)練的模型轉(zhuǎn)換為輸出。

3.1 引入詞嵌入Embedding

和通常的 NLP 任務(wù)一樣，首先，我們使用詞嵌入算法（Embedding） 將每個(gè)詞轉(zhuǎn)換為一個(gè)詞向量。

在 Transformer 論文中，詞嵌入向量的維度是 512。

每個(gè)詞被嵌入到大小為 512 的向量中。我們將用這些簡(jiǎn)單的框代表這些向量。

詞嵌入僅發(fā)生在最底層的編碼器中。所有編碼器都會(huì)接收到一個(gè)大小為 512 的向量列表：

底部編碼器接收的是詞嵌入向量

其他編碼器接收的是上一個(gè)編碼器的輸出。

這個(gè)列表大小是我們可以設(shè)置的超參數(shù)——基本上這個(gè)參數(shù)就是訓(xùn)練數(shù)據(jù)集中最長(zhǎng)句子的長(zhǎng)度。

3.2 詞嵌入后編碼

對(duì)輸入序列完成嵌入操作后，每個(gè)詞都會(huì)流經(jīng)編碼器的兩層。

詞嵌入與編碼

接下來，我們將換一個(gè)更短的句子作為示例，來說明在編碼器的每個(gè)子層中發(fā)生了什么。

上面我們提到，編碼器會(huì)接收一個(gè)向量作為輸入。編碼器首先將這些向量傳遞到 Self-Attention 層，然后傳遞到前饋網(wǎng)絡(luò)，最后將輸出傳遞到下一個(gè)編碼器。

編碼器揭秘

4、Self-Attention（自注意力）

4.1 Self-Attention概覽

首先我們通過一個(gè)例子，來對(duì) Self-Attention 有一個(gè)直觀的認(rèn)識(shí)。假如我們要翻譯下面這個(gè)句子：

The?animal?didn’t?cross?the?street?because?it?was?too?tired

這個(gè)句子中的 it 指的是什么？是指 animal 還是 street ？對(duì)人來說，這是一個(gè)簡(jiǎn)單的問題，但是算法來說卻不那么簡(jiǎn)單。

當(dāng)模型在處理 it 時(shí)，Self-Attention 機(jī)制使其能夠?qū)?it 和 animal 關(guān)聯(lián)起來。

當(dāng)模型處理每個(gè)詞（輸入序列中的每個(gè)位置）時(shí)，Self-Attention 機(jī)制使得模型不僅能夠關(guān)注當(dāng)前位置的詞，而且能夠關(guān)注句子中其他位置的詞，從而可以更好地編碼這個(gè)詞。

如果你熟悉循環(huán)神經(jīng)網(wǎng)絡(luò) RNN，想想如何維護(hù)隱狀態(tài)，使 RNN 將已處理的先前詞/向量的表示與當(dāng)前正在處理的詞/向量進(jìn)行合并。Transformer 使用 Self-Attention 機(jī)制將其他詞的理解融入到當(dāng)前詞中。

圖注：當(dāng)我們?cè)诰幋a器 #5（堆棧中的頂部編碼器）中對(duì)單詞it進(jìn)行編碼時(shí)，有一部分注意力集中在The animal上，并將它們的部分信息融入到it的編碼中。

4.2 Self-Attention機(jī)制

下面我們來看一下Self-Attention的具體機(jī)制。其基本結(jié)構(gòu)如圖所示：

Scaled Dot-Product Attention（縮放點(diǎn)積注意力）

對(duì)于 Self Attention 來講，Q（Query），K（Key）和 V（Value） 三個(gè)矩陣均來自同一輸入，并按照以下步驟計(jì)算：

首先計(jì)算 Q 和 K 之間的點(diǎn)積，為了防止其結(jié)果過大，會(huì)除以；其中為 Key 向量的維度。

然后利用Softmax操作將其結(jié)果歸一化為概率分布，再乘以矩陣 V 就得到權(quán)重求和的表示。

整個(gè)計(jì)算過程可以表示為：

為了更好的理解 Self-Attention，下面我們通過具體的例子進(jìn)行詳細(xì)說明。

4.3 Self-Attention詳解

下面通過一個(gè)例子，讓我們看一下如何使用向量計(jì)算 Self-Attention。計(jì)算Self-Attention的步驟如下：

第 1 步：對(duì)編碼器的每個(gè)輸入向量（在本例中，即每個(gè)詞的詞向量）創(chuàng)建三個(gè)向量：

Query 向量

Key 向量

Value 向量

它們是通過詞向量分別和3個(gè)矩陣相乘得到的，這3個(gè)矩陣通過訓(xùn)練獲得。

請(qǐng)注意，這些向量的維數(shù)小于詞向量的維數(shù)。新向量的維數(shù)為 64，而 embedding 和編碼器輸入/輸出向量的維數(shù)為 512。

新向量不一定非要更小，這是為了使多頭注意力計(jì)算保持一致的結(jié)構(gòu)性選擇。

上圖中，乘以權(quán)重矩陣得到，即與該單詞關(guān)聯(lián)的Query向量。

最終會(huì)為輸入句子中的每個(gè)詞創(chuàng)建一個(gè) Query，一個(gè) Key 和一個(gè) Value 向量

什么是 Query，Key 和 Value 向量？它們是一種抽象，對(duì)于注意力的計(jì)算和思考非常有用。繼續(xù)閱讀下面的注意力計(jì)算過程，你將了解這些向量所扮演的角色。

第 2 步：計(jì)算注意力分?jǐn)?shù)。

假設(shè)我們正在計(jì)算這個(gè)例子中第一個(gè)詞 Thinking 的自注意力。我們需要根據(jù) Thinking 這個(gè)詞，對(duì)句子中的每個(gè)詞都計(jì)算一個(gè)分?jǐn)?shù)。這些分?jǐn)?shù)決定了我們?cè)诰幋a Thinking 這個(gè)詞時(shí)，需要對(duì)句子中其他位置的每個(gè)詞放置多少的注意力。

這些分?jǐn)?shù)，是通過計(jì)算 Thinking 的 Query 向量和需要評(píng)分的詞的Key向量的點(diǎn)積得到的。如果我們計(jì)算句子中第一個(gè)位置詞的注意力分?jǐn)?shù)，則第一個(gè)分?jǐn)?shù)是和的乘=點(diǎn)積，第二個(gè)分?jǐn)?shù)是和的點(diǎn)積。

第 3 步：將每個(gè)分?jǐn)?shù)除以；其中為 Key 向量的維度。

目的是在反向傳播時(shí)，求梯度更加穩(wěn)定。實(shí)際上，你也可以除以其他數(shù)。

第 4 步：將這些分?jǐn)?shù)進(jìn)行 Softmax 操作。Softmax 將分?jǐn)?shù)進(jìn)行歸一化處理，使得它們都為正數(shù)并且和為1。

Softmax操作

這些 Softmax 分?jǐn)?shù)決定了在編碼當(dāng)前位置的詞時(shí)，對(duì)所有位置的詞分別有多少的注意力。很明顯，當(dāng)前位置的詞匯有最高的分?jǐn)?shù)，但有時(shí)注意一下與當(dāng)前位置的詞相關(guān)的詞是很有用的。

第 5 步：將每個(gè) Softmax 分?jǐn)?shù)分別與每個(gè) Value 向量相乘。

這種做法背后的直覺理解是：對(duì)于分?jǐn)?shù)高的位置，相乘后的值就越大，我們把更多的注意力放在它們身上；對(duì)于分?jǐn)?shù)低的位置，相乘后的值就越小，這些位置的詞可能是相關(guān)性不大，我們就可以忽略這些位置的詞。

越大越重視

第 6 步：將加權(quán) Value 向量（即上一步求得的向量）求和。這樣就得到了自注意力層在這個(gè)位置的輸出。

self-attention完整過程

這樣就完成了自注意力的計(jì)算。生成的向量會(huì)輸入到前饋網(wǎng)絡(luò)中。但是在實(shí)際實(shí)現(xiàn)中，此計(jì)算是以矩陣形式進(jìn)行，以便實(shí)現(xiàn)更快的處理速度。下面我們來看看如何使用矩陣計(jì)算。

4.4 使用矩陣計(jì)算 Self-Attention

第一步：計(jì)算Query、Key和Value矩陣。

首先將所有詞向量放到一個(gè)矩陣X中，然后分別和3個(gè)我們訓(xùn)練過的權(quán)重矩陣（）相乘，即得到矩陣。

計(jì)算QKV矩陣

矩陣 X 中的每一行，表示輸入句子中的每一個(gè)詞的詞向量（長(zhǎng)度為 512，在圖中為 4 個(gè)方框）

矩陣Q、K和V 中的每一行，分別表示Query向量，Key向量和Value 向量（它們的長(zhǎng)度都為64，在圖中為3個(gè)方框）。

第2步：計(jì)算自注意力。由于這里使用了矩陣進(jìn)行計(jì)算，可以將前面的第 2 步到第 6 步壓縮為一步。

矩陣形式的自注意力計(jì)算

5、多頭注意力機(jī)制（Multi-head Attention）

5.1 多頭注意力機(jī)制架構(gòu)

在Transformer論文中，通過添加一種多頭注意力機(jī)制，進(jìn)一步完善了自注意力層。具體做法：

首先，通過個(gè)不同的線性變換對(duì)Query、Key 和 Value 進(jìn)行映射；

然后，將不同的 Attention 拼接起來；

最后，再進(jìn)行一次線性變換。

基本結(jié)構(gòu)如圖所示：

每一組注意力用于將輸入映射到不同的子表示空間，這使得模型可以在不同子表示空間中關(guān)注不同的位置。整個(gè)計(jì)算過程可表示為：

其中：、、和

在論文中，指定h=8，也就是使用8個(gè)注意力頭，和。

在多頭注意力下，我們?yōu)槊拷M注意力單獨(dú)維護(hù)不同的Query、Key 和 Value 權(quán)重矩陣，從而得到不同的 Query、Key和Value 矩陣。

如前所述，我們將乘以矩陣，得到Query、Key和Value矩陣。

按照上面的方法，使用不同的權(quán)重矩陣進(jìn)行 8 次自注意力計(jì)算，就可以得到 8 個(gè)不同的矩陣。

接下來就有點(diǎn)麻煩了。因?yàn)榍梆伾窠?jīng)網(wǎng)絡(luò)層接收的是 1 個(gè)矩陣（每個(gè)詞的詞向量），而不是上面的 8 個(gè)矩陣。因此，我們需要一種方法將這 8 個(gè)矩陣整合為一個(gè)矩陣。具體方法如下：

把8個(gè)矩陣拼接起來

把拼接后的矩陣和另一個(gè)權(quán)重矩陣相乘

得到最終的矩陣，這個(gè)矩陣包含了所有注意力頭的信息，這個(gè)矩陣會(huì)輸入到FFN層。

5.2 Multi-head Attention總結(jié)

這差不多就是多頭注意力的全部?jī)?nèi)容了。下面將所有內(nèi)容放到一張圖中，以便我們可以統(tǒng)一查看：

現(xiàn)在讓我們重新回顧一下前面的例子，看看在對(duì)示例句中的“it”進(jìn)行編碼時(shí)，不同的注意力頭關(guān)注的位置分別在哪：

當(dāng)我們對(duì)it進(jìn)行編碼時(shí)，一個(gè)注意力頭關(guān)注The animal，另一個(gè)注意力頭關(guān)注tired。從某種意義上來說，模型對(duì)it的表示，融入了animal和tired的部分表達(dá)。

Multi-head Attention 的本質(zhì)是：在參數(shù)總量保持不變的情況下，將同樣的Query，Key，Value 映射到原來的高維空間的不同子空間中進(jìn)行Attention的計(jì)算，在最后一步再合并不同子空間中的Attention信息。

這樣降低了計(jì)算每個(gè) head 的 Attention 時(shí)每個(gè)向量的維度，在某種意義上防止了過擬合。

由于 Attention 在不同子空間中有不同的分布，Multi-head Attention 實(shí)際上是尋找了序列之間不同角度的關(guān)聯(lián)關(guān)系，并在最后拼接這一步驟中，將不同子空間中捕獲到的關(guān)聯(lián)關(guān)系再綜合起來。

6、位置前饋網(wǎng)絡(luò)（Position-wise Feed-Forward Networks）

位置前饋網(wǎng)絡(luò)就是一個(gè)全連接前饋網(wǎng)絡(luò)，每個(gè)位置的詞都單獨(dú)經(jīng)過這個(gè)完全相同的前饋神經(jīng)網(wǎng)絡(luò)。

其由兩個(gè)線性變換組成，即兩個(gè)全連接層組成，第一個(gè)全連接層的激活函數(shù)為 ReLU 激活函數(shù)?？梢员硎緸椋?/p>

在每個(gè)編碼器和解碼器中，雖然這個(gè)全連接前饋網(wǎng)絡(luò)結(jié)構(gòu)相同，但是不共享參數(shù)。整個(gè)前饋網(wǎng)絡(luò)的輸入和輸出維度都是，第一個(gè)全連接層的輸出和第二個(gè)全連接層的輸入維度為

7、殘差連接和層歸一化

編碼器結(jié)構(gòu)中有一個(gè)需要注意的細(xì)節(jié)：每個(gè)編碼器的每個(gè)子層（Self-Attention 層和 FFN 層）都有一個(gè)殘差連接，再執(zhí)行一個(gè)層標(biāo)準(zhǔn)化操作，整個(gè)計(jì)算過程可以表示為：

將向量和自注意力層的層標(biāo)準(zhǔn)化操作可視化，如下圖所示：

上面的操作也適用于解碼器的子層。假設(shè)一個(gè) Transformer 是由 2 層編碼器和 2 層解碼器組成，其如下圖所示：

為了方便進(jìn)行殘差連接，編碼器和解碼器中的所有子層和嵌入層的輸出維度需要保持一致，在 Transformer 論文中

8、位置編碼

到目前為止，我們所描述的模型中缺少一個(gè)東西：表示序列中詞順序的方法。為了解決這個(gè)問題，Transformer 模型為每個(gè)輸入的詞嵌入向量添加一個(gè)向量。

這些向量遵循模型學(xué)習(xí)的特定模式，有助于模型確定每個(gè)詞的位置，或序列中不同詞之間的距離。

如果我們假設(shè)詞嵌入向量的維度是 4，那么實(shí)際的位置編碼如下：

那么位置編碼向量到底遵循什么模式？其具體的數(shù)學(xué)公式如下：

其中表示位置，表示維度。上面的函數(shù)使得模型可以學(xué)習(xí)到之間的相對(duì)位置關(guān)系：任意位置的都可以被的線性函數(shù)表示：

在下圖中，我們將這些值進(jìn)行可視化。每一行對(duì)應(yīng)一個(gè)向量的位置編碼。所以第一行對(duì)應(yīng)于輸入序列中第一個(gè)詞的位置編碼。每一行包含 64 個(gè)值，每個(gè)值的范圍在 -1 和 1 之間

需要注意的是，官方提供的示例代碼（TensorFlow 1.x 版本中的 get_timing_signal_1d() 函數(shù)和 TensorFlow 2.x 版本中的 call() 函數(shù)）與 Transformer 論文中的方法稍微存在一定差異：

Transformer 論文中，sine 函數(shù)和 cosine 函數(shù)產(chǎn)生的值交織在一起；

而官方提供的代碼中，左半部分的值全是由 sine 函數(shù)產(chǎn)生的，右半部分的值全是由 cosine 函數(shù)產(chǎn)生的，然后將它們拼接起來。

官方代碼生成的位置編碼值的可視化圖如下：

這不是唯一一種生成位置編碼的方法。但這種方法的優(yōu)點(diǎn)是：可以擴(kuò)展到未知的序列長(zhǎng)度。例如，當(dāng)我們訓(xùn)練后的模型被要求翻譯一個(gè)句子，而這個(gè)句子的長(zhǎng)度大于訓(xùn)練集中所有句子的長(zhǎng)度。

9、解碼器Decoder

現(xiàn)在我們已經(jīng)介紹了編碼器的大部分概念，我們也了解了解碼器的組件的原理?，F(xiàn)在讓我們看下編碼器和解碼器是如何協(xié)同工作的。

通過上面的介紹，我們已經(jīng)了解第一個(gè)編碼器的輸入是一個(gè)序列，最后一個(gè)編碼器的輸出是一組注意力向量 Key 和 Value。這些向量將在每個(gè)解碼器的 Encoder-Decoder Attention 層被使用，這有助于解碼器把注意力集中在輸入序列的合適位置。

在完成了編碼階段后，我們開始解碼階段。解碼階段的每個(gè)時(shí)間步都輸出一個(gè)元素。

接下來會(huì)重復(fù)這個(gè)過程，直到輸出一個(gè)結(jié)束符，表示 Transformer 解碼器已完成其輸出。每一步的輸出都會(huì)在下一個(gè)時(shí)間步輸入到下面的第一個(gè)解碼器，解碼器像編碼器一樣將解碼結(jié)果顯示出來。就像我們處理編碼器輸入一樣，我們也為解碼器的輸入加上位置編碼，來指示每個(gè)詞的位置。

Encoder-Decoder Attention 層的工作原理和多頭自注意力機(jī)制類似。不同之處是：Encoder-Decoder Attention 層使用前一層的輸出構(gòu)造 Query 矩陣，而 Key 和 Value 矩陣來自于編碼器棧的輸出。

10、掩碼Mask

Mask 表示掩碼，它對(duì)某些值進(jìn)行掩蓋，使其在參數(shù)更新時(shí)不產(chǎn)生效果。Transformer 模型里面涉及兩種 mask，分別是 Padding Mask 和 Sequence Mask。

Padding Mask 在所有的 scaled dot-product attention 里面都需要用到

而Sequence Mask 只有在解碼器 Decoder 的 Self-Attention 里面用到。

10.1 Padding Mask

什么是 Padding mask 呢？因?yàn)槊總€(gè)批次輸入序列的長(zhǎng)度是不一樣的，所以我們要對(duì)輸入序列進(jìn)行對(duì)齊。

具體來說：就是在較短的序列后面填充 0（但是如果輸入的序列太長(zhǎng)，則是截?cái)?，把多余的直接舍棄）。因?yàn)檫@些填充的位置，其實(shí)是沒有什么意義的，所以我們的 Attention 機(jī)制不應(yīng)該把注意力放在這些位置上，所以我們需要進(jìn)行一些處理。

具體的做法：把這些位置的值加上一個(gè)非常大的負(fù)數(shù)（負(fù)無窮），這樣的話，經(jīng)過Softmax 后，這些位置的概率就會(huì)接近0。

10.2 Sequence Mask

Sequence Mask是為了使得 Decoder 不能看見未來的信息。也就是對(duì)于一個(gè)序列，在時(shí)刻，我們的解碼輸出應(yīng)該只能依賴于時(shí)刻之前的輸出，而不能依賴之后的輸出。因?yàn)槲覀冃枰胍粋€(gè)辦法，把之后的信息給隱藏起來。

具體的做法：產(chǎn)生一個(gè)上三角矩陣，上三角的值全為0。把這個(gè)矩陣作用在每個(gè)序列上，就可以達(dá)到我們的目的。

總結(jié)：對(duì)于Decoder的Self-Attention，里面使用到的scaled dot-product attention，同時(shí)需要Padding Mask 和Sequence Mask，具體實(shí)現(xiàn)就是兩個(gè)Mask相加。其他情況下，只需要Padding Mask。

11、最后的線性層和 Softmax 層

解碼器棧的輸出是一個(gè) float向量。我們?cè)趺窗堰@個(gè)向量轉(zhuǎn)換為一個(gè)詞呢？通過一個(gè)線性層再加上一個(gè)Softmax層實(shí)現(xiàn)。

11.1 線性層

線性層是一個(gè)簡(jiǎn)單的全連接神經(jīng)網(wǎng)絡(luò)，其將解碼器棧的輸出向量映射到一個(gè)更長(zhǎng)的向量，這個(gè)向量被稱為logits向量。

11.2 Softmax層

現(xiàn)在假設(shè)我們的模型有 10000 個(gè)英文單詞（模型的輸出詞匯表）。因此 logits 向量有 10000 個(gè)數(shù)字，每個(gè)數(shù)表示一個(gè)單詞的分?jǐn)?shù)。

然后，Softmax 層會(huì)把這些分?jǐn)?shù)轉(zhuǎn)換為概率（把所有的分?jǐn)?shù)轉(zhuǎn)換為正數(shù)，并且加起來等于 1）。最后選擇最高概率所對(duì)應(yīng)的單詞，作為這個(gè)時(shí)間步的輸出。

12、嵌入層和最后的線性層

在 Transformer 論文，提到一個(gè)細(xì)節(jié)：編碼組件和解碼組件中的嵌入層，以及最后的線性層共享權(quán)重矩陣。

需要注意的是：在嵌入層中，會(huì)將這個(gè)共享權(quán)重矩陣乘以

13、正則化操作

為了提高 Transformer 模型的性能，在訓(xùn)練過程中，使用了以下的正則化操作：

Dropout。對(duì)編碼器和解碼器的每個(gè)子層的輸出使用Dropout 操作，是在進(jìn)行殘差連接和層歸一化之前。詞嵌入向量和位置編碼向量執(zhí)行相加操作后，執(zhí)行Dropout操作。Transformer 論文中提供的參數(shù)

Label Smoothing(標(biāo)簽平滑)。Transformer論文中提供的參數(shù)是。

編輯：黃飛

閱讀全文

解碼器(42967) 解碼器(42967)
編碼器(141824) 編碼器(141824)
深度學(xué)習(xí)(124080) 深度學(xué)習(xí)(124080)
Transformer(6859) Transformer(6859)
rnn(7319) rnn(7319)

評(píng)論

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實(shí)現(xiàn)方案

評(píng)論