chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

神經(jīng)編碼器-解碼器模型的歷史

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-06-20 15:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

基于 transformer 的編碼器-解碼器模型是 表征學(xué)習(xí) 和 模型架構(gòu) 這兩個(gè)領(lǐng)域多年研究成果的結(jié)晶。本文簡要介紹了神經(jīng)編碼器-解碼器模型的歷史,更多背景知識(shí),建議讀者閱讀由 Sebastion Ruder 撰寫的這篇精彩 博文。此外,建議讀者對(duì) 自注意力 (self-attention) 架構(gòu) 有一個(gè)基本了解,可以閱讀 Jay Alammar 的 這篇博文 復(fù)習(xí)一下原始 transformer 模型。

本文分 4 個(gè)部分:

背景 - 簡要回顧了神經(jīng)編碼器-解碼器模型的歷史,重點(diǎn)關(guān)注基于 RNN 的模型。

編碼器-解碼器 - 闡述基于 transformer 的編碼器-解碼器模型,并闡述如何使用該模型進(jìn)行推理。

編碼器 - 闡述模型的編碼器部分。

解碼器 - 闡述模型的解碼器部分。

每個(gè)部分都建立在前一部分的基礎(chǔ)上,但也可以單獨(dú)閱讀。這篇分享是最后一部分 解碼器。

解碼器

如 編碼器-解碼器 部分所述, 基于 transformer 的解碼器定義了給定上下文編碼序列條件下目標(biāo)序列的條件概率分布:

根據(jù)貝葉斯法則,在給定上下文編碼序列和每個(gè)目標(biāo)變量的所有前驅(qū)目標(biāo)向量的條件下,可將上述分布分解為每個(gè)目標(biāo)向量的條件分布的乘積:

我們首先了解一下基于 transformer 的解碼器如何定義概率分布?;?transformer 的解碼器由很多 解碼器模塊 堆疊而成,最后再加一個(gè)線性層 (即 “LM 頭”)。這些解碼器模塊的堆疊將上下文相關(guān)的編碼序列 和每個(gè)目標(biāo)向量的前驅(qū)輸入 (這里 為 BOS) 映射為目標(biāo)向量的編碼序列 。然后,“LM 頭”將目標(biāo)向量的編碼序列 映射到 logit 向量序列 , 而每個(gè) logit 向量 的維度即為詞表的詞匯量。這樣,對(duì)于每個(gè) ,其在整個(gè)詞匯表上的概率分布可以通過對(duì) 取 softmax 獲得。公式如下:

“LM 頭” 即為詞嵌入矩陣的轉(zhuǎn)置, 即 。直觀上來講,這意味著對(duì)于所有 “LM 頭” 層會(huì)將 與詞匯表 中的所有詞嵌入一一比較,輸出的 logit 向量 即表示 與每個(gè)詞嵌入之間的相似度。Softmax 操作只是將相似度轉(zhuǎn)換為概率分布。對(duì)于每個(gè) ,以下等式成立:

總結(jié)一下,為了對(duì)目標(biāo)向量序列 的條件分布建模,先在目標(biāo)向量 前面加上特殊的 向量 ( 即 ),并將其與上下文相關(guān)的編碼序列 一起映射到 logit 向量序列 。然后,使用 softmax 操作將每個(gè) logit 目標(biāo)向量 轉(zhuǎn)換為目標(biāo)向量 的條件概率分布。最后,將所有目標(biāo)向量的條件概率 相乘得到完整目標(biāo)向量序列的條件概率:

與基于 transformer 的編碼器不同,在基于 transformer 的解碼器中,其輸出向量 應(yīng)該能很好地表征 下一個(gè) 目標(biāo)向量 (即 ),而不是輸入向量本身 (即 )。此外,輸出向量 應(yīng)基于編碼器的整個(gè)輸出序列 。為了滿足這些要求,每個(gè)解碼器塊都包含一個(gè) 單向自注意層,緊接著是一個(gè) 交叉注意層,最后是兩個(gè)前饋層。單向自注意層將其每個(gè)輸入向量 僅與其前驅(qū)輸入向量 (其中 ,且 ) 相關(guān)聯(lián),來模擬下一個(gè)目標(biāo)向量的概率分布。交叉注意層將其每個(gè)輸入向量 與編碼器輸出的所有向量 相關(guān)聯(lián),來根據(jù)編碼器輸入預(yù)測(cè)下一個(gè)目標(biāo)向量的概率分布。

好,我們?nèi)砸杂⒄Z到德語翻譯為例可視化一下 基于 transformer 的解碼器。

22c0f430-0c1f-11ee-962d-dac502259ad0.png

我們可以看到解碼器將 : “BOS”、“Ich”、“will”、“ein”、“Auto”、“kaufen” (圖中以淺紅色顯示) 和 “I”、“want”、“to”、“buy”、“a”、“car”、“EOS” ( 即 (圖中以深綠色顯示)) 映射到 logit 向量 (圖中以深紅色顯示)。

因此,對(duì)每個(gè) 使用 softmax 操作可以定義下列條件概率分布:

總條件概率如下:

其可表示為以下乘積形式:

圖右側(cè)的紅框顯示了前三個(gè)目標(biāo)向量 、、 在一個(gè)解碼器模塊中的行為。下半部分說明了單向自注意機(jī)制,中間說明了交叉注意機(jī)制。我們首先關(guān)注單向自注意力。

與雙向自注意一樣,在單向自注意中, query 向量 (如下圖紫色所示), key 向量 (如下圖橙色所示),和 value 向量 (如下圖藍(lán)色所示) 均由輸入向量 (如下圖淺紅色所示) 映射而來。然而,在單向自注意力中,每個(gè) query 向量 僅 與當(dāng)前及之前的 key 向量進(jìn)行比較 (即 ) 并生成各自的 注意力權(quán)重 。這可以防止輸出向量 (如下圖深紅色所示) 包含未來向量 (,其中 且 ) 的任何信息 。與雙向自注意力的情況一樣,得到的注意力權(quán)重會(huì)乘以它們各自的 value 向量并加權(quán)求和。

我們將單向自注意力總結(jié)如下:

請(qǐng)注意, key 和 value 向量的索引范圍都是 而不是 , 是雙向自注意力中 key 向量的索引范圍。

下圖顯示了上例中輸入向量 的單向自注意力。

2308af6e-0c1f-11ee-962d-dac502259ad0.png

可以看出 只依賴于 和 。因此,單詞 “Ich” 的向量表征 ( 即 ) 僅與其自身及 “BOS” 目標(biāo)向量 ( 即 ) 相關(guān)聯(lián),而 與 “will” 的向量表征 ( 即 ) 相關(guān)聯(lián)。

那么,為什么解碼器使用單向自注意力而不是雙向自注意力這件事很重要呢?如前所述,基于 transformer 的解碼器定義了從輸入向量序列 到其 下一個(gè) 解碼器輸入的 logit 向量的映射,即 。舉個(gè)例子,輸入向量 = “Ich” 會(huì)映射到 logit 向量 ,并用于預(yù)測(cè)下一個(gè)輸入向量 。因此,如果 可以獲取后續(xù)輸入向量 的信息,解碼器將會(huì)簡單地復(fù)制向量 “will” 的向量表征 ( 即 ) 作為其輸出 ,并就這樣一直傳播到最后一層,所以最終的輸出向量 基本上就只對(duì)應(yīng)于 的向量表征,并沒有起到預(yù)測(cè)的作用。

這顯然是不對(duì)的,因?yàn)檫@樣的話,基于 transformer 的解碼器永遠(yuǎn)不會(huì)學(xué)到在給定所有前驅(qū)詞的情況下預(yù)測(cè)下一個(gè)詞,而只是對(duì)所有 ,通過網(wǎng)絡(luò)將目標(biāo)向量 復(fù)制到 。以下一個(gè)目標(biāo)變量本身為條件去定義下一個(gè)目標(biāo)向量,即從 中預(yù)測(cè) , 顯然是不對(duì)的。因此,單向自注意力架構(gòu)允許我們定義一個(gè) 因果的 概率分布,這對(duì)有效建模下一個(gè)目標(biāo)向量的條件分布而言是必要的。

太棒了!現(xiàn)在我們可以轉(zhuǎn)到連接編碼器和解碼器的層 - 交叉注意力 機(jī)制!

交叉注意層將兩個(gè)向量序列作為輸入: 單向自注意層的輸出 和編碼器的輸出 。與自注意力層一樣, query 向量 是上一層輸出向量 的投影。而 key 和 value 向量 、 是編碼器輸出向量 的投影。定義完 key 、value 和 query 向量后,將 query 向量 與 所有 key 向量進(jìn)行比較,并用各自的得分對(duì)相應(yīng)的 value 向量進(jìn)行加權(quán)求和。這個(gè)過程與 雙向 自注意力對(duì)所有 求 是一樣的。交叉注意力可以概括如下:

注意,key 和 value 向量的索引范圍是 ,對(duì)應(yīng)于編碼器輸入向量的數(shù)目。

我們用上例中輸入向量 來圖解一下交叉注意力機(jī)制。

232ae52a-0c1f-11ee-962d-dac502259ad0.png

我們可以看到 query 向量 (紫色)源自 (紅色),因此其依賴于單詞 "Ich" 的向量表征。然后將 query 向量 與對(duì)應(yīng)的 key 向量 (黃色)進(jìn)行比較,這里的 key 向量對(duì)應(yīng)于編碼器對(duì)其輸入 = "I want to buy a car EOS" 的上下文相關(guān)向量表征。這將 "Ich" 的向量表征與所有編碼器輸入向量直接關(guān)聯(lián)起來。最后,將注意力權(quán)重乘以 value 向量 (青綠色)并加上輸入向量 最終得到輸出向量 (深紅色)。

所以,直觀而言,到底發(fā)生了什么?每個(gè)輸出向量 是由所有從編碼器來的 value 向量( )的加權(quán)和與輸入向量本身 相加而得(參見上圖所示的公式)。其關(guān)鍵思想是: 來自解碼器的 的 query 投影與 來自編碼器的 越相關(guān),其對(duì)應(yīng)的 對(duì)輸出的影響越大。

酷!現(xiàn)在我們可以看到這種架構(gòu)的每個(gè)輸出向量 取決于其來自編碼器的輸入向量 及其自身的輸入向量 。這里有一個(gè)重要的點(diǎn),在該架構(gòu)中,雖然輸出向量 依賴來自編碼器的輸入向量 ,但其完全獨(dú)立于該向量的數(shù)量 。所有生成 key 向量 和 value 向量 的投影矩陣 和 都是與 無關(guān)的,所有 共享同一個(gè)投影矩陣。且對(duì)每個(gè) ,所有 value 向量 被加權(quán)求和至一個(gè)向量。至此,關(guān)于為什么基于 transformer 的解碼器沒有遠(yuǎn)程依賴問題而基于 RNN 的解碼器有這一問題的答案已經(jīng)很顯然了。因?yàn)槊總€(gè)解碼器 logit 向量 直接 依賴于每個(gè)編碼后的輸出向量,因此比較第一個(gè)編碼輸出向量和最后一個(gè)解碼器 logit 向量只需一次操作,而不像 RNN 需要很多次。

總而言之,單向自注意力層負(fù)責(zé)基于當(dāng)前及之前的所有解碼器輸入向量建模每個(gè)輸出向量,而交叉注意力層則負(fù)責(zé)進(jìn)一步基于編碼器的所有輸入向量建模每個(gè)輸出向量。

為了驗(yàn)證我們對(duì)該理論的理解,我們繼續(xù)上面編碼器部分的代碼,完成解碼器部分。

詞嵌入矩陣 為每個(gè)輸入詞提供唯一的 上下文無關(guān) 向量表示。這個(gè)矩陣通常也被用作 “LM 頭”,此時(shí) “LM 頭”可以很好地完成“編碼向量到 logit” 的映射。

與編碼器部分一樣,本文不會(huì)詳細(xì)解釋前饋層在基于 transformer 的模型中的作用。Yun 等 (2017) 的工作認(rèn)為前饋層對(duì)于將每個(gè)上下文相關(guān)向量 映射到所需的輸出空間至關(guān)重要,僅靠自注意力層無法完成。這里應(yīng)該注意,每個(gè)輸出詞元 對(duì)應(yīng)的前饋層是相同的。有關(guān)更多詳細(xì)信息,建議讀者閱讀論文。

fromtransformersimportMarianMTModel,MarianTokenizer
importtorch

tokenizer=MarianTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-de")
model=MarianMTModel.from_pretrained("Helsinki-NLP/opus-mt-en-de")
embeddings=model.get_input_embeddings()

#createtokenidsforencoderinput
input_ids=tokenizer("Iwanttobuyacar",return_tensors="pt").input_ids

#passinputtokenidstoencoder
encoder_output_vectors=model.base_model.encoder(input_ids,return_dict=True).last_hidden_state

#createtokenidsfordecoderinput
decoder_input_ids=tokenizer("Ichwillein",return_tensors="pt",add_special_tokens=False).input_ids

#passdecoderinputidsandencodedinputvectorstodecoder
decoder_output_vectors=model.base_model.decoder(decoder_input_ids,encoder_hidden_states=encoder_output_vectors).last_hidden_state

#deriveembeddingsbymultiplyingdecoderoutputswithembeddingweights
lm_logits=torch.nn.functional.linear(decoder_output_vectors,embeddings.weight,bias=model.final_logits_bias)

#changethedecoderinputslightly
decoder_input_ids_perturbed=tokenizer("Ichwilldas",return_tensors="pt",add_special_tokens=False).input_ids
decoder_output_vectors_perturbed=model.base_model.decoder(decoder_input_ids_perturbed,encoder_hidden_states=encoder_output_vectors).last_hidden_state
lm_logits_perturbed=torch.nn.functional.linear(decoder_output_vectors_perturbed,embeddings.weight,bias=model.final_logits_bias)

#compareshapeandencodingoffirstvector
print(f"Shapeofdecoderinputvectors{embeddings(decoder_input_ids).shape}.Shapeofdecoderlogits{lm_logits.shape}")

#comparevaluesofwordembeddingof"I"forinput_idsandperturbedinput_ids
print("Isencodingfor`Ich`equaltoitsperturbedversion?:",torch.allclose(lm_logits[0,0],lm_logits_perturbed[0,0],atol=1e-3))

輸出:

Shapeofdecoderinputvectorstorch.Size([1,5,512]).Shapeofdecoderlogitstorch.Size([1,5,58101])
Isencodingfor`Ich`equaltoitsperturbedversion?:True

我們首先比較解碼器詞嵌入層的輸出維度 embeddings(decoder_input_ids) (對(duì)應(yīng)于 ,這里 對(duì)應(yīng)于 BOS 且 "Ich will das" 被分為 4 個(gè)詞) 和 lm_logits (對(duì)應(yīng)于 ) 的維度。此外,我們還通過解碼器將單詞序列 “ Ich will ein” 和其輕微改編版 “ Ich will das” 與 encoder_output_vectors 一起傳遞給解碼器,以檢查對(duì)應(yīng)于 “Ich” 的第二個(gè) lm_logit 在僅改變輸入序列中的最后一個(gè)單詞 (“ein” -> “das”) 時(shí)是否會(huì)有所不同。

正如預(yù)期的那樣,解碼器輸入詞嵌入和 lm_logits 的輸出, 即 和 的最后一個(gè)維度不同。雖然序列長度相同 (=5),但解碼器輸入詞嵌入的維度對(duì)應(yīng)于 model.config.hidden_size,而 lm_logit 的維數(shù)對(duì)應(yīng)于詞匯表大小 model.config.vocab_size。其次,可以注意到,當(dāng)將最后一個(gè)單詞從 “ein” 變?yōu)?“das”, 的輸出向量的值不變。鑒于我們已經(jīng)理解了單向自注意力,這就不足為奇了。

最后一點(diǎn), 自回歸 模型,如 GPT2,與刪除了交叉注意力層的 基于 transformer 的解碼器模型架構(gòu)是相同的,因?yàn)榧冏曰貧w模型不依賴任何編碼器的輸出。因此,自回歸模型本質(zhì)上與 自編碼 模型相同,只是用單向注意力代替了雙向注意力。這些模型還可以在大量開放域文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,以在自然語言生成 (NLG) 任務(wù)中表現(xiàn)出令人印象深刻的性能。在 Radford 等 (2019) 的工作中,作者表明預(yù)訓(xùn)練的 GPT2 模型無需太多微調(diào)即可在多種 NLG 任務(wù)上取得達(dá)到 SOTA 或接近 SOTA 的結(jié)果。你可以在 此處 獲取所有 transformers 支持的 自回歸 模型的信息。

好了!至此,你應(yīng)該已經(jīng)很好地理解了 基于 transforemr 的編碼器-解碼器模型以及如何在 transformers 庫中使用它們。

非常感謝 Victor Sanh、Sasha Rush、Sam Shleifer、Oliver ?strand、Ted Moskovitz 和 Kristian Kyvik 提供的寶貴反饋。

附錄

如上所述,以下代碼片段展示了如何為 基于 transformer 的編碼器-解碼器模型編寫一個(gè)簡單的生成方法。在這里,我們使用 torch.argmax 實(shí)現(xiàn)了一個(gè)簡單的 貪心 解碼法來對(duì)目標(biāo)向量進(jìn)行采樣。

fromtransformersimportMarianMTModel,MarianTokenizer
importtorch

tokenizer=MarianTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-de")
model=MarianMTModel.from_pretrained("Helsinki-NLP/opus-mt-en-de")

#createidsofencodedinputvectors
input_ids=tokenizer("Iwanttobuyacar",return_tensors="pt").input_ids

#createBOStoken
decoder_input_ids=tokenizer("",add_special_tokens=False,return_tensors="pt").input_ids

assertdecoder_input_ids[0,0].item()==model.config.decoder_start_token_id,"`decoder_input_ids`shouldcorrespondto`model.config.decoder_start_token_id`"

#STEP1

#passinput_idstoencoderandtodecoderandpassBOStokentodecodertoretrievefirstlogit
outputs=model(input_ids,decoder_input_ids=decoder_input_ids,return_dict=True)

#getencodedsequence
encoded_sequence=(outputs.encoder_last_hidden_state,)
#getlogits
lm_logits=outputs.logits

#samplelasttokenwithhighestprob
next_decoder_input_ids=torch.argmax(lm_logits[:,-1:],axis=-1)

#concat
decoder_input_ids=torch.cat([decoder_input_ids,next_decoder_input_ids],axis=-1)

#STEP2

#reuseencoded_inputsandpassBOS+"Ich"todecodertosecondlogit
lm_logits=model(None,encoder_outputs=encoded_sequence,decoder_input_ids=decoder_input_ids,return_dict=True).logits

#samplelasttokenwithhighestprobagain
next_decoder_input_ids=torch.argmax(lm_logits[:,-1:],axis=-1)

#concatagain
decoder_input_ids=torch.cat([decoder_input_ids,next_decoder_input_ids],axis=-1)

#STEP3
lm_logits=model(None,encoder_outputs=encoded_sequence,decoder_input_ids=decoder_input_ids,return_dict=True).logits
next_decoder_input_ids=torch.argmax(lm_logits[:,-1:],axis=-1)
decoder_input_ids=torch.cat([decoder_input_ids,next_decoder_input_ids],axis=-1)

#let'sseewhatwehavegeneratedsofar!
print(f"Generatedsofar:{tokenizer.decode(decoder_input_ids[0],skip_special_tokens=True)}")

#Thiscanbewritteninaloopaswell.

輸出:

Generatedsofar:Ichwillein

在這個(gè)示例代碼中,我們準(zhǔn)確地展示了正文中描述的內(nèi)容。我們?cè)谳斎?“I want to buy a car” 前面加上 ,然后一起傳給編碼器-解碼器模型,并對(duì)第一個(gè) logit (對(duì)應(yīng)代碼中第一次出現(xiàn) lm_logits 的部分) 進(jìn)行采樣。這里,我們的采樣策略很簡單: 貪心地選擇概率最高的詞作為下一個(gè)解碼器輸入向量。然后,我們以自回歸方式將采樣得的解碼器輸入向量與先前的輸入一起傳遞給編碼器-解碼器模型并再次采樣。重復(fù) 3 次后,該模型生成了 “Ich will ein”。結(jié)果沒問題,開了個(gè)好頭。
責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3875

    瀏覽量

    140530
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3611

    瀏覽量

    51431
  • rnn
    rnn
    +關(guān)注

    關(guān)注

    0

    文章

    90

    瀏覽量

    7236

原文標(biāo)題:解碼器 | 基于 Transformers 的編碼器-解碼器模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    怎么理解真正的編碼器解碼器?

      在進(jìn)入關(guān)于編碼器解碼器的現(xiàn)實(shí)之前,讓我們對(duì)復(fù)用進(jìn)行簡要的思考。通常我們會(huì)在需要將一些輸入信號(hào)一次一個(gè)地加載到一個(gè)單獨(dú)負(fù)載的應(yīng)用程序中。選擇輸入信號(hào)中的一個(gè)輸入信號(hào)的過程稱為多路復(fù)用。這種操作
    發(fā)表于 09-01 17:48

    編碼器解碼器的區(qū)別是什么,編碼器用軟件還是硬件好

    編碼器指的是對(duì)視頻信號(hào)進(jìn)行壓縮,解碼器主要是將壓縮的視頻信號(hào)進(jìn)行解壓縮。目前做直播的很多都是采用的編碼器,客戶端可以采用解碼器或軟件播放
    發(fā)表于 08-02 17:23 ?3.5w次閱讀

    基于結(jié)構(gòu)感知的雙編碼器解碼器模型

    ,在常見端到端翻譯模型的基礎(chǔ)上,利用代碼抽象語法樹將源代碼的結(jié)構(gòu)信息嵌入到編碼器解碼器翻譯模型中,提出一種基于結(jié)構(gòu)感知的雙編碼器
    發(fā)表于 05-26 15:38 ?5次下載

    PyTorch教程10.6之編碼器-解碼器架構(gòu)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程10.6之編碼器-解碼器架構(gòu).pdf》資料免費(fèi)下載
    發(fā)表于 06-05 18:12 ?0次下載
    PyTorch教程10.6之<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b>架構(gòu)

    PyTorch教程-10.6. 編碼器-解碼器架構(gòu)

    -解碼器架構(gòu)(圖 10.6.1),它由兩個(gè)主要組件組成:一個(gè) 編碼器,它以可變長度序列作為輸入,以及一個(gè) 解碼器,作為一個(gè)條件語言模型,接收編碼
    的頭像 發(fā)表于 06-05 15:44 ?1316次閱讀
    PyTorch教程-10.6. <b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b>架構(gòu)

    基于transformer的編碼器-解碼器模型的工作原理

    與基于 RNN 的編碼器-解碼器模型類似,基于 transformer 的編碼器-解碼器模型由一
    發(fā)表于 06-11 14:17 ?3021次閱讀
    基于transformer的<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b><b class='flag-5'>模型</b>的工作原理

    基于 RNN 的解碼器架構(gòu)如何建模

    ? Vaswani 等人在其名作 Attention is all you need 中首創(chuàng)了?基于 transformer?的編碼器-解碼器模型,如今已成為自然語言處理 (natural
    的頭像 發(fā)表于 06-12 17:08 ?1401次閱讀
    基于 RNN 的<b class='flag-5'>解碼器</b>架構(gòu)如何建模

    基于 Transformers 的編碼器-解碼器模型

    基于 transformer 的編碼器-解碼器模型是 表征學(xué)習(xí) 和 模型架構(gòu) 這兩個(gè)領(lǐng)域多年研究成果的結(jié)晶。本文簡要介紹了神經(jīng)
    的頭像 發(fā)表于 06-16 16:53 ?1489次閱讀
    基于 Transformers 的<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b><b class='flag-5'>模型</b>

    詳解編碼器解碼器電路

    編碼器解碼器是組合邏輯電路,在其中,主要借助布爾代數(shù)實(shí)現(xiàn)組合邏輯。今天就大家了解一下編碼器解碼器電路,分別從定義,工作原理,應(yīng)用,真值表幾個(gè)方面講述一下。
    的頭像 發(fā)表于 07-14 09:07 ?4525次閱讀
    詳解<b class='flag-5'>編碼器</b>和<b class='flag-5'>解碼器</b>電路

    視頻編碼器解碼器的應(yīng)用方案

    視頻解碼器和視頻編碼器在數(shù)字通訊、音視頻壓縮領(lǐng)域有著廣泛的應(yīng)用。視頻編碼器作為視頻源的發(fā)送端,若接收端如果是?PC?機(jī)或顯示設(shè)備就需要通過解碼器進(jìn)行
    的頭像 發(fā)表于 08-14 14:38 ?1867次閱讀
    視頻<b class='flag-5'>編碼器</b>與<b class='flag-5'>解碼器</b>的應(yīng)用方案

    YXC丨視頻編碼器解碼器的應(yīng)用方案

    視頻解碼器和視頻編碼器是數(shù)字信號(hào)處理中常用的設(shè)備,它們?cè)跀?shù)據(jù)的傳輸和轉(zhuǎn)換中發(fā)揮著重要作用。
    的頭像 發(fā)表于 08-23 09:40 ?1075次閱讀
    YXC丨視頻<b class='flag-5'>編碼器</b>與<b class='flag-5'>解碼器</b>的應(yīng)用方案

    視頻編碼器解碼器的應(yīng)用方案

    視頻解碼器和視頻編碼器是數(shù)字信號(hào)處理中常用的設(shè)備,它們?cè)跀?shù)據(jù)的傳輸和轉(zhuǎn)換中發(fā)揮著重要作用。
    的頭像 發(fā)表于 08-28 11:31 ?999次閱讀
    視頻<b class='flag-5'>編碼器</b>與<b class='flag-5'>解碼器</b>的應(yīng)用方案

    信路達(dá) 解碼器/編碼器 XD74LS48數(shù)據(jù)手冊(cè)

    解碼器/編碼器?DIP164.75~5.25V封裝:DIP16_19.3X6.4MM
    發(fā)表于 08-19 15:57 ?2次下載

    編碼器好壞怎么判斷,編碼器原理

    (Autoencoder),它是一種無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型。自動(dòng)編碼器由兩部分組成:編碼器解碼器。
    的頭像 發(fā)表于 01-23 10:58 ?2889次閱讀

    編碼器的原理和類型

    編碼器(Autoencoder, AE)是一種無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,它通過編碼器解碼器的組合,實(shí)現(xiàn)了對(duì)輸入數(shù)據(jù)的壓縮和重構(gòu)。自
    的頭像 發(fā)表于 07-09 11:25 ?3022次閱讀