Encoder-Decoder 和 Seq2Seq
機(jī)器翻譯、對(duì)話機(jī)器人、詩(shī)詞生成、代碼補(bǔ)全、文章摘要(文本 - 文本)
「文本 - 文本」 是最典型的應(yīng)用,其輸入序列和輸出序列的長(zhǎng)度可能會(huì)有較大的差異。
Google 發(fā)表的用Seq2Seq做機(jī)器翻譯的論文《Sequence to Sequence Learning with Neural Networks》
語(yǔ)音識(shí)別(音頻 - 文本)
語(yǔ)音識(shí)別也有很強(qiáng)的序列特征,比較適合 Encoder-Decoder 模型。
Google 發(fā)表的使用Seq2Seq做語(yǔ)音識(shí)別的論文《A Comparison of Sequence-to-Sequence Models for Speech Recognition》
圖像描述生成(圖片 - 文本)
通俗的講就是「看圖說(shuō)話」,機(jī)器提取圖片特征,然后用文字表達(dá)出來(lái)。這個(gè)應(yīng)用是計(jì)算機(jī)視覺(jué)和 NLP 的結(jié)合。
圖像描述生成的論文《Sequence to Sequence – Video to Text》
Encoder-Decoder 的缺陷
上文提到:Encoder(編碼器)和 Decoder(解碼器)之間只有一個(gè)「向量 c」來(lái)傳遞信息,且 c 的長(zhǎng)度固定。
為了便于理解,我們類(lèi)比為「壓縮-解壓」的過(guò)程:
將一張 800X800 像素的圖片壓縮成 100KB,看上去還比較清晰。再將一張 3000X3000 像素的圖片也壓縮到 100KB,看上去就模糊了。
Encoder-Decoder 就是類(lèi)似的問(wèn)題:當(dāng)輸入信息太長(zhǎng)時(shí),會(huì)丟失掉一些信息。
Attention 解決信息丟失問(wèn)題
Attention 機(jī)制就是為了解決「信息過(guò)長(zhǎng),信息丟失」的問(wèn)題。
Attention 模型的特點(diǎn)是 Eecoder 不再將整個(gè)輸入序列編碼為固定長(zhǎng)度的「中間向量 C」 ,而是編碼成一個(gè)向量的序列。
這樣,在產(chǎn)生每一個(gè)輸出的時(shí)候,都能夠做到充分利用輸入序列攜帶的信息。而且這種方法在翻譯任務(wù)中取得了非常不錯(cuò)的成果。
審核編輯 黃昊宇
-
人工智能
+關(guān)注
關(guān)注
1813文章
49536瀏覽量
259364 -
nlp
+關(guān)注
關(guān)注
1文章
491瀏覽量
23118
發(fā)布評(píng)論請(qǐng)先 登錄
寧暢與與百度文心大模型展開(kāi)深度技術(shù)合作
龍芯中科與文心系列模型開(kāi)展深度技術(shù)合作
【米爾-全志T536開(kāi)發(fā)板試用體驗(yàn)】Wi-Fi連接測(cè)試體驗(yàn)
函數(shù)HAL_I2C_Slave_Seq_Transmit_IT和HAL_I2C_Slave_Seq_Receive_IT實(shí)現(xiàn)代碼里有處理DMA請(qǐng)求,這是出于什么考慮?
求助,關(guān)于STM32G070調(diào)用HAL_I2C_Mem_Read_IT測(cè)試疑問(wèn)求解
文丘里效應(yīng)方程的應(yīng)用
DLPLCR4500EVM打光結(jié)束后任然顯示Seq. Running, 并且pause與stop無(wú)法終止該狀態(tài)是怎么回事?
【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+第一章初體驗(yàn)
一文看懂電感、磁珠和零歐電阻的區(qū)別
ADP50調(diào)節(jié)了EN1和EN2同時(shí)接高電平,負(fù)電壓無(wú)法輸出怎么解決?
大語(yǔ)言模型開(kāi)發(fā)框架是什么
一文理解多模態(tài)大語(yǔ)言模型——下

一文看懂NLP里的模型框架 Encoder-Decoder和Seq2Seq
評(píng)論