chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大語言模型背后的Transformer,與CNN和RNN有何不同

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-12-25 08:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/李彎彎)近年來,隨著大語言模型的不斷出圈,Transformer這一概念也走進了大眾視野。Transformer是一種非常流行的深度學習模型,最早于2017年由谷歌(Google)研究團隊提出,主要用于處理自然語言。

2018年10月,Google發(fā)出一篇論文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,BERT模型橫空出世,并橫掃NLP領(lǐng)域11項任務的最佳成績。而在BERT中發(fā)揮重要作用的結(jié)構(gòu)就是Transformer,之后又相繼出現(xiàn)XLNET、roBERT等模型擊敗了BERT,但是他們的核心沒有變,仍然是Transformer。

與傳統(tǒng)CNN和RNN相比,Transformer計算效率更高

Transformer是一種基于注意力機制的序列模型,與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(RNN)和卷積神經(jīng)網(wǎng)絡(CNN)不同,Transformer僅使用自注意力機制(self-attention)來處理輸入序列和輸出序列,因此可以并行計算,極大地提高了計算效率。

自注意力機制是注意力機制的一個特例。注意力機制類似于人類的注意力,能夠根據(jù)任務的需要分配不同權(quán)重給輸入序列中的不同部分。自注意力機制則更像是一種“全知”的能力,系統(tǒng)可以同時關(guān)注輸入序列中的所有位置,而不受序列中位置的限制。

自注意力機制是Transformer的核心部分,它允許模型在處理序列時,將輸入序列中的每個元素與其他元素進行比較,以便在不同上下文中正確地處理每個元素。

Transformer模型由編碼器(Encoder)和解碼器(Decoder)兩部分組成。編碼器將輸入序列(例如一句話)轉(zhuǎn)化為一系列上下文表示向量(Contextualized Embedding),它由多個相同的層組成。每一層都由兩個子層組成,分別是自注意力層(Self-Attention Layer)和前饋全連接層(Feedforward Layer)。具體地,自注意力層將輸入序列中的每個位置與所有其他位置進行交互,以計算出每個位置的上下文表示向量。前饋全連接層則將每個位置的上下文表示向量映射到另一個向量空間,以捕捉更高級別的特征。

解碼器將編碼器的輸出和目標序列(例如翻譯后的句子)作為輸入,生成目標序列中每個位置的概率分布。解碼器由多個相同的層組成,每個層由三個子層組成,分別是自注意力層、編碼器-解碼器注意力層(Encoder-Decoder Attention Layer)和前饋全連接層。其中自注意力層和前饋全連接層的作用與編碼器相同,而編碼器-解碼器注意力層則將解碼器當前位置的輸入與編碼器的所有位置進行交互,以獲得與目標序列有關(guān)的信息。

Transformer在自然語言處理中廣泛應用,例如機器翻譯、文本摘要、語言生成、問答系統(tǒng)等領(lǐng)域。相比于傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(RNN)和卷積神經(jīng)網(wǎng)絡(CNN),Transformer的并行計算能力更強,處理長序列的能力更強,且可以直接對整個序列進行處理。

比如,在問答系統(tǒng)中,Transformer模型主要用于對問題和答案進行匹配,從而提供答案。具體而言,輸入序列為問題和答案,輸出為問題和答案之間的匹配分數(shù)。Transformer模型通過編碼器將問題和答案分別轉(zhuǎn)化為向量表示,然后通過Multi-Head Attention層計算問題和答案之間的注意力分布,最終得到匹配分數(shù)。

CNN和RNN的特點及應用領(lǐng)域

卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(Feedforward Neural Networks),是深度學習(deep learning)的代表算法之一 。卷積神經(jīng)網(wǎng)絡具有表征學習(representation learning)能力,能夠按其階層結(jié)構(gòu)對輸入信息進行平移不變分類(shift-invariant classification),因此也被稱為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(Shift-Invariant Artificial Neural Networks, SIANN)”。

卷積神經(jīng)網(wǎng)絡的研究始于二十世紀80至90年代,時間延遲網(wǎng)絡和LeNet-5是最早出現(xiàn)的卷積神經(jīng)網(wǎng)絡;在二十一世紀后,隨著深度學習理論的提出和數(shù)值計算設(shè)備的改進,卷積神經(jīng)網(wǎng)絡得到了快速發(fā)展,并被應用于計算機視覺、自然語言處理等領(lǐng)域 。

計算機視覺方面,卷積神經(jīng)網(wǎng)絡長期以來是圖像識別領(lǐng)域的核心算法之一,并在學習數(shù)據(jù)充足時有穩(wěn)定的表現(xiàn)。對于一般的大規(guī)模圖像分類問題,卷積神經(jīng)網(wǎng)絡可用于構(gòu)建階層分類器(hierarchical classifier),也可以在精細分類識別(fine-grained recognition)中用于提取圖像的判別特征以供其它分類器進行學習。對于后者,特征提取可以人為地將圖像的不同部分分別輸入卷積神經(jīng)網(wǎng)絡,也可以由卷積神經(jīng)網(wǎng)絡通過非監(jiān)督學習自行提取。

卷積神經(jīng)網(wǎng)絡在計算機視覺方面的應用還包括字符檢測(text detection)/字符識別(text recognition)/光學字符讀取、物體識別(object recognition)等,此外,在圖像語義分割(semantic segmentation)、場景分類(scene labeling)和圖像顯著度檢測(Visual Saliency Detection)等問題中也有應用,其表現(xiàn)被證實超過了很多使用特征工程的分類系統(tǒng)。

然而,由于受到窗口或卷積核尺寸的限制,無法很好地學習自然語言數(shù)據(jù)的長距離依賴和結(jié)構(gòu)化語法特征,卷積神經(jīng)網(wǎng)絡在自然語言處理(Natural Language Processing, NLP)中的應用要少于循環(huán)神經(jīng)網(wǎng)絡,且在很多問題中會在循環(huán)神經(jīng)網(wǎng)絡的構(gòu)架上進行設(shè)計,但也有一些卷積神經(jīng)網(wǎng)絡算法在多個NLP主題中取得成功。

循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)是一類以序列(sequence)數(shù)據(jù)為輸入,在序列的演進方向進行遞歸(recursion)且所有節(jié)點(循環(huán)單元)按鏈式連接的遞歸神經(jīng)網(wǎng)絡(recursive neural network)。

循環(huán)神經(jīng)網(wǎng)絡的研究始于二十世紀80-90年代,并在二十一世紀初發(fā)展為深度學習(deep learning)算法之一 ,其中雙向循環(huán)神經(jīng)網(wǎng)絡(Bidirectional RNN, Bi-RNN)和長短期記憶網(wǎng)絡(Long Short-Term Memory networks,LSTM)是常見的循環(huán)神經(jīng)網(wǎng)絡。

循環(huán)神經(jīng)網(wǎng)絡具有記憶性、參數(shù)共享并且圖靈完備(Turing completeness),因此在對序列的非線性特征進行學習時具有一定優(yōu)勢。循環(huán)神經(jīng)網(wǎng)絡在自然語言處理(Natural Language Processing, NLP),例如語音識別、語言建模、機器翻譯等領(lǐng)域有應用,也被用于各類時間序列預報。引入了卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)構(gòu)筑的循環(huán)神經(jīng)網(wǎng)絡可以處理包含序列輸入的計算機視覺問題。

RNN在NLP問題中有得到應用。在語音識別中,有研究人員使用L雙向STM對英語文集TIMIT進行語音識別,其表現(xiàn)超過了同等復雜度的隱馬爾可夫模型(Hidden Markov Model, HMM)和深度前饋神經(jīng)網(wǎng)絡。在語音合成領(lǐng)域,有研究人員將多個雙向LSTM相組合建立了低延遲的語音合成系統(tǒng),成功將英語文本轉(zhuǎn)化為接近真實的語音輸出 。RNN也被用于端到端文本-語音(Text-To-Speech, TTS)合成工具的開發(fā),例子包括Tacotron 、Merlin 等。RNN也被用于與自然語言處理有關(guān)的異常值檢測問題,例如社交網(wǎng)絡中虛假信息/賬號的檢測 。

RNN與卷積神經(jīng)網(wǎng)絡向結(jié)合的系統(tǒng)可被應用于在計算機視覺問題,例如在字符識別(text recognition)中,有研究使用卷積神經(jīng)網(wǎng)絡對包含字符的圖像進行特征提取,并將特征輸入LSTM進行序列標注 。對基于視頻的計算機視覺問題,例如行為認知(action recognition)中,RNN可以使用卷積神經(jīng)網(wǎng)絡逐幀提取的圖像特征進行學習。

總結(jié)

可以看到,Transformer以及CNN、RNN是不同的深度學習模型,Transformer是一種基于自注意力機制的特征提取網(wǎng)絡結(jié)構(gòu),主要用于自然語言處理領(lǐng)域。CNN是一種基于卷積層的特征提取網(wǎng)絡結(jié)構(gòu),主要用于圖像處理領(lǐng)域。RNN是一種基于循環(huán)層的特征提取網(wǎng)絡結(jié)構(gòu),用于自然語言處理,也用于計算機視覺。總體而言,因為使用自注意力機制(self-attention)來處理輸入序列和輸出序列,Transformer可以并行計算,相比之下計算效率大幅提升。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    355

    瀏覽量

    23232
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    154

    瀏覽量

    6798
  • rnn
    rnn
    +關(guān)注

    關(guān)注

    0

    文章

    91

    瀏覽量

    7287
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3432

    瀏覽量

    4947
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡結(jié)構(gòu),最早在自然語言處理里火起來。與卷積神經(jīng)網(wǎng)絡(CNN)或循環(huán)神經(jīng)網(wǎng)絡(RNN)不同,
    的頭像 發(fā)表于 11-19 18:17 ?1841次閱讀

    構(gòu)建CNN網(wǎng)絡模型并優(yōu)化的一般化建議

    通過實踐,本文總結(jié)了構(gòu)建CNN網(wǎng)絡模型并優(yōu)化的一般化建議,這些建議將會在構(gòu)建高準確率輕量級CNN神經(jīng)網(wǎng)絡模型方面提供幫助。 1)避免單層神經(jīng)網(wǎng)絡:我們清楚神經(jīng)網(wǎng)絡本身是需要不斷抽象出
    發(fā)表于 10-28 08:02

    自動駕駛中Transformer模型會取代深度學習嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學習”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?3886次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大<b class='flag-5'>模型</b>會取代深度學習嗎?

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學習領(lǐng)域正在經(jīng)歷一場翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?890次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    邊緣部署GenAI機遇與挑戰(zhàn)并存,NPU成破局關(guān)鍵

    過去十年里,人工智能 (AI) 和機器學習 (ML) 經(jīng)歷了重大變革——卷積神經(jīng)網(wǎng)絡 (CNN) 和循環(huán)神經(jīng)網(wǎng)絡 (RNN) 正在向Transformer和生成式人工智能 (GenAI) 過渡。這一
    發(fā)表于 03-20 10:57 ?464次閱讀
    邊緣部署GenAI機遇與挑戰(zhàn)并存,NPU成破局關(guān)鍵

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BE
    的頭像 發(fā)表于 03-17 15:32 ?7469次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計初衷是為了解決自然語言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?5693次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    transformer專用ASIC芯片Sohu說明

    的舊圖像模型,也不能運行CNNRNN或LSTM。 但對于transformer來說,Sohu是有史以來最快的芯片。 借助Llama 70B每秒超過50萬個token的吞吐量,Sohu
    的頭像 發(fā)表于 01-06 09:13 ?1654次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    語言模型管理的作用

    要充分發(fā)揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對語言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?560次閱讀

    【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙

    閱讀之旅。在翻開這本書之前,我對大模型的認知僅僅停留在它是一種強大的人工智能技術(shù),可以進行自然語言處理、圖像識別等任務。我知道像 ChatGPT 這樣的應用是基于大模型開發(fā)的,能夠與人類進行較為流暢
    發(fā)表于 12-24 13:10

    【「大模型啟示錄」閱讀體驗】對大模型更深入的認知

    內(nèi)容讓我對大模型技術(shù)的發(fā)展了更全面的認識。我意識到,大模型不僅僅是一些算法和代碼的堆砌,它們背后有著深刻的科技變革和產(chǎn)業(yè)競爭。 書中對大模型
    發(fā)表于 12-20 15:46

    【「大模型啟示錄」閱讀體驗】如何在客服領(lǐng)域應用大模型

    地選擇適合的模型。不同的模型具有不同的特點和優(yōu)勢。在客服領(lǐng)域,常用的模型包括循環(huán)神經(jīng)網(wǎng)絡(RNN)、長短時記憶網(wǎng)絡(LSTM)、門控循環(huán)單元(GRU)、
    發(fā)表于 12-17 16:53

    CNN, RNN, GNN和Transformer模型的統(tǒng)一表示和泛化誤差理論分析

    背景介紹 本文是基于我們之前的 RPN(Reconciled Polynomial Network)研究的后續(xù)工作。在此前的研究中,我們提出了 RPN 這一通用模型架構(gòu),其包含三個組件函數(shù):數(shù)據(jù)擴展
    的頭像 發(fā)表于 12-06 11:31 ?2124次閱讀
    <b class='flag-5'>CNN</b>, <b class='flag-5'>RNN</b>, GNN和<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的統(tǒng)一表示和泛化誤差理論分析

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?805次閱讀

    語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大
    的頭像 發(fā)表于 12-04 11:44 ?1018次閱讀