白皮書《Transformer-LS:用于語(yǔ)言和視覺處理的高效 Transformer》中提出了“長(zhǎng)-短 Transformer” (Transformer-LS),這是一種高效的 Transformer 架構(gòu),用于為語(yǔ)言和視覺任務(wù)模擬中具有線性復(fù)雜度的長(zhǎng)序列。
鑒于 Transformer 的模型在自然語(yǔ)言處理 (NLP) 和計(jì)算機(jī)視覺領(lǐng)域已經(jīng)取得了巨大的成功。這種模型可受益于自注意力模塊,后者既可捕獲詞元間的相鄰相關(guān)性和長(zhǎng)距離相關(guān)性,同時(shí)又能在現(xiàn)代硬件上高效擴(kuò)展。
然而,自注意力機(jī)制所消耗的時(shí)間和內(nèi)存與輸入長(zhǎng)度呈二次方關(guān)系,使其處理長(zhǎng)序列的成本非常高昂。許多語(yǔ)言和視覺任務(wù)能夠從長(zhǎng)序列建模中獲益。在 NLP 中,文檔級(jí)任務(wù)需要處理較長(zhǎng)的文章,而語(yǔ)言模型的性能往往隨序列長(zhǎng)度而增加。
在計(jì)算機(jī)視覺里,大量任務(wù)涉及高分辨率圖像。而這些圖像在使用 Transformer 模型處理前,會(huì)被轉(zhuǎn)換成圖像塊的長(zhǎng)序列。因此,設(shè)計(jì)一種能泛化到各種不同領(lǐng)域的長(zhǎng)序列建模的高效注意力機(jī)制至關(guān)重要。
一直以來(lái),業(yè)界提出了各種方法來(lái)減少完全注意力機(jī)制的二次方成本。但是,在語(yǔ)言和視覺領(lǐng)域都有良好應(yīng)用的高效注意力機(jī)制尚未得到深入研究。一類方法使用滑動(dòng)窗口和隨機(jī)稀疏模式等預(yù)定義模式對(duì)注意力矩陣進(jìn)行稀疏化處理。
這類方法使用強(qiáng)大的歸納偏置來(lái)改善計(jì)算性能和模型性能,但它們會(huì)限制自注意力層的能力,因?yàn)槊總€(gè)特定分詞器只能處理一個(gè)詞元子集。
另一類方法使用 low-rank 投影為輸入序列構(gòu)成低分辨率表示,但這類方法只能對(duì)特定的 NLP 任務(wù)有效。與稀疏注意力不同,這類方法允許每個(gè)分詞器處理整個(gè)輸入序列。但是,由于缺少高保真度詞元級(jí)信息,對(duì)于需要細(xì)粒度局部信息的任務(wù)(包括語(yǔ)言領(lǐng)域和視覺領(lǐng)域的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試)而言,這類方法的性能有時(shí)并不優(yōu)于完全注意力或稀釋注意力機(jī)制。
盡管高效 Transformer 的發(fā)展相當(dāng)迅速,一些提出的架構(gòu)只適用于雙向模型。基于 Transformer 的自回歸模型已經(jīng)在語(yǔ)言建模 、圖像合成 和文本轉(zhuǎn)圖像合成領(lǐng)域取得了巨大的成功。這些領(lǐng)域都涉及長(zhǎng)文本或高分辨率圖像。
因此,有必要設(shè)計(jì)一種同時(shí)適用于自回歸模型和雙向模型的高效 Transformer。
在白皮書《Transformer-LS:用于語(yǔ)言和視覺處理的高效 Transformer》中,研究把局部窗口注意力和新穎的長(zhǎng)距離注意力統(tǒng)一成單個(gè)高效注意力機(jī)制。展示這兩種注意力機(jī)制的互補(bǔ)效應(yīng),能在多種語(yǔ)言和視覺任務(wù)中為自回歸模型和雙向模型帶來(lái)優(yōu)異的效果。
原文標(biāo)題:白皮書 | 《Transformer-LS:用于語(yǔ)言和視覺處理的高效Transformer》
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1713瀏覽量
47329 -
Transformer
+關(guān)注
關(guān)注
0文章
153瀏覽量
6720
原文標(biāo)題:白皮書 | 《Transformer-LS:用于語(yǔ)言和視覺處理的高效Transformer》
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Aux-Think打破視覺語(yǔ)言導(dǎo)航任務(wù)的常規(guī)推理范式

?VLM(視覺語(yǔ)言模型)?詳細(xì)解析

全志視覺芯片V821接入DeepSeek和豆包視覺大模型
NaVILA:加州大學(xué)與英偉達(dá)聯(lián)合發(fā)布新型視覺語(yǔ)言模型
大語(yǔ)言模型開發(fā)語(yǔ)言是什么
基于視覺語(yǔ)言模型的導(dǎo)航框架VLMnav
使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)能力

串口屏支持哪些編程語(yǔ)言和開發(fā)環(huán)境?

自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的區(qū)別
MCU編程語(yǔ)言和開發(fā)環(huán)境介紹
C語(yǔ)言和C++中結(jié)構(gòu)體的區(qū)別
C語(yǔ)言與Java語(yǔ)言的對(duì)比
Apple Intelligence有望在明年4月實(shí)現(xiàn)多種語(yǔ)言支持
TMS320LF240x DSP的C語(yǔ)言和匯編代碼快速入門

評(píng)論