白皮書《Transformer-LS:用于語言和視覺處理的高效 Transformer》中提出了“長-短 Transformer” (Transformer-LS),這是一種高效的 Transformer 架構,用于為語言和視覺任務模擬中具有線性復雜度的長序列。
鑒于 Transformer 的模型在自然語言處理 (NLP) 和計算機視覺領域已經(jīng)取得了巨大的成功。這種模型可受益于自注意力模塊,后者既可捕獲詞元間的相鄰相關性和長距離相關性,同時又能在現(xiàn)代硬件上高效擴展。
然而,自注意力機制所消耗的時間和內(nèi)存與輸入長度呈二次方關系,使其處理長序列的成本非常高昂。許多語言和視覺任務能夠從長序列建模中獲益。在 NLP 中,文檔級任務需要處理較長的文章,而語言模型的性能往往隨序列長度而增加。
在計算機視覺里,大量任務涉及高分辨率圖像。而這些圖像在使用 Transformer 模型處理前,會被轉(zhuǎn)換成圖像塊的長序列。因此,設計一種能泛化到各種不同領域的長序列建模的高效注意力機制至關重要。
一直以來,業(yè)界提出了各種方法來減少完全注意力機制的二次方成本。但是,在語言和視覺領域都有良好應用的高效注意力機制尚未得到深入研究。一類方法使用滑動窗口和隨機稀疏模式等預定義模式對注意力矩陣進行稀疏化處理。
這類方法使用強大的歸納偏置來改善計算性能和模型性能,但它們會限制自注意力層的能力,因為每個特定分詞器只能處理一個詞元子集。
另一類方法使用 low-rank 投影為輸入序列構成低分辨率表示,但這類方法只能對特定的 NLP 任務有效。與稀疏注意力不同,這類方法允許每個分詞器處理整個輸入序列。但是,由于缺少高保真度詞元級信息,對于需要細粒度局部信息的任務(包括語言領域和視覺領域的標準基準測試)而言,這類方法的性能有時并不優(yōu)于完全注意力或稀釋注意力機制。
盡管高效 Transformer 的發(fā)展相當迅速,一些提出的架構只適用于雙向模型?;?Transformer 的自回歸模型已經(jīng)在語言建模 、圖像合成 和文本轉(zhuǎn)圖像合成領域取得了巨大的成功。這些領域都涉及長文本或高分辨率圖像。
因此,有必要設計一種同時適用于自回歸模型和雙向模型的高效 Transformer。
在白皮書《Transformer-LS:用于語言和視覺處理的高效 Transformer》中,研究把局部窗口注意力和新穎的長距離注意力統(tǒng)一成單個高效注意力機制。展示這兩種注意力機制的互補效應,能在多種語言和視覺任務中為自回歸模型和雙向模型帶來優(yōu)異的效果。
原文標題:白皮書 | 《Transformer-LS:用于語言和視覺處理的高效Transformer》
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
-
計算機視覺
+關注
關注
9文章
1715瀏覽量
47553 -
Transformer
+關注
關注
0文章
155瀏覽量
6882
原文標題:白皮書 | 《Transformer-LS:用于語言和視覺處理的高效Transformer》
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
瑞芯微SOC智能視覺AI處理器
C語言和C++之間的區(qū)別是什么
C語言在嵌入式開發(fā)中的應用
C語言和單片機C語言有什么差異
一文了解Mojo編程語言
機器視覺缺陷檢測中傳感器集成的五大關鍵
【HZ-T536開發(fā)板免費體驗】3 - Cangjie Magic調(diào)用視覺語言大模型(VLM)真香,是不是可以沒有YOLO和OCR了?
Aux-Think打破視覺語言導航任務的常規(guī)推理范式
C語言精彩編程百例-364頁
商湯“日日新”融合大模型登頂大語言與多模態(tài)雙榜單
Arm KleidiCV與OpenCV集成助力移動端計算機視覺性能優(yōu)化
全志視覺芯片V821接入DeepSeek和豆包視覺大模型
如何使用MATLAB構建Transformer模型
用于語言和視覺處理的高效 Transformer能在多種語言和視覺任務中帶來優(yōu)異效果
評論