chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

加速ViT模型新思路!Meta推出Token Merging

OpenCV學(xué)堂 ? 來源:新智元 ? 作者:新智元 ? 2022-12-06 15:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】由Meta AI的研究人員推出Token Merging(ToMe),無需訓(xùn)練即可加速 ViT 模型。更重要的是,這個模型不需對token進(jìn)行剪枝。

視覺變換器(ViT)在兩年前進(jìn)入大眾視野,并成為計(jì)算機(jī)視覺研究的核心組成部分。 它成功將一個在自然語言處理領(lǐng)域的Transformer模型遷移到計(jì)算機(jī)視覺領(lǐng)域。從那時起,計(jì)算機(jī)視覺領(lǐng)域的進(jìn)步已經(jīng)加速。

盡管在成本與性能方面被超越,Vanilla ViT仍有許多優(yōu)點(diǎn)。

它們是由簡單的矩陣乘法組成的,這使得它們的速度比它們的原始運(yùn)算量所顯示的要快。

此外,它們支持強(qiáng)大的自監(jiān)督預(yù)訓(xùn)練技術(shù),如MAE(掩碼自動編碼器),可以產(chǎn)生最先進(jìn)的結(jié)果,同時可以進(jìn)行快速訓(xùn)練。

而且由于它們不對數(shù)據(jù)進(jìn)行假設(shè),它們可以幾乎不加改變地應(yīng)用在圖片、音頻、文本等諸多模式中。

當(dāng)然,理想很豐滿,現(xiàn)實(shí)很骨感。ViT模型的規(guī)模大,有較大延時。在資源有限的設(shè)備上,運(yùn)行這個復(fù)雜模型會產(chǎn)生很大問題。

Token剪枝:變好了,但沒完全好 針對運(yùn)算慢的問題,研究人員給出了多個解決方案。其中一種常見的加速視覺 Transformer模型的方法是對進(jìn)行token剪枝。 在運(yùn)行時修剪標(biāo)記,通過修剪不太重要的token產(chǎn)生高效的Transformer。如DynamicViT分層修剪冗余token,從而在分類任務(wù)中實(shí)現(xiàn)FLOPs減少。

然而,token剪枝有幾個問題,其中最主要的,是由于修剪token會產(chǎn)生信息損失,因此,人們對ViT模型token的剪枝數(shù)量是有限的,為了減少信息損失,只能對不重要的token進(jìn)行修剪。

而且,為了使修剪過的token有效,人們需要再次訓(xùn)練模型。這就造成額外的資源消耗。

更重要的是,token剪枝是動態(tài)的過程,需要根據(jù)不同的圖像或句子確定token剪枝的不同數(shù)量。雖然這有利于提高準(zhǔn)確性,但卻不夠?qū)嵱脤?shí)用性,因?yàn)檫@種情況下,數(shù)據(jù)不能再進(jìn)行批處理。

為了解決這個問題,人們需要在剪枝過程中添加掩碼,而這會進(jìn)一步影響效率的提升。

簡單來說,token剪枝確實(shí)讓ViT跑得更快,但這是在信息損耗的代價上實(shí)現(xiàn)的。

TokenMerging:換個想法

怎樣才能使ViT的速度類似于剪枝,但保持比剪枝更高的準(zhǔn)確度呢?Meta AI研究團(tuán)隊(duì)給出了新的解題思路:Token Merging(ToMe)。

70f4dd92-74ad-11ed-8abf-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2210.09461.pdf

Token Merging選擇將token結(jié)合,而非進(jìn)行剪枝。由于其定制的匹配算法,它和剪枝一樣快,同時更準(zhǔn)確。另外,它的工作不需要任何額外的訓(xùn)練,所以你可以在巨大的模型上使用它來加快它們的速度,而不會犧牲很多準(zhǔn)確性。

Meta的目標(biāo)是在現(xiàn)有的ViT中插入一個Token Merging的模塊,通過合并冗余的token,在不需要額外訓(xùn)練的前提下提高訓(xùn)練和推理的吞吐量。

基本思路是:在Transformer模型中,通過合并,使每層減少r個token。假設(shè)一個Transformer模型有L層,那么通過合并就可以減少rL個token。變量r的大小決定了速度和精度的關(guān)系,因?yàn)楦俚臉?biāo)記意味著更低的準(zhǔn)確度但更高的吞吐量。

值得注意的是,在Token Merging中,無論圖像的內(nèi)容如何,都會減少rL標(biāo)記。這完美解決了token剪枝中無法進(jìn)行批處理的問題。

通過ToMe,類似的token批在每個Transformer塊中被合并:例如,狗的皮毛被合并成一個token。

7110d9f2-74ad-11ed-8abf-dac502259ad0.png

Token Merging被插入每個attention塊和每個Transformer塊。這也與token剪枝的工作流程形成對比。后者傾向于將剪枝步驟放在每個Transformer塊的開頭。

7137d688-74ad-11ed-8abf-dac502259ad0.png

通過Token Merging,需要被合并的token的信息可以得到傳播,ViT也能夠借助attention塊中的特征來決定需要合并哪些token。

具體做法

合并的第一步是確定相似的token。在Transformer中的QKV(query, key, value)已被提取的條件下,通過消融實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)使用key可以最好衡量token之間的相似度(下圖紫色部分)。

7149485a-74ad-11ed-8abf-dac502259ad0.png

因?yàn)閗ey已經(jīng)總結(jié)了每個token中包含的信息,以便用于Attention中的dot-product來衡量token間的相似度。

除了研究哪個指標(biāo)更好衡量token相似度外,還需要知道什么距離衡量相似度。通過實(shí)驗(yàn)研究團(tuán)隊(duì)發(fā)現(xiàn),使用使用余弦距離來衡量toke之間的相似度可以獲得最好的精度和速度的關(guān)系。

71602b60-74ad-11ed-8abf-dac502259ad0.png

確定了token的相似性,接下來需要一個快速的方法來確定哪些token需要匹配,以減少總數(shù)的r。

Meta團(tuán)隊(duì)沒有使用kmeans聚類算法或圖分割算法,而是使用匹配算法,因?yàn)楹笳卟粌H可以精準(zhǔn)匹配每一層token的數(shù)量,還能快速執(zhí)行上千次匹配。這些都是迭代聚類算法無法完成的。

因此,Meta團(tuán)隊(duì)提出了一個更有效的解決方案。

設(shè)計(jì)目標(biāo)如下。1.)避免任何無法并行化的迭代,2.)希望合并的變化是漸進(jìn)的,因?yàn)榫垲悓Χ嗌賯€標(biāo)記可以合并到一個組中沒有限制(這可能會對網(wǎng)絡(luò)產(chǎn)生不利影響),而匹配則使大多數(shù)標(biāo)記沒有被合并。

7192354c-74ad-11ed-8abf-dac502259ad0.png

將所有token分為相同大小的2個集合A與B。

把從集合A中的每個token到B中與其最相似的token畫一條邊。

只留下最相似的r條邊, 其余刪掉。

融合仍然相連的邊(特征取均值)。

把這兩個集合拼在一起, 得到最終的合并結(jié)果。

通過這項(xiàng)獨(dú)特的技術(shù),可以提高ViT模型的吞吐量和實(shí)際訓(xùn)練速度。使用Token Merging可以將訓(xùn)練速度提高一倍。它可以用于圖像、視頻和音頻任務(wù),并且仍然可以達(dá)到最先進(jìn)的準(zhǔn)確性。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3611

    瀏覽量

    51431
  • Meta
    +關(guān)注

    關(guān)注

    0

    文章

    313

    瀏覽量

    12150
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    629

    瀏覽量

    14480

原文標(biāo)題:加速ViT模型新思路!Meta推出Token Merging,不靠剪枝靠合并

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    成都匯陽投資關(guān)于大模型白熱化,應(yīng)用加速分化

    Gemini 2.5 Flash Image登頂 多主流圖像榜,Meta 也從 Midjourney 授權(quán) AI 圖像模型;視頻領(lǐng)域,阿里字節(jié)等刷新能力高度 ,谷歌將視頻模型推進(jìn)至實(shí)時交互通用世界
    的頭像 發(fā)表于 09-09 09:30 ?500次閱讀

    自動駕駛大模型中常提的Token是個啥?對自動駕駛有何影響?

    、多模態(tài)傳感器數(shù)據(jù)的實(shí)時處理與決策。在這一過程中,大模型以其強(qiáng)大的特征提取、信息融合和預(yù)測能力為自動駕駛系統(tǒng)提供了有力支持。而在大模型的中,有一個“Token”的概念,有些人看到后或許會問:
    的頭像 發(fā)表于 03-28 09:16 ?668次閱讀

    無法在OVMS上運(yùn)行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 上運(yùn)行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運(yùn)行 llama_chat Python* Demo 時遇到錯誤。
    發(fā)表于 03-05 08:07

    Meta組建四大專研小組,深入探索DeepSeek模型

    。其中,兩個小組致力于解析幻方量化如何降低DeepSeek模型的訓(xùn)練和運(yùn)行成本,以期從中汲取經(jīng)驗(yàn),優(yōu)化Meta自身的成本結(jié)構(gòu)。第三個研究小組則聚焦于幻方量化訓(xùn)練DeepSeek模型所使用的數(shù)據(jù),試圖揭示其數(shù)據(jù)選擇的獨(dú)特之處,為
    的頭像 發(fā)表于 02-05 14:02 ?635次閱讀

    廣和通推出AI玩具大模型解決方案

    廣和通推出AI玩具大模型解決方案,該方案深度融合豆包等AI大模型、內(nèi)置廣和通Cat.1模組,助力智能玩具實(shí)現(xiàn)AI化升級。該解決方案無需外接MCU,即可實(shí)現(xiàn)音視頻及圖像傳輸、語音識別、自然語言處理
    的頭像 發(fā)表于 01-21 10:27 ?1437次閱讀

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    的設(shè)計(jì)不僅提高了機(jī)器人對環(huán)境的理解能力,還使其能夠更精準(zhǔn)地執(zhí)行復(fù)雜任務(wù)。 擴(kuò)散模型新思路 除了大模型,擴(kuò)散模型的引入為機(jī)器人控制開辟了新的研究方向。在以UniPi為代表的創(chuàng)新工作中,
    發(fā)表于 12-29 23:04

    Meta重磅發(fā)布Llama 3.3 70B:開源AI模型的新里程碑

    ?在人工智能領(lǐng)域,Meta的最新動作再次引起了全球的關(guān)注。今天,我們見證了Meta發(fā)布的 Llama 3.3 70B 模型,這是一個開源的人工智能模型,它不僅令人印象深刻,而且在性能上
    的頭像 發(fā)表于 12-18 16:46 ?785次閱讀
    <b class='flag-5'>Meta</b>重磅發(fā)布Llama 3.3 70B:開源AI<b class='flag-5'>模型</b>的新里程碑

    Meta發(fā)布新AI模型Meta Motivo,旨在提升元宇宙體驗(yàn)

    Meta公司近日宣布,將推出一款名為Meta Motivo的全新人工智能模型。該模型具備控制類似人類的數(shù)字代理動作的能力,有望為元宇宙的用戶
    的頭像 發(fā)表于 12-16 10:34 ?1229次閱讀

    Meta推出Metamate AI工具,進(jìn)軍企業(yè)市場

    近日,社交媒體巨頭Meta正積極進(jìn)軍企業(yè)市場,推出了一款內(nèi)部研發(fā)的AI工具——Metamate。這款A(yù)I軟件以提高企業(yè)生產(chǎn)力為目標(biāo),旨在為企業(yè)提供更高效、智能的解決方案。 Metamate
    的頭像 發(fā)表于 12-09 14:57 ?1140次閱讀

    Meta推出Llama 3.3 70B,AI大模型競爭白熱化

    在今年的AI領(lǐng)域,Meta也不甘落后,推出了其壓軸之作——Llama 3.3 70B大模型。與此同時,馬斯克的xAI也宣布其Grok模型從今天起全球免費(fèi)開放(但存在一定的使用限制)。
    的頭像 發(fā)表于 12-09 14:50 ?940次閱讀

    復(fù)旦提出大模型推理新思路:Two-Player架構(gòu)打破自我反思瓶頸

    更多的訓(xùn)練算力和數(shù)據(jù)資源,不如讓模型「花更多時間思考」。以 OpenAI 推出的 o1 模型為例,通過增加推理時間,這種方法讓模型能夠進(jìn)行反思、批評、回溯和糾正,大幅提升了推理表現(xiàn)。
    的頭像 發(fā)表于 12-06 11:24 ?1044次閱讀
    復(fù)旦提出大<b class='flag-5'>模型</b>推理<b class='flag-5'>新思路</b>:Two-Player架構(gòu)打破自我反思瓶頸

    Orange與OpenAI、Meta合作開發(fā)非洲語言AI大模型

    OpenAI和Meta將攜手法國電信運(yùn)營商Orange SA,共同開發(fā)針對非洲語言的人工智能大模型。該項(xiàng)目旨在解決非洲大陸數(shù)千種方言模型短缺的問題,計(jì)劃于明年上半年正式啟動。
    的頭像 發(fā)表于 12-02 11:00 ?805次閱讀

    Meta發(fā)布Llama 3.2量化版模型

    近日,Meta在開源Llama 3.2的1B與3B模型后,再次為人工智能領(lǐng)域帶來了新進(jìn)展。10月24日,Meta正式推出了這兩個模型的量化版
    的頭像 發(fā)表于 10-29 11:05 ?1038次閱讀

    Meta推出可自我評估AI模型

    Meta近期宣布了一項(xiàng)重要的人工智能進(jìn)展,即將發(fā)布一系列全新的人工智能模型。其中,一款能夠自我評估的模型尤為引人注目,這一創(chuàng)新有望顯著減少人工智能開發(fā)過程中的人類參與。
    的頭像 發(fā)表于 10-22 17:07 ?837次閱讀

    聯(lián)想與Meta合作推出AI Now個人AI智能體

    聯(lián)想集團(tuán)近日在美國西雅圖舉辦了年度Tech World大會,會上聯(lián)想CEO楊元慶與Meta創(chuàng)始人兼CEO馬克?扎克伯格共同宣布了一項(xiàng)重要合作。雙方基于Meta的Llama大模型推出
    的頭像 發(fā)表于 10-17 16:58 ?1125次閱讀