chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

摩爾線程Round Attention優(yōu)化AI對話

摩爾線程 ? 來源:摩爾線程 ? 2025-03-06 09:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【編者按】摩爾線程科研團隊發(fā)布研究成果《Round Attention:以輪次塊稀疏性開辟多輪對話優(yōu)化新范式》,該方法端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎,kv-cache 顯存占用節(jié)省55%到82% 。

近年來,大型語言模型的進步推動了語言模型服務(wù)在日常問題解決任務(wù)中的廣泛應(yīng)用。然而,長時間的交互暴露出兩大顯著挑戰(zhàn):首先,上下文長度的快速擴張因自注意力機制的平方級復(fù)雜度而導(dǎo)致巨大的計算開銷;其次,盡管鍵值( KV )緩存技術(shù)能緩解冗余計算,但其顯著增加的 GPU 內(nèi)存需求導(dǎo)致推理批處理規(guī)模受限及 GPU 利用率低下。摩爾線程提出 Round Attention 用于解決這些問題。

wKgZO2fI_O-AWQPwAABaa_segco266.png

01論文主要貢獻

以輪次為分析單元研究 Attention 規(guī)律:Round Attention 專為多輪對話場景推理需求設(shè)計,以輪次為自然邊界劃分 KV 緩存,研究發(fā)現(xiàn)輪次粒度的 Attention 分布存在兩個重要規(guī)律。

提出 Round Attention inference pipeline :基于發(fā)現(xiàn)的兩個規(guī)律提出 Round Attention ,將稀疏性從 Token 級提升至塊級,選取最相關(guān)的塊參與 attention 計算,減少 attention 計算耗時,并將不相關(guān)的塊 offloadCPU內(nèi)存節(jié)省顯存占用。該 pipeline 在保持推理精度的情況下,減少了推理耗時,降低了顯存占用。

02核心創(chuàng)新:輪次塊稀疏性的三大優(yōu)勢

自然邊界的語義完整性

問題洞察:多輪對話中,用戶意圖常以輪次為單位呈現(xiàn)(如“推薦餐廳”→“詢問人均消費”→“確認地址”)。

解決方案:Round Attention 將 KV 緩存按輪次(對)切分為獨立塊,每個塊完整包含一輪對話的提問與回答,確保模型在計算注意力時能直接關(guān)聯(lián)完整語義單元。

分水嶺層的注意力穩(wěn)定性

關(guān)鍵發(fā)現(xiàn):通過分析 SharedGPT 數(shù)據(jù)集,發(fā)現(xiàn)主流開源模型(如 Qwen2.5B )在特定“分水嶺層”后,各層對歷史輪次的注意力分布高度相似,且同一輪內(nèi)問題與答案的注意力模式一致。

技術(shù)價值:僅需在分水嶺層一次性篩選 Top-K 相關(guān)輪次,即可覆蓋后續(xù)所有層的計算需求,相比其他工作逐層動態(tài)路由,有效減少 Top-K 計算開銷。

端到端的存儲與傳輸優(yōu)化

存儲設(shè)計:將每輪 KV 緩存按分水嶺層拆分為下層塊( b_m )與上層塊( u_m ),以輪次為單位整體存儲于 CPU 內(nèi)存,減少 GPU 內(nèi)存占用。

傳輸效率:相比其他 kv cache offload 工作以 Token 級細粒度傳輸, Round Attention 以輪次為單位批量搬運 KV 緩存,單次 H2D 操作即可完成,降低 H2D 操作帶來的延遲。

03效果

端到端延遲低于現(xiàn)在主流的 Flash Attention 推理引擎, kv-cache 顯存占用節(jié)省 55% 到 82% ,并且在主觀評測和客觀評測兩個數(shù)據(jù)集上模型推理準(zhǔn)確率基本未受影響。

wKgZPGfI_O-AcZSGAAAnn-oYOr0288.png

wKgZPGfI_O-AKEHxAAJyGnIc7S8703.png

04未來展望:開源協(xié)作與技術(shù)融合

摩爾線程 Round Attention 期待與開源社區(qū)深度協(xié)同,繼續(xù)探索稀疏注意力可能的優(yōu)化工作,共同攻克 LLM 落地中的效率與成本難題。該論文已發(fā)布在 arXiv :

關(guān)于摩爾線程

摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計算的基礎(chǔ)設(shè)施和一站式解決方案,為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強大的AI計算支持。

我們的目標(biāo)是成為具備國際競爭力的GPU領(lǐng)軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5035

    瀏覽量

    133680
  • 內(nèi)存
    +關(guān)注

    關(guān)注

    8

    文章

    3156

    瀏覽量

    75861
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    566

    瀏覽量

    11171
  • 摩爾線程
    +關(guān)注

    關(guān)注

    2

    文章

    247

    瀏覽量

    5949

原文標(biāo)題:技術(shù)研究 | 摩爾線程 Round Attention:以輪次塊稀疏性開辟多輪對話優(yōu)化新范式

文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    國產(chǎn)顯卡摩爾線程MTT S30講評

    摩爾線程
    國產(chǎn)計算機小秦
    發(fā)布于 :2024年03月20日 16:20:37

    摩爾線程正式加入openKylin開源社區(qū)

    近日,摩爾線程智能科技(北京)有限責(zé)任公司(簡稱:摩爾線程)簽署了openKylin社區(qū) CLA(Contributor License Agreement 貢獻者許可協(xié)議),正式加入
    的頭像 發(fā)表于 09-14 11:57 ?1803次閱讀

    摩爾線程計劃本周完成“崗位優(yōu)化

     11月6日,摩爾線程的創(chuàng)始人兼CEO張建中在一份全員信中宣布了公司的人員優(yōu)化計劃,預(yù)計將在本周內(nèi)完成。張建中表示,這是公司發(fā)展的必要選擇,盡管艱難,但希望大家能夠理解。他在信中指出,在這個充滿挑戰(zhàn)和機遇的時刻,中國的GPU行業(yè)
    的頭像 發(fā)表于 11-07 16:08 ?1662次閱讀

    國內(nèi)GPU龍頭!摩爾線程本周人員優(yōu)化

    據(jù)了解,摩爾線程此次優(yōu)化調(diào)整主要涉及組織架構(gòu)和人員績效方面。在組織架構(gòu)方面,公司設(shè)立了兩個戰(zhàn)略部門,分別是AISG(AI戰(zhàn)略組)和MCSG(元計算戰(zhàn)略組),以整合公司資源,推動產(chǎn)品技術(shù)
    的頭像 發(fā)表于 11-08 16:17 ?1463次閱讀

    國產(chǎn)摩爾線程顯卡驅(qū)動重磅升級!

    今日,摩爾線程正式發(fā)布版本號為v250.60的Windows驅(qū)動程序,著重對DirectX 11游戲性能進行了大幅優(yōu)化。
    的頭像 發(fā)表于 02-21 09:13 ?1894次閱讀
    國產(chǎn)<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>顯卡驅(qū)動重磅升級!

    摩爾線程與億景智聯(lián)戰(zhàn)略合作,共推生成式AI在高校的應(yīng)用創(chuàng)新

    近日,摩爾線程與億景智聯(lián)達成戰(zhàn)略合作,聚焦于將先進的生成式AI技術(shù)應(yīng)用于高校教育教學(xué)領(lǐng)域。
    的頭像 發(fā)表于 05-13 14:07 ?1639次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>與億景智聯(lián)戰(zhàn)略合作,共推生成式<b class='flag-5'>AI</b>在高校的應(yīng)用創(chuàng)新

    摩爾線程與師者AI攜手完成70億參數(shù)教育AI大模型訓(xùn)練測試

    近日,國內(nèi)知名的GPU制造商摩爾線程與全學(xué)科教育AI大模型“師者AI”聯(lián)合宣布,雙方已成功完成了一項重要的大模型訓(xùn)練測試。此次測試依托摩爾
    的頭像 發(fā)表于 06-14 16:31 ?1098次閱讀

    摩爾線程與智譜AI完成大模型性能測試與適配

    近日,摩爾線程與智譜AI在人工智能領(lǐng)域開展了一輪深入的合作,共同對GPU大模型進行了適配及性能測試。此次測試不僅涵蓋了大模型的推理能力,還涉及了基于摩爾
    的頭像 發(fā)表于 06-14 16:40 ?1775次閱讀

    摩爾線程攜手東華軟件完成AI大模型推理測試與適配

    近日,摩爾線程與東華軟件云筑AI創(chuàng)新中心宣布,雙方已完成大模型推理測試與適配。依托摩爾線程的全功能GPU國產(chǎn)算力,東華軟件打造安全可信的基于
    的頭像 發(fā)表于 07-31 10:51 ?3254次閱讀

    摩爾線程GPU與超圖軟件大模型適配:共筑國產(chǎn)地理空間AI新生態(tài)

    10月24日,摩爾線程公司宣布與超圖軟件達成重要合作里程碑。經(jīng)過雙方的嚴(yán)格測試,摩爾線程的MTT S/X系列全功能GPU已成功與超圖軟件最新發(fā)布的大模型系列產(chǎn)品完成兼容認證。  
    的頭像 發(fā)表于 10-24 11:29 ?2017次閱讀

    摩爾線程完成股改,籌備上市

    近日,摩爾線程智能科技(北京)股份有限公司(簡稱“摩爾線程”)宣布已完成股改,并正積極籌備上市。據(jù)國家企業(yè)信用信息公示系統(tǒng)最新查詢結(jié)果顯示,摩爾
    的頭像 發(fā)表于 11-12 14:15 ?1636次閱讀

    摩爾線程AI算力平臺AutoDL達成深度合作

    近日,摩爾線程與國內(nèi)領(lǐng)先的AI算力平臺AutoDL宣布達成深度合作,雙方聯(lián)合推出面向個人開發(fā)者的“摩爾線程專區(qū)”,首次將國產(chǎn)GPU算力開放至
    的頭像 發(fā)表于 05-23 16:10 ?1175次閱讀

    摩爾線程AI工廠”:以系統(tǒng)級創(chuàng)新定義新一代AI基礎(chǔ)設(shè)施

    2025年7月25日,上?!谑澜缛斯ぶ悄艽髸╓AIC 2025)開幕前夕,摩爾線程以“算力進化,精度革命”為主題舉辦技術(shù)分享會,并創(chuàng)新性提出“AI工廠”理念。摩爾
    發(fā)表于 07-28 10:34 ?2129次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“<b class='flag-5'>AI</b>工廠”:以系統(tǒng)級創(chuàng)新定義新一代<b class='flag-5'>AI</b>基礎(chǔ)設(shè)施

    摩爾線程AI工廠”:五大核心技術(shù)支撐,打造大模型訓(xùn)練超級工廠

    2025年7月25日,上海——在世界人工智能大會(WAIC 2025)開幕前夕,摩爾線程以“算力進化,精度革命”為主題舉辦技術(shù)分享會,并創(chuàng)新性提出“AI工廠”理念。摩爾
    的頭像 發(fā)表于 07-28 11:28 ?3622次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“<b class='flag-5'>AI</b>工廠”:五大核心技術(shù)支撐,打造大模型訓(xùn)練超級工廠

    摩爾線程亮相WAIC 2025:以“AI工廠”理念驅(qū)動算力進化,全棧AI應(yīng)用賦能千行百業(yè)

    7月26日-29日,2025世界人工智能大會(WAIC)在上海舉辦。摩爾線程攜以全功能GPU為核心的“云邊端”全棧AI產(chǎn)品和解決方案精彩亮相,并首次提出“AI工廠”理念,旨在為AGI時
    的頭像 發(fā)表于 07-28 11:34 ?1039次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>亮相WAIC 2025:以“<b class='flag-5'>AI</b>工廠”理念驅(qū)動算力進化,全棧<b class='flag-5'>AI</b>應(yīng)用賦能千行百業(yè)