chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為破解HBM依賴!AI推理黑科技UCM上線,9月正式開源

章鷹觀察 ? 來源:電子發(fā)燒友原創(chuàng) ? 作者:章鷹 ? 2025-08-13 08:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(電子發(fā)燒友網(wǎng)報道 文/章鷹)8月12日,在2025金融AI推理應(yīng)用落地與發(fā)展論壇上,華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周越峰宣布,華為此次和銀聯(lián)聯(lián)合創(chuàng)新,推出AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理其器)和管理系統(tǒng)的算法,這項(xiàng)突破性成果降低對HBM技術(shù)的依賴,提升國內(nèi)AI大模型的推理能力。


該技術(shù)是一款以KV Cache為中心的推理加速套件,UCM集成了多類型緩存加速算法工具,實(shí)現(xiàn)推理過程中KV Cache記憶數(shù)據(jù)的分級管理,從而擴(kuò)大推理上下文窗口,提升推理效率?!般y聯(lián)的實(shí)際案例和大量測試顯示,UCM顯著降低首Token的時延,最高降低90%,系統(tǒng)吞吐率最大提升22倍,上下文的推理窗口可以擴(kuò)展10倍以上,這是對于AI推理系統(tǒng)一個巨大的進(jìn)步?!?周越峰指出。

華為UCM技術(shù)已率先應(yīng)用在中國銀聯(lián)“客戶之聲”、“營銷策劃”和“辦公助手”三大業(yè)務(wù)場景,開展智慧金融AI推理加速應(yīng)用試點(diǎn),并且已經(jīng)取得成果。華為表示,計(jì)劃于2025年9月正式開源UCM,將在魔擎社區(qū)首發(fā),并共享給業(yè)內(nèi)所有Share Everything(共享架構(gòu))存儲廠商和生態(tài)伙伴。

AI大模型推理給存儲帶來哪些挑戰(zhàn)?UCM的創(chuàng)新之處如何解讀?本文結(jié)合中國信通院人工智能研究平臺與工程化部主任曹峰、華為數(shù)據(jù)存儲產(chǎn)品線AI存儲首席架構(gòu)師李國杰的觀點(diǎn),進(jìn)行詳細(xì)分析。

AI大模型推理給存儲帶來三重挑戰(zhàn)

“ChatGPT的訪問量呈現(xiàn)線性增長,最新訪問量達(dá)到4億,受益于中國AI大模型DeepSeek爆發(fā),日均調(diào)用量也在快速上升,2025年1月開始,中國AI推理的需求增長20倍,未來三年算力需求爆發(fā)。IDC表示,2024年算力需求60%是訓(xùn)練,40%是推理,到2027年中國用于推理的算力需求——工作負(fù)載將達(dá)到72.6%?!?中國信通院人工智能研究平臺與工程化部主任曹峰分析說。

當(dāng)下,AI大模型推理應(yīng)用落地中,遇到推不動、推得慢和推得貴的三大挑戰(zhàn)。首先,長文本越來越多,輸入超過模型上下文窗口的內(nèi)容,推理窗口小就推不動;其次,由于中美在AI基礎(chǔ)設(shè)施的差距,中國互聯(lián)網(wǎng)大模型首Token時延普遍慢于美國頭部廠商的首Token時延,時延長度為后者的兩倍;推得貴,美國大模型的推理吞吐率為中國大模型推理吞吐率的10倍。

華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周越峰指出,AI時代,模型訓(xùn)練、推理效率與體驗(yàn)的量綱都以Token數(shù)為表征,Token經(jīng)濟(jì)已經(jīng)到來。

在AI基礎(chǔ)設(shè)施投資,中國和美國有差距,為了保障流暢的推理體驗(yàn),企業(yè)要加大算力投入,但是如何改善AI推理的效率和體驗(yàn),在推理效率與成本之間找到最佳平衡點(diǎn)?華為推出UCM,以KV Cache和記憶管理為中心提供全場景化系列化推理加速能力。

UCM兩大關(guān)鍵能力和創(chuàng)新算法,破解HBM受困難題

HBM是解決"數(shù)據(jù)搬運(yùn)"的關(guān)鍵技術(shù)。當(dāng)HBM不足時,用戶使用AI推理的體驗(yàn)會明顯下降,導(dǎo)致出現(xiàn)任務(wù)卡頓、響應(yīng)慢等問題。華為此次技術(shù)突破有望緩解這一瓶頸。

華為重磅推出UCM推理記憶數(shù)據(jù)管理器,包括對接不同引擎與算力的推理引擎插件(Connector)、支持多級KV Cache管理及加速算法的功能庫(Accelerator)、高性能KV Cache存取適配器(Adapter)三大組件,通過推理框架、算力、存儲三層協(xié)同,實(shí)現(xiàn)AI推理“更優(yōu)體驗(yàn)、更低成本”。

UCM的創(chuàng)新之處,在于可以根據(jù)記憶熱度在HBM、DRAM、SSD等存儲介質(zhì)中實(shí)現(xiàn)按需流動,同時融合多種稀疏注意力算法實(shí)現(xiàn)存算深度協(xié)同,使長序列場景下TPS(每秒處理token數(shù))提升2至22倍,從而降低每個Token的推理成本。

“實(shí)時數(shù)據(jù)放在HBM當(dāng)中,短期記憶數(shù)據(jù)放在DRAM中,其他數(shù)據(jù)就放在共享存儲SSD中,極大提高系統(tǒng)的效率和AI推理能力。針對AI推理平衡成本和效能的挑戰(zhàn),華為推出UCM統(tǒng)一的記憶數(shù)據(jù)管理器,在兩個層面以系統(tǒng)化的方案來解決問題?!?華為數(shù)據(jù)存儲產(chǎn)品線AI存儲首席架構(gòu)師李國杰表示。

一、在底層的框架和機(jī)制上提供了多級緩存空間,構(gòu)建智能管理以及智能流動的基礎(chǔ)框架能力。在此基礎(chǔ)之上,華為構(gòu)筑了一系列創(chuàng)新的推理的加速算法和加速特性,包括自適應(yīng)的全局Prefix Cache,降低首Token時延與單位Token成本。

二、采用動態(tài)的Training稀疏加速算法,倍數(shù)級提升長序列吞吐和體驗(yàn)。還有后綴檢索、預(yù)測加速算法、PD檢索加速和Agent原生記憶加速。

UCM將超長序列Cache分層卸載至外置專業(yè)存儲,通過算法創(chuàng)新突破模型和資源限制,實(shí)現(xiàn)推理上下文窗口的10倍級擴(kuò)展,滿足長文本處理需求。

中國銀聯(lián)執(zhí)行副總裁涂曉軍分享說,華為與中國銀聯(lián)的聯(lián)合創(chuàng)新技術(shù)試點(diǎn)中,在中國銀聯(lián)的“客戶之聲”業(yè)務(wù)場景下,借助UCM技術(shù)及工程化手段,大模型推理速度提升125倍,僅需10秒就可以精準(zhǔn)識別客戶高頻問題,促進(jìn)服務(wù)質(zhì)量提升。

眾所周知,目前,AI大模型訓(xùn)練對內(nèi)存帶寬需求呈指數(shù)級增長,傳統(tǒng)DDR內(nèi)存已無法滿足需求。HBM(高帶寬內(nèi)存)是一種專用內(nèi)存技術(shù),用于 AI 處理器、GPU 和 HPC 系統(tǒng),這些系統(tǒng)中帶寬和能效比原始容量更為重要。HBM3 每堆??商峁└哌_(dá) 819 GB/s 的傳輸速度,對于支持大型語言模型 (LLM)、神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理工作負(fù)載至關(guān)重要。

但是去年12月以來美國將HBM2E列入對中國的禁售清單,國產(chǎn)廠商HBM的突破還在推進(jìn)中,華為推出UCM的重大意義,在于加速推進(jìn)國產(chǎn)AI推理生態(tài),其核心價值是推進(jìn)更快的推理響應(yīng)和更長的推理序列,以及更優(yōu)化的成本。

中國信通院人工智能研究平臺與工程化部主任曹峰認(rèn)為,國產(chǎn)化AI推理生態(tài)建設(shè)應(yīng)該加速,KV Cache已經(jīng)成為架構(gòu)優(yōu)化的焦點(diǎn),以KV Cache為核心的推理方案迭出,背后依賴的高性能存儲、先進(jìn)調(diào)度策略的重要性愈發(fā)顯現(xiàn)。

李國杰還強(qiáng)調(diào)指出,AI是一個快速發(fā)展的行業(yè),每6個月就會迎來新一輪的技術(shù)革新,UCM不僅定位于當(dāng)下,解決AI推理問題,未來發(fā)展UCM將從KV Cache分層管理走向Agentic AI原生記憶管理和應(yīng)用加速。

本文由電子發(fā)燒友原創(chuàng),轉(zhuǎn)載請注明以上來源。微信號zy1052625525。需入群交流,請?zhí)砑游⑿舉lecfans999,投稿爆料采訪需求,請發(fā)郵箱zhangying@huaqiu.com。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關(guān)注

    關(guān)注

    216

    文章

    35588

    瀏覽量

    259290
  • UC
    UC
    +關(guān)注

    關(guān)注

    2

    文章

    58

    瀏覽量

    61721
  • 銀聯(lián)
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    9555
  • HBM
    HBM
    +關(guān)注

    關(guān)注

    2

    文章

    422

    瀏覽量

    15584
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    391

    瀏覽量

    890
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI推理的存儲,看好SRAM?

    電子發(fā)燒友網(wǎng)報道(文/黃晶晶)近幾年,生成式AI引領(lǐng)行業(yè)變革,AI訓(xùn)練率先崛起,帶動高帶寬內(nèi)存HBM一飛沖天。但我們知道AI推理的廣泛應(yīng)用才
    的頭像 發(fā)表于 03-03 08:51 ?2177次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲,看好SRAM?

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理器,旨在推動AI推理體驗(yàn)升級,提升推理性價比,加速AI商業(yè)正循
    的頭像 發(fā)表于 08-15 09:45 ?724次閱讀

    降低HBM依賴華為發(fā)布AI推理創(chuàng)新技術(shù)UCM#HBM #華為?

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2025年08月13日 14:23:40

    今日看點(diǎn)丨華為發(fā)布AI推理創(chuàng)新技術(shù)UCM;比亞迪汽車出口暴增130%

    ? ? 降低HBM依賴,華為發(fā)布AI推理創(chuàng)新技術(shù)UCM ? 日前,
    發(fā)表于 08-13 09:45 ?2631次閱讀

    積算科技上線赤兔推理引擎服務(wù),創(chuàng)新解鎖FP8大模型算力

    北京2025年730日 /美通社/ -- 近日,北京積算科技有限公司(以下簡稱"積算科技")宣布其算力服務(wù)平臺上線赤兔推理引擎。積算科技PowerFul-AI應(yīng)用開發(fā)平臺與赤兔合作,
    的頭像 發(fā)表于 07-30 21:44 ?569次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢在于強(qiáng)大的推理引擎能力,融合了自然語言處理(
    發(fā)表于 07-16 15:29

    華為宣布開源盤古7B稠密和72B混合專家模型

    電子發(fā)燒友網(wǎng)綜合報道 2025年630日,華為正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型及基于昇騰的模型推理技術(shù),此舉標(biāo)志著
    的頭像 發(fā)表于 07-06 05:51 ?6816次閱讀

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國,深圳,2025年630日] 今日,華為正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型和基于昇騰的模型推理技術(shù)。 此舉是
    的頭像 發(fā)表于 06-30 11:19 ?933次閱讀

    華為AI WAN在智算邊緣推理網(wǎng)絡(luò)中的關(guān)鍵優(yōu)勢

    此前, 2025年324日至27日,MPLS&SRv6 AI Net World Congress 2025在法國巴黎會議中心舉辦。華為數(shù)據(jù)通信IP標(biāo)準(zhǔn)化高級代表李呈發(fā)表了題為“AI
    的頭像 發(fā)表于 04-09 09:53 ?676次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴(kuò)展 AI 工廠中的 AI
    的頭像 發(fā)表于 03-20 15:03 ?915次閱讀

    Banana Pi 與瑞薩電子攜手共同推動開源創(chuàng)新:BPI-AI2N

    :瑞薩RZ/V2N高性能處理器與Banana PI開源硬件平臺的深度融合。 開源優(yōu)勢 :提供部分硬件設(shè)計(jì)資料、SDK及開發(fā)文檔。 生態(tài)共建 :聯(lián)合開發(fā)者社區(qū)推出定制化開發(fā)套件,支持AI推理
    發(fā)表于 03-12 09:43

    不再是HBMAI推理流行,HBF存儲的機(jī)會來了?

    NAND閃存和高帶寬存儲器(HBM)的特性,能更好地滿足AI推理的需求。 ? HBF的堆疊設(shè)計(jì)類似于HBM,通過硅通孔(TSVs)將多個高性能閃存核心芯片堆疊,連接到可并行訪問閃存子
    的頭像 發(fā)表于 02-19 00:51 ?3851次閱讀
    不再是<b class='flag-5'>HBM</b>,<b class='flag-5'>AI</b><b class='flag-5'>推理</b>流行,HBF存儲的機(jī)會來了?

    DeepSeek V3昇思MindSpore版本上線開源社區(qū)

    近日,基于昇騰AI硬件與昇思MindSpore AI框架版本的DeepSeek-V3完成開發(fā)支持并上線昇思開源社區(qū),面向開發(fā)者提供開箱即用的預(yù)訓(xùn)練和
    的頭像 發(fā)表于 02-18 10:12 ?1546次閱讀
    DeepSeek V3昇思MindSpore版本<b class='flag-5'>上線</b><b class='flag-5'>開源</b>社區(qū)

    智譜GLM-Zero深度推理模型預(yù)覽版正式上線

    近日,智譜公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上線。這款模型是智譜首個基于擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的推理模型,標(biāo)志著智譜在AI
    的頭像 發(fā)表于 01-02 10:55 ?691次閱讀

    阿里云開源推理大模型QwQ

    近日,阿里云通義團(tuán)隊(duì)宣布推出全新AI推理模型QwQ-32B-Preview,并同步實(shí)現(xiàn)了開源。這一舉措標(biāo)志著阿里云在AI推理領(lǐng)域邁出了重要一
    的頭像 發(fā)表于 11-29 11:30 ?1410次閱讀