chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為數(shù)據(jù)存儲與「DaoCloud 道客」發(fā)布AI推理加速聯(lián)合解決方案

科技訊息 ? 來源:科技訊息 ? 作者:科技訊息 ? 2025-11-28 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI產(chǎn)業(yè)已從“追求模型能力極限”轉(zhuǎn)向“追求推理體驗最優(yōu)化”,推理體驗決定用戶與AI的交互質(zhì)感。當(dāng)前推理應(yīng)用快速發(fā)展,Token調(diào)用量爆發(fā)式增長,推理遇到“推不動、推得慢、推得貴”三大瓶頸,成為產(chǎn)業(yè)規(guī)?;l(fā)展的攔路虎。在有限算力下,長序列輸入導(dǎo)致首Token時延(TTFT)增加,甚至超長序列超出模型上下文窗口限制;隨著并發(fā)數(shù)增加,推理吞吐開始下降,任務(wù)頻繁卡頓;歷史對話和行業(yè)知識的重復(fù)調(diào)用造成算力浪費(fèi),加大推理成本。如何優(yōu)化推理效率,是AI產(chǎn)業(yè)突破發(fā)展瓶頸的關(guān)鍵。

算力的有效利用對AI推理性能和成本優(yōu)化發(fā)揮著至關(guān)重要的作用,是企業(yè)核心競爭力。算力平臺需適配多元存儲、Kubernetes集群及推理框架,但硬件生態(tài)碎片化、資源分配僵化、調(diào)度缺乏AI任務(wù)感知、運(yùn)維可觀性不足等技術(shù)兼容難題,正嚴(yán)重制約推理應(yīng)用發(fā)展。

近日,華為數(shù)據(jù)存儲與「DaoCloud 道客」聯(lián)合推出了AI推理加速聯(lián)合解決方案。該方案融合了華為UCM(Unified Cache Manager)推理記憶數(shù)據(jù)管理技術(shù)和道客d.run算力調(diào)度平臺,圍繞大模型歷史數(shù)據(jù),實現(xiàn)KV Cache數(shù)據(jù)池化管理,以資源的精細(xì)化管理和智能調(diào)度提升算力利用率,為AI推理加速提供全方位技術(shù)支撐。

道客d.run算力調(diào)度平臺可支持算力與顯存資源的細(xì)粒度切分及池化,通過多種調(diào)度策略實現(xiàn)算力資源的最大化利用。調(diào)度器具備拓?fù)涓兄芰Γ蓛?yōu)化任務(wù)在xPU間的通信效率,保障AI任務(wù)穩(wěn)定低耗運(yùn)行。平臺提供企業(yè)級運(yùn)維支持,提供多租戶隔離、資源配額管理、完整的監(jiān)控告警及計費(fèi)計量等功能,滿足企業(yè)級使用與運(yùn)維需求。同時具備多元生態(tài)兼容性,適配NVIDIA、華為昇騰、寒武紀(jì)等多種品牌AI算力,支持TensorFlow等主流AI框架,借助Kubernetes的CSI無縫對接華為OceanStor AI存儲,簡化管理并為AI任務(wù)數(shù)據(jù)讀寫提供穩(wěn)定支撐。

華為UCM是以KV Cache為核心,構(gòu)建多級緩存空間的分層管理與智能流動機(jī)制,實現(xiàn)數(shù)據(jù)在高性能緩存HBM、內(nèi)存DRAM和外置OceanStor A系列存儲的分級緩存和查詢,確保推理記憶知識全量保存。并且,UCM還融合多項創(chuàng)新加速算法:自適應(yīng)全局Prefix Cache支持公共前綴、歷史對話和RAG知識塊多種拼接組合場景的復(fù)用,通過以查代算,最大程度改善TTFT;全流程稀疏加速算法提供Prefill階段的超長KV分片卸載和增量稀疏,以及Decode階段的動態(tài)稀疏,提升長序列推理吞吐。

在Qwen3-32B模型上,測試問答助手場景,開啟Prefix Cache和RAG Chunk功能。測試數(shù)據(jù)表明,首Token時延降低約55%,且隨著序列長度越長,TTFT降低效果越明顯,通過“以查代算”的方式,避免了大量歷史對話信息的重復(fù)計算。

wKgZPGkpAvGAKeHhAAEP1aPeZ3M080.png

圖1 問答助手場景對比開關(guān)UCM的TTFT

測試長文檔推理場景,設(shè)定序列長度輸入32K+輸出1K,開啟Chunk Prefill和GSA稀疏化功能。測試數(shù)據(jù)表明,在并發(fā)數(shù)為30時,TTFT最大降低47%,端到端吞吐最大提升75%。

wKgZO2kpAvGAE5kwAABaWm9WI3o473.png

圖2 長文檔推理場景對比開關(guān)UCM的TTFT

wKgZPGkpAvKAetkFAABZTGktrWw833.png

圖3 長文檔推理場景對比開關(guān)UCM的E2E吞吐

關(guān)閉UCM,當(dāng)并發(fā)數(shù)超17時,請求開始排隊;開啟UCM,當(dāng)并發(fā)數(shù)超32時,請求開始排隊。在以上情況下,開啟UCM對比關(guān)閉UCM場景,并發(fā)能力提升88.24%。

wKgZO2kpAvOANQmgAABOXLrZ1B0980.png

圖4 長文檔推理場景對比開關(guān)UCM的并發(fā)能力

目前,該方案正在電力、金融等行業(yè)試點。未來,雙方將持續(xù)深化技術(shù)合作,推動技術(shù)迭代與行業(yè)適配,助力AI技術(shù)在更多行業(yè)的落地應(yīng)用。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關(guān)注

    關(guān)注

    217

    文章

    35748

    瀏覽量

    260575
  • 數(shù)據(jù)存儲
    +關(guān)注

    關(guān)注

    5

    文章

    1012

    瀏覽量

    52499
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    37959

    瀏覽量

    295761
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    華為破解HBM依賴!AI推理黑科技UCM上線,9月正式開源

    8月12日,在2025金融AI推理應(yīng)用落地與發(fā)展論壇上,華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周越峰宣布,
    的頭像 發(fā)表于 08-13 08:58 ?9574次閱讀
    <b class='flag-5'>華為</b>破解HBM依賴!<b class='flag-5'>AI</b><b class='flag-5'>推理</b>黑科技UCM上線,9月正式開源

    AI推理存儲,看好SRAM?

    看到了其前景并提前布局。AI推理也使得存儲HBM不再是唯一熱門,更多存儲芯片與AI推理芯片結(jié)合,
    的頭像 發(fā)表于 03-03 08:51 ?2365次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的<b class='flag-5'>存儲</b>,看好SRAM?

    中軟國際攜手華為發(fā)布醫(yī)藥聯(lián)合解決方案

    近日,在華為全聯(lián)接大會2025“智慧園區(qū)與智算圓桌”活動上,中軟國際華為技術(shù)與解決方案集團(tuán)模型工場業(yè)務(wù)部總裁張偉受邀出席。會上,在華為智算服務(wù)聯(lián)合
    的頭像 發(fā)表于 09-19 14:16 ?687次閱讀

    軟通動力入選828精選AI行業(yè)聯(lián)合解決方案

    近日,第四屆828 B2B企業(yè)節(jié)開幕式上,華為云攜手生態(tài)伙伴,以精準(zhǔn)的行業(yè)洞察與聯(lián)合創(chuàng)新,集中推出多款AI行業(yè)聯(lián)合解決方案,釋放
    的頭像 發(fā)表于 09-01 11:37 ?550次閱讀

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理器,旨在推動AI推理體驗升級,提升推理性價比,加速
    的頭像 發(fā)表于 08-15 09:45 ?908次閱讀

    今日看點丨華為發(fā)布AI推理創(chuàng)新技術(shù)UCM;比亞迪汽車出口暴增130%

    ? ? 降低HBM依賴,華為發(fā)布AI推理創(chuàng)新技術(shù)UCM ? 日前,華為正式發(fā)布
    發(fā)表于 08-13 09:45 ?3420次閱讀

    廣汽華為聯(lián)合AI解決方案入選國際電聯(lián)全球標(biāo)桿案例

    。峰會期間,ITU正式發(fā)布《人工智能向善:創(chuàng)新擴(kuò)大影響案例集》(AI for Good - Innovate for Impact Report)2025年中期報告,其中,廣汽集團(tuán)聯(lián)合華為
    的頭像 發(fā)表于 07-24 14:34 ?1147次閱讀

    軟通動力攜手華為云推出AI知識引擎與數(shù)據(jù)工程融合創(chuàng)新解決方案

    華為開發(fā)者大會2025中,軟通動力攜手華為云以華為云昇騰AI、盤古大模型、ModelArts等為技術(shù)底座,全新升級數(shù)據(jù)治理基線
    的頭像 發(fā)表于 06-28 17:07 ?1326次閱讀

    華為發(fā)布AI數(shù)據(jù)解決方案加速行業(yè)智能化 AI時代數(shù)據(jù)覺醒

    正式發(fā)布AI數(shù)據(jù)解決方案加速AI行業(yè)化落地。 華為
    的頭像 發(fā)表于 04-30 18:01 ?1441次閱讀
    <b class='flag-5'>華為</b><b class='flag-5'>發(fā)布</b><b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)</b>湖<b class='flag-5'>解決方案</b><b class='flag-5'>加速</b>行業(yè)智能化 <b class='flag-5'>AI</b>時代<b class='flag-5'>數(shù)據(jù)</b>覺醒

    華為加速AI時代數(shù)據(jù)存儲產(chǎn)業(yè)發(fā)展

    近日,在華為中國合作伙伴大會2025上,華為數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰發(fā)表“共筑數(shù)智解決方案,共享數(shù)據(jù)
    的頭像 發(fā)表于 04-01 15:35 ?866次閱讀

    曙光存儲全新升級AI存儲方案

    近日,曙光存儲全新升級AI存儲方案,秉持“AI加速”理念,面向
    的頭像 發(fā)表于 03-31 11:27 ?1011次閱讀

    軟通動力攜手伙伴發(fā)布六大聯(lián)合解決方案

    NEWS 華為中國合作伙伴大會2025期間,軟通動力攜手伙伴發(fā)布“昇騰DeepSeek專業(yè)服務(wù)解決方案”、“智慧高校校園聯(lián)合解決方案”、“C
    的頭像 發(fā)表于 03-22 10:30 ?1627次閱讀
    軟通動力攜手伙伴<b class='flag-5'>發(fā)布</b>六大<b class='flag-5'>聯(lián)合</b><b class='flag-5'>解決方案</b>

    Banana Pi 發(fā)布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)

    存儲設(shè)計,輕松應(yīng)對復(fù)雜AI模型與實時推理。其堅固耐用的工業(yè)級品質(zhì)與超低成本,不僅適應(yīng)嚴(yán)苛環(huán)境的應(yīng)用,更為工程師提供了極致靈活的開發(fā)體驗,堪稱推動開源生態(tài)與人工智能未來的標(biāo)桿之選?!?瑞薩系統(tǒng)
    發(fā)表于 03-19 17:54

    華為發(fā)布AI WAN解決方案

    在MWC25巴塞羅那期間,華為數(shù)據(jù)通信產(chǎn)品線總裁王雷在產(chǎn)品與解決方案發(fā)布會上正式發(fā)布AI WAN解決方
    的頭像 發(fā)表于 03-05 10:18 ?1184次閱讀

    華為發(fā)布AI為中心的網(wǎng)絡(luò)解決方案

    在MWC25巴塞羅那期間舉辦的產(chǎn)品與解決方案發(fā)布會上,華為董事、ICT BG CEO楊超斌發(fā)布了以AI為中心的網(wǎng)絡(luò)解決方案
    的頭像 發(fā)表于 03-05 10:02 ?920次閱讀