爱福利熟女论坛自拍,国产亚洲系列第一页,私密无码国产

(電子發(fā)燒友網(wǎng)報(bào)道文/章鷹）8月12日，在2025金融AI推理應(yīng)用落地與發(fā)展論壇上，華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周越峰宣布，華為此次和銀聯(lián)聯(lián)合創(chuàng)新，推出AI推理創(chuàng)新技術(shù)UCM（推理記憶數(shù)據(jù)管理其器）和管理系統(tǒng)的算法，這項(xiàng)突破性成果降低對(duì)HBM技術(shù)的依賴，提升國(guó)內(nèi)AI大模型的推理能力。

該技術(shù)是一款以KV Cache為中心的推理加速套件，UCM集成了多類型緩存加速算法工具，實(shí)現(xiàn)推理過(guò)程中KV Cache記憶數(shù)據(jù)的分級(jí)管理，從而擴(kuò)大推理上下文窗口，提升推理效率?！般y聯(lián)的實(shí)際案例和大量測(cè)試顯示，UCM顯著降低首Token的時(shí)延，最高降低90%，系統(tǒng)吞吐率最大提升22倍，上下文的推理窗口可以擴(kuò)展10倍以上，這是對(duì)于AI推理系統(tǒng)一個(gè)巨大的進(jìn)步?！?周越峰指出。

華為UCM技術(shù)已率先應(yīng)用在中國(guó)銀聯(lián)“客戶之聲”、“營(yíng)銷策劃”和“辦公助手”三大業(yè)務(wù)場(chǎng)景，開(kāi)展智慧金融AI推理加速應(yīng)用試點(diǎn)，并且已經(jīng)取得成果。華為表示，計(jì)劃于2025年9月正式開(kāi)源UCM，將在魔擎社區(qū)首發(fā)，并共享給業(yè)內(nèi)所有Share Everything(共享架構(gòu))存儲(chǔ)廠商和生態(tài)伙伴。

AI大模型推理給存儲(chǔ)帶來(lái)哪些挑戰(zhàn)？UCM的創(chuàng)新之處如何解讀？本文結(jié)合中國(guó)信通院人工智能研究平臺(tái)與工程化部主任曹峰、華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線AI存儲(chǔ)首席架構(gòu)師李國(guó)杰的觀點(diǎn)，進(jìn)行詳細(xì)分析。

AI大模型推理給存儲(chǔ)帶來(lái)三重挑戰(zhàn)

“ChatGPT的訪問(wèn)量呈現(xiàn)線性增長(zhǎng)，最新訪問(wèn)量達(dá)到4億，受益于中國(guó)AI大模型DeepSeek爆發(fā)，日均調(diào)用量也在快速上升，2025年1月開(kāi)始，中國(guó)AI推理的需求增長(zhǎng)20倍，未來(lái)三年算力需求爆發(fā)。IDC表示，2024年算力需求60%是訓(xùn)練，40%是推理，到2027年中國(guó)用于推理的算力需求——工作負(fù)載將達(dá)到72.6%。” 中國(guó)信通院人工智能研究平臺(tái)與工程化部主任曹峰分析說(shuō)。

當(dāng)下，AI大模型推理應(yīng)用落地中，遇到推不動(dòng)、推得慢和推得貴的三大挑戰(zhàn)。首先，長(zhǎng)文本越來(lái)越多，輸入超過(guò)模型上下文窗口的內(nèi)容，推理窗口小就推不動(dòng)；其次，由于中美在AI基礎(chǔ)設(shè)施的差距，中國(guó)互聯(lián)網(wǎng)大模型首Token時(shí)延普遍慢于美國(guó)頭部廠商的首Token時(shí)延，時(shí)延長(zhǎng)度為后者的兩倍；推得貴，美國(guó)大模型的推理吞吐率為中國(guó)大模型推理吞吐率的10倍。

華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周越峰指出，AI時(shí)代，模型訓(xùn)練、推理效率與體驗(yàn)的量綱都以Token數(shù)為表征，Token經(jīng)濟(jì)已經(jīng)到來(lái)。

在AI基礎(chǔ)設(shè)施投資，中國(guó)和美國(guó)有差距，為了保障流暢的推理體驗(yàn)，企業(yè)要加大算力投入，但是如何改善AI推理的效率和體驗(yàn)，在推理效率與成本之間找到最佳平衡點(diǎn)？華為推出UCM，以KV Cache和記憶管理為中心提供全場(chǎng)景化系列化推理加速能力。

UCM兩大關(guān)鍵能力和創(chuàng)新算法，破解HBM受困難題

HBM是解決"數(shù)據(jù)搬運(yùn)"的關(guān)鍵技術(shù)。當(dāng)HBM不足時(shí)，用戶使用AI推理的體驗(yàn)會(huì)明顯下降，導(dǎo)致出現(xiàn)任務(wù)卡頓、響應(yīng)慢等問(wèn)題。華為此次技術(shù)突破有望緩解這一瓶頸。

華為重磅推出UCM推理記憶數(shù)據(jù)管理器，包括對(duì)接不同引擎與算力的推理引擎插件（Connector）、支持多級(jí)KV Cache管理及加速算法的功能庫(kù)（Accelerator）、高性能KV Cache存取適配器（Adapter）三大組件，通過(guò)推理框架、算力、存儲(chǔ)三層協(xié)同，實(shí)現(xiàn)AI推理“更優(yōu)體驗(yàn)、更低成本”。

UCM的創(chuàng)新之處，在于可以根據(jù)記憶熱度在HBM、DRAM、SSD等存儲(chǔ)介質(zhì)中實(shí)現(xiàn)按需流動(dòng)，同時(shí)融合多種稀疏注意力算法實(shí)現(xiàn)存算深度協(xié)同，使長(zhǎng)序列場(chǎng)景下TPS（每秒處理token數(shù)）提升2至22倍，從而降低每個(gè)Token的推理成本。

“實(shí)時(shí)數(shù)據(jù)放在HBM當(dāng)中，短期記憶數(shù)據(jù)放在DRAM中，其他數(shù)據(jù)就放在共享存儲(chǔ)SSD中，極大提高系統(tǒng)的效率和AI推理能力。針對(duì)AI推理平衡成本和效能的挑戰(zhàn)，華為推出UCM統(tǒng)一的記憶數(shù)據(jù)管理器，在兩個(gè)層面以系統(tǒng)化的方案來(lái)解決問(wèn)題?！?華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線AI存儲(chǔ)首席架構(gòu)師李國(guó)杰表示。

一、在底層的框架和機(jī)制上提供了多級(jí)緩存空間，構(gòu)建智能管理以及智能流動(dòng)的基礎(chǔ)框架能力。在此基礎(chǔ)之上，華為構(gòu)筑了一系列創(chuàng)新的推理的加速算法和加速特性，包括自適應(yīng)的全局Prefix Cache,降低首Token時(shí)延與單位Token成本。

二、采用動(dòng)態(tài)的Training稀疏加速算法，倍數(shù)級(jí)提升長(zhǎng)序列吞吐和體驗(yàn)。還有后綴檢索、預(yù)測(cè)加速算法、PD檢索加速和Agent原生記憶加速。

UCM將超長(zhǎng)序列Cache分層卸載至外置專業(yè)存儲(chǔ)，通過(guò)算法創(chuàng)新突破模型和資源限制，實(shí)現(xiàn)推理上下文窗口的10倍級(jí)擴(kuò)展，滿足長(zhǎng)文本處理需求。

中國(guó)銀聯(lián)執(zhí)行副總裁涂曉軍分享說(shuō)，華為與中國(guó)銀聯(lián)的聯(lián)合創(chuàng)新技術(shù)試點(diǎn)中，在中國(guó)銀聯(lián)的“客戶之聲”業(yè)務(wù)場(chǎng)景下，借助UCM技術(shù)及工程化手段，大模型推理速度提升125倍，僅需10秒就可以精準(zhǔn)識(shí)別客戶高頻問(wèn)題，促進(jìn)服務(wù)質(zhì)量提升。

眾所周知，目前，AI大模型訓(xùn)練對(duì)內(nèi)存帶寬需求呈指數(shù)級(jí)增長(zhǎng)，傳統(tǒng)DDR內(nèi)存已無(wú)法滿足需求。HBM（高帶寬內(nèi)存）是一種專用內(nèi)存技術(shù)，用于 AI 處理器、GPU 和 HPC 系統(tǒng)，這些系統(tǒng)中帶寬和能效比原始容量更為重要。HBM3 每堆?？商峁└哌_(dá) 819 GB/s 的傳輸速度，對(duì)于支持大型語(yǔ)言模型 (LLM)、神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理工作負(fù)載至關(guān)重要。

但是去年12月以來(lái)美國(guó)將HBM2E列入對(duì)中國(guó)的禁售清單，國(guó)產(chǎn)廠商HBM的突破還在推進(jìn)中，華為推出UCM的重大意義，在于加速推進(jìn)國(guó)產(chǎn)AI推理生態(tài)，其核心價(jià)值是推進(jìn)更快的推理響應(yīng)和更長(zhǎng)的推理序列，以及更優(yōu)化的成本。

中國(guó)信通院人工智能研究平臺(tái)與工程化部主任曹峰認(rèn)為，國(guó)產(chǎn)化AI推理生態(tài)建設(shè)應(yīng)該加速，KV Cache已經(jīng)成為架構(gòu)優(yōu)化的焦點(diǎn)，以KV Cache為核心的推理方案迭出，背后依賴的高性能存儲(chǔ)、先進(jìn)調(diào)度策略的重要性愈發(fā)顯現(xiàn)。

李國(guó)杰還強(qiáng)調(diào)指出，AI是一個(gè)快速發(fā)展的行業(yè)，每6個(gè)月就會(huì)迎來(lái)新一輪的技術(shù)革新，UCM不僅定位于當(dāng)下，解決AI推理問(wèn)題，未來(lái)發(fā)展UCM將從KV Cache分層管理走向Agentic AI原生記憶管理和應(yīng)用加速。

本文由電子發(fā)燒友原創(chuàng)，轉(zhuǎn)載請(qǐng)注明以上來(lái)源。微信號(hào)zy1052625525。需入群交流，請(qǐng)?zhí)砑游⑿舉lecfans999，投稿爆料采訪需求，請(qǐng)發(fā)郵箱zhangying@huaqiu.com。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴