福利姬白浆导航,玷污

（電子發(fā)燒友網(wǎng)報道文/章鷹）近日，Omdia半導(dǎo)體研究團(tuán)隊高級顧問宋卓在2025年灣芯展論壇上表示，該研究團(tuán)隊對2025年全球及國內(nèi)半導(dǎo)體市場保持樂觀，受到AI云服務(wù)相關(guān)硬件的持續(xù)投入推動影響，2025年全球半導(dǎo)體市場收入將達(dá)到7815億美元，預(yù)計同比2024年增長16.3%。

云天勵飛副總裁羅憶看好AI推理需求的增長，他指出國內(nèi)AI面臨兩大拐點：1、算力需求爆發(fā)，大模型推理算力需求將在2026年超越訓(xùn)練需求，成為算力消耗的主題，占據(jù)所有算力需求的比例將超過70%。2、國產(chǎn)算力芯片的使用比例不久將會超過海外芯片，目前兩者達(dá)到五五分。

圖1：AI推理需求爆發(fā)

10月29日，在安博會的2025智能算力應(yīng)用及產(chǎn)業(yè)發(fā)展論壇上，超聚變數(shù)字技術(shù)有限公司深圳解決方案總監(jiān)丁元釗表示，原來我們預(yù)計2026年是AI推理爆發(fā)元年，2025年DeepSeek-R1，V3模型推出，直接推動AI推理市場的上揚，未來3-5年都是AI推理領(lǐng)域的規(guī)模應(yīng)用階段。不管是行業(yè)應(yīng)用，還是算力相關(guān)的芯片，都將大規(guī)模的圍繞AI推理來爆發(fā)。

AI推理火爆主要的驅(qū)動力是什么？高通最新AI推理芯片，還有國內(nèi)AI推理芯片領(lǐng)域，沐曦科技、云天勵飛、百度昆侖芯片的最新進(jìn)展如何？本文將詳細(xì)匯總和分析。

AI推理火爆背后驅(qū)動力：邊緣AI需求暴增，Token調(diào)用量攀升，成本可控成新趨勢

2025年以來，隨著大模型（如DeepSeek、ChatGPT等）在醫(yī)療、金融、政務(wù)、消費電子等場景廣泛部署，AI工作負(fù)載正從“訓(xùn)練”轉(zhuǎn)向“推理”。2025年，全球推理任務(wù)占比預(yù)計達(dá)67%，2028年將提升至73%。

2025年被視為“AI Agent元年”，智能體從被動執(zhí)行轉(zhuǎn)向自主規(guī)劃與決策，單次任務(wù)消耗的Token量是傳統(tǒng)對話的100倍以上。大模型普及正驅(qū)動全球日均Token調(diào)用量飛速攀升，據(jù)統(tǒng)計，全球AI巨頭月消耗token量已經(jīng)來到千萬億量級，且仍在持續(xù)提升。Token調(diào)用量的攀升直接帶動了推理算力需求的指數(shù)級增長。據(jù)麥肯錫預(yù)測，全球AI推理市場將于2028年達(dá)到1500億美元，年復(fù)合增長率達(dá)40%，遠(yuǎn)高于訓(xùn)練市場的20%。

云天勵飛副總裁羅憶指出，Token數(shù)可能每年增長10倍，但是算力基礎(chǔ)設(shè)施投入上，基本是一倍增加，如何彌補中間的鴻溝？這就意味著需要更少的算力解決更多Token的推理。

高通發(fā)布兩款A(yù)I芯片，進(jìn)軍數(shù)據(jù)中心AI推理市場

10月27日晚間，美國移動芯片巨頭高通宣布推出兩款數(shù)據(jù)中心人工智能芯片——AI200和AI250，兩款芯片對應(yīng)的AI推理優(yōu)化解決方案，可提供更高內(nèi)存容量和優(yōu)秀的AI推理優(yōu)化，預(yù)計分別于2026年和2027年商用。

與英偉達(dá)主導(dǎo)數(shù)據(jù)中心GPU不同的是，高通選擇了一條差異化競爭策略：以機架級性能、高內(nèi)存實現(xiàn)快速的生成式AI推理為核心方向，強調(diào)其在能效、總擁有成本等方面的優(yōu)勢。

AI200 推出一款專用機架級 AI 推理解決方案，旨在為大型語言和多模態(tài)模型 (LLM、LMM) 推理及其他 AI 工作負(fù)載提供低總擁有成本 (TCO) 和優(yōu)化的性能。它支持每卡 768 GB LPDDR，可提供更高的內(nèi)存容量和更低的成本，從而為 AI 推理提供卓越的擴展性和靈活性。

AI250 解決方案將首次采用基于近內(nèi)存計算的創(chuàng)新內(nèi)存架構(gòu)，通過提供超過 10 倍的有效內(nèi)存帶寬和更低的功耗，為 AI 推理工作負(fù)載帶來效率和性能的跨越式提升。

據(jù)悉，AI200 和 AI250 產(chǎn)品均采用直接液體冷卻技術(shù)進(jìn)行冷卻，利用 PCIe 互連進(jìn)行縱向擴展，利用以太網(wǎng)進(jìn)行橫向擴展，并提供 160kW 的機架級功耗。高通沒有透露有關(guān)每個機架的芯片數(shù)量或機架將提供的計算性能的信息。

高通還透露，首批AI機架解決方案將于2026年起部署于中東客戶“HUMAIN”公司的數(shù)據(jù)中心。這被視為高通AI芯片商業(yè)化的重要里程碑。

沐曦C600登場，單卡算力和內(nèi)存超越H20

在最新沐曦科技披露的IPO文件看，2025年前3個月，沐曦來自訓(xùn)推一體系列產(chǎn)品的收入占比高達(dá)97.87%。沐曦科技主要產(chǎn)品覆蓋AI計算、通用計算、圖形渲染三大領(lǐng)域，先后推出用于智算推理的曦思N系列GPU、用于訓(xùn)推一體和通用計算的曦云C系列GPU，以及正在研發(fā)用于圖形渲染的曦彩G系列GPU。

2023年，沐曦推出首款訓(xùn)推一體GPU芯片曦云C500，并在此基礎(chǔ)上推出了曦云C550；該系列基于國產(chǎn)供應(yīng)鏈的產(chǎn)品曦云C600已完成流片。

圖：曦云C600 圖片來自沐曦科技微信

以英偉達(dá) H20為例，其核心優(yōu)勢在于大容量顯存、高速互連帶寬、多精度計算能力等。曦云C500系列產(chǎn)品的單卡算力已超過 H20，最新一代曦云 C600 系列產(chǎn)品的單卡算力亦領(lǐng)先于英偉達(dá)H20，并具備 FP8 計算單元，能夠支持多精度計算。同時，曦云 C600 系列產(chǎn)品配備了大容量顯存，超過 H20 的96GB 版本，可以有效承載更大規(guī)模數(shù)據(jù)與模型、減少數(shù)據(jù)交換的性能損耗、提升多任務(wù)并行執(zhí)行能力。

據(jù)悉，曦云C500系列產(chǎn)品的下游客戶以國家人工智能公共算力平臺、運營商智算平臺、商業(yè)化智算中心以及教科研、金融等行業(yè)客戶為主。

云天勵飛推出四款推理芯片，覆蓋邊緣到云的多種場景

云天勵飛在灣芯展展出了多款自研芯片——DeepEdge 10、DeepEdge 10C、DeepEdge 10 Max、DeepEdge 200，覆蓋從邊緣到云端的多種推理場景。

DeepEdge10芯片是云天勵飛自主研發(fā)的AI推理高性能芯片,采用國產(chǎn)14nm Chiplet工藝,并內(nèi)置國產(chǎn)RISC-V核。該系列芯片基于“算力積木”AI芯片架構(gòu),能夠封裝成不同算力的芯片,覆蓋8T至256T的算力應(yīng)用,可支持包括Transformer模型、BEV模型、CV大模型、LLM大模型等各類主流模型的高效推理,并已完成DeepSeek 系列模型以及國產(chǎn)鴻蒙操作系統(tǒng)的適配。

圖：云天勵飛四款A(yù)I推理芯片

公司還推出了更高階的 DeepEdge 200 芯片，面向更高并發(fā)和云端推理場景。該芯片采用 D2D Chiplet + C2C Mesh Torus 互連，可把多顆 Die 像積木一樣拼成 256 TOPS 的“單片”，這款芯片通過“算力積木”把 256 TOPS 級別的大算力塞進(jìn) 35 W 功耗包絡(luò)，同時保留橫向擴展和軟件棧兼容性，成為目前國產(chǎn) AI 推理芯片中少數(shù)能兼顧“邊緣高能效”與“云端高并發(fā)”的單芯片方案。

百度昆侖芯P800，部分性能與A100相當(dāng)，中標(biāo)中國移動采購大單

2025年2月20日，百度旗下的昆侖芯團(tuán)隊正式發(fā)布了P800型號AI芯片，成為國產(chǎn)AI芯片領(lǐng)域的一次重大創(chuàng)新。此次發(fā)布的重要亮點在于，這款芯片首度支持單機部署DeepSeek V3/R1671B滿血版大模型。

推理性能：在運行DeepSeek-R1/V3滿血版671B模型時，昆侖芯P800單機8卡的量達(dá)到2437tokens/s，并發(fā)量達(dá)到256，比英偉達(dá)A100更快。在同樣負(fù)載情況下，P800的推理延遲比A100降低了18%。值得關(guān)注的是，昆侖芯P800在能耗方面比A100提高了約15%的功效比，在資源有限的環(huán)境中具有優(yōu)勢。

2025 年中國移動 AI 通用計算（推理型）集采，P800 拿下三個標(biāo)包 70%-100% 份額，標(biāo)志著其進(jìn)入電信級規(guī)模采購。

本文由電子發(fā)燒友原創(chuàng)，轉(zhuǎn)載請注明以上來源。微信號zy1052625525。需入群交流，請?zhí)砑游⑿舉lecfans999，投稿爆料采訪需求，請發(fā)郵箱zhangying@huaqiu.com。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴