1前言
01版本概述與核心定位
近期,沐曦股份發(fā)布了MXMACA軟件棧(以下簡(jiǎn)稱“MACA”)的3.3.0.X版本,MACA套件是面向沐曦曦云C系列、曦思N系列GPU研發(fā)的異構(gòu)計(jì)算軟件棧核心計(jì)算平臺(tái)、引擎、運(yùn)維工具和規(guī)范化操作范本,作為沐曦“自主GPGPU硬件+全棧軟件體系”的關(guān)鍵協(xié)同載體,如圖1所示,MACA承擔(dān)著連接硬件算力單元與上層應(yīng)用生態(tài)的核心紐帶作用,覆蓋底層驅(qū)動(dòng)、用戶態(tài)接口、編譯器、算子適配、訓(xùn)練框架、推理框架、行業(yè)場(chǎng)景優(yōu)化等全鏈路能力,是支撐國產(chǎn)GPU生態(tài)落地與行業(yè)賦能的算力基座。

圖1 MACA套件的定位和作用
本次MACA套件版本發(fā)布聚焦 “生態(tài)強(qiáng)化與場(chǎng)景深度適配”,涵蓋底層基礎(chǔ)能力迭代與主流AI框架、大模型訓(xùn)推、搜廣推、科學(xué)計(jì)算等多維度生態(tài)適配,但本報(bào)告不針對(duì)技術(shù)細(xì)節(jié)做全面羅列,而是聚焦版本對(duì)行業(yè)應(yīng)用的實(shí)際賦能價(jià)值,選取核心場(chǎng)景進(jìn)行深度解析。
本報(bào)告圍繞AI領(lǐng)域行業(yè)核心場(chǎng)景,系統(tǒng)呈現(xiàn)MACA-3.3.0.X版本的場(chǎng)景適配成果、效能表現(xiàn)及生態(tài)價(jià)值,向開發(fā)者與合作伙伴清晰傳遞沐曦軟硬件協(xié)同的行業(yè)賦能能力,為相關(guān)方的技術(shù)選型與產(chǎn)業(yè)落地提供專業(yè)參考。
02版本測(cè)試保障
為確保MACA版本作為核心協(xié)同載體的穩(wěn)定性、功能完整性與性能優(yōu)越性,切實(shí)支撐國產(chǎn)GPU生態(tài)落地與行業(yè)賦能,每個(gè)MACA版本正式發(fā)布前均經(jīng)過多維度、大規(guī)模的嚴(yán)格測(cè)試驗(yàn)證,構(gòu)建起覆蓋軟硬件協(xié)同優(yōu)化和行業(yè)應(yīng)用支撐底座的全流程質(zhì)量管控體系。
測(cè)試體系以行業(yè)場(chǎng)景的全面匹配度和覆蓋度為目標(biāo),共包含超過1萬5千個(gè)MACA軟件棧測(cè)試用例和超過1萬個(gè)行業(yè)相關(guān)場(chǎng)景應(yīng)用測(cè)試用例,這些用例在整個(gè)測(cè)試周期中反復(fù)迭代執(zhí)行,從功能正確性、性能達(dá)標(biāo)率、長(zhǎng)期穩(wěn)定性等多維度驗(yàn)證產(chǎn)品質(zhì)量,確保滿足商業(yè)落地的嚴(yán)苛要求。測(cè)試覆蓋近30種國際主流及國產(chǎn)操作系統(tǒng)及內(nèi)核(如表1所示),僅曦云C系列GPU產(chǎn)品測(cè)試相對(duì)應(yīng)的測(cè)試就占用超過60000個(gè)GPU 小時(shí),以大規(guī)模資源投入保障測(cè)試的全面性與有效性。
表1 MACA-3.3.0.X版本適配CPU、操作系統(tǒng)和內(nèi)核對(duì)照部分列表

在核心測(cè)試模塊覆蓋上,MACA軟件棧測(cè)試精準(zhǔn)對(duì)標(biāo)全鏈路技術(shù)能力。其中,開發(fā)效率引擎層的測(cè)試能力包括CTS(兼容性測(cè)試套件)、編譯器、數(shù)學(xué)庫(算子庫)、通訊庫、工具鏈、虛擬化、視頻編解碼等基礎(chǔ)模塊,確保底層基礎(chǔ)能力的穩(wěn)定可靠;涵蓋算子庫廣度以及算子壓力測(cè)試(算子庫范圍和數(shù)量如表2所示)、用戶態(tài)接口的完備性和性能優(yōu)化測(cè)試、集合通信能力驗(yàn)證等核心模塊。在垂直場(chǎng)景賦能層中,生態(tài)適配體系層面則涵蓋PyTorch、TensorFlow、PaddlePaddle為代表的主流AI框架兼容、Megatron-LM、DeepSpeed等大模型訓(xùn)練框架和vLLM、SGLang等推理框架及加速庫支持以及科學(xué)計(jì)算場(chǎng)景適配等,針對(duì)生態(tài)適配體系中的AI框架與模型兼容需求,測(cè)試環(huán)節(jié)專門覆蓋40余種主流AI框架(如表3所示)及接近500個(gè)模型類別,每個(gè)模型會(huì)在多種參數(shù)組合和多種GPU配置環(huán)境下完成性能驗(yàn)證,最終每個(gè)細(xì)分場(chǎng)景下都會(huì)輸出超過5000條性能數(shù)據(jù),全面保障模型運(yùn)行效率與兼容性,為開發(fā)者提供低成本、高性能運(yùn)行的堅(jiān)實(shí)保障。
表2 部分常用算子庫及其測(cè)試用例數(shù)

表3 MACA-3.3.0.X版本支持AI框架部分列表
? ? ? ? ? ? ? ? ? ? ? ? ?
03核心發(fā)布信息匯總
| 核心信息 | |
| 適配硬件 | 沐曦曦云C系列GPU、曦思N系列(基于全自研 GPGPU 核心IP及架構(gòu),原生支持全精度計(jì)算、MetaXLink 高速互連及硬件級(jí)虛擬化、軟切分能力) |
| 版本定位 | 生態(tài)強(qiáng)化版:聚焦算子全量覆蓋、主流框架深度兼容、多場(chǎng)景性能優(yōu)化,全面提升商業(yè)落地適配性與開發(fā)者使用體驗(yàn) |
| 核心升級(jí)方向 |
PyTorch 2.8 版本算子全量覆蓋; 大模型訓(xùn)推性能對(duì)標(biāo)國際旗艦產(chǎn)品; 搜廣推場(chǎng)景多技術(shù)棧深度適配; 垂直領(lǐng)域(AI4S、傳統(tǒng)小模型)專項(xiàng)優(yōu)化 |
| 正式發(fā)布時(shí)間 |
MACA-3.3.0.X軟件棧于12月8日發(fā)布 AI框架適配版本于12月15日發(fā)布 |
|
版本迭代 核心亮點(diǎn) |
MACA SDK: 單機(jī)多卡環(huán)境下,支持任意數(shù)量GPU動(dòng)態(tài)鎖定/解鎖同一主機(jī)內(nèi)存,實(shí)現(xiàn)多卡H2D傳輸 優(yōu)化Stream優(yōu)先級(jí),即保證Graph額外創(chuàng)建的Stream和Graph Launch API使用的Stream優(yōu)先級(jí)一致 通訊庫: 適配MIXL庫 DeepEP適配Hidden Size和專家數(shù)等更多參數(shù)規(guī)格,以支持更多MoE大模型 分層算法支持多機(jī)Reduce Scatter、All Gather通信功能 數(shù)學(xué)庫: XFormers將attention backend所用的flashAttn2.5.3升級(jí)到2.6.3,并支持全部memory efficient forward API功能 mctlassEx新增w8a16 contiguous group gemm接口功能 mcDNN新增int8/fp16 fwd conv+gelu融合功能 FlashMLA支持DeepSeek v3.2所需的sparse prefill和decode功能 MACA PyTorch: 支持 torchcodec-0.6.0 發(fā)布PyTorch2.8版本 MACA JAX: 正式發(fā)布mcJAX-0.4.34 AI訓(xùn)推框架 PaddlePaddle: 適配Paddle3.3.0版本 支持Customer Kernel注冊(cè) 支持大模型訓(xùn)推一體 支持科學(xué)計(jì)算高階微分 vLLM: 適配0.11.0版本發(fā)布 SGLang: 適配0.5.4版本發(fā)布,并優(yōu)化性能 |
2生態(tài)適配度詳情
1全?;A(chǔ)能力:生態(tài)全域覆蓋與技術(shù)底座革新
1.1PyTorch框架適配與算子全量覆蓋
沐曦MACA-3.3.0.X版本完成了對(duì) PyTorch 2.8 版本的深度適配工作,實(shí)現(xiàn)了對(duì)原生算子配置文件 native_functions.yaml 中定義算子體系的全面兼容。本次適配覆蓋全部2650個(gè)核心算子(其中GPU算子2410個(gè)),涵蓋基本算術(shù)運(yùn)算、線性代數(shù)操作、卷積/池化類算子、規(guī)約操作、隨機(jī)采樣、索引與切片快速傅里葉變換(FFT)、Attention等關(guān)鍵算子類別;在張量運(yùn)算維度,同時(shí)支持稠密張量與稀疏張量的完整運(yùn)算邏輯,數(shù)據(jù)類型層面則覆蓋整數(shù)、浮點(diǎn)、布爾、復(fù)數(shù)及量化類型等多類數(shù)據(jù)形態(tài),保障了算子能力的完整性與場(chǎng)景適配性。
在此基礎(chǔ)上,沐曦基于該完備的算子系統(tǒng),進(jìn)一步完成分布式訓(xùn)練、torch.compile 等高級(jí)特性的適配與落地,實(shí)現(xiàn)了從基礎(chǔ)算子層到高階訓(xùn)練與編譯優(yōu)化能力的全棧式兼容,為基于 PyTorch 2.8 的各類深度學(xué)習(xí)訓(xùn)練與推理場(chǎng)景提供了穩(wěn)定、全面的底層算子支撐。該適配方案基于沐曦全棧軟件體系打造,向上兼容PyTorch原生接口與核心模塊,向下深度契合自研GPU硬件特性,無需調(diào)整工程構(gòu)建邏輯即可實(shí)現(xiàn)現(xiàn)有模型無縫使用。
為保障生態(tài)兼容性,MACA套件通過生態(tài)適配工具鏈實(shí)現(xiàn)構(gòu)建系統(tǒng)平滑切換,支持C++擴(kuò)展功能及Megatron-LM、DeepSpeed等主流大模型訓(xùn)練框架,支持vLLM、SGLang、Tansformers和KTransformer等主流大模型推理框架,兼容Ubuntu、CentOS、RHEL、openEuler、Anolis OS 、銀河麒麟等主流Linux發(fā)行版。同時(shí)完整支持混合精度訓(xùn)練、分布式訓(xùn)練、torch.compile編譯優(yōu)化與圖模式任務(wù)下發(fā)的深度集成等關(guān)鍵特性,搭配性能分析與優(yōu)化工具鏈,核心場(chǎng)景性能對(duì)標(biāo)主流GPU水平。此外,通過內(nèi)存分配優(yōu)化、數(shù)據(jù)布局適配等底層調(diào)優(yōu),進(jìn)一步釋放硬件算力,結(jié)合輕量化部署方案與豐富示例程序,大幅降低使用門檻。不僅夯實(shí)了國產(chǎn)GPU的生態(tài)基礎(chǔ),更為深度學(xué)習(xí)開發(fā)者提供了開箱即用、高效穩(wěn)定的技術(shù)支撐,加速AI訓(xùn)練與推理場(chǎng)景的產(chǎn)業(yè)化落地。
1.2第三方開源倉庫資產(chǎn)復(fù)用測(cè)試
CUDA是GPGPU領(lǐng)域的行業(yè)標(biāo)準(zhǔn),能便捷實(shí)現(xiàn)GPU并行編程,支撐各類軟件與框架運(yùn)行,GitHub上相關(guān)項(xiàng)目近3萬個(gè),覆蓋并行計(jì)算、科學(xué)計(jì)算等關(guān)鍵場(chǎng)景,影響力遠(yuǎn)超同類技術(shù)。對(duì)于已有資產(chǎn)的適配意義重大:一方面,其適配后可快速接入成熟開源生態(tài),拓展AI、數(shù)據(jù)處理、氣象預(yù)報(bào)、計(jì)算化學(xué)等多元應(yīng)用場(chǎng)景;另一方面,能滿足HPC軟件、PyTorch 等主流框架需求,降低用戶學(xué)習(xí)成本,提升平臺(tái)競(jìng)爭(zhēng)力,填補(bǔ)國產(chǎn)異構(gòu)計(jì)算平臺(tái)的GPU加速生態(tài)空白。
質(zhì)量保證團(tuán)隊(duì)以GitHub為核心數(shù)據(jù)源,按 “含CUDA關(guān)鍵字且star數(shù)量大于1且具有活躍度” 的規(guī)則篩選代碼倉,本版本測(cè)試選取 4490個(gè)倉庫進(jìn)入正式測(cè)試;這些代碼按依賴庫集中于MPI、BLAS等高頻庫,按應(yīng)用領(lǐng)域可劃分為AI模型和應(yīng)用、高性能并行計(jì)算、氣象模擬、計(jì)算化學(xué)等場(chǎng)景,按編程語言C/C++原生語言為主。通過 “雙環(huán)境驗(yàn)證+自動(dòng)化流水線” 的方式推進(jìn),最終4490個(gè)開源項(xiàng)目適配測(cè)試結(jié)果如圖2所示:57個(gè)暫不可用(編譯失敗11 + 運(yùn)行失敗 46)、260個(gè)修改后可用(含結(jié)果不一致45)、4173個(gè)直接可用(結(jié)果一致),直接適配成功率 92.94%。

圖2 MACA套件中開源項(xiàng)目適配測(cè)試結(jié)果
這些直接通過的項(xiàng)目無需額外改動(dòng)代碼,從GitHub篩選后拿過來即可在MACA平臺(tái)穩(wěn)定運(yùn)行,覆蓋MPI、BLAS等核心依賴庫及氣象模擬、計(jì)算化學(xué)等主流應(yīng)用場(chǎng)景,充分體現(xiàn)了MACA對(duì)現(xiàn)有生態(tài)的兼容深度。僅小部分項(xiàng)目需手動(dòng)微調(diào),這類項(xiàng)目共260個(gè)、占比5.79%(不足 6%),且修改量極小。主要集中在cmake配置優(yōu)化、少量頭文件適配或編譯器腳本調(diào)整,無需改動(dòng)核心業(yè)務(wù)邏輯,平均每個(gè)項(xiàng)目手動(dòng)修改耗時(shí)不超過半天。結(jié)合自動(dòng)化流水線的批量驗(yàn)證能力,整體適配效率與可用性處于行業(yè)較好水平,為用戶快速使用并行加速應(yīng)用提供了可靠支撐。
1.3全棧工具鏈優(yōu)化與多場(chǎng)景適配主要特性一覽
在開發(fā)效率引擎層,MACA套件通過高性能算子庫、智能編譯工具鏈、專業(yè)性能分析工具及配套工具庫,構(gòu)建起降低異構(gòu)開發(fā)門檻的技術(shù)體系。其中,六大核心高性能算子庫(mcBLAS、mcDNN、mcFlashAttention 等)針對(duì)多 GPU 拓?fù)鋬?yōu)化內(nèi)存訪問與并行邏輯,如 mcBLAS 支持按 GPU 數(shù)量動(dòng)態(tài)切分矩陣,mcFlashAttention 通過三級(jí)存儲(chǔ)體系減少跨 GPU 通信;編譯器工具支持 MACA C/C++、Fortran 等多語言,結(jié)合指令重排、內(nèi)存合并、任務(wù)自動(dòng)切分等多 GPU 優(yōu)化策略,將高級(jí)語言轉(zhuǎn)化為高效可執(zhí)行程序;性能分析工具則通過系統(tǒng)級(jí)追蹤與核函數(shù)級(jí)指標(biāo)采集,助力定位計(jì)算瓶頸,搭配 mcPytorch、mcTriton 等工具庫,進(jìn)一步簡(jiǎn)化異構(gòu)開發(fā)全流程,相關(guān)技術(shù)細(xì)節(jié)如圖3所示。

圖3 MACA套件中開發(fā)效率引擎——降低異構(gòu)開發(fā)門檻
在垂直場(chǎng)景賦能層,MACA套件圍繞AI與科學(xué)計(jì)算兩大領(lǐng)域,通過針對(duì)性的優(yōu)化策略與框架適配,實(shí)現(xiàn)算力與行業(yè)需求的精準(zhǔn)融合。AI領(lǐng)域中,訓(xùn)練優(yōu)化兼容 PyTorch、BMTrain等框架,依托硬件流水線并行實(shí)現(xiàn)通信與計(jì)算重疊,優(yōu)化分布式并行策略;推理優(yōu)化則適配ONNX Runtime、vLLM、SGLang等框架,采用INT8 量化、KVCache 跨卡管理提升長(zhǎng)序列處理效率??茖W(xué)計(jì)算領(lǐng)域通過重構(gòu) MPI、BLAS 庫提升內(nèi)存帶寬,并定向移植 OpenFOAM、GROMACS 等專業(yè)科學(xué)計(jì)算框架,結(jié)合容器化部署方案,確保算力能高效支撐流體仿真、分子動(dòng)力學(xué)等垂直場(chǎng)景,完成從算力供給到行業(yè)價(jià)值轉(zhuǎn)化的關(guān)鍵銜接,具體實(shí)施方案如圖4所示。

圖4 MACA套件中垂直場(chǎng)景賦能層——算力與行業(yè)需求的融合
2大模型訓(xùn)推一體化:大模型算力支撐底座和效能突破
沐曦MACA-3.3.0.X版本構(gòu)建起覆蓋大模型訓(xùn)練與推理全流程的一體化算力支撐底座,通過軟硬件深度協(xié)同、核心算子優(yōu)化、分布式架構(gòu)升級(jí),破解大模型超大規(guī)模參數(shù)訓(xùn)練的通信瓶頸、高算力需求、長(zhǎng)周期部署等核心痛點(diǎn),實(shí)現(xiàn)訓(xùn)推效能的跨越式突破。
2.1訓(xùn)推一體化算力底座核心架構(gòu)
2.1.1. 硬件算力基座支撐
依托沐曦自研GPGPU的高算力密度、高內(nèi)存帶寬與高速互連優(yōu)勢(shì),底座提供從單卡到萬卡級(jí)集群的彈性算力供給。單卡原生支持多精度混合計(jì)算,內(nèi)存容量與帶寬適配千億參數(shù)模型的存儲(chǔ)需求;跨節(jié)點(diǎn)通過MetaXLink自研高速互連技術(shù),構(gòu)建低時(shí)延、高帶寬的分布式通信網(wǎng)絡(luò),為大規(guī)模集群訓(xùn)推奠定硬件基礎(chǔ)。
2.1.2. 全棧軟件協(xié)同賦能
以MACA異構(gòu)計(jì)算軟件棧為核心,構(gòu)建起端到端協(xié)同體系,實(shí)現(xiàn)軟硬件能力的深度耦合與效能最大化。該體系全面兼容 PyTorch、PaddlePaddle、TensorFlow、JAX、Megatron-LM、DeepSpeed、XTuner等主流大模型訓(xùn)練框架,全面兼容vLLM、SGLang、LMDeploy等大模型推理框架,圖5展示了MACA套件在大模型推理場(chǎng)景下的優(yōu)化技術(shù)匯總。總體特征是無需大幅修改代碼即可支持現(xiàn)有模型,降低開發(fā)者使用門檻;依托MetaXLink自研高速互連技術(shù)與MCCL高性能通信庫,構(gòu)建低時(shí)延、高帶寬的分布式通信架構(gòu),有效破解分布式訓(xùn)練中的通信瓶頸;集成拓?fù)涓兄狹CCL分布式通信庫,能夠動(dòng)態(tài)識(shí)別集群拓?fù)浣Y(jié)構(gòu)并適配最優(yōu)通信策略,為多機(jī)多卡訓(xùn)推提供高效數(shù)據(jù)協(xié)同支撐;同時(shí)內(nèi)置自研編譯器優(yōu)化模塊,通過算子自動(dòng)融合、循環(huán)展開等編譯級(jí)智能優(yōu)化,充分挖掘硬件底層算力潛力,實(shí)現(xiàn)計(jì)算資源的高效利用,為大模型訓(xùn)推全流程提供穩(wěn)定、高效的軟件底層支撐。

圖5 MACA套件大模型推理優(yōu)化技術(shù)匯總
2.1.3. 訓(xùn)推無縫切換能力
MACA軟件棧底座打破訓(xùn)練與推理的場(chǎng)景壁壘,支持模型訓(xùn)練后的輕量化轉(zhuǎn)換與直接部署,無需二次適配。通過統(tǒng)一的模型格式與接口規(guī)范,實(shí)現(xiàn) “訓(xùn)練-微調(diào)-推理-部署” 全流程鏈路打通,大幅降低大模型從研發(fā)到落地的周期成本。
2.2核心效能優(yōu)化技術(shù)突破
2.2.1. 關(guān)鍵算子深度調(diào)優(yōu)
針對(duì)大模型訓(xùn)推核心算子開展硬件親和性優(yōu)化:
FlashAttention算子:優(yōu)化數(shù)據(jù)布局與訪存流水線設(shè)計(jì),融合計(jì)算與數(shù)據(jù)搬運(yùn)操作,適配大模型長(zhǎng)上下文生成需求。按GPU片上高速緩存大小拆分Q/K/V數(shù)據(jù)塊,讓計(jì)算全程在高速緩存內(nèi)完成,不用反復(fù)讀寫外部HBM高速內(nèi)存。同時(shí)整合矩陣相乘、Softmax歸一化等多步操作,中間結(jié)果不落地,大幅減少HBM數(shù)據(jù)傳輸開銷。支持FP16/BF16多精度與超長(zhǎng)序列,長(zhǎng)序列場(chǎng)景吞吐量提升,內(nèi)存帶寬占用降低,模型精度完全不受影響,高效緩解訪存瓶頸。
分布式集合通信庫:作為分布式訓(xùn)推的 “數(shù)據(jù)協(xié)同中樞”,負(fù)責(zé)多機(jī)多卡間高效數(shù)據(jù)同步與交換,是大規(guī)模集群發(fā)揮算力的核心支撐。針對(duì)AllReduce、All2All、AllGather等高頻算子開展全維度優(yōu)化:AllReduce(聚合核心)采用算法自適應(yīng)策略,根據(jù)數(shù)據(jù)量動(dòng)態(tài)切換Ring/Tree/Recursive Doubling算法,結(jié)合節(jié)點(diǎn)內(nèi)預(yù)聚合+跨節(jié)點(diǎn)拓?fù)涓兄酚?,減少20%跨節(jié)點(diǎn)通信延遲;All2All(MoE專家并行關(guān)鍵)通過動(dòng)態(tài)分組通信、流量均衡調(diào)度優(yōu)化,避免專家數(shù)據(jù)交換時(shí)的網(wǎng)絡(luò)擁堵,如圖6所示在EP144的實(shí)踐中,使用了優(yōu)化后的All2All通信庫,專家并行效率提升15%,;AllGather(數(shù)據(jù)匯聚)采用分塊流水線傳輸+異構(gòu)網(wǎng)絡(luò)適配,提升數(shù)據(jù)分片聚合速率。同時(shí)疊加通信壓縮(梯度量化/稀疏化)、預(yù)通信調(diào)度等技術(shù),千卡集群線性度穩(wěn)定在95%以上,保障大模型分布式訓(xùn)推的高吞吐與低延遲。

圖6 分布式集合通信庫在大EP并行中的使用
通信-計(jì)算重疊優(yōu)化:通信-計(jì)算重疊優(yōu)化是突破GPU訓(xùn)推性能瓶頸的核心技術(shù),旨在解決數(shù)據(jù)通信與計(jì)算任務(wù)串行執(zhí)行導(dǎo)致的資源閑置問題。核心通過異步通信機(jī)制實(shí)現(xiàn):依托MACA自研MCCL集合通信庫的非阻塞接口,將數(shù)據(jù)傳輸任務(wù)與GPU計(jì)算任務(wù)解耦;結(jié)合任務(wù)調(diào)度引擎預(yù)加載遠(yuǎn)程數(shù)據(jù)、拆分通信粒度,利用GPU空閑周期并行處理數(shù)據(jù)傳輸;部分架構(gòu)通過硬件級(jí)專有通信單元卸載,進(jìn)一步降低CPU干預(yù)開銷。圖7所示,在大模型分布式訓(xùn)練場(chǎng)景的實(shí)踐中,通過計(jì)算和通信并行可顯著縮短端到端延遲,提升GPU利用率15%-30%,在分布式訓(xùn)練、大模型推理等場(chǎng)景中,有效緩解跨節(jié)點(diǎn)/跨卡通信瓶頸,支撐更大批量數(shù)據(jù)處理與更復(fù)雜模型的高效運(yùn)行。

圖7 大模型分布式訓(xùn)練場(chǎng)景的計(jì)算和通信并行
2.2.2. 編譯與部署優(yōu)化
編譯級(jí)效能提升:深度支持torch.compile動(dòng)態(tài)圖編譯優(yōu)化,通過算子自動(dòng)融合、循環(huán)展開、指令調(diào)度優(yōu)化等手段,最大化硬件算力利用率,模型訓(xùn)練迭代速度提升;
推理引擎輕量化適配:針對(duì)大模型推理場(chǎng)景打造專用輕量化引擎,優(yōu)化算子調(diào)度與批處理策略,覆蓋長(zhǎng)短序列差異化需求,短序列推理延遲降低,長(zhǎng)序列推理吞吐量提升;
企業(yè)級(jí)部署適配:兼容容器化部署與云原生調(diào)度架構(gòu),支持集群快速擴(kuò)容與彈性伸縮,簡(jiǎn)化環(huán)境配置與運(yùn)維流程,適配企業(yè)級(jí)大規(guī)模落地需求,降低部署與運(yùn)維成本。
2.3效能突破核心表現(xiàn)
1訓(xùn)練效能
針對(duì)大規(guī)模大模型訓(xùn)練場(chǎng)景,顯著縮短訓(xùn)練周期,在大規(guī)模集群分布式訓(xùn)練中展現(xiàn)優(yōu)異線性度,可支持長(zhǎng)周期無故障穩(wěn)定運(yùn)行,保障訓(xùn)練任務(wù)高效推進(jìn);
2推理效能
對(duì)主流大模型推理性能進(jìn)行深度優(yōu)化,顯著降低推理延遲、大幅提升吞吐量,在長(zhǎng)上下文推理場(chǎng)景下仍保持高效穩(wěn)定的運(yùn)行表現(xiàn),適配復(fù)雜業(yè)務(wù)需求;
3兼容性
全面兼容當(dāng)前主流大模型生態(tài)體系,覆蓋全系列主流模型,無需進(jìn)行代碼修改即可直接開展訓(xùn)練與推理工作,降低模型優(yōu)化與適配成本;
4擴(kuò)展性
具備從小規(guī)模調(diào)試到大規(guī)模訓(xùn)推的全場(chǎng)景平滑擴(kuò)展能力,可靈活適配不同規(guī)模企業(yè)的技術(shù)研發(fā)與生產(chǎn)部署需求,提供高效、可擴(kuò)展的算力支撐方案。
2.3.1 大模型訓(xùn)練性能數(shù)據(jù)

圖8 不同大模型訓(xùn)練任務(wù)的 TGS 對(duì)比
圖8展示了 DeepSeek、GLM、InternLM、Llama、Qwen 等多系列大模型,在不同參數(shù)規(guī)模(如 7B、13B)及任務(wù)類型(SFT、Pretrain)下的訓(xùn)練 TGS 數(shù)據(jù),包含 “旗艦 A TGS”(黃色柱)、“C550 TGS”(紫色柱)及兩者效率比值(綠色折線)。
2.3.2 大模型推理性能數(shù)據(jù)

圖9 不同大模型推理任務(wù)的 Total TPS 對(duì)比
圖9呈現(xiàn)大模型推理階段的 Total_Tps 指標(biāo)對(duì)比,橫軸為組合型 Model-Name(格式:模型名 - 并發(fā)數(shù) - Input size-Output size),涵蓋 Baichuan2、chatglm3、glm4、Llama2、Owen2.5、Mixtral 等模型及不同并發(fā)、輸入輸出尺寸的配置??v軸左側(cè)為 Total_Tps 數(shù)值,右側(cè)為 Total_Tps (C550 / 國際旗艦 A) 的比值;紫色柱代表 Total_Tps (C550),黃色柱代表 Total_Tps (國際旗艦 A),綠色折線表征兩者的比值,展示了不同模型及配置下的 TPS 表現(xiàn)與相對(duì)比值波動(dòng)。
3搜廣推業(yè)務(wù)全場(chǎng)景:多技術(shù)棧協(xié)同的
全鏈路訓(xùn)推適配升級(jí)
搜廣推(搜索、廣告、推薦)是互聯(lián)網(wǎng)核心流量變現(xiàn)與用戶體驗(yàn)優(yōu)化場(chǎng)景,其核心訴求是在海量數(shù)據(jù)中精準(zhǔn)匹配用戶需求,并支持高并發(fā)、低延遲的實(shí)時(shí)決策。隨著數(shù)據(jù)規(guī)模爆發(fā)式增長(zhǎng)和模型復(fù)雜度提升,GPU憑借大規(guī)模并行計(jì)算能力、高內(nèi)存帶寬、專用計(jì)算核心,成為搜廣推場(chǎng)景的核心算力支撐。本版本技術(shù)報(bào)告重點(diǎn)討論TensorFlow/JAX與XLA技術(shù)的深度融合,暫不展示TorchRec體系。
3.1訓(xùn)練適配:TensorFlow/JAX + XLA 深度協(xié)同,打造高效訓(xùn)練新范式
3.1.1. 技術(shù)棧支持:全鏈路覆蓋與深度融合
全面完成 TensorFlow、JAX 雙框架與 XLA 技術(shù)棧的深度協(xié)同適配,打通從數(shù)據(jù)輸入、模型構(gòu)建、編譯優(yōu)化到分布式執(zhí)行的全鏈路流程。其中,TensorFlow 依托成熟的模型開發(fā)體系、工業(yè)級(jí)分布式訓(xùn)練框架及搜廣推場(chǎng)景生態(tài)優(yōu)勢(shì),提供低門檻的開發(fā)體驗(yàn);JAX 則憑借函數(shù)式編程特性、原生 XLA 深度集成能力及靈活的自動(dòng)微分機(jī)制,適配高性能、定制化的訓(xùn)練需求;XLA 編譯器作為統(tǒng)一優(yōu)化層,通過算子融合、內(nèi)存智能調(diào)度、靜態(tài)編譯優(yōu)化等核心能力,解決傳統(tǒng)訓(xùn)練中內(nèi)核調(diào)用頻繁、內(nèi)存開銷大的痛點(diǎn)。三者形成 “TensorFlow 生態(tài)便捷性+JAX高性能靈活性+XLA編譯高效性” 的三重優(yōu)勢(shì),覆蓋搜廣推場(chǎng)景模型訓(xùn)練全流程,無論是基于TensorFlow的工業(yè)化落地,還是基于JAX的極致性能調(diào)優(yōu),均無需額外適配即可實(shí)現(xiàn)高效接入。
3.1.2. 核心優(yōu)化:多卡訓(xùn)練與精度優(yōu)化雙輪驅(qū)動(dòng)
單機(jī)多卡高效適配:以TensorFlow單機(jī)多卡訓(xùn)練框架為核心,完成其數(shù)據(jù)并行模式與 XLA的深度協(xié)同適配,打通TensorFlow多卡調(diào)度接口與XLA跨設(shè)備編譯鏈路;同時(shí)針對(duì)JAX的分布式特性,適配其分布式接口與XLA跨設(shè)備編譯邏輯,解決JAX多卡場(chǎng)景下數(shù)據(jù)分片、設(shè)備通信的效率瓶頸。借助XLA對(duì)TensorFlow靜態(tài)計(jì)算圖、JAX函數(shù)式計(jì)算圖的統(tǒng)一優(yōu)化能力,解決單機(jī)場(chǎng)景下多卡間數(shù)據(jù)同步、算子調(diào)度協(xié)調(diào)等關(guān)鍵問題,實(shí)現(xiàn)大規(guī)模批次樣本的高效并行訓(xùn)練;依托TensorFlow成熟的多卡資源管理能力、JAX輕量化的分布式調(diào)度特性與XLA的編譯優(yōu)化聯(lián)動(dòng),讓單機(jī)多卡資源利用率提升。
混合精度計(jì)算原生兼容:深度適配TensorFlow混合精度訓(xùn)練接口,基于其對(duì) FP16/BF16/TF32/FP32數(shù)據(jù)類型的原生支持,結(jié)合XLA編譯器的精度自適應(yīng)優(yōu)化邏輯;同時(shí)充分利用 JAX原生對(duì)BF16/FP16的輕量化支持,針對(duì)JAX函數(shù)式計(jì)算圖的精度傳播特性,優(yōu)化XLA的精度適配規(guī)則。XLA可統(tǒng)一解析TensorFlow、JAX計(jì)算圖中各模塊的精度需求,自動(dòng)識(shí)別模型核心計(jì)算模塊與精度敏感模塊,對(duì) TensorFlow 場(chǎng)景側(cè)重 “生態(tài)兼容下的精度平衡”,對(duì)JAX場(chǎng)景側(cè)重 “極致性能下的精度可控”,實(shí)現(xiàn)高精度與高性能的動(dòng)態(tài)平衡。相較于傳統(tǒng)CPU訓(xùn)練方案,依托TensorFlow/JAX與XLA的協(xié)同優(yōu)化,訓(xùn)練周期縮短,有效支撐大規(guī)模稀疏特征與復(fù)雜模型的長(zhǎng)時(shí)間穩(wěn)定訓(xùn)練。
編譯優(yōu)化深度迭代:針對(duì)TensorFlow定義的搜廣推高維稀疏算子及特征處理流程,優(yōu)化XLA的編譯適配邏輯;同時(shí)針對(duì)JAX生態(tài)下的稀疏計(jì)算需求,定制XLA對(duì)JAX稀疏算子的編譯規(guī)則,解決JAX稀疏特征處理中編譯開銷高、算子碎片化的問題。XLA基于TensorFlow靜態(tài)計(jì)算圖、JAX函數(shù)式計(jì)算圖的結(jié)構(gòu)特點(diǎn),精準(zhǔn)識(shí)別 “特征查找-交叉-激活” 等關(guān)鍵子圖,通過子圖聚類、算子自動(dòng)融合等技術(shù),將多步TensorFlow操作或JAX函數(shù)調(diào)用融合為單一編譯單元,減少數(shù)據(jù)在TensorFlow/JAX算子與XLA編譯單元間的搬運(yùn)開銷,讓核心計(jì)算模塊訓(xùn)練效率提升。
3.1.3. 適配模型:覆蓋核心場(chǎng)景與復(fù)雜架構(gòu)
深度兼容搜廣推領(lǐng)域全量核心模型,無論是基于TensorFlow開發(fā)的傳統(tǒng)機(jī)器學(xué)習(xí)模型(LR、GBDT)、深度學(xué)習(xí)基礎(chǔ)模型(DeepFM、Wide&Deep、DCN、NFM)、復(fù)雜序列模型(DIN、DIEN),還是基于JAX(結(jié)合Flax/Haiku高層神經(jīng)網(wǎng)絡(luò)庫)實(shí)現(xiàn)的同類型模型,均無需大幅修改代碼即可接入適配體系。針對(duì) Transformer 類模型的注意力機(jī)制、DeepFM 的特征交互模塊等復(fù)雜計(jì)算單元,分別定制XLA編譯優(yōu)化規(guī)則:對(duì)TensorFlow版本側(cè)重 “生態(tài)兼容下的算子穩(wěn)定性優(yōu)化”,對(duì)JAX版本側(cè)重 “函數(shù)式計(jì)算圖的編譯效率優(yōu)化”,既保障TensorFlow模型工業(yè)化訓(xùn)練的穩(wěn)定性,也提升JAX模型在GPU集群下的計(jì)算效率,全面覆蓋CTR/CVR預(yù)估、推薦排序、搜索召回等核心訓(xùn)練場(chǎng)景。
3.1.4. 效果展示:TensorFlow/JAX + XLA 的深度融合
下圖10為部分搜廣推模型在XLA技術(shù)的深度融合下的,與國際旗艦產(chǎn)品A的對(duì)比效果。橫坐標(biāo)為選取的各種主要模型,柱狀圖的主縱軸表示訓(xùn)練單個(gè)step的平均耗時(shí),折線圖的次縱軸表示國際旗艦產(chǎn)品A與沐曦GPU產(chǎn)品的比值。

圖10 搜廣推模型使能XLA與國際旗艦產(chǎn)品A的
對(duì)比效果
3.2推理適配:TVM + XLA協(xié)同,構(gòu)建低延遲推理體系
3.2.1. 技術(shù)棧支持:編譯與部署一體化支撐
完成TVM + XLA推理技術(shù)棧全流程適配,構(gòu)建 “模型轉(zhuǎn)換-圖優(yōu)化-圖切分-圖編譯-算子編譯優(yōu)化-部署落地” 的一體化支撐體系。TVM提供跨硬件平臺(tái)的模型優(yōu)化與部署能力,支持TensorFlow等多框架模型的統(tǒng)一轉(zhuǎn)換;XLA則作為核心編譯引擎,承接模型的算子優(yōu)化、子圖編譯等關(guān)鍵環(huán)節(jié),兩者協(xié)同實(shí)現(xiàn) “模型無需改造即可編譯,編譯結(jié)果可直接部署” 的高效流程,適配GPU、CPU等加速器等多硬件環(huán)境,降低跨平臺(tái)部署成本。
3.2.2. 核心優(yōu)化:多維度技術(shù)降低推理開銷
算子融合與編譯優(yōu)化:通過XLA的算子融合能力與TVM的圖優(yōu)化策略,實(shí)現(xiàn)推理計(jì)算圖的深度優(yōu)化,將Concat、Transpose、Reduce、Split、Elementwise等串行算子融合為復(fù)合算子,減少內(nèi)核調(diào)用次數(shù),推理計(jì)算效率提升。
W8A8低比特量化落地:針對(duì)搜廣推推理場(chǎng)景對(duì)延遲的嚴(yán)苛要求,實(shí)現(xiàn)W8A8低比特量化技術(shù)的全流程支持,在XLA編譯器的量化感知編譯與TVM的量化部署工具協(xié)同下,模型體積壓縮,推理延遲大幅度優(yōu)化,同時(shí)精度損失可控,滿足業(yè)務(wù)指標(biāo)要求。
動(dòng)態(tài)批處理智能適配:結(jié)合搜廣推業(yè)務(wù)流量波動(dòng)特點(diǎn),支持動(dòng)態(tài)批處理技術(shù),通過TV的批處理調(diào)度模塊與XLA的動(dòng)態(tài)shape編譯能力,自動(dòng)適配不同流量場(chǎng)景下的請(qǐng)求批次大小,在高并發(fā)場(chǎng)景下吞吐量提升,低并發(fā)場(chǎng)景下延遲降低。
3.2.3. 適配場(chǎng)景:全面覆蓋核心業(yè)務(wù)全流程
全面覆蓋搜廣推業(yè)務(wù)核心推理場(chǎng)景,實(shí)現(xiàn)全場(chǎng)景高效支撐:
搜索場(chǎng)景:適配召回(向量召回、協(xié)同過濾召回)、粗排、精排全鏈路推理,通過低延遲優(yōu)化保障搜索結(jié)果毫秒級(jí)返回,提升用戶檢索體驗(yàn);推薦場(chǎng)景:支撐個(gè)性化推薦的精排、重排環(huán)節(jié),動(dòng)態(tài)批處理技術(shù)適配流量峰值波動(dòng),確保推薦列表實(shí)時(shí)更新與高效推送;廣告場(chǎng)景:覆蓋 CTR/CVR 預(yù)估、廣告排序、出價(jià)決策等核心環(huán)節(jié),低比特量化與算子融合技術(shù)保障廣告投放的實(shí)時(shí)性與精準(zhǔn)性,提升廣告轉(zhuǎn)化效率。
3.2.4. 效果展示:TensorFlow/JAX + XLA 的深度融合
在搜廣推場(chǎng)景中,TVM與XLA技術(shù)形成 “雙輪驅(qū)動(dòng)” 的推理生態(tài),實(shí)現(xiàn)了高效且適配的技術(shù)效果:mcTVM 針對(duì)搜廣推需求,支持稀疏算子、兼容 PyTorch/ONNX 等主流框架,提供端到端編譯部署工具鏈,其適配的數(shù)十個(gè)搜廣推開源模型(如 EasyRec/DeepCTR),平均推理性能超越國際旗艦 GPU 產(chǎn)品A(121.04%)、產(chǎn)品B(131.64%),上百個(gè)模型可開箱即用。mcXLA則兼容TensorFlow/JAX 框架,支持動(dòng)態(tài)shape與JIT編譯,能無縫對(duì)接TF Serving快速部署,同樣適配上百個(gè)搜廣推模型。二者結(jié)合既兼顧通用性編程,又充分優(yōu)化硬件性能,最終讓沐曦GPU具備支撐千億級(jí)流量的搜廣推全棧推理能力,精準(zhǔn)適配這一 AI 落地最成熟的商業(yè)場(chǎng)景,高效釋放硬件潛力。
圖11為部分搜廣推模型在XLA編譯技術(shù)與TVM編譯框架深度融合方案下,與國際旗艦產(chǎn)品A和B的性能對(duì)比效果。


圖11 MACA套件中主流搜推廣開源模型
與國際旗艦A和B的推理性能對(duì)比
圖12呈現(xiàn)推薦系統(tǒng)和向量檢索的性能對(duì)比測(cè)試結(jié)果,涉及三類核心指標(biāo):it/s(每秒迭代次數(shù),數(shù)值越高代表模型運(yùn)算速度越快)、s/Nits(完成指定迭代量的耗時(shí),數(shù)值越低代表效率越高)、QPS(每秒查詢數(shù),數(shù)值越高代表向量檢索吞吐量越強(qiáng))。測(cè)試對(duì)象覆蓋多目標(biāo)排序 rechub 等推薦模型、Deep Image/SIFT 系列向量檢索模型,對(duì)比 C500(紫柱)與國際旗艦 B(黃柱)的性能表現(xiàn),綠色曲線為 C500 相對(duì)國際旗艦 B 的性能占比。
數(shù)據(jù)層面:推薦模型中,多目標(biāo)排序 rechub 的 it/s 指標(biāo) C500(約 32)優(yōu)于國際旗艦 B(約 18);HugeCTR DIN 的 s/8000its 指標(biāo)中國際旗艦 B 耗時(shí)更短。向量檢索模型中,Deep Image-ivflat 的 QPS(C500 約 607、國際旗艦 B 約 205)C500 領(lǐng)先顯著,僅 SIFT-ivfpq 的 QPS 中國際旗艦 B 略高。多數(shù)場(chǎng)景下 C500 性能占比超 100%,Deep Image-ivflat 占比近 300%,體現(xiàn)其在多數(shù)測(cè)試場(chǎng)景的性能優(yōu)勢(shì)。

圖12 推薦系統(tǒng)和向量檢索與國際旗艦B的XLA
推理性能對(duì)比
4傳統(tǒng)小模型支持:泛場(chǎng)景的低成本與高效落地賦能
針對(duì)產(chǎn)業(yè)級(jí)AI應(yīng)用中傳統(tǒng)小模型的部署需求,MACA套件構(gòu)建了一套支持多技術(shù)領(lǐng)域、低成本、高算力利用率的技術(shù)體系,聚焦計(jì)算機(jī)視覺、自然語言處理及傳統(tǒng)機(jī)器學(xué)習(xí)等核心場(chǎng)景,通過兼容主流模型格式、優(yōu)化底層計(jì)算邏輯及簡(jiǎn)化流程,實(shí)現(xiàn)小模型的高效落地與性能提升,為相關(guān)技術(shù)應(yīng)用提供標(biāo)準(zhǔn)化技術(shù)支撐。方案全面覆蓋傳統(tǒng)小模型的核心應(yīng)用場(chǎng)景,無需額外構(gòu)建專屬適配框架,其中計(jì)算機(jī)視覺場(chǎng)景支持圖像分類、目標(biāo)檢測(cè)等基礎(chǔ)任務(wù),適配各種圖像輸入格式,可滿足工業(yè)質(zhì)檢、智能監(jiān)控、物流分揀等典型場(chǎng)景的輕量化推理需求,兼容主流輕量化視覺模型結(jié)構(gòu);自然語言處理場(chǎng)景適配文本分類、識(shí)別等高頻任務(wù),支持多語言文本及不同長(zhǎng)度文本的處理需求,可應(yīng)用于輿情分析、智能客服意圖識(shí)別、金融信息抽取、法律文書處理等場(chǎng)景,兼容輕量化NLP模型的推理邏輯;傳統(tǒng)機(jī)器學(xué)習(xí)場(chǎng)景則全面兼容線性回歸、聚類分析、決策樹、隨機(jī)森林等經(jīng)典機(jī)器學(xué)習(xí)算法,適配結(jié)構(gòu)化數(shù)據(jù)建模需求,可應(yīng)用于預(yù)測(cè)、評(píng)估、分類、聚類等場(chǎng)景。
MACA套件具備多模型格式兼容、底層計(jì)算優(yōu)化及優(yōu)異性能表現(xiàn)等核心技術(shù)特性,支持 ONNX、TensorFlow Lite、PyTorch 等主流模型格式,搭配格式轉(zhuǎn)換工具鏈,可實(shí)現(xiàn)模型的直接導(dǎo)入與運(yùn)行,降低跨框架適配的技術(shù)成本;依托 MACA 基礎(chǔ)計(jì)算庫,對(duì) BLAS(矩陣運(yùn)算)、FFT(頻域處理)、Sparse(稀疏數(shù)據(jù)計(jì)算)三大核心模塊進(jìn)行針對(duì)性優(yōu)化,實(shí)現(xiàn)GPU硬件的算力精準(zhǔn)調(diào)度,減少算力冗余消耗,提升計(jì)算資源利用率,可滿足實(shí)時(shí)推理與高并發(fā)處理需求。
與國際旗艦產(chǎn)品A相比,部分典型模型的性能測(cè)試對(duì)比數(shù)據(jù)如圖13所示:

圖13 MACA套件中TensorFlow+XLA的訓(xùn)練效果
圖13針對(duì) XLA 優(yōu)化場(chǎng)景下的常用模型訓(xùn)練效果展開對(duì)比,橫軸覆蓋 VGG19、Xception、NASNetLarge 等多類典型模型,縱軸左側(cè)為訓(xùn)練相關(guān)每個(gè)迭代步的平均耗時(shí)(由于不同模型的運(yùn)行時(shí)間差異比較大,為了便于顯示使用了對(duì)數(shù)縱軸坐標(biāo)系),右側(cè)為 “國際旗艦產(chǎn)品 A” 與 “C550” 的指標(biāo)比值。圖中以橙色柱形表示 “國際旗艦產(chǎn)品 A” 的指標(biāo)值,灰色柱形表示 “C550” 的指標(biāo)值,黃色折線表征兩者的比值。該圖呈現(xiàn)了多類模型在 XLA 優(yōu)化下的訓(xùn)練指標(biāo)差異,比值折線在多數(shù)模型區(qū)間呈小幅波動(dòng),僅在 DRM、YOLOV3 等少數(shù)模型處出現(xiàn)顯著抬升。

圖14 MACA套件中常規(guī)小模型PyTorch框架
的訓(xùn)練效果
圖14展示 Pytorch 框架下常規(guī)模型的訓(xùn)練指標(biāo)對(duì)比,橫軸包含 densenet、vit-base 及不同 GPU 配置的模型(如 faster-rcnn-f50-1GPU/8GPU),縱軸左側(cè)為訓(xùn)練階段的吞吐量指標(biāo),右側(cè)為 “C550” 相對(duì) “國際旗艦產(chǎn)品 A” 的比值??梢暬匕ㄗ仙危–550)、黃色柱形(國際旗艦產(chǎn)品 A)、綠色折線(C550 / 旗艦 A)。圖中覆蓋了單 / 多 GPU 配置下的模型訓(xùn)練指標(biāo),折線反映了不同模型及硬件配置下 C550 相對(duì)旗艦產(chǎn)品的指標(biāo)比值變化。

圖15 常規(guī)模型推理階段的 FPS
圖15聚焦常規(guī)模型推理階段的 FPS(每秒幀率)指標(biāo)對(duì)比,橫軸為含精度配置的多類模型(如 ox_bert-fp16、ox_densenet121-int8),縱軸左側(cè)為 FPS 數(shù)值(區(qū)間 0 至 160000),右側(cè)為 “C550 / 旗艦 A” 的比值。圖中黃色柱形代表 “FPS_旗艦 A”,紫色柱形代表 “FPS_C550”,綠色折線代表兩者的比值。該圖涵蓋了 fp16、int8 等精度下的多模型推理 FPS,折線呈現(xiàn) C550 相對(duì)旗艦產(chǎn)品的 FPS 比值在不同模型及精度配置間的波動(dòng)特征。
5AI4S核心場(chǎng)景:沐曦股份推動(dòng)
第五范式科研革新的實(shí)踐進(jìn)展
AI4S(AI4Science)是繼實(shí)驗(yàn)、理論、計(jì)算模擬、數(shù)據(jù)驅(qū)動(dòng)后的第五代科學(xué)研究范式,2024年諾貝爾物理/化學(xué)獎(jiǎng)對(duì)AI在基礎(chǔ)科學(xué)中貢獻(xiàn)的表彰,標(biāo)志其已成為科學(xué)創(chuàng)新的核心工具。依托自研GPGPU及MACA生態(tài)套件,沐曦股份目前對(duì)AI4S多領(lǐng)域核心場(chǎng)景均已實(shí)現(xiàn)覆蓋,同時(shí)深化了與主流AI框架的生態(tài)協(xié)同,可推動(dòng)科研與產(chǎn)業(yè)的智能化轉(zhuǎn)型,如圖16所示。

圖16 MACA套件推動(dòng)第五范式科研革新的實(shí)踐進(jìn)展
5.1主流AI框架的生態(tài)適配
1Paddle 框架支持
PaddleScience是基于PaddlePaddle開發(fā)的科學(xué)計(jì)算套件,憑借深度學(xué)習(xí)能力與自動(dòng)(高階)微分機(jī)制,可解決物理、化學(xué)、氣象等領(lǐng)域問題,支持物理機(jī)理驅(qū)動(dòng)、數(shù)據(jù)驅(qū)動(dòng)、數(shù)理融合三種求解方式,并提供基礎(chǔ)API與詳盡文檔供二次開發(fā)。目前PaddleScience已完成與沐曦 AI 芯片的適配,雙方展開深度合作,覆蓋智能仿真、高性能計(jì)算、科學(xué)建模等方向,成功驗(yàn)證50+科學(xué)計(jì)算模型全量訓(xùn)練的精度與性能,充分展現(xiàn)國產(chǎn)AI硬件在科學(xué)計(jì)算場(chǎng)景的潛力。后續(xù)沐曦將與飛槳繼續(xù)在高性能科學(xué)計(jì)算、智能模擬等方向聯(lián)合攻關(guān),推動(dòng)AI for Science從實(shí)驗(yàn)室走向產(chǎn)業(yè)落地。
2JAX框架支持
針對(duì)JAX在科學(xué)計(jì)算中 “高效自動(dòng)微分+大規(guī)模并行計(jì)算” 的特性,沐曦平臺(tái)已實(shí)現(xiàn)對(duì)JAX生態(tài)的兼容適配,借助其技術(shù)能力,可助力物理建模、數(shù)據(jù)驅(qū)動(dòng)型科學(xué)研究的高效開展,進(jìn)一步豐富了AI4S的技術(shù)工具鏈。
5.2AI4Materials:破解材料研發(fā)低效痛點(diǎn)
針對(duì)傳統(tǒng) “試錯(cuò)式” 材料研發(fā)的高成本、長(zhǎng)周期問題,AI4Materials 構(gòu)建 “第一性原理 + ML勢(shì)能+分子動(dòng)力學(xué)+GNN +大模型” 的一體化生態(tài)。目前,沐曦平臺(tái)已兼容VASP、DeepMD-kit、LAMMPS等工具鏈,融合多物理場(chǎng)耦合與原子尺度生成模型,實(shí)現(xiàn)國產(chǎn)化材料模擬平臺(tái)自主可控,推動(dòng)產(chǎn)學(xué)研融合以提升新型功能材料的研發(fā)速度。
5.3技術(shù)科學(xué)場(chǎng)景:流體仿真的國產(chǎn)化工具賦能
在技術(shù)科學(xué)的流體仿真與求解器耦合方向,沐曦平臺(tái)適配了PaddleScience旗下的paddleCFD組件,可支持圓柱繞流、顱內(nèi)動(dòng)脈瘤、空氣激波等典型流體問題的仿真計(jì)算,結(jié)合 CFD-GCN、NSF-Nets等模型,進(jìn)一步提升了流體仿真的效率與精度,為汽車控制臂、心臟仿真等工業(yè)級(jí)場(chǎng)景提供了國產(chǎn)化工具支持。
5.4AI4Weather:支撐高精度氣象風(fēng)險(xiǎn)管控
極端天氣對(duì)多行業(yè)沖擊顯著,AI4Weather以秒級(jí)響應(yīng)的AI模型,彌補(bǔ)傳統(tǒng)數(shù)值天氣預(yù)報(bào)的高成本短板。沐曦平臺(tái)適配WRF數(shù)值模式及FourCastNet 等AI大模型,可支撐高精度極端天氣預(yù)警,助力行業(yè)風(fēng)險(xiǎn)管理與決策優(yōu)化。
5.5AI4Biomedical:重塑生物醫(yī)藥創(chuàng)新格局
在藥物研發(fā)領(lǐng)域,沐曦AI4Drug discovery 平臺(tái)覆蓋分子表征、蛋白結(jié)構(gòu)預(yù)測(cè)等全流程,集成 AlphaFold3、DiffDock等工具,同時(shí)融入PaddlePaddle生態(tài)下的paddleHelix工具;該工具可支持分子生成、蛋白配體相互作用預(yù)測(cè)等關(guān)鍵環(huán)節(jié),完善了藥物研發(fā)的全流程國產(chǎn)化工具鏈,有效縮短研發(fā)周期、降低成本;在醫(yī)學(xué)影像領(lǐng)域,沐曦提供圖像重建、分割等工具集,支撐虛擬增強(qiáng)影像、冠脈血流模擬等臨床科研方案。
AI4S 通過繼承前四范式的優(yōu)勢(shì),實(shí)現(xiàn)科研效率與精度的跨越式提升。沐曦的實(shí)踐證明:基于自主可控的算力底座,結(jié)合Paddle、JAX等框架適配及paddleCFD、paddleHelix 等專用組件,可為多領(lǐng)域提供軟硬件協(xié)同賦能,推動(dòng)科學(xué)研究的范式變革。
6版本迭代前瞻:軟硬件生態(tài)的前瞻布局
與能力升級(jí)預(yù)告
后續(xù)將推出曦云C600 GPU Beta版,聚焦硬件性能升級(jí)并對(duì)標(biāo)國際高端GPU水準(zhǔn);軟件層面將同步強(qiáng)化前沿技術(shù)適配、多模態(tài)模型全流程兼容、行業(yè)專用框架適配及邊緣部署優(yōu)化等核心能力,相關(guān)版本的正式發(fā)布時(shí)間后續(xù)補(bǔ)充。
3總結(jié)
沐曦MACA-3.3.0.X版本依托全自研GPGPU架構(gòu)與MACA 異構(gòu)計(jì)算軟件棧,構(gòu)建了 “1+6+X” 戰(zhàn)略生態(tài)體系:沐曦 “1+6+X” 戰(zhàn)略是其算力生態(tài)商業(yè)化落地的核心布局,構(gòu)建了 “算力底座-行業(yè)賦能” 的閉環(huán)體系。
“1” 為數(shù)字算力底座:以沐曦GPU為依托,通過自主 GPGPU 硬件與全棧軟件棧,支撐國家人工智能公共算力平臺(tái)、互聯(lián)網(wǎng)、運(yùn)營商、智算中心等主體,提供自主可控的穩(wěn)定算力基礎(chǔ)。
“6” 是6大核心行業(yè)賦能:聚焦金融、醫(yī)療健康、能源、教科研、交通、大文娛領(lǐng)域,針對(duì)各行業(yè)場(chǎng)景需求輸出行業(yè)定制化算力方案,實(shí)現(xiàn)場(chǎng)景級(jí)效能提升。
“X” 為泛行業(yè)拓展:基于標(biāo)準(zhǔn)化算力能力快速適配其他行業(yè)需求,擴(kuò)大生態(tài)覆蓋邊界。
本次版本發(fā)布進(jìn)一步驗(yàn)證了沐曦軟硬件生態(tài)的 “高性能、高兼容、高可用” 核心特性,不僅實(shí)現(xiàn)了與國際旗艦產(chǎn)品的性能對(duì)標(biāo),更通過降低學(xué)習(xí)成本、全場(chǎng)景深度適配,為國產(chǎn)算力替代提供了成熟、可靠的解決方案,助力產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型與技術(shù)自主創(chuàng)新。
關(guān)于沐曦股份
沐曦股份致力于自主研發(fā)全棧高性能GPU芯片及計(jì)算平臺(tái),為智算、通用計(jì)算、云渲染等前沿領(lǐng)域提供高能效、高通用性的算力支撐,助力數(shù)字經(jīng)濟(jì)發(fā)展。
-
gpu
+關(guān)注
關(guān)注
28文章
5149瀏覽量
134732 -
算力
+關(guān)注
關(guān)注
2文章
1471瀏覽量
16648 -
沐曦
+關(guān)注
關(guān)注
1文章
66瀏覽量
1789
原文標(biāo)題:沐曦股份MXMACA-3.3.0.X簡(jiǎn)要技術(shù)報(bào)告
文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
首款全國產(chǎn)通用GPU芯片發(fā)布 沐曦集成推出曦云C600
沐曦股份自研的MetaXLink高速互連技術(shù),突破傳統(tǒng)PCIe總線限制
沐曦人工智能推理GPU曦思N100的應(yīng)用優(yōu)勢(shì)
澎峰科技計(jì)算軟件棧與沐曦GPU完成適配和互認(rèn)證
澎峰科技與沐曦完成聯(lián)合測(cè)試,實(shí)現(xiàn)全面兼容
硅基流動(dòng)攜手沐曦首發(fā)基于曦云的Kimi K2推理服務(wù)
沐曦GPU與龍蜥操作系統(tǒng)完成適配
強(qiáng)強(qiáng)聯(lián)合:之江實(shí)驗(yàn)室與沐曦股份共建智算集群聯(lián)合實(shí)驗(yàn)室
沐曦股份與上海電信完成首期GPU生態(tài)專家認(rèn)證培訓(xùn)
瀚海量子與沐曦股份達(dá)成戰(zhàn)略合作 量子計(jì)算軟件領(lǐng)軍者+高性能GPU芯片領(lǐng)軍者
沐曦股份GPU加速技術(shù)助力藥物研發(fā)降本增效
DLInfer聯(lián)手沐曦股份實(shí)現(xiàn)數(shù)據(jù)生成場(chǎng)景的實(shí)際落地
沐曦股份攜手紅帽共同發(fā)布MXAIE解決方案
沐曦股份曦云C系列GPU Day 0適配智譜GLM-4.6V多模態(tài)大模型
沐曦股份MXMACA軟件棧3.3.0.X版本技術(shù)解析
評(píng)論