chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為昇騰深度適配智譜AI全新開源模型GLM-5

華為 ? 來源:華為 ? 2026-02-25 14:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2026年2月12日,智譜AI發(fā)布Agentic Engineering時代最好的開源模型GLM-5,從“寫代碼”到“寫工程”的能力進(jìn)一步演進(jìn)。在Coding與Agent能力上取得開源SOTA表現(xiàn),在真實(shí)編程場景的使用體驗(yàn)逼近Claude Opus 4.5,更擅長復(fù)雜系統(tǒng)工程與長程Agent任務(wù)。昇騰一直同步支持智譜GLM系列模型,此次GLM-5模型一經(jīng)開源發(fā)布,昇騰AI基礎(chǔ)軟硬件即實(shí)現(xiàn)0day適配,為該模型的推理部署和訓(xùn)練復(fù)現(xiàn)提供全流程支持。

更大基座,更強(qiáng)智能

參數(shù)規(guī)模擴(kuò)展:從355B(激活32B)擴(kuò)展至744B(激活40B),預(yù)訓(xùn)練數(shù)據(jù)從23T提升至28.5T,更大規(guī)模的預(yù)訓(xùn)練算力顯著提升了模型的通用智能水平。

異步強(qiáng)化學(xué)習(xí):構(gòu)建全新的"Slime"框架,支持更大模型規(guī)模及更復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù),提升強(qiáng)化學(xué)習(xí)后訓(xùn)練流程效率;提出異步智能體強(qiáng)化學(xué)習(xí)算法,使模型能夠持續(xù)從長程交互中學(xué)習(xí),充分激發(fā)預(yù)訓(xùn)練模型的潛力。

稀疏注意力機(jī)制:首次集成DeepSeek Sparse Attention,在維持長文本效果無損的同時,大幅降低模型部署成本,提升Token Efficiency。

Coding能力:對齊Claude Opus 4.5

GLM-5在SWE-bench-Verified和Terminal Bench 2.0中,分別獲得77.4和55.7的開源模型最高分?jǐn)?shù),性能超過Gemini 3.0 Pro。

c0f6a19c-0814-11f1-90a1-92fbcf53809c.png

Agent能力:SOTA級長程任務(wù)執(zhí)行

GLM-5在多個Agent測評基準(zhǔn)中取得開源第一,在BrowseComp(聯(lián)網(wǎng)檢索與信息理解)、MCP-Atlas(工具調(diào)用和多步驟任務(wù)執(zhí)行)和τ2-Bench(復(fù)雜多工具場景下的規(guī)劃和執(zhí)行)均取得最優(yōu)表現(xiàn)。

c151371a-0814-11f1-90a1-92fbcf53809c.png

在衡量模型經(jīng)營能力的Vending Bench 2中,GLM-5獲得開源模型中的最佳表現(xiàn)。Vending Bench 2要求模型在一年期內(nèi)經(jīng)營一個模擬的自動售貨機(jī)業(yè)務(wù),GLM-5最終賬戶余額達(dá)到4432美元,經(jīng)營表現(xiàn)接近Claude Opus 4.5,展現(xiàn)了出色的長期規(guī)劃和資源管理能力。

c1ae2dc6-0814-11f1-90a1-92fbcf53809c.png

這些能力是 Agentic Engineering 的核心:模型不僅要能寫代碼、完成工程,還要能在長程任務(wù)中保持目標(biāo)一致性、進(jìn)行資源管理、處理多步驟依賴關(guān)系,成為真正的 Agentic Ready 基座模型。

基于昇騰實(shí)現(xiàn)GLM-5的混合精度高效推理

昇騰支持對GLM模型W4A8混合精度量化,744B超大參數(shù)模型基于Atlas 800 A3實(shí)現(xiàn)單機(jī)部署。

GLM-5為78層decoder-only大模型:前3層為Dense FFN,后75層為MoE(路由專家+共享專家),自帶一層MTP(Multi-Token Prediction)用于加速解碼過程。針對這一模型結(jié)構(gòu),昇騰對權(quán)重文件采用了W4A8量化,極大減少顯存占用,加速Decode階段的執(zhí)行速度。同時采用了Lightning Indexer、Sparse Flash Attention等高性能融合算子,加速模型端到端的推理執(zhí)行,并支持業(yè)界主流推理引擎vLLM-Ascend、SGLang和xLLM高效部署。

權(quán)重下載:

https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8

推理部署:

https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md

昇騰W4A8量化,極大減少顯存占用

采用易擴(kuò)展的MsModelSlim量化工具,全程輕松量化

按模塊區(qū)分量化比特與算法:例如Attention與MLP主體用W8A8,MoE專家用W4A8;gate等量化敏感層可按需回退,避免過大精度損失。

c20ee5b2-0814-11f1-90a1-92fbcf53809c.png

一鍵即可量化:支持GLM-5量化過程“預(yù)處理+子圖融合+分層線性量化”的完整流水線,安裝后一條命令行即可輕松完成量化:msmodelslim quant --model_path ${model_path} --save_path ${save_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True

MsModelSlim提供豐富量化策略,實(shí)現(xiàn)快速精度對齊

旋轉(zhuǎn)Quarot算法:對權(quán)重做Hadamard旋轉(zhuǎn)與LayerNorm融合,降低激活異常值、改善后續(xù)量化的數(shù)值分布。

多種離群值抑制算法:采用Flex_AWQ_SSZ算法和Flex_Smooth_Quant算法混合策略,權(quán)重采用SSZ(Smooth Scale Zero)標(biāo)定,支持縮放因子等超參。

線性層量化策略:對單層Linear做W8A8或W4A8,對激活值做per-token粒度量化、對權(quán)重做per-channel粒度量化。

高性能融合算子,加速推理執(zhí)行

Lightning Indexer融合Kernel

長序列場景下TopK操作會成為瓶頸,通過引入Lightning Indexer融合算子,包含Score Batchmatmul、ReLU、ReduceSum、TopK等操作,可用TopK計(jì)算耗時流水掩蓋掉其他操作的耗時,從而提升計(jì)算流水收益。

Sparse Flash Attention融合Kernel

引入SFA,包含了從完整KVCache里選取TopK相關(guān)Token,及計(jì)算稀疏Flash Attention操作,可用離散聚合訪存耗時掩蓋其他操作耗時。

MLAPO 融合Kernel

GLM-5在Sparse Flash Attention預(yù)處理階段將query和KV進(jìn)行降維操作,并且把query降維后的激活值傳遞給Indexer模塊進(jìn)行稀疏選擇處理。近期將會引入MLAPO通過VV融合(多個Vector算子融合)技術(shù),將前處理過程中的13個小算子直接融合成1個超級大算子。除此之外,在MLAPO算子內(nèi)部,通過Vector和Cube計(jì)算單元的并行處理及流水優(yōu)化,進(jìn)一步提升算子整體性能。

基于昇騰實(shí)現(xiàn)GLM-5的訓(xùn)練復(fù)現(xiàn)

GLM-5采用了DeepSeek Sparse Attention(DSA)架構(gòu),針對DSA訓(xùn)練場景,昇騰團(tuán)隊(duì)設(shè)計(jì)并實(shí)現(xiàn)了昇騰親和融合算子,從兩方面進(jìn)行優(yōu)化:一是優(yōu)化Lightning Indexer Loss計(jì)算階段的內(nèi)存占用,二是利用昇騰Cube和Vector單元的流水并行來進(jìn)一步提升計(jì)算效率。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4199

    瀏覽量

    46101
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3749

    瀏覽量

    52087
  • 昇騰
    +關(guān)注

    關(guān)注

    1

    文章

    181

    瀏覽量

    7414

原文標(biāo)題:昇騰0day支持智譜GLM-5,744B模型單機(jī)高效推理

文章出處:【微信號:huaweicorp,微信公眾號:華為】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    壁仞科技壁礪166系列產(chǎn)品深度適配MiniMax M2.5和智GLM-5模型

    2月13日晚,MiniMax正式開源了最新旗艦模型M2.5。壁仞科技(06082.HK)旗艦產(chǎn)品壁礪166系列率先完成M2.5的本地化部署,成為首批完成適配的國產(chǎn)算力廠商。
    的頭像 發(fā)表于 02-26 14:31 ?422次閱讀
    壁仞科技壁礪166系列產(chǎn)品<b class='flag-5'>深度</b><b class='flag-5'>適配</b>MiniMax M2.5和智<b class='flag-5'>譜</b><b class='flag-5'>GLM-5</b><b class='flag-5'>模型</b>

    模型 ai coding 比較

    GLM-5 本地化部署/數(shù)據(jù)敏感場景 DeepSeek V2 Qwen2開源系列 ai coding 能力 因?yàn)?我對 java rust語言比較熟悉,所以想著以下面的提示詞 開發(fā)項(xiàng)目,看項(xiàng)目的吞吐量
    發(fā)表于 02-19 13:43

    模型競爭白熱化!智、MiniMax密集發(fā)布,DeepSeek V4路線圖曝光

    2月11日晚間,智發(fā)布新一代旗艦模型GLM-5,智稱,GLM-5在Coding與Agent能力上,取得
    的頭像 發(fā)表于 02-12 15:44 ?2.4w次閱讀
    大<b class='flag-5'>模型</b>競爭白熱化!智<b class='flag-5'>譜</b>、MiniMax密集發(fā)布,DeepSeek V4路線圖曝光

    寒武紀(jì)實(shí)現(xiàn)對GLM-5的Day 0適配

    2026年2月11日,寒武紀(jì)已基于 vLLM 推理框架同步實(shí)現(xiàn)對智新開源旗艦模型 ?GLM-5適配。寒武紀(jì)一直高度重視大
    的頭像 發(fā)表于 02-12 15:07 ?606次閱讀

    AI正式上線并開源全新一代大模型GLM-5

    AI正式上線并開源全新一代大模型GLM-5。作為面向復(fù)雜系統(tǒng)工程與長程Agent任務(wù)打造的新
    的頭像 發(fā)表于 02-12 14:40 ?666次閱讀

    曦云C系列GPU Day 0 適配全新一代大模型GLM-5

    AI正式上線并開源全新一代大模型 GLM-5,沐曦股份實(shí)現(xiàn)?Day 0
    的頭像 發(fā)表于 02-12 10:53 ?780次閱讀
    曦云C系列GPU Day 0 <b class='flag-5'>適配</b>智<b class='flag-5'>譜</b><b class='flag-5'>全新</b>一代大<b class='flag-5'>模型</b><b class='flag-5'>GLM-5</b>

    摩爾線程MTT S5000率先完成對GLM-5適配

    2月11日,智正式發(fā)布新一代大模型GLM-5。摩爾線程基于SGLang推理框架,在旗艦級AI訓(xùn)推一體全功能GPU MTT S5000上,Day-0完成了全流程
    的頭像 發(fā)表于 02-12 10:34 ?625次閱讀
    摩爾線程MTT S5000率先完成對<b class='flag-5'>GLM-5</b>的<b class='flag-5'>適配</b>

    Day-0支持|摩爾線程MTT S5000率先完成對GLM-5適配

    2月11日,智正式發(fā)布新一代大模型GLM-5。摩爾線程基于SGLang推理框架,在旗艦級AI訓(xùn)推一體全功能GPU MTT S5000上,Day-0完成了全流程
    發(fā)表于 02-12 09:15 ?478次閱讀
    Day-0支持|摩爾線程MTT S5000率先完成對<b class='flag-5'>GLM-5</b>的<b class='flag-5'>適配</b>

    沐曦曦云C500/C550 GPU產(chǎn)品適配GLM-OCR模型

    今天,智AI正式發(fā)布并開源GLM-OCR,以 “小尺寸、高精度” 實(shí)現(xiàn)文檔解析能力新標(biāo)桿。沐曦股份曦云C500/C550 GPU充分發(fā)揮高生態(tài)兼容性、軟硬協(xié)同能力優(yōu)勢,高效完成與智
    的頭像 發(fā)表于 02-03 11:36 ?623次閱讀
    沐曦曦云C500/C550 GPU產(chǎn)品<b class='flag-5'>適配</b>智<b class='flag-5'>譜</b><b class='flag-5'>GLM</b>-OCR<b class='flag-5'>模型</b>

    AI+FPGA助力生態(tài)新篇章|2025AI技術(shù)研討會·杭州站成功舉辦

    和杭州人工智能計(jì)算中心共同承辦。會議聚焦AI技術(shù)創(chuàng)新、行業(yè)解決方案落地及生態(tài)鏈協(xié)同發(fā)展三大核心議題。內(nèi)容涵蓋底層硬件,大
    的頭像 發(fā)表于 12-24 08:05 ?583次閱讀
    <b class='flag-5'>AI</b>+FPGA助力<b class='flag-5'>昇</b><b class='flag-5'>騰</b>生態(tài)新篇章|2025<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>AI</b>技術(shù)研討會·杭州站成功舉辦

    沐曦股份曦云C系列GPU Day 0適配GLM-4.6V多模態(tài)大模型

    12月8日智AI發(fā)布并開源 GLM-4.6V 系列多模態(tài)大模型,沐曦股份曦云C系列GPU完成Day 0
    的頭像 發(fā)表于 12-17 14:28 ?613次閱讀
    沐曦股份曦云C系列GPU Day 0<b class='flag-5'>適配</b>智<b class='flag-5'>譜</b><b class='flag-5'>GLM</b>-4.6V多模態(tài)大<b class='flag-5'>模型</b>

    國產(chǎn)AI芯片真能扛住“算力內(nèi)卷”?海思的這波操作藏了多少細(xì)節(jié)?

    反而壓到了310W。更有意思的是它的異構(gòu)架構(gòu):NPU+CPU+DVPP的組合,居然能同時扛住訓(xùn)練和推理場景,之前做自動駕駛算法時,用它跑模型時延直接降了20%。 但疑惑也有:這種算力密度下,散熱怎么解決?而且的生態(tài)
    發(fā)表于 10-27 13:12

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機(jī)上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強(qiáng)悍”的新引擎,在本地享受企
    的頭像 發(fā)表于 08-14 11:34 ?1398次閱讀

    華為CANN與智GLM端側(cè)模型完成適配

    2025年8月5日,在計(jì)算產(chǎn)業(yè)發(fā)展峰會上,華為宣布CANN(Compute Architecture for Neural Networks)技術(shù)體系及Mind系列工具鏈全面
    的頭像 發(fā)表于 08-11 11:00 ?2557次閱讀

    創(chuàng)思遠(yuǎn)達(dá)與合作推動AI PC應(yīng)用創(chuàng)新

    近日,端側(cè)智能領(lǐng)域創(chuàng)新者創(chuàng)思遠(yuǎn)達(dá)攜手,基于算力平臺正式發(fā)布一系列AIPC應(yīng)用。雙方深度融合了
    的頭像 發(fā)表于 03-25 10:22 ?1348次閱讀