情趣美妇人视频,色偷偷人人澡久久超碰W?a

2026年2月12日，智譜AI發(fā)布Agentic Engineering時代最好的開源模型GLM-5，從“寫代碼”到“寫工程”的能力進(jìn)一步演進(jìn)。在Coding與Agent能力上取得開源SOTA表現(xiàn)，在真實(shí)編程場景的使用體驗(yàn)逼近Claude Opus 4.5，更擅長復(fù)雜系統(tǒng)工程與長程Agent任務(wù)。昇騰一直同步支持智譜GLM系列模型，此次GLM-5模型一經(jīng)開源發(fā)布，昇騰AI基礎(chǔ)軟硬件即實(shí)現(xiàn)0day適配，為該模型的推理部署和訓(xùn)練復(fù)現(xiàn)提供全流程支持。

更大基座，更強(qiáng)智能

參數(shù)規(guī)模擴(kuò)展：從355B（激活32B）擴(kuò)展至744B（激活40B），預(yù)訓(xùn)練數(shù)據(jù)從23T提升至28.5T，更大規(guī)模的預(yù)訓(xùn)練算力顯著提升了模型的通用智能水平。

異步強(qiáng)化學(xué)習(xí)：構(gòu)建全新的"Slime"框架，支持更大模型規(guī)模及更復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)，提升強(qiáng)化學(xué)習(xí)后訓(xùn)練流程效率；提出異步智能體強(qiáng)化學(xué)習(xí)算法，使模型能夠持續(xù)從長程交互中學(xué)習(xí)，充分激發(fā)預(yù)訓(xùn)練模型的潛力。

稀疏注意力機(jī)制：首次集成DeepSeek Sparse Attention，在維持長文本效果無損的同時，大幅降低模型部署成本，提升Token Efficiency。

Coding能力：對齊Claude Opus 4.5

GLM-5在SWE-bench-Verified和Terminal Bench 2.0中，分別獲得77.4和55.7的開源模型最高分?jǐn)?shù)，性能超過Gemini 3.0 Pro。

Agent能力：SOTA級長程任務(wù)執(zhí)行

GLM-5在多個Agent測評基準(zhǔn)中取得開源第一，在BrowseComp（聯(lián)網(wǎng)檢索與信息理解）、MCP-Atlas（工具調(diào)用和多步驟任務(wù)執(zhí)行）和τ2-Bench（復(fù)雜多工具場景下的規(guī)劃和執(zhí)行）均取得最優(yōu)表現(xiàn)。

在衡量模型經(jīng)營能力的Vending Bench 2中，GLM-5獲得開源模型中的最佳表現(xiàn)。Vending Bench 2要求模型在一年期內(nèi)經(jīng)營一個模擬的自動售貨機(jī)業(yè)務(wù)，GLM-5最終賬戶余額達(dá)到4432美元，經(jīng)營表現(xiàn)接近Claude Opus 4.5，展現(xiàn)了出色的長期規(guī)劃和資源管理能力。

這些能力是 Agentic Engineering 的核心：模型不僅要能寫代碼、完成工程，還要能在長程任務(wù)中保持目標(biāo)一致性、進(jìn)行資源管理、處理多步驟依賴關(guān)系，成為真正的 Agentic Ready 基座模型。

基于昇騰實(shí)現(xiàn)GLM-5的混合精度高效推理

昇騰支持對GLM模型W4A8混合精度量化，744B超大參數(shù)模型基于Atlas 800 A3實(shí)現(xiàn)單機(jī)部署。

GLM-5為78層decoder-only大模型：前3層為Dense FFN，后75層為MoE（路由專家+共享專家），自帶一層MTP（Multi-Token Prediction）用于加速解碼過程。針對這一模型結(jié)構(gòu)，昇騰對權(quán)重文件采用了W4A8量化，極大減少顯存占用，加速Decode階段的執(zhí)行速度。同時采用了Lightning Indexer、Sparse Flash Attention等高性能融合算子，加速模型端到端的推理執(zhí)行，并支持業(yè)界主流推理引擎vLLM-Ascend、SGLang和xLLM高效部署。

權(quán)重下載：

https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8

推理部署：

https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md

昇騰W4A8量化，極大減少顯存占用

采用易擴(kuò)展的MsModelSlim量化工具，全程輕松量化

按模塊區(qū)分量化比特與算法：例如Attention與MLP主體用W8A8，MoE專家用W4A8；gate等量化敏感層可按需回退，避免過大精度損失。

一鍵即可量化：支持GLM-5量化過程“預(yù)處理+子圖融合+分層線性量化”的完整流水線，安裝后一條命令行即可輕松完成量化：msmodelslim quant --model_path ${model_path} --save_path ${save_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True

MsModelSlim提供豐富量化策略，實(shí)現(xiàn)快速精度對齊

旋轉(zhuǎn)Quarot算法：對權(quán)重做Hadamard旋轉(zhuǎn)與LayerNorm融合，降低激活異常值、改善后續(xù)量化的數(shù)值分布。

多種離群值抑制算法：采用Flex_AWQ_SSZ算法和Flex_Smooth_Quant算法混合策略，權(quán)重采用SSZ（Smooth Scale Zero）標(biāo)定，支持縮放因子等超參。

線性層量化策略：對單層Linear做W8A8或W4A8，對激活值做per-token粒度量化、對權(quán)重做per-channel粒度量化。

高性能融合算子，加速推理執(zhí)行

Lightning Indexer融合Kernel

長序列場景下TopK操作會成為瓶頸，通過引入Lightning Indexer融合算子，包含Score Batchmatmul、ReLU、ReduceSum、TopK等操作，可用TopK計(jì)算耗時流水掩蓋掉其他操作的耗時，從而提升計(jì)算流水收益。

Sparse Flash Attention融合Kernel

引入SFA，包含了從完整KVCache里選取TopK相關(guān)Token，及計(jì)算稀疏Flash Attention操作，可用離散聚合訪存耗時掩蓋其他操作耗時。

MLAPO 融合Kernel

GLM-5在Sparse Flash Attention預(yù)處理階段將query和KV進(jìn)行降維操作，并且把query降維后的激活值傳遞給Indexer模塊進(jìn)行稀疏選擇處理。近期將會引入MLAPO通過VV融合（多個Vector算子融合）技術(shù)，將前處理過程中的13個小算子直接融合成1個超級大算子。除此之外，在MLAPO算子內(nèi)部，通過Vector和Cube計(jì)算單元的并行處理及流水優(yōu)化，進(jìn)一步提升算子整體性能。

基于昇騰實(shí)現(xiàn)GLM-5的訓(xùn)練復(fù)現(xiàn)

GLM-5采用了DeepSeek Sparse Attention（DSA）架構(gòu)，針對DSA訓(xùn)練場景，昇騰團(tuán)隊(duì)設(shè)計(jì)并實(shí)現(xiàn)了昇騰親和融合算子，從兩方面進(jìn)行優(yōu)化：一是優(yōu)化Lightning Indexer Loss計(jì)算階段的內(nèi)存占用，二是利用昇騰Cube和Vector單元的流水并行來進(jìn)一步提升計(jì)算效率。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴