2025年以來,后摩智能在多項前沿研究領(lǐng)域取得突破性進(jìn)展,近期在NeurIPS、ICCV、AAAI、ACMMM四大國際頂會上有 6 篇論文入選。致力于大模型的推理優(yōu)化、微調(diào)、部署等關(guān)鍵技術(shù)難題,為大模型的性能優(yōu)化與跨場景應(yīng)用提供了系統(tǒng)化解決方案。
這四大會議涵蓋人工智能從基礎(chǔ)理論、核心技術(shù)與跨模態(tài)應(yīng)用的全景視圖,是全球?qū)W術(shù)界與產(chǎn)業(yè)界進(jìn)行深度交流與合作的關(guān)鍵平臺:
NeurIPS作為人工智能與機(jī)器學(xué)習(xí)領(lǐng)域的頂尖國際會議,尤為強(qiáng)調(diào)神經(jīng)信息處理系統(tǒng)的基礎(chǔ)理論、算法創(chuàng)新與前沿應(yīng)用;
ICCV作為計算機(jī)視覺領(lǐng)域三大頂級會議之一,專注于圖像、視頻的視覺理解與三維視覺等核心技術(shù);
AAAI作為人工智能領(lǐng)域的綜合性頂會,覆蓋機(jī)器學(xué)習(xí)、自然語言處理、計算機(jī)視覺乃至AI倫理等多個核心方向,致力于推動人工智能的整體發(fā)展;
ACMMM則作為多媒體技術(shù)領(lǐng)域的權(quán)威國際會議,聚焦于跨模態(tài)分析、內(nèi)容生成與人機(jī)交互等融合技術(shù)。
本文將簡要概述近期被收錄的論文。
01【NuerIPS-2025】RSAVQ: 為LLM而生的黎曼敏感性感知矢量量化

后摩智能芯片算法團(tuán)隊提出了黎曼敏感度感知矢量量化框架 RSAVQ(Riemannian Sensitivity-Aware Vector Quantization),攻克了大語言模型(LLMs)在極低比特(如 2-bit)量化下的精度保持難題。該框架通過信息幾何與矢量量化的深度融合,首次在參數(shù)空間的黎曼流形視角下約束量化誤差,并結(jié)合通道敏感性動態(tài)分配比特資源,為大模型在移動終端、嵌入式設(shè)備等資源受限場景的高效部署提供了突破性解決方案。
研究背景
近年來,大語言模型在自然語言處理等任務(wù)中能力卓越,但參數(shù)規(guī)模指數(shù)級增長(如 LLaMA-3 70B 在 FP16 需約 140GB 內(nèi)存)制約其在邊端設(shè)備落地。模型壓縮尤其是權(quán)重量化被視為關(guān)鍵。低比特量化可降開銷,但 2-bit 及以下極低比特場景中,傳統(tǒng)方法有雙重瓶頸:忽視方向敏感性,現(xiàn)有量化假設(shè)誤差各向同性,實際不同方向誤差對模型損失影響差異大;忽視通道敏感性,均勻和傳統(tǒng)矢量量化默認(rèn)通道敏感性一致,實則不同通道相同擾動損失變化相差數(shù)倍。RSAVQ 以信息幾何為核心創(chuàng)新,將神經(jīng)網(wǎng)絡(luò)參數(shù)空間建模為帶 Fisher 信息度量的黎曼流形,通過兩大核心模塊實現(xiàn)極低比特下的精度保持與高效部署。
方法簡介
核心模塊一:EDSG(誤差方向敏感性引導(dǎo))針對傳統(tǒng)量化誤差易積累于高敏感方向的問題,RSAVQ 提出測地誤差對齊策略。利用 Fisher 信息矩陣量化參數(shù)空間曲率,將量化誤差投影至負(fù)自然梯度方向,通過約束項強(qiáng)制誤差沿低敏感方向分布,減少對模型性能的影響。
核心模塊二:WCSG(通道敏感性引導(dǎo))基于 Fisher 信息矩陣分析構(gòu)建通道敏感度量,量化各通道對損失的貢獻(xiàn)。結(jié)合率失真理論與拉格朗日優(yōu)化,在總比特預(yù)算下實現(xiàn)動態(tài)比特分配,高敏感通道獲更多比特,低敏感通道精簡資源。
研究結(jié)果和價值
實驗表明,RSAVQ在LLaMA-2、LLaMA-3系列大模型上優(yōu)勢顯著:LLaMA-2 70B在2-bit量化下,困惑度僅比FP16高0.4,零樣本精度達(dá)58.66%,超越VPTQ、QuIP等當(dāng)前最優(yōu)方法;LLaMA-3 8B的2-bit量化PPL較VPTQ低0.4,零樣本精度提升1.5%;LLaMA-3 70B的2-bit量化零樣本精度達(dá)71.3%,創(chuàng)大語言模型極低比特量化的新紀(jì)錄,2-bit量化精度逼近浮點,全面超越SOTA。
論文鏈接:https://arxiv.org/abs/2510.01240
02【ACMMM-2025】MQuant: 面向多模態(tài)大語言模型的靜態(tài)全量化統(tǒng)一框架

后摩智能芯片算法團(tuán)隊提出了MQuant (Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization) ——首個面向多模態(tài)大語言模型(MLLMs)的全靜態(tài)量化框架,在多模態(tài)推理加速領(lǐng)域取得了重要突破。該工作系統(tǒng)性地分析了 MLLMs 在視覺與語言模態(tài)融合過程中存在的量化瓶頸:視覺 token 數(shù)量龐大、分布尺度差異顯著、Hadamard 旋轉(zhuǎn)引發(fā)的極端異常值等問題。針對這些難題,MQuant 提出了模態(tài)特異靜態(tài)量化(Modality-Specific Static Quantization, MSQ)與旋轉(zhuǎn)幅值抑制(Rotation Magnitude Suppression, RMS)等關(guān)鍵技術(shù),從體系層面實現(xiàn)了多模態(tài)融合的量化統(tǒng)一。
研究背景
在當(dāng)前人工智能浪潮中,多模態(tài)大語言模型(MLLMs)憑借理解圖像、文本、視覺+語言等多種輸入形式的能力,正在迅速成為先進(jìn)智能系統(tǒng)的重要組成部分。然而,這類模型規(guī)模龐大、推理資源開銷極高,嚴(yán)重限制了其在邊緣設(shè)備、移動端、嵌入式場景中的落地部署。
方法簡介
MQuant 針對上述挑戰(zhàn),提出了三大關(guān)鍵模塊:
Modality-Specific Static Quantization (MSQ):為視覺 token 與文本 token 分別設(shè)定靜態(tài)量化尺度,避免“一個尺度套用所有模態(tài)”帶來的偏倚。
Attention-Invariant Flexible Switching (AIFS):通過重排序 token,保持注意力機(jī)制對因果依賴的完整支持,同時避開每個 token 需要動態(tài) scale 計算的高昂代價。
Rotation Magnitude Suppression (RMS):專門用于緩解因在線 Hadamard 旋轉(zhuǎn)所引入的權(quán)重 “極端異常值” 問題,從而在低比特量化下保留更高的模型穩(wěn)定性。
研究結(jié)果和價值
在五款主流多模態(tài)大語言模型(包括 Qwen?VL、MiniCPM?V、CogVLM2 等)上,MQuant 在 W4A8(4?位權(quán)重量化 / 8?位激活量化)設(shè)置下實現(xiàn)了如下表現(xiàn):接近浮點(FP)精度:精度下降 < 1%;推理延遲最多降低約 30%‘’顯著超越現(xiàn)有 PTQ 基線方法。MQuant 的提出,為“多模態(tài)大語言模型 + 資源受限設(shè)備” 的組合場景帶來了關(guān)鍵突破:既能保精度、又能降延時。未來,我們預(yù)計該技術(shù)將加速 MLLMs 在移動終端、智能穿戴設(shè)備、邊緣側(cè) AI 應(yīng)用中的大規(guī)模部署。進(jìn)一步方向包括:更低比特率下的量化(如 2 位以下)、適配更多模態(tài)(視頻、音頻、多語言)以及自動化量化調(diào)優(yōu)流程。
論文鏈接:https://arxiv.org/abs/2502.00425
03【AAAI-2026】OTARo: 一次微調(diào)多種bit,打造端側(cè)大模型高效部署方案

后摩智能芯片算法團(tuán)隊提出了OTARo(Once Tuning for All Precisions toward Robust On-Device LLMs)。一種僅需一次微調(diào)即可支持多種精度切換的魯棒微調(diào)方法,大幅降低了微調(diào)與端側(cè)部署所需的計算資源,助力端側(cè)用戶穩(wěn)健適應(yīng)動態(tài)發(fā)展中的真實世界場景。
研究背景
近年來,邊緣設(shè)備在算力、帶寬和存儲等方面取得了顯著突破,使得LLMs的端側(cè)部署(LLMs On-Device Deployment)成為了當(dāng)前研究的前沿方向。當(dāng)資源受限的端側(cè)設(shè)備部署特定精度的大語言模型時,針對單一精度的微調(diào)技術(shù)雖然可以提升模型在特定精度上的效果,但是應(yīng)注意到,這種方式在其他精度下的性能被削弱,即使在相鄰精度之間也可能出現(xiàn)性能驟降的現(xiàn)象。多個精度分別進(jìn)行固定精度微調(diào),得到多個模型部署到端側(cè)供用戶適時選擇是解決問題的一種思路,然而,為每種精度分別訓(xùn)練模型會顯著增加微調(diào)期間計算成本,并且,對于資源有限的邊緣設(shè)備而言,存儲多份權(quán)重會顯著增加存儲空間占用,易超出硬件容量限制,也意味著在模型版本更新時需要分別維護(hù)和同步多份權(quán)重,增加了管理復(fù)雜度。
方法簡介
OTARo基于SEFP(Shared Exponent Floating Point),聯(lián)合多位寬進(jìn)行感知微調(diào),一次微調(diào)生成一個可切換為多種精度且保持性能魯棒性的模型,助力端側(cè)用戶穩(wěn)健適應(yīng)動態(tài)發(fā)展中的真實世界場景。在訓(xùn)練位寬采樣上,提出利用-探索位寬路徑搜索策略(BPS),保證了位寬路徑能夠探索到不同位寬的量化的誤差,且最終收斂于量化誤差較小的高位寬。進(jìn)一步,為了緩解低位寬區(qū)間上誤差的影響,在梯度更新上,提出延遲更新策略(LAA),利用梯度振蕩的周期性、對稱性,通過模型參數(shù)的延遲更新,平滑了低位寬下的梯度劇烈振蕩,減少了對模型向其他位寬最優(yōu)解靠攏的消極影響,進(jìn)而實現(xiàn)微調(diào)后模型的魯棒性。
研究結(jié)果和價值
實驗在表明,OTARo在所有位寬下始終取得優(yōu)秀性能。在具有挑戰(zhàn)性的低比特設(shè)置(E5M4、E5M3)下,OTARo也能獲得較好的表現(xiàn)。OTARo的核心突破在于通過一次微調(diào)獲得一個統(tǒng)一模型,以支持多種精度。該方法大幅度降低多位寬模型微調(diào)以及存儲復(fù)雜度,為大模型移動端部署提供核心技術(shù)支撐,推動大模型技術(shù)朝著更靈活、更經(jīng)濟(jì)的方向高效落地。
論文鏈接:https://arxiv.org/abs/2511.13147
04【AAAI-2026】FQ-PETR:全量化位置嵌入變換框架,突破自動駕駛實時感知瓶頸

后摩智能芯片算法團(tuán)隊提出了FQ-PETR(Fully Quantized Position Embedding Transformation)——面向多視角 3D 檢測模型的全量化框架,在自動駕駛感知模型的高效推理與端側(cè)部署方向上取得重要突破。該研究針對 PETR 系列模型在量化部署中精度急劇下降的問題,系統(tǒng)揭示了導(dǎo)致性能崩塌的根源:多模態(tài)特征幅值差異過大與非線性算子量化誤差累積。為此,團(tuán)隊創(chuàng)新性地提出三項關(guān)鍵技術(shù),實現(xiàn)了3D 檢測模型的端側(cè)全整型推理。
研究背景
在自動駕駛感知系統(tǒng)中,基于相機(jī)的多視角 3D 檢測因其高分辨率與低成本,正逐步取代純 LiDAR 方案。PETR 及其系列模型憑借將 2D 圖像特征映射至 3D 空間的“位置嵌入變換(Position Embedding Transformation)”設(shè)計,成為多攝像頭感知領(lǐng)域的主流框架。然而,這類 Transformer 結(jié)構(gòu)的計算與顯存開銷極大,阻礙了其在端側(cè)設(shè)備中的實時部署。 現(xiàn)有量化技術(shù)雖能顯著壓縮模型,但直接應(yīng)用于 PETR 會導(dǎo)致性能崩塌(mAP 下降 20% 以上)。根源在于: 1. 多模態(tài)特征量級差異極大——圖像特征與相機(jī)射線位置嵌入(PE)數(shù)值范圍相差百倍;2. 非線性算子(如 Softmax、Sigmoid)量化后誤差劇增且硬件不友好。
方法簡介
FQ-PETR 面向上述瓶頸,提出了三項關(guān)鍵技術(shù):
Quantization-Friendly LiDAR-ray Position Embedding (QFPE):以 LiDAR 物理先驗為指導(dǎo),將原多點采樣改為單點射線采樣,替代 inverse-sigmoid 非線性,顯著減小 PE 幅值(約 4.4 × 降低)并保持幾何一致性。
Dual-Lookup Table (DULUT):創(chuàng)新性地用“兩級線性 LUT 級聯(lián)”近似復(fù)雜非線性函數(shù)(如 SiLU、Softmax),以 32 + 32 表項實現(xiàn) < 0.1% 誤差,無需專用硬件,兼容各類 NPU / GPU 平臺。
Quantization After Numerical Stabilization (QANS):在 Softmax 數(shù)值穩(wěn)定化(減去最大 logit)后再執(zhí)行整數(shù)量化,有效抑制注意力漂移問題,確保注意力分布與浮點結(jié)果一致。
研究結(jié)果和價值
實驗表明,在 PETR、PETRv2、StreamPETR、MV2D 等主流系列上,F(xiàn)Q-PETR 在 W8A8 全整型量化下實現(xiàn) < 1% mAP/NDS 下降;延遲最高降低 75%,顯存占用減少 75%,整體 FPS 提升 3.9×。FQ-PETR是首個針對 Transformer范式3D檢測器的端側(cè)全量化解決方案,為高性能感知模型的車載與移動部署奠定技術(shù)基礎(chǔ)。
論文鏈接:https://arxiv.org/pdf/2502.15488
05【AAAI-2026】VAEVQ:基于變分建模的視覺離散表征新范式

后摩智能芯片算法團(tuán)隊提出了 VAEVQ(Variational Autoencoding Vector Quantization):一種以變分建模驅(qū)動的離散視覺表征方法,在視覺離散化(Visual Tokenization)領(lǐng)域?qū)崿F(xiàn)了新的突破。該工作創(chuàng)新性地將變分自編碼思想(VAE)與矢量量化(VQ)深度融合,從概率建模角度重塑了視覺離散化過程,顯著提升了視覺 token 的表達(dá)能力與語義一致性。
研究背景
近年來,VQ-VAE、VQ-GAN 等離散視覺模型在多模態(tài)大模型中承擔(dān)關(guān)鍵角色,負(fù)責(zé)將連續(xù)視覺特征映射為離散 token,以支持圖像生成、理解與視覺語言對齊。然而,現(xiàn)有方法普遍面臨兩大瓶頸:過度離散化損失語義連續(xù)性和碼本利用率低、訓(xùn)練不穩(wěn)定。VAEVQ 框架從概率視角出發(fā),引入變分推斷機(jī)制,以連續(xù)的潛在分布指導(dǎo)離散向量量化,形成統(tǒng)一的“變分–離散”表征學(xué)習(xí)框架。
方法簡介
核心模塊一:Variational Latent Regularization(變分潛空間約束) 通過引入高斯分布的潛變量先驗,VAEVQ 在編碼端學(xué)習(xí)潛空間分布q(z|x),并通過 KL 散度約束潛變量與標(biāo)準(zhǔn)先驗對齊,從而在量化前保持特征的可分性與連續(xù)性,為離散化提供概率平滑。
核心模塊二:Probabilistic Vector Quantization(概率化矢量量化) 以潛變量的概率分布為權(quán)重計算期望量化誤差,實現(xiàn)“軟量化”與梯度可傳遞。該設(shè)計有效緩解了 codebook collapse,并顯著提升碼本利用率。
核心模塊三:Joint Variational Optimization(聯(lián)合變分優(yōu)化) 通過聯(lián)合優(yōu)化編碼器、解碼器與碼本參數(shù),VAEVQ 實現(xiàn)了端到端的穩(wěn)定收斂。模型在重建質(zhì)量與離散語義之間取得平衡,具備更強(qiáng)的生成能力與跨模態(tài)對齊能力。
研究結(jié)果和價值
在 ImageNet、MS-COCO、CC3M 等標(biāo)準(zhǔn)數(shù)據(jù)集上,VAEVQ 相比 VQ-VAE2 與 VQ-GAN 在重建 PSNR 與 FID 指標(biāo)上分別提升 1.3dB 與 7.2%,視覺 token 語義聚合度(Semantic Clustering Score)提升 18%。充分表明該框架在高保真重建、離散語義建模與跨模態(tài)表征對齊方面的綜合優(yōu)勢,為構(gòu)建更高效、更可擴(kuò)展的視覺離散表示與大規(guī)模生成模型奠定了堅實的方法論基礎(chǔ)。
論文鏈接:https://arxiv.org/abs/2511.06863。
06【ICCV-2025】EA-Vit:基于彈性架構(gòu)的ViT多任務(wù)高效部署框架

后摩智能芯片算法團(tuán)隊與新加坡國立大學(xué)、西安電子科技大學(xué)合作研究提出了EA-Vit(Efficient Adaptation for Elastic Vision Transformer)。該框架攻克了 Vision Transformers(ViTs)在跨平臺部署中的核心痛點 —— 無需重復(fù)訓(xùn)練即可生成適配不同資源約束的多尺寸模型,為AI視覺應(yīng)用的高效落地提供了全新解決方案。代碼已同步開源于 GitHub(https://github.com/zcxcf/EA-ViT)。
研究背景
在計算機(jī)視覺領(lǐng)域,ViTs 因出色的泛化能力和下游任務(wù)適配性,已成為圖像分類、語義分割、醫(yī)療影像分析等場景的核心模型。然而,傳統(tǒng)部署模式面臨顯著瓶頸:從資源受限的移動端到高性能 GPU 集群,不同平臺需對應(yīng)不同尺寸的 ViTs 模型,需重復(fù)訓(xùn)練、微調(diào),不僅耗時耗能,還增加了模型版本管理復(fù)雜度;現(xiàn)有彈性 ViT 方法(如 DynaBERT、HydraViT)或僅支持 1-3 個維度調(diào)整,或需在預(yù)訓(xùn)練階段引入彈性,子模型數(shù)量有限(最多僅個),難以滿足多樣化部署需求。
方法簡介
第一階段:構(gòu)建Multi-Dimensional Elastic Architecture,首次實現(xiàn) ViT 在 MLP expansion ratio、number of attention heads、embedding dimension、network depth 四個核心維度的全彈性調(diào)整,同時采用Curriculum-based Elastic Adaptation策略:從最大預(yù)訓(xùn)練模型起步,按預(yù)設(shè)步驟(如訓(xùn)練 epoch 10、15、20)逐步擴(kuò)大子模型參數(shù)采樣范圍(最終實現(xiàn) R∈[0.5,4]、H∈[6,12]、E∈[384,768]),在保留預(yù)訓(xùn)練知識的同時,避免小模型訓(xùn)練對大模型性能的干擾。
第二階段:設(shè)計lightweight constraint-aware router,基于定制化 NSGA-II 算法篩選的 Pareto-optimal 配置初始化,再與 ViT 骨干網(wǎng)絡(luò)聯(lián)合優(yōu)化,可根據(jù)目標(biāo)平臺的計算預(yù)算(如 MACs、參數(shù)量、latency)動態(tài)輸出最優(yōu)子模型配置。
研究結(jié)果和價值
EA-Vit 的核心突破在于將 ViT 的彈性適配從預(yù)訓(xùn)練階段轉(zhuǎn)移至下游任務(wù)適配階段,真正實現(xiàn)“一次適配,多端可用”。該框架不僅大幅降低模型訓(xùn)練與存儲成本,還能通過 router 動態(tài)匹配不同任務(wù)與平臺需求,為工業(yè)質(zhì)檢、移動端 AI、醫(yī)療設(shè)備集成等場景提供關(guān)鍵技術(shù)支撐,有望推動 AI 視覺技術(shù)向更靈活、更經(jīng)濟(jì)的方向加速落地。
論文鏈接:https://arxiv.org/pdf/2507.19360
總結(jié)
上述研究成果聚焦大模型與視覺任務(wù)中的量化、表征、適配與部署等核心挑戰(zhàn),從算法框架創(chuàng)新到軟硬件協(xié)同優(yōu)化,系統(tǒng)性地展現(xiàn)了后摩智能在人工智能領(lǐng)域的前瞻布局與深度突破。相關(guān)成果從模型壓縮、極低比特量化、推理效率、多平臺適配性等關(guān)鍵維度,為大語言模型端側(cè)推理、自動駕駛感知以及多模態(tài)大模型的高效部署,提供了具備實踐價值的全棧解決方案。
-
人工智能
+關(guān)注
關(guān)注
1813文章
49694瀏覽量
261080 -
后摩智能
+關(guān)注
關(guān)注
0文章
44瀏覽量
1586 -
大模型
+關(guān)注
關(guān)注
2文章
3432瀏覽量
4948
原文標(biāo)題:后摩前沿 | 后摩智能6篇論文入選NeurIPS、ICCV、AAAI、ACMMM四大國際頂會,攻關(guān)大模型端邊側(cè)部署關(guān)鍵技術(shù)
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
地平線五篇論文入選NeurIPS 2025與AAAI 2026
理想汽車12篇論文入選全球五大AI頂會
Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026
云知聲論文入選自然語言處理頂會EMNLP 2025

后摩智能六篇論文入選四大國際頂會
評論