2025 年上半年,繼年初被AAAI、ICLR、DAC 三大國際頂會收錄 5 篇論文后,后摩智能近期又有 4 篇論文入選CVPR、ICML、ACL三大國際頂會,面向大模型的編碼、量化、壓縮與微調(diào)等技術(shù)難題提出創(chuàng)新性解決方案,為大模型的性能提升、多場景部署建構(gòu)了可行路徑。
眾所周知,CVPR作為計算機(jī)視覺領(lǐng)域國際頂級會議,專注于圖像和視頻的感知與理解;ICML作為機(jī)器學(xué)習(xí)領(lǐng)域頂會,強(qiáng)調(diào)算法、理論與模型創(chuàng)新;ACL作為自然語言處理領(lǐng)域頂會,聚焦語言理解與生成。這三大會議分別代表了人工智能的三個核心子領(lǐng)域,是全球?qū)W術(shù)界和產(chǎn)業(yè)界高度關(guān)注的重要學(xué)術(shù)交流平臺。
本文將簡要概述近期被收錄論文的關(guān)鍵工作。
01【CVPR-2025】PillarHist:AQuantization-aware PillarFeature Encoderbased onHeight-aware Histogram
PillarHist:一種基于高度直方圖的高效 pillar 特征編碼方法
在自動駕駛和機(jī)器人等對實時感知要求較高的場景中,基于LiDAR的3D目標(biāo)檢測技術(shù)近年來得到了廣泛關(guān)注。Pillar-based方法因其結(jié)構(gòu)簡單、計算效率高,成為了當(dāng)前主流的輕量級三維檢測方案之一。然而,我們在調(diào)研和實驗中發(fā)現(xiàn),現(xiàn)有的pillar特征編碼模塊(PFE)在處理高度信息和模型量化方面仍存在一定局限。
研究動機(jī)
當(dāng)前大多數(shù)PFE模塊采用max pooling等方式對點云特征進(jìn)行匯聚,這種策略雖然計算高效,但容易造成細(xì)粒度信息的丟失,特別是在高度維度上的表達(dá)不夠充分。此外,由于輸入特征量綱差異大,直接量化后模型性能往往下降較為明顯。
為了解決上述問題,我們提出了一種新的pillar特征編碼方法——PillarHist,旨在在保持高效率的同時,增強(qiáng)模型對高度信息的建模能力,并提升其在低比特量化下的魯棒性。
方法簡介
PillarHist的核心思想是通過高度離散直方圖來替代傳統(tǒng)的點級特征匯聚方式。具體而言,我們將每個pillar在高度方向劃分為若干個區(qū)間(bin),統(tǒng)計每個區(qū)間內(nèi)的點數(shù)以及反射強(qiáng)度的加權(quán)平均值,從而構(gòu)建出包含幾何與語義信息的直方圖特征表示。同時,結(jié)合pillar的中心坐標(biāo)信息,我們通過一個輕量的線性層將其映射為最終的pillar特征向量。
與傳統(tǒng)PFE模塊相比,PillarHist具有以下優(yōu)勢:
更強(qiáng)的高度建模能力:保留了點云在高度維度上的結(jié)構(gòu)信息;
避免信息丟失:不再依賴max pooling,減少特征壓縮帶來的損失;
計算更高效:特征提取操作在pillar級別完成,降低了總體計算開銷;
量化友好:特征值范圍穩(wěn)定,INT8量化后性能下降更小。
實驗結(jié)果
我們在KITTI、nuScenes和Waymo等多個公開數(shù)據(jù)集上對PillarHist進(jìn)行了驗證。在多個主流pillar-based檢測框架(如PointPillars、CenterPoint、PillarNet等)中引入PillarHist后,模型在精度和推理速度方面均有不同程度的提升。其中,在nuScenes上平均提升約1%的NDS,同時推理延遲降低4~9ms。在8-bit量化實驗中,PillarHist有效減少了量化帶來的性能損失,表現(xiàn)出良好的硬件適應(yīng)性。
總結(jié)
PillarHist作為一種結(jié)構(gòu)簡單但有效的PFE模塊,能夠在不改變原有檢測框架的前提下,提升模型對高度信息的表達(dá)能力,并增強(qiáng)其在實際部署中的可用性。我們希望這一工作能為三維目標(biāo)檢測尤其是輕量化和部署友好的設(shè)計提供一種可行的方向。
02【ICML-2025】RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization
RWKVQuant:首個面向RWKV模型的高效量化框架
在大模型時代,Transformer架構(gòu)獨領(lǐng)風(fēng)騷,但近年來一種融合了RNN與Transformer優(yōu)勢的新型架構(gòu)——RWKV,正在悄然崛起。RWKV模型以其推理高效、結(jié)構(gòu)簡潔等特性,在語言和視覺任務(wù)上均展現(xiàn)出媲美主流大模型的性能。然而,RWKV在部署到邊緣設(shè)備或資源受限場景時,仍面臨模型體積大、計算開銷高等現(xiàn)實挑戰(zhàn)。
為此,我們重磅推出RWKVQuant——首個專為RWKV模型設(shè)計的后訓(xùn)練量化(Post-Training Quantization,簡稱PTQ)框架,以應(yīng)對RWKV模型在部署過程中的性能瓶頸!
研究動機(jī)
盡管已有許多PTQ方法在Transformer類模型中取得了成功,例如GPTQ、AWQ、GPTVQ等,但直接將這些方法應(yīng)用于RWKV模型時,效果卻大打折扣:
非線性操作阻礙了參數(shù)融合:RWKV結(jié)構(gòu)中含有Token Shift、Sigmoid、指數(shù)函數(shù)等非線性模塊,導(dǎo)致SmoothQuant、QuaRot等方法無法像在Transformer中那樣高效融合參數(shù),反而引入了額外計算開銷;
權(quán)重分布更均勻,聚類難度大:RWKV權(quán)重呈現(xiàn)更強(qiáng)的均勻性,這對傳統(tǒng)基于聚類的向量量化(VQ)方法構(gòu)成挑戰(zhàn),聚類效果不佳,精度下降嚴(yán)重。
方法簡介
RWKVQuant創(chuàng)新性地提出代理引導(dǎo)的標(biāo)量-向量混合量化策略,實現(xiàn)高壓縮率和高保真度的完美平衡:
1. 粗到細(xì)的雙層代理機(jī)制
粗粒度代理(Information Entropy):衡量權(quán)重整體的均勻性。當(dāng)權(quán)重分布不均時,直接采用VQ;
細(xì)粒度代理(高階中心矩):即使整體均勻,也能識別局部異常值。若存在離群點,仍優(yōu)先選擇VQ;否則使用SQ。
此機(jī)制極大提升了量化策略的適應(yīng)性和智能決策能力。
2. 針對RWKV結(jié)構(gòu)優(yōu)化的codebook生成
RWKV在所有投影層中大量使用逐元素乘法操作,而現(xiàn)有VQ方法多針對矩陣乘法模塊。RWKVQuant首創(chuàng)了適用于逐元素乘法的codebook優(yōu)化算法,通過激活值加權(quán)KMeans聚類,有效降低量化誤差。
實驗結(jié)果
RWKVQuant在多個RWKV模型上進(jìn)行了驗證,取得了顯著成果:
量化比特數(shù)降低至約3-bit,精度損失小于1%;
RWKV-6-14B模型內(nèi)存占用減少至原來的1/3;
推理速度提升高達(dá)2.14倍;
在LAMBADA等語言理解任務(wù)上,PPL下降、Zero-shot準(zhǔn)確率提升,遠(yuǎn)超GPTQ、AWQ、GPTVQ等主流方法;
在ImageNet、COCO和ADE20K等視覺任務(wù)上,RWKVQuant同樣表現(xiàn)出色。
總結(jié)
RWKVQuant的推出,標(biāo)志著RWKV模型在輕量化部署領(lǐng)域邁出了關(guān)鍵一步。我們相信,這一創(chuàng)新性的量化框架不僅能推動RWKV在語言與視覺任務(wù)中的廣泛應(yīng)用,也將為大模型在資源受限環(huán)境下的落地提供全新可能。
03【ICML-2025】MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance
解鎖MoE大模型部署新范式:MoEQuant讓壓縮不再“犧牲性能”
近年來,大語言模型(LLMs)在自然語言處理領(lǐng)域取得了突破性進(jìn)展,尤其是引入“專家混合”(Mixture-of-Experts, MoE)架構(gòu)的模型,以其高效、可擴(kuò)展的特性,成為推動模型性能與計算效率雙贏的重要方向。
然而,MoE模型也帶來了新的挑戰(zhàn):激活參數(shù)稀疏,存儲壓力巨大,尤其在推理階段,雖然只激活少數(shù)專家,但所有專家參數(shù)必須常駐顯存,導(dǎo)致部署成本居高不下。如何讓MoE大模型“瘦身”而又不“失智”,成為業(yè)界亟待解決的問題。
研究動機(jī)
傳統(tǒng)PTQ方法如 GPTQ 和 AWQ 在標(biāo)準(zhǔn)LLMs中表現(xiàn)出色,但在應(yīng)用到MoE模型時卻顯得力不從心。其原因在于:MoE架構(gòu)的稀疏激活和動態(tài)路由機(jī)制,打破了常規(guī)量化對樣本分布和重要性評估的假設(shè),導(dǎo)致量化后模型性能急劇下降。
為此,MoEQuant 識別并解決了兩個核心問題:
專家間不平衡 (Inter-expert imbalance):部分專家在校準(zhǔn)過程中被頻繁激活,而另一些專家?guī)缀醣缓雎?,?dǎo)致量化精度失衡;
專家內(nèi)相關(guān)性不一致(Intra-expert imbalance):不同樣本與專家之間的“親和度”差異顯著,傳統(tǒng)量化忽略了這種動態(tài)關(guān)系,導(dǎo)致權(quán)重更新失真。
方法簡介
MoEQuant 引入如下兩項關(guān)鍵技術(shù),有效解決上述挑戰(zhàn):
Expert-Balanced Self-Sampling(EBSS)
傳統(tǒng)量化依賴固定校準(zhǔn)集(如 WikiText2),在 MoE 中容易出現(xiàn)樣本分布偏差。EBSS 利用模型自采樣機(jī)制,在確保語義合理的前提下,引導(dǎo)生成覆蓋各專家的均衡樣本集,顯著提升校準(zhǔn)質(zhì)量。
Affinity-Guided Quantization (AGQ)
AGQ 首次將“樣本-專家親和度”納入量化過程,為每個樣本分配權(quán)重,引導(dǎo)誤差優(yōu)化方向,并重新定義Hessian矩陣計算方式,使量化更加精細(xì)化、感知MoE動態(tài)特性。
實驗結(jié)果
在Qwen-MoE-14B、DeepSeek-MoE-16B 和 Mixtral-8x7B 三大知名 MoE 模型上,MoEQuant 實現(xiàn)了令人矚目的成果:
HumanEval 編程任務(wù)準(zhǔn)確率提升超10個百分點;
在 GSM8K、MMLU、BoolQ 等推理任務(wù)上表現(xiàn)全面優(yōu)于 GPTQ 和 AWQ;
部署效率提升:平均推理速度提升 1.2×,顯存節(jié)省 3.2×,支持在消費級GPU(如 RTX 4090)部署大模型。
更令人驚喜的是,在指令微調(diào)版本(Chat模型)中,MoEQuant 依然保持高精度,部分任務(wù)甚至超過全精度模型性能,這對實際應(yīng)用部署具有重大意義。
總結(jié)
MoEQuant 的提出,不僅是大模型量化技術(shù)的一次飛躍,更是向“高性能+低成本”大模型部署目標(biāo)邁出的堅實一步。在未來的AI應(yīng)用場景中,無論是邊緣設(shè)備部署,還是云端推理優(yōu)化,MoEQuant 都將成為不可或缺的“壓縮利器”。
04【ACL-2025】GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning
GSQ-Tuning:探索資源受限設(shè)備上的大模型微調(diào)新路徑
近年來,大語言模型(LLM)在自然語言處理、代碼生成、多模態(tài)理解等領(lǐng)域取得了突破性進(jìn)展。然而,隨著模型規(guī)模的不斷擴(kuò)大,將其部署到資源受限的邊緣設(shè)備,仍面臨諸多挑戰(zhàn)。傳統(tǒng)的微調(diào)方式通常依賴大規(guī)模浮點運(yùn)算,不僅計算資源需求高,而且在涉及隱私數(shù)據(jù)時存在上傳云端的風(fēng)險。
為此,我們提出了一種全新的大模型微調(diào)方法 GSQ-Tuning(Group-Shared Exponents Quantization Tuning),旨在實現(xiàn)低浮點依賴、端到端整數(shù)化的大模型微調(diào)流程,更適配隱私敏感與資源受限的終端場景。
方法簡介
GSQ-Tuning 的關(guān)鍵技術(shù)在于我們設(shè)計的 Group-Shared Exponents Integer(GSE)格式。針對傳統(tǒng)浮點格式中指數(shù)位冗余的問題,GSE 通過在一組參數(shù)中共享指數(shù)位,實現(xiàn)更高效的低比特整數(shù)表示。具體而言:
每組數(shù)據(jù)共享一個 5-bit 指數(shù)位;
替代浮點的隱式前導(dǎo) 1 表示,采用顯式整數(shù)表示;
通過指數(shù)共享,大幅減少了存儲與計算時的元數(shù)據(jù)開銷。
這一表示方式不僅保留了數(shù)據(jù)的動態(tài)范圍,還提升了表示密度,尤其適用于具有空間局部性特征的神經(jīng)網(wǎng)絡(luò)權(quán)重和激活值。
1.整數(shù)化算子支持:Forward & Backward
在算子層面,GSQ-Tuning 不僅支持前向傳播的整數(shù)矩陣乘法,還將整數(shù)計算擴(kuò)展至反向傳播與梯度更新階段,實現(xiàn)真正意義上的 Fully Quantized Training。我們采用了經(jīng)典的 Quantize-Compute-Dequantize(QCD) 流程:
量化:將輸入權(quán)重、激活與梯度從高精度(如 BF16)轉(zhuǎn)換為 GSE-INT 格式;
計算:在整數(shù)域中完成乘加運(yùn)算(MAC),利用共享指數(shù)實現(xiàn)高效縮放;
反量化:必要時將輸出轉(zhuǎn)換回高精度格式做后處理或損失計算。
這一流程不僅適配 INT5/INT6 等低比特精度,還顯著提升了對整數(shù)計算硬件(如手機(jī) NPU、FPGA、邊緣 AI 芯片)的利用率。
2.與 LoRA 的結(jié)合:高效參數(shù)微調(diào)
為了進(jìn)一步降低訓(xùn)練開銷,我們將 GSQ-Tuning 與主流的 LoRA(Low-Rank Adaptation) 方法結(jié)合,僅對少量低秩矩陣進(jìn)行更新。不同于 QLoRA 仍需在 BF16 精度下更新 LoRA 參數(shù),我們在 LoRA 分支同樣采用整數(shù)化表示與更新,使整個訓(xùn)練流程真正實現(xiàn)浮點“歸零”。
我們還提出了 位寬與秩的協(xié)同優(yōu)化策略(Bits-Rank Pareto Frontier),根據(jù)資源預(yù)算靈活選擇參數(shù)配置,在精度與效率間找到最優(yōu)平衡。
實驗結(jié)果
我們在多個 LLaMA 系列模型(3B~70B)、多種微調(diào)數(shù)據(jù)集(Alpaca、CS170K)和任務(wù)(BoolQ、PIQA、HellaSwag 等)上進(jìn)行了驗證:
在 6-bit 設(shè)置下,GSQ-Tuning 的精度與 FP16 微調(diào)幾乎持平,平均僅下降不到 1%;
與 FP8 相比,在相同任務(wù)精度下,功耗降低約 5 倍,芯片面積減少約 11 倍;
內(nèi)存使用方面,GSQ-Tuning 比 QLoRA 至少節(jié)省 40%~50% 的顯存開銷。
此外,在多模態(tài)任務(wù)(如 LLaVA-v1.5)中,我們也觀察到 GSE 格式在視覺-語言聯(lián)合學(xué)習(xí)中具有良好的遷移與泛化能力。
總結(jié)
GSQ-Tuning 是我們在大模型端側(cè)部署探索過程中的一次初步嘗試。通過全流程整數(shù)化、參數(shù)高效更新和硬件友好設(shè)計,我們希望為大模型在本地化、個性化、隱私保護(hù)等應(yīng)用場景提供一種更實際、更落地的技術(shù)路徑。
上述4篇論文聚焦模型的編碼、量化、壓縮與微調(diào)等技術(shù)瓶頸,從性能提升到場景部署,多維展現(xiàn)了后摩智能在AI技術(shù)創(chuàng)新與應(yīng)用上的前瞻性與深度思考。研究成果從理解準(zhǔn)確率、空間占用率、推理速率、部署效率等多方面,為大模型的輕量化部署、端側(cè)部署以及邊緣設(shè)備部署提供了更多可行方案。
接下來,我們將依序發(fā)布4篇論文深度解析,詳盡分享每篇論文的創(chuàng)新思路等,歡迎關(guān)注。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8540瀏覽量
136199 -
自然語言處理
+關(guān)注
關(guān)注
1文章
629瀏覽量
14557 -
后摩智能
+關(guān)注
關(guān)注
0文章
44瀏覽量
1586 -
大模型
+關(guān)注
關(guān)注
2文章
3434瀏覽量
4953
原文標(biāo)題:后摩前沿 | 后摩智能4篇論文入選CVPR、ICML、ACL三大國際頂會,攻關(guān)大模型端邊側(cè)部署關(guān)鍵技術(shù)
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
地平線五篇論文入選NeurIPS 2025與AAAI 2026
理想汽車12篇論文入選全球五大AI頂會
Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026
云知聲論文入選自然語言處理頂會EMNLP 2025

后摩智能四篇論文入選三大國際頂會
評論