近日,沐曦PDE-AI Solution團(tuán)隊(duì)與香港科技大學(xué)合作,在兩大人工智能頂級(jí)會(huì)議NeurIPS2025與EMNLP 2025上發(fā)表重要研究成果,涵蓋大語(yǔ)言模型(LLM)的多樣化解碼與高效訓(xùn)練優(yōu)化方向,展現(xiàn)了中國(guó)企業(yè)在AI基礎(chǔ)研究領(lǐng)域的持續(xù)創(chuàng)新力。
頂會(huì)背景:AI研究的全球高地
關(guān)于NeurIPS
定位與聲譽(yù):人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的“天花板”級(jí)會(huì)議,與ICML并列為全球最頂尖的兩大會(huì)議。被工業(yè)界(如Google, Meta, OpenAI等)視為技術(shù)風(fēng)向標(biāo)。NeurIPS的論文錄用,是全球?qū)W術(shù)界與工業(yè)界評(píng)估機(jī)構(gòu)與個(gè)人在人工智能基礎(chǔ)研究領(lǐng)域核心競(jìng)爭(zhēng)力的黃金標(biāo)準(zhǔn),是通往全球頂尖AI研究機(jī)構(gòu)的關(guān)鍵履歷。
特點(diǎn):非常注重論文的理論深度、算法創(chuàng)新和基礎(chǔ)性貢獻(xiàn)。涵蓋深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、概率模型、計(jì)算機(jī)視覺(jué)、人工智能倫理等廣泛而核心的機(jī)器學(xué)習(xí)方向。
難度:歷年錄用率極低(通常在20%-25%左右),2025年投稿數(shù)20000+, 競(jìng)爭(zhēng)極為激烈。
關(guān)于EMNLP
定位與聲譽(yù):自然語(yǔ)言處理領(lǐng)域的世界頂級(jí)會(huì)議之一,由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(ACL)主辦, NLP領(lǐng)域的三大頂會(huì)之一。在EMNLP上發(fā)表論文,是展現(xiàn)研究機(jī)構(gòu)在自然語(yǔ)言處理領(lǐng)域具備世界級(jí)創(chuàng)新與應(yīng)用能力的權(quán)威證明,已成為全球頭部科技公司及實(shí)驗(yàn)室爭(zhēng)相吸納高端人才的重要依據(jù)。
特點(diǎn):側(cè)重于具有堅(jiān)實(shí)實(shí)證基礎(chǔ)的自然語(yǔ)言處理研究,強(qiáng)調(diào)通過(guò)實(shí)驗(yàn)和數(shù)據(jù)分析來(lái)驗(yàn)證新方法、新模型的有效性。覆蓋機(jī)器翻譯、文本生成、信息抽取、情感分析、大語(yǔ)言模型等熱門方向。
難度:作為NLP領(lǐng)域的旗艦會(huì)議,EMNLP吸引了全球頂尖高校和科技公司的投稿,2025年投稿數(shù)接近10000,歷年錄用率極低(通常在15%-20%左右)。
Semantic-guided Diverse Decoding for Large Language Model (NeurIPS 2025)
論文鏈接:https://arxiv.org/pdf/2506.23601
摘要
在大語(yǔ)言模型(LLM)的實(shí)際應(yīng)用中,生成多樣且有意義的回答始終是關(guān)鍵需求 —— 無(wú)論是 Best-of-N 策略中通過(guò)多候選提升小模型性能,還是 RLHF 訓(xùn)練中通過(guò)多樣本優(yōu)化獎(jiǎng)勵(lì)信號(hào),亦或是數(shù)據(jù)合成時(shí)構(gòu)建豐富訓(xùn)練集,都需要模型跳出換詞不換義的局限。
然而,當(dāng)前主流的解碼方法如溫度采樣、多樣化束搜索等,大多只能實(shí)現(xiàn)表層詞匯的多樣性,生成的回答看似不同,核心語(yǔ)義卻高度重合。這一痛點(diǎn)嚴(yán)重制約了大模型在復(fù)雜任務(wù)中的潛力。
香港科技大學(xué)聯(lián)合沐曦研究團(tuán)隊(duì)提出了SemDiD(Semantic-guided Diverse Decoding)—— 一種直接在語(yǔ)義嵌入空間操作的解碼算法,通過(guò)三大核心機(jī)制實(shí)現(xiàn)質(zhì)量與多樣性的平衡,在 Best-of-N 和 RLHF 任務(wù)中均實(shí)現(xiàn)顯著性能提升。
核心痛點(diǎn):現(xiàn)有解碼方法的
語(yǔ)義多樣性陷阱
為什么現(xiàn)有多樣化解碼方法效果有限?研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)指出了兩大關(guān)鍵問(wèn)題:
多樣性停留在詞匯層面:溫度采樣通過(guò)調(diào)整概率分布增加隨機(jī)性,多樣化束搜索通過(guò) n-gram 懲罰避免重復(fù),但這些方法均未觸及語(yǔ)義層面。例如,對(duì)于如何解決數(shù)學(xué)應(yīng)用題的問(wèn)題,模型可能生成先算 A 再算 B和先計(jì)算 A 然后計(jì)算 B這類表層差異,而非不同解題思路。
概率評(píng)估的固有偏見(jiàn):傳統(tǒng)方法用 token 概率衡量回答質(zhì)量,但存在嚴(yán)重的位置偏差和長(zhǎng)度偏差 —— 序列越靠后的 token 因上下文更確定,概率往往更高;句子中遠(yuǎn)離標(biāo)點(diǎn)的 token 也會(huì)獲得更高置信度。這導(dǎo)致長(zhǎng)回答被過(guò)度高估,短回答被不公平扣分,質(zhì)量評(píng)估失真。
SemDiD:三大機(jī)制實(shí)現(xiàn)
語(yǔ)義級(jí)多樣化解碼
SemDiD 的核心思路是直接在語(yǔ)義嵌入空間引導(dǎo)解碼過(guò)程,而非在 token 層面做文章。它通過(guò)正交方向引導(dǎo)、動(dòng)態(tài)組間排斥、去偏概率評(píng)估三大機(jī)制,同時(shí)保證回答質(zhì)量與語(yǔ)義多樣性,整體架構(gòu)如圖 1 所示。
實(shí)驗(yàn):在 Best-of-N 和 RLHF 中
全面領(lǐng)先
研究團(tuán)隊(duì)在 9 個(gè)基準(zhǔn)任務(wù)(涵蓋推理、問(wèn)答、機(jī)器翻譯)和 3 種 RLHF 算法(Iterative-RLHF、GRPO、RLOO)上驗(yàn)證了 SemDiD 的效果,對(duì)比了溫度采樣、算術(shù)采樣、多樣化束搜索等主流方法。
1. Best-of-N 任務(wù):覆蓋度提升 1.4%-5.2%
Best-of-N 的核心指標(biāo)是「覆蓋度」(測(cè)試集中至少有一個(gè)正確回答的樣本比例)和「準(zhǔn)確率」(通過(guò)投票 / LLM-Judge 選出正確回答的比例)。結(jié)果顯示:
在推理任務(wù)中,SemDiD 用 25 個(gè)樣本實(shí)現(xiàn) 82.4%(ARC-Challenge)、85.6%(BBH)、98.1%(GSM8K)的覆蓋度,較最佳基線提升 1.8%-4.3%。
在問(wèn)答任務(wù)中,MMLU-Pro + 的覆蓋度提升最為顯著,達(dá) 5.2%(25 個(gè)樣本時(shí) 82.63% vs 77.43%)。
即使是小嵌入模型(0.5B 參數(shù)),SemDiD 的語(yǔ)義聚類效果也優(yōu)于基于 n-gram 的聚類,25 個(gè)樣本時(shí)覆蓋度達(dá) 95%,遠(yuǎn)超概率選擇的 92%。
2. RLHF 任務(wù):訓(xùn)練收斂加速 15%,準(zhǔn)確率提升 2.1%
在 RLHF 訓(xùn)練中,多樣化的候選能提供更豐富的獎(jiǎng)勵(lì)信號(hào),避免策略坍縮。實(shí)驗(yàn)顯示:
在 TLDR 摘要任務(wù)中,SemDiD 使 GRPO 算法的 win rate(GPT-o1-mini 評(píng)估)達(dá) 73.4%,較最佳基線提升 3.2%。
在 GSM8K 數(shù)學(xué)推理任務(wù)中,SemDiD 幫助 Iterative-RLHF、GRPO、RLOO 的準(zhǔn)確率分別達(dá) 85.5%、88.2%、82.4%,最高提升 2.1%。
更重要的是,SemDiD 使 RLHF 訓(xùn)練收斂速度加快 15%—— 在 60 次 rollout 時(shí)就能達(dá)到其他方法 100 次 rollout 的性能,大幅降低訓(xùn)練成本。
Domain Impact-aware Data Sampling for Large Language Model Training (EMNLP 2025)
論文鏈接:https://arxiv.org/pdf/2504.13227
摘要
在大語(yǔ)言模型(LLM)訓(xùn)練中,數(shù)據(jù)選擇始終是決定效率與性能的關(guān)鍵 —— 海量多領(lǐng)域訓(xùn)練數(shù)據(jù)(如代碼、學(xué)術(shù)論文、網(wǎng)頁(yè)文本)中,不同領(lǐng)域?qū)ο掠稳蝿?wù)的貢獻(xiàn)差異巨大,且這種貢獻(xiàn)會(huì)隨訓(xùn)練過(guò)程動(dòng)態(tài)變化。傳統(tǒng)靜態(tài)采樣策略(如均勻采樣、固定比例混合)要么浪費(fèi)算力在低效數(shù)據(jù)上,要么無(wú)法適應(yīng)訓(xùn)練動(dòng)態(tài),導(dǎo)致模型性能難以最大化。
香港科技大學(xué)聯(lián)合沐曦的研究團(tuán)隊(duì)提出DIDS(Domain Impact-aware Data Sampling)—— 一種基于領(lǐng)域影響的動(dòng)態(tài)數(shù)據(jù)采樣框架。它通過(guò)梯度聚類重劃分領(lǐng)域、FIM 引導(dǎo)評(píng)估領(lǐng)域影響、結(jié)合學(xué)習(xí)軌跡動(dòng)態(tài)調(diào)整采樣比例三大核心步驟,在僅使用 10% 訓(xùn)練數(shù)據(jù)的情況下,實(shí)現(xiàn)平均 3.4% 的性能提升,同時(shí)保持訓(xùn)練效率與基線相當(dāng)。
核心痛點(diǎn):傳統(tǒng)領(lǐng)域采樣策略的
兩大局限
現(xiàn)有領(lǐng)域級(jí)數(shù)據(jù)采樣方法難以平衡領(lǐng)域內(nèi)一致性與動(dòng)態(tài)影響評(píng)估,導(dǎo)致訓(xùn)練效率低下:
領(lǐng)域劃分缺乏訓(xùn)練相關(guān)性:傳統(tǒng)方法要么按數(shù)據(jù)源(如 “代碼數(shù)據(jù)”“數(shù)學(xué)數(shù)據(jù)”)劃分領(lǐng)域,要么用 BERT 語(yǔ)義聚類,但這些方式無(wú)法保證同一領(lǐng)域內(nèi)的數(shù)據(jù)對(duì)模型訓(xùn)練有相似影響。例如,數(shù)學(xué)證明與編程實(shí)現(xiàn)雖屬不同數(shù)據(jù)源,卻因共享邏輯推理特性,對(duì)模型參數(shù)更新的模式高度相似;反之,同一數(shù)據(jù)源的網(wǎng)頁(yè)文本也可能因內(nèi)容差異觸發(fā)完全不同的梯度變化。
領(lǐng)域影響評(píng)估失真且靜態(tài):現(xiàn)有方法要么依賴計(jì)算昂貴的網(wǎng)格搜索(如 MM1),無(wú)法適應(yīng)訓(xùn)練過(guò)程中領(lǐng)域重要性的動(dòng)態(tài)變化;要么僅通過(guò)梯度相似度衡量領(lǐng)域影響(如 DGA、Doge),卻忽略了參數(shù)更新對(duì)模型下游任務(wù)預(yù)測(cè)行為的實(shí)際影響。例如,梯度相似的兩個(gè)領(lǐng)域,可能對(duì)模型在數(shù)學(xué)推理任務(wù)上的輸出分布改變程度完全不同。
DIDS:三步實(shí)現(xiàn)動(dòng)態(tài)領(lǐng)域采樣優(yōu)化
DIDS 的核心思路是從 “訓(xùn)練影響” 出發(fā)定義領(lǐng)域,并動(dòng)態(tài)評(píng)估領(lǐng)域?qū)ο掠稳蝿?wù)的實(shí)際價(jià)值,最終實(shí)現(xiàn)資源向高價(jià)值領(lǐng)域傾斜。其整體流程分為 “領(lǐng)域重劃分”“領(lǐng)域影響評(píng)估”“采樣比例更新” 三步(圖 2),形成閉環(huán)優(yōu)化。
實(shí)驗(yàn):10% 數(shù)據(jù)實(shí)現(xiàn) 3.4%
性能提升,多場(chǎng)景驗(yàn)證有效性
研究團(tuán)隊(duì)在 Llama-3.1-8B/70B、Mixtral-7B 等模型上,基于 Tulu-3(93.9 萬(wàn)樣本)和 OpenHermes-2.5 數(shù)據(jù)集,在 9 個(gè)下游任務(wù)(涵蓋推理、數(shù)學(xué)、指令跟隨、生物醫(yī)學(xué)問(wèn)答等)上驗(yàn)證了 DIDS 的效果,對(duì)比了均勻采樣、Random、Doremi、Velocitune、Doge、DGA 等主流基線。
多任務(wù)優(yōu)化:DIDS 僅用 10 萬(wàn)樣本(約 10% 全量數(shù)據(jù)),平均得分 62.3,不僅超過(guò)所有基線(如最強(qiáng)基線 Doge 得 60.2),還超越了全量數(shù)據(jù)訓(xùn)練的模型(61.2)。其中數(shù)學(xué)推理任務(wù)提升最顯著,Minerva-MathQA 從 17.8 提升至 20.5(+2.7),TruthfulQA 從 37.2 提升至 43.0(+5.8)。
單任務(wù)優(yōu)化:DIDS 平均得分 63.7,較第二好的 DGA(61.6)提升 2.1,在知識(shí)密集型任務(wù)上優(yōu)勢(shì)明顯 ——IFEval(指令跟隨)從 53.2 提升至 57.5(+4.3),TruthfulQA 從 38.5 提升至 44.8(+6.3)。
關(guān)于沐曦
沐曦致力于自主研發(fā)全棧高性能GPU芯片及計(jì)算平臺(tái),為智算、通用計(jì)算、云渲染等前沿領(lǐng)域提供高能效、高通用性的算力支撐,助力數(shù)字經(jīng)濟(jì)發(fā)展。
-
AI
+關(guān)注
關(guān)注
88文章
36966瀏覽量
289760 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8528瀏覽量
135844 -
沐曦
+關(guān)注
關(guān)注
0文章
44瀏覽量
1590
原文標(biāo)題:沐曦聯(lián)合香港科技大學(xué)登上AI頂會(huì)
文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
土耳其中東科技大學(xué)科技園到訪智行者
華中科技大學(xué)與東風(fēng)汽車首批6個(gè)科研項(xiàng)目簽約
福耀科技大學(xué)與洲明科技達(dá)成戰(zhàn)略合作
西安電子科技大學(xué)攜手飛騰助力高校人才培養(yǎng)
硅基流動(dòng)攜手沐曦首發(fā)基于曦云的Kimi K2推理服務(wù)
比亞迪與香港科技大學(xué)成立具身智能實(shí)驗(yàn)室
電子科技大學(xué)OpenHarmony技術(shù)俱樂(lè)部正式揭牌成立

華寶新能與電子科技大學(xué)(深圳)高等研究院共建聯(lián)合實(shí)驗(yàn)室
香港科技大學(xué)商學(xué)院一行走進(jìn)大普技術(shù)
PaddleScience完成與沐曦AI芯片適配
大學(xué)計(jì)劃 | 同星智能贊助電子科技大學(xué) Fury 電動(dòng)方程式賽車隊(duì)

澎峰科技與沐曦完成聯(lián)合測(cè)試,實(shí)現(xiàn)全面兼容
澎峰科技計(jì)算軟件棧與沐曦GPU完成適配和互認(rèn)證
南方科技大學(xué)OpenHarmony技術(shù)俱樂(lè)部正式揭牌成立

評(píng)論