近日,國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議 ICASSP 2026 公布錄用結(jié)果。江蘇省語(yǔ)言計(jì)算及應(yīng)用實(shí)驗(yàn)室多篇論文被會(huì)議接收。ICASSP 長(zhǎng)期被視為聲學(xué)、語(yǔ)音與信號(hào)處理領(lǐng)域最具國(guó)際影響力的學(xué)術(shù)會(huì)議之一,其錄用成果集中反映了語(yǔ)音語(yǔ)言技術(shù)前沿的發(fā)展方向。
江蘇省語(yǔ)言計(jì)算及應(yīng)用重點(diǎn)實(shí)驗(yàn)室(以下簡(jiǎn)稱“實(shí)驗(yàn)室”)由思必馳科技股份有限公司牽頭,聯(lián)合上海交通大學(xué)、蘇州大學(xué)共建,是江蘇省在通用人工智能領(lǐng)域布局的重要戰(zhàn)略科技力量。實(shí)驗(yàn)室以思必馳的產(chǎn)業(yè)平臺(tái)為依托,匯聚上海交大、蘇大的頂尖科研資源,形成“產(chǎn)學(xué)研用”深度融合的創(chuàng)新共同體,聚焦語(yǔ)言計(jì)算核心技術(shù),貫通基礎(chǔ)理論、關(guān)鍵算法、產(chǎn)業(yè)落地的全鏈條創(chuàng)新。
實(shí)驗(yàn)室本次收錄的論文成果聚焦多語(yǔ)種語(yǔ)音識(shí)別、高效自回歸語(yǔ)音合成與低碼率神經(jīng)語(yǔ)音編解碼等前沿方向,支撐思必馳核心技術(shù)能力持續(xù)增強(qiáng):提升了多語(yǔ)種交互一致性、優(yōu)化了端云協(xié)同實(shí)時(shí)響應(yīng)、強(qiáng)化了分布式智能體在復(fù)雜場(chǎng)景中的感知與執(zhí)行穩(wěn)定性;并進(jìn)一步升級(jí)了車載座艙語(yǔ)音助手、會(huì)議軟硬件產(chǎn)品與智能家居終端的交互體驗(yàn),同時(shí)提升面向海外與多行業(yè)客戶的標(biāo)準(zhǔn)化交付效率與可擴(kuò)展能力。下面介紹本次收錄的代表性成果:
多語(yǔ)種語(yǔ)音識(shí)別
復(fù)雜口音與多語(yǔ)種環(huán)境下的識(shí)別魯棒性強(qiáng)化,支撐車載座艙中的多音區(qū)交互與跨區(qū)域語(yǔ)音服務(wù)能力。
MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR面向端到端多語(yǔ)種語(yǔ)音識(shí)別中的核心難題。該問(wèn)題長(zhǎng)期受限于兩類結(jié)構(gòu)性瓶頸,一是低資源語(yǔ)言數(shù)據(jù)不足,二是傳統(tǒng)單一投影器難以同時(shí)兼顧跨語(yǔ)言共享與語(yǔ)言特異建模。
MOSA 采用簡(jiǎn)單適配器混合的結(jié)構(gòu)范式,在統(tǒng)一框架內(nèi)引入多專家協(xié)同機(jī)制,使跨語(yǔ)言共享知識(shí)與語(yǔ)言專屬性特征能夠?qū)崿F(xiàn)有效分工與協(xié)同學(xué)習(xí)。該方法并未依賴更重的單體投影結(jié)構(gòu),而是通過(guò)多個(gè)輕量適配器的組合提升表示能力,因此在工程資源受限條件下更具部署價(jià)值。
實(shí)驗(yàn)結(jié)果顯示,在訓(xùn)練參數(shù)量?jī)H為 Ideal-LLM Base 六成的條件下,平均詞錯(cuò)誤率仍下降 13.3%。這一結(jié)果表明,多專家輕量適配策略不僅提升識(shí)別精度,同時(shí)在數(shù)據(jù)不平衡情形下展現(xiàn)出更強(qiáng)穩(wěn)定性,為多語(yǔ)種識(shí)別系統(tǒng)的大規(guī)模落地提供了可驗(yàn)證路徑。

高效自回歸語(yǔ)音合成
提升合成語(yǔ)音的可懂度與響應(yīng)效率,加強(qiáng)車載播報(bào)、辦公助手語(yǔ)音反饋與多輪任務(wù)執(zhí)行中的自然表達(dá)。
Robust and Efficient Autoregressive Speech Synthesis with Dynamic Chunk-wise Prediction Policy針對(duì)自回歸語(yǔ)音合成在長(zhǎng)序列建模中的關(guān)鍵矛盾展開(kāi)研究。傳統(tǒng)逐詞元預(yù)測(cè)方案在序列增長(zhǎng)后容易出現(xiàn)注意力不穩(wěn)定,進(jìn)而引發(fā)時(shí)延上升與可懂度下降,這也是高質(zhì)量合成模型進(jìn)入實(shí)時(shí)業(yè)務(wù)的重要障礙。
DCAR 提出動(dòng)態(tài)分塊預(yù)測(cè)策略。該策略通過(guò)多詞元預(yù)測(cè)訓(xùn)練與輕量在軌模塊協(xié)同,按語(yǔ)音內(nèi)容動(dòng)態(tài)調(diào)整預(yù)測(cè)跨度,降低模型對(duì)長(zhǎng)序列逐步遞推的依賴,同時(shí)保持合成細(xì)節(jié)質(zhì)量。其核心價(jià)值在于將效率優(yōu)化與語(yǔ)音質(zhì)量?jī)?yōu)化統(tǒng)一到同一生成機(jī)制內(nèi)。
在公開(kāi)實(shí)驗(yàn)中,DCAR 相較傳統(tǒng)逐詞元預(yù)測(cè)模型實(shí)現(xiàn)可懂度最高 72.27% 的提升,并將推理速度提升至 2.61 倍。該結(jié)果顯示,動(dòng)態(tài)分塊范式能夠顯著改善實(shí)時(shí)語(yǔ)音生成能力,為車載播報(bào)、會(huì)議助手與多輪語(yǔ)音交互中的低時(shí)延輸出提供技術(shù)基礎(chǔ)。

低碼率神經(jīng)語(yǔ)音編解碼
優(yōu)化低碼率語(yǔ)音傳輸與端側(cè)資源開(kāi)銷,賦能智能家居與消費(fèi)終端中的低功耗部署、弱網(wǎng)穩(wěn)定交互。
Codecslime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate指向神經(jīng)語(yǔ)音編解碼中的普遍問(wèn)題。固定幀率機(jī)制默認(rèn)語(yǔ)音時(shí)間信息密度均勻,然而真實(shí)語(yǔ)音在靜音段、長(zhǎng)元音段與快速過(guò)渡段的有效信息密度差異顯著。固定幀率因此會(huì)在低信息區(qū)產(chǎn)生冗余編碼開(kāi)銷。
CodecSlime 引入動(dòng)態(tài)幀率機(jī)制,以插件化方式嵌入現(xiàn)有神經(jīng)編解碼體系,在不依賴額外監(jiān)督的條件下壓縮時(shí)間冗余。方法中的 ScheDFR 與 Melt-and-Cool 分別服務(wù)于推理側(cè)與訓(xùn)練側(cè),使模型能夠在不同時(shí)間密度區(qū)間自適應(yīng)分配編碼資源。
在典型 VQ-GAN 編解碼骨干上,當(dāng)系統(tǒng)運(yùn)行于約 40Hz 動(dòng)態(tài)幀率并保持約 600bps 量級(jí)碼率時(shí),CodecSlime 的重建詞錯(cuò)誤率相較固定幀率基線最多下降 28%。同時(shí),模型在不同幀率設(shè)置下持續(xù)保持競(jìng)爭(zhēng)性能,體現(xiàn)了重建質(zhì)量與傳輸成本之間更靈活的工程權(quán)衡能力。

產(chǎn)品落地:
智能車載、智慧辦公與智能家居的持續(xù)升級(jí)
本次收錄的研究成果共同推動(dòng)思必馳全鏈路對(duì)話式人工智能系統(tǒng)在全流程可控、端到端貫通與規(guī)?;渴鸱矫娉掷m(xù)進(jìn)階。對(duì)于企業(yè)級(jí)產(chǎn)品而言,這類基礎(chǔ)技術(shù)進(jìn)展不僅提升單點(diǎn)模型指標(biāo),更重要的是提升跨模塊協(xié)同效率與整體用戶體驗(yàn)的可感知升級(jí):多語(yǔ)種交互更穩(wěn)定、語(yǔ)音反饋更自然及時(shí)、弱網(wǎng)與低功耗條件下的使用體驗(yàn)更順暢。依托上述能力,思必馳在多行業(yè)項(xiàng)目中的交付效率與場(chǎng)景適配速度持續(xù)提升,為客戶提供更一致、更可靠的語(yǔ)音交互服務(wù)。
長(zhǎng)期以來(lái),思必馳深度參與國(guó)內(nèi)外學(xué)術(shù)前沿研究,在ICASSP、INTERSPEECH、ACL、EMNLP、AAAI、ICML、NeurIPS等頂級(jí)學(xué)術(shù)會(huì)議上屢獲佳績(jī),持續(xù)產(chǎn)出高質(zhì)量科研成果,彰顯了在人工智能語(yǔ)音語(yǔ)言關(guān)鍵技術(shù)領(lǐng)域的深度探索和重大突破。思必馳秉持科研與產(chǎn)業(yè)應(yīng)用緊密結(jié)合的理念,將持續(xù)推進(jìn)高水平科研成果向產(chǎn)品能力轉(zhuǎn)化,圍繞真實(shí)業(yè)務(wù)場(chǎng)景打磨可落地、可規(guī)?;?、可持續(xù)優(yōu)化的語(yǔ)音語(yǔ)言技術(shù)體系。
作為專業(yè)的對(duì)話式人工智能平臺(tái)型企業(yè),思必馳具有源頭技術(shù)創(chuàng)新和應(yīng)用創(chuàng)新的能力,自2022年7月獲國(guó)家科技部批準(zhǔn)建設(shè)“語(yǔ)言計(jì)算國(guó)家新一代人工智能開(kāi)放創(chuàng)新平臺(tái)”以來(lái),接連于2023-2024年獲批組建蘇州市、江蘇省、長(zhǎng)三角三級(jí)創(chuàng)新聯(lián)合體,并于2025年攜手上海交通大學(xué)、蘇州大學(xué),牽頭組建“江蘇省語(yǔ)言計(jì)算及應(yīng)用重點(diǎn)實(shí)驗(yàn)室”,成為國(guó)家人工智能戰(zhàn)略科技力量的重要組成部分。
思必馳承擔(dān)了包括國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家發(fā)改委“互聯(lián)網(wǎng)+”重大工程和人工智能創(chuàng)新發(fā)展工程、國(guó)家工信部人工智能與實(shí)體經(jīng)濟(jì)深度融合項(xiàng)目、長(zhǎng)三角科技創(chuàng)新共同體聯(lián)合攻關(guān)計(jì)劃項(xiàng)目等十余項(xiàng)國(guó)家級(jí)、省部級(jí)項(xiàng)目,展現(xiàn)出卓越的科研實(shí)力與項(xiàng)目落地能力。
思必馳深耕語(yǔ)音語(yǔ)言領(lǐng)域,憑借自主研發(fā)的核心技術(shù)多次在國(guó)際研究機(jī)構(gòu)評(píng)測(cè)中奪得冠軍;曾三度斬獲國(guó)內(nèi)人工智能最高獎(jiǎng)“吳文俊獎(jiǎng)”,榮獲中國(guó)專利優(yōu)秀獎(jiǎng),以及信通院車載智能語(yǔ)音交互系統(tǒng)最高級(jí)別認(rèn)證等重要榮譽(yù)。技術(shù)創(chuàng)新能力備受全球矚目,被高盛全球人工智能報(bào)告列為關(guān)鍵參與者,也被Gartner評(píng)為東亞五大明星AI公司之一。
截至2025年年底,思必馳擁有近100項(xiàng)全球獨(dú)創(chuàng)技術(shù),已授權(quán)知識(shí)產(chǎn)權(quán)1700余項(xiàng),其中已授權(quán)發(fā)明專利700余項(xiàng),牽頭/參與了70余項(xiàng)國(guó)家/行業(yè)/團(tuán)體標(biāo)準(zhǔn),獲得23項(xiàng)國(guó)家級(jí)的產(chǎn)品認(rèn)證,8項(xiàng)算法通過(guò)深度合成算法備案。思必馳堅(jiān)持自主的大模型技術(shù)路線,加速研發(fā)端云協(xié)同的分布式智能體系統(tǒng),以任務(wù)型交互為核心,結(jié)合智能硬件感知優(yōu)勢(shì),推進(jìn)分布式的可規(guī)劃的可信智能體落地,服務(wù)企業(yè)客戶。
-
人工智能
+關(guān)注
關(guān)注
1817文章
50115瀏覽量
265569 -
思必馳
+關(guān)注
關(guān)注
4文章
400瀏覽量
15992
原文標(biāo)題:ICASSP 2026|江蘇省語(yǔ)言計(jì)算及應(yīng)用實(shí)驗(yàn)室多項(xiàng)成果入選,持續(xù)夯實(shí)全鏈路語(yǔ)音語(yǔ)言核心技術(shù)
文章出處:【微信號(hào):思必馳,微信公眾號(hào):思必馳】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
佛吉亞鹽城工廠入選2025年度江蘇省綠色工廠
飛譜電子入選2025年度江蘇省博士后創(chuàng)新實(shí)踐基地
思必馳出席江蘇省語(yǔ)言計(jì)算及應(yīng)用重點(diǎn)實(shí)驗(yàn)室學(xué)術(shù)委員會(huì)第一次會(huì)議
南京峟思榮獲江蘇省“專精特新”中小企業(yè)認(rèn)定
帝奧微榮獲2025年度江蘇省科技創(chuàng)新協(xié)會(huì)科技創(chuàng)新成果轉(zhuǎn)化獎(jiǎng)
上能電氣入選2025年度江蘇省商標(biāo)品牌培育和保護(hù)項(xiàng)目
左藍(lán)微電子入選2025年江蘇省潛在獨(dú)角獸企業(yè)
普源精電入選2025年度江蘇省高價(jià)值專利培育計(jì)劃
高德地圖與通義實(shí)驗(yàn)室達(dá)成深度合作
美新半導(dǎo)體榮獲2025年江蘇省先進(jìn)級(jí)智能工廠
博世蘇州入選2025年江蘇省先進(jìn)級(jí)智能工廠
思必馳與上海交大聯(lián)合實(shí)驗(yàn)室12篇論文被ICASSP 2025收錄
江蘇省語(yǔ)言計(jì)算及應(yīng)用實(shí)驗(yàn)室多項(xiàng)成果入選ICASSP 2026
評(píng)論