chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

科大訊飛獲國際多通道語音分離與識別大賽CHiME-7冠軍

科大訊飛 ? 來源:科大訊飛 ? 2023-08-28 16:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前方有好消息傳來

時隔3年后,國際多通道語音分離和識別大賽CHiME-7再次“上線”。當(dāng)?shù)貢r間8月25日,CHiME-7 Workshop在Meta公司都柏林研發(fā)中心舉行,官方組委會現(xiàn)場公布了大賽成績:

科大訊飛聯(lián)合中科大語音及語言信息處理國家工程研究中心(NERC-SLIP)、國家智能語音創(chuàng)新中心,在參與的多設(shè)備多場景遠(yuǎn)場語音識別任務(wù)(DASR)中獲得全部兩個賽道的第一名。

繼2016年以來參與CHiME-4、CHiME-5、CHiME-6三屆比賽并奪冠后,訊飛聯(lián)合團(tuán)隊(duì)堅(jiān)持技術(shù)創(chuàng)新,此次在參與任務(wù)主賽道中語音識別錯誤率21%,相比賽事官方給出的基線系統(tǒng),相對降低了60%以上。連續(xù)四屆拿下冠軍、領(lǐng)跑國際競爭對手的同時,科大訊飛在核心源頭技術(shù)上也實(shí)現(xiàn)了自我突破。

語音識別任務(wù)難度加碼!“群雄逐鹿”再領(lǐng)頭

作為有“最難語音識別任務(wù)”之稱的語音領(lǐng)域權(quán)威賽事,CHiME(Computational Hearing in Multisource Environments)系列比賽發(fā)起于2011年,致力于集聚學(xué)術(shù)界和工業(yè)界優(yōu)秀的學(xué)術(shù)力量,持續(xù)突破語音識別技術(shù)水平,不斷在更高噪聲、更高混響、更高對話復(fù)雜度的場景下提出具有創(chuàng)新性的解決方案,解決著名的“雞尾酒會問題”,難點(diǎn)在于怎樣在充滿噪聲的雞尾酒會,分辨并聽清多人同時交談的聲音。

參與CHiME-7的團(tuán)隊(duì)高手如云,如中科院聲學(xué)所、西北工業(yè)大學(xué)、劍橋大學(xué)、帕德博恩大學(xué)、捷克布爾諾理工大學(xué)、日本電信NTT、英偉達(dá)、俄羅斯STC等國內(nèi)外知名研究機(jī)構(gòu)、高校和企業(yè)。

本次CHiME-7中的語音識別任務(wù)由馬爾凱理工大學(xué)、卡內(nèi)基梅隆大學(xué)、約翰霍普金斯大學(xué)、東京都立大學(xué)的學(xué)者們共同組織,稱為“多設(shè)備多場景遠(yuǎn)場語音識別任務(wù)(DASR)”。

在CHiME-6的基礎(chǔ)上,CHiME-7進(jìn)一步提升了難度,不僅在對話場景、麥克風(fēng)設(shè)備類型上進(jìn)行了擴(kuò)充,同時要求參賽者只能使用統(tǒng)一的一套算法系統(tǒng)進(jìn)行測試,這對語音識別系統(tǒng)的魯棒性提出了極高的要求。具體如下

在考察場景中,擴(kuò)大了CHiME-6測試集范圍,同時新增加了兩個數(shù)據(jù)集DiPCo和Mixer 6;

三個數(shù)據(jù)集分別使用不同的麥克風(fēng)設(shè)備,包含線性陣列、環(huán)形陣列、分布式麥克風(fēng)等;

數(shù)據(jù)集中多人對話場景更加豐富,除朋友聚會之外還新增了采訪、打電話等場景。

wKgaomTsYh6ABxS9AASAYJ0ziIA956.jpg

CHiME-7官方給出的任務(wù)圖例

該任務(wù)分為主賽道(Main Track,默認(rèn)提交)子賽道(Sub Track,自由提交),具有很高的挑戰(zhàn)性,也與真實(shí)復(fù)雜場景中的語音識別要求更為貼近:

主賽道需要首先要完成遠(yuǎn)場數(shù)據(jù)下的說話人角色分離任務(wù),即從連續(xù)的多人說話語音中切分出不同說話人片段、判斷出每個片段是哪個說話人,然后再進(jìn)行語音識別;

子賽道中說話人角色分離的信息是人工標(biāo)注的,參賽者可以直接使用,在人工分離邊界的基礎(chǔ)上直接進(jìn)行語音識別。

此次比賽核心考察指標(biāo)為DA-WER(Diarization Attributed WER),即綜合考察系統(tǒng)對多個說話人的角色分離效果,以及語音識別效果。

科大訊飛聯(lián)合團(tuán)隊(duì)參加了所有兩個賽道,在主賽道和子賽道分別以21%和16%語音識別錯誤率拿下雙冠,將真實(shí)說話人角色分離情況下的語音識別錯誤率與使用人工標(biāo)注間的差別控制在5%,這也標(biāo)志著在實(shí)際環(huán)境中的應(yīng)用效果將得到進(jìn)一步提升。

wKgaomTsYh6ASKfiAAP-hQwAQOI441.jpg

主賽道語音識別成績,排名指標(biāo)DA-WER取自三個數(shù)據(jù)集上的平均值,值越低成績越好

wKgaomTsYh6APJcBAAQn_6hEg1w681.jpg

主賽道說話人角色分離成績,排名指標(biāo)DER代表說話人角色分離錯誤率,值越低成績越好

wKgZomTsYh6Af7jrAAO9qc6Mooo740.jpg

子賽道語音識別成績,排名指標(biāo)DA-WER取自三個數(shù)據(jù)集上的平均值,值越低成績越好

面對挑戰(zhàn),我們的“新招數(shù)”有哪些?

如何突破語音交疊、遠(yuǎn)場混響與噪聲干擾、隨意的對話風(fēng)格等重重難關(guān),在更復(fù)雜的語音素材里精準(zhǔn)實(shí)現(xiàn)說話人角色分離和語音識別?

基于長期技術(shù)積累,以及訊飛語音識別技術(shù)在落地應(yīng)用中的實(shí)踐和反饋,聯(lián)合團(tuán)隊(duì)創(chuàng)新并使用了多種技術(shù)方法。

基于記憶模塊的多說話人特征神經(jīng)網(wǎng)絡(luò)說話人角色分離算法 (Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding , NSD-MA-MSE)

該方法旨在解決高噪聲、高混響、高說話人重疊段場景的說話人角色分離問題。基于對大規(guī)模的說話人聚類得到的類中心向量,團(tuán)隊(duì)設(shè)計(jì)了一種記憶模塊,可以利用該模塊與當(dāng)前目標(biāo)人片段,通過注意力機(jī)制計(jì)算來得到更加精確的目標(biāo)說話人特征。整體上,團(tuán)隊(duì)采用序列到序列的方式來預(yù)測多個說話人的輸出幀級語音/非語音概率。該模型極大降低了說話人角色分離錯誤率,有效地幫助了后續(xù)的分離和識別模塊。

陣列魯棒的通道挑選算法(Array-Robust Channel Selection)

該算法基于波束語音信噪比挑選準(zhǔn)則,即使對于不同的陣列分布場景,也能夠自動挑選出有效通道,從而減少下游任務(wù)無效噪聲和語音干擾。同時,團(tuán)隊(duì)提出了一種空間-說話人同步感知的迭代說話人角色分離算法(Spatial-and-Speaker-Aware Iterative Diariazation Algorithm,SSA-IDA),通過結(jié)合陣列空間建模和機(jī)器學(xué)習(xí)長時建模的優(yōu)勢,迭代修正說話人角色分離系統(tǒng)中聲學(xué)特性相似的說話人錯分情況,從而更加精確捕捉目標(biāo)說話人的信息。

該算法不僅有效的降低了環(huán)境干擾噪聲,而且可以進(jìn)一步消除干擾說話人的語音,從而大幅降低下游語音識別任務(wù)的難度。

場景自適應(yīng)自監(jiān)督表征學(xué)習(xí)方案(Scene Adaptive Self-Supervised Learning Method)

該方案用于匹配復(fù)雜場景的語音識別,將經(jīng)過前端處理后的音頻作為自監(jiān)督模型的輸入,并提取高層次表征作為指導(dǎo)標(biāo)簽,實(shí)現(xiàn)了對特定場景的快速自適應(yīng)匹配;同時,結(jié)合層級漸進(jìn)式學(xué)習(xí)和一致性正則約束,進(jìn)一步提高了預(yù)訓(xùn)練模型對下游語音識別任務(wù)的魯棒性。利用預(yù)訓(xùn)練模型的層級信息進(jìn)行融合,實(shí)現(xiàn)了語音識別在復(fù)雜場景的效果提升。

望過去、向未來:更好的AI離不開更好的語音識別

連續(xù)四屆獲得CHiME冠軍背后,是科大訊飛在語音識別技術(shù)和應(yīng)用上踏過的漫長之路

從2010年國內(nèi)首批開展深度神經(jīng)網(wǎng)絡(luò)語音識別研究,到全球首個中文語音識別深度神經(jīng)網(wǎng)絡(luò)(DNN)上線、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)語音識別全面升級、全球首創(chuàng)基于全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)的語音識別,近幾年持續(xù)探索無監(jiān)督預(yù)訓(xùn)練、多模態(tài)在語音識別上的應(yīng)用;

從2010年推出語音輸入的訊飛輸入法上線、訊飛語音云發(fā)布,到落地教育、醫(yī)療、城市、工業(yè)、金融、汽車等各行各業(yè),還有面向你我生活學(xué)習(xí)工作的訊飛翻譯機(jī)、智能辦公本、AI學(xué)習(xí)機(jī)、訊飛聽見、錄音筆、智能耳機(jī)……

不論是大型國際會議、全球賽事,還是身邊的一通電話、一次詢問,在繁雜的聲音世界里,是持續(xù)進(jìn)化的語音識別技術(shù)讓機(jī)器更了解我們所言所語。

面向未來,科大訊飛在CHiME-7中的技術(shù)成果鏈接著更多的應(yīng)用可能

立志于讓機(jī)器人走進(jìn)每個家庭的“訊飛超腦2030”計(jì)劃里,似乎可以看到未來人和機(jī)器自然交互的新場景。CHiME-7中的技術(shù)成果能夠讓機(jī)器人面向每個家庭成員實(shí)現(xiàn)更精準(zhǔn)的語音識別,再加上多模感知、多維表達(dá)、認(rèn)知智能和AI運(yùn)動智能算法等有機(jī)結(jié)合,實(shí)現(xiàn)系統(tǒng)性創(chuàng)新——家庭陪伴機(jī)器人不僅能夠聽清、聽懂每位家庭成員的需求,還能真正做到情感陪伴與日常生活照顧……

**智能語音是萬物互聯(lián)機(jī)器溝通的入口,也是人工智能賦能千行萬業(yè)、浸潤千家萬戶的秘鑰;**智能語音是我們的初心,是載譽(yù)的過往和現(xiàn)在,也是燦爛的將來。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    30910

    瀏覽量

    221215
  • 信噪比
    +關(guān)注

    關(guān)注

    3

    文章

    271

    瀏覽量

    29529
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1810

    瀏覽量

    115846
  • 深度神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    0

    文章

    62

    瀏覽量

    4842

原文標(biāo)題:四連冠!科大訊飛獲國際多通道語音分離與識別大賽CHiME-7冠軍

文章出處:【微信號:iFLYTEK1999,微信公眾號:科大訊飛】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    科大設(shè)立子公司:加碼AI與集成電路業(yè)務(wù)布局

    電子發(fā)燒友網(wǎng)綜合報(bào)道,人工智能領(lǐng)軍企業(yè)科大近日再添新動作,正式成立山東沂信息科技有限公司。該公司成立于2025年12月19日,注冊地位于臨沂市,法定代表人為柳升華,注冊資本500
    發(fā)表于 12-29 08:53 ?876次閱讀

    科大蒞臨一汽奔騰座談交流

    11月8日,科大股份有限公司總裁吳曉如一行來訪一汽奔騰。一汽奔騰企業(yè)負(fù)責(zé)人等相關(guān)人員接待來賓,并進(jìn)行座談交流。
    的頭像 發(fā)表于 11-11 17:21 ?1218次閱讀

    2025科大全球1024開發(fā)者節(jié)精彩回顧

    當(dāng)全球產(chǎn)業(yè)格局和競爭形態(tài)重塑之時,AI將如何發(fā)展?11月6日,在第八屆世界聲博會暨2025科大全球1024開發(fā)者節(jié)發(fā)布會上,科大
    的頭像 發(fā)表于 11-10 11:51 ?757次閱讀
    2025<b class='flag-5'>科大</b><b class='flag-5'>訊</b><b class='flag-5'>飛</b>全球1024開發(fā)者節(jié)精彩回顧

    科大發(fā)布星火X1.5及系列AI產(chǎn)品

    11月6日,第八屆世界聲博會暨2025科大全球1024開發(fā)者節(jié)發(fā)布會上,科大以《更懂你的
    的頭像 發(fā)表于 11-10 11:49 ?796次閱讀

    香港立法會與科大聯(lián)合打造智慧謄錄系統(tǒng)“智識聽”

    香港立法會主席梁君彥在社交平臺發(fā)文點(diǎn)贊的“智識聽”系統(tǒng),是香港立法會與科大聯(lián)合打造的智慧謄錄系統(tǒng)。
    的頭像 發(fā)表于 08-11 14:45 ?1494次閱讀

    打破交互困局:科大這樣出手

    十年深耕,科大智能交互如何引領(lǐng)未來
    的頭像 發(fā)表于 06-17 11:50 ?1041次閱讀
    打破交互困局:<b class='flag-5'>科大</b><b class='flag-5'>訊</b><b class='flag-5'>飛</b>這樣出手

    回顧科大26周年慶精彩瞬間

    近日,科大26周年司慶上,董事長劉慶峰對這個作文題感觸很深:“從1999年創(chuàng)業(yè)時在“中國被人扼住了咽喉”背景下以語音合成系統(tǒng)破局,到這些年智能
    的頭像 發(fā)表于 06-13 14:08 ?884次閱讀

    科大斬獲恰佩克年度卓越品牌獎

    精英等700余人參加。作為人工智能行業(yè)的龍頭企業(yè),科大受邀參會并憑借“機(jī)器人超腦平臺”獲得“年度卓越品牌獎”,其技術(shù)創(chuàng)新與產(chǎn)業(yè)落地能力行業(yè)權(quán)威認(rèn)可。
    的頭像 發(fā)表于 05-30 16:47 ?922次閱讀

    科大聯(lián)手“挑戰(zhàn)杯”加速國產(chǎn)算力應(yīng)用

    作為國家A級賽事,第十九屆“挑戰(zhàn)杯”全國大學(xué)生系列科技學(xué)術(shù)競賽首次發(fā)起“人工智能+”專項(xiàng)賽道。憑借最早投入全國產(chǎn)算力平臺的戰(zhàn)略定力,科大打造自主可控的大模型基座,在一眾大模型廠商中通過層層篩選,成為本屆
    的頭像 發(fā)表于 05-21 16:53 ?988次閱讀

    科大加速東南亞企業(yè)的人工智能應(yīng)用

    日前,科大飛在新加坡成功舉辦合作伙伴峰會暨創(chuàng)新產(chǎn)品發(fā)布會。這場匯聚關(guān)鍵合作伙伴、行業(yè)先驅(qū)和技術(shù)領(lǐng)袖的盛會,不僅集中展示了科大最新AI創(chuàng)
    的頭像 發(fā)表于 05-06 09:39 ?825次閱讀

    科大亮相第137屆廣交會

    今天,第137屆中國進(jìn)出口商品交易會(廣交會)在廣州開幕。科大又一年參展,集中展示了星火大模型的最新技術(shù)成果以及在辦公、教育、汽車、
    的頭像 發(fā)表于 04-17 09:30 ?1050次閱讀

    科大深度解析DeepSeek-V3/R1推理系統(tǒng)成本

    本篇分析來自科大技術(shù)團(tuán)隊(duì),深度解析了DeepSeek-V3 / R1 推理系統(tǒng)成本,旨在助力開發(fā)者實(shí)現(xiàn)高性價比的MoE集群部署方案。感謝
    的頭像 發(fā)表于 04-15 13:46 ?3668次閱讀
    <b class='flag-5'>科大</b><b class='flag-5'>訊</b><b class='flag-5'>飛</b>深度解析DeepSeek-V3/R1推理系統(tǒng)成本

    科大助力打造安徽省檢察院AI輔助辦案系統(tǒng)

    安徽省檢察院聯(lián)合科大打造的安徽省檢察院AI輔助辦案系統(tǒng)(以下簡稱“人工智能助手”)已于近期正式上線!
    的頭像 發(fā)表于 04-09 14:10 ?973次閱讀

    科大攜手西安鐵路局打造人工智能平臺

    近日,科大攜手中國鐵路西安局集團(tuán)有限公司(以下簡稱“西安鐵路局”)打造的人工智能平臺正式上線啟用。該人工智能平臺集成星火大模型技術(shù),
    的頭像 發(fā)表于 03-17 16:14 ?914次閱讀

    科大Air 2電紙書和掌閱Ocean4 Plus區(qū)別

    首先說說科大Air 2,這款設(shè)備的核心亮點(diǎn)在于它的AI功能和辦公屬性。8.2英寸的墨水屏,分辨率高達(dá)1920*1440,顯示效果非常細(xì)膩,閱讀時眼睛不會感到疲勞。它的屏占比達(dá)到了88.5%,視覺
    發(fā)表于 03-03 14:01