chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)音識(shí)別技術(shù)最新進(jìn)展:視聽(tīng)融合的多模態(tài)交互成為主要演進(jìn)方向

Carol Li ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-12-28 09:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)所謂“模態(tài)”,英文是modality,用通俗的話說(shuō),就是“感官”,多模態(tài)即將多種感官融合。多模態(tài)交互技術(shù)是近年來(lái)人工智能領(lǐng)域的一項(xiàng)重要?jiǎng)?chuàng)新。隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展,采用多種模態(tài)(聲學(xué)、語(yǔ)言模型、視覺(jué)特征等)進(jìn)行聯(lián)合建模,基于深度學(xué)習(xí)的多模態(tài)語(yǔ)音識(shí)別取得了新進(jìn)展。

多模態(tài)交互的原理及優(yōu)勢(shì)

多模態(tài)交互技術(shù)融合了多種輸入方式,包括語(yǔ)音、手勢(shì)、觸摸和眼動(dòng)等,使用戶(hù)可以根據(jù)自己的喜好和習(xí)慣選擇最方便的交互方式。多模態(tài)交互通過(guò)將不同輸入方式的數(shù)據(jù)進(jìn)行融合和處理,實(shí)現(xiàn)更準(zhǔn)確、智能的交互響應(yīng),提高用戶(hù)體驗(yàn)。

上周在星宸科技2023開(kāi)發(fā)者大會(huì)暨產(chǎn)品發(fā)布會(huì)論壇上,科大訊飛企業(yè)數(shù)字化副總裁盧堯談到,人工智能有三個(gè)層次,1、運(yùn)算智能:能存會(huì)算;2、感知智能:能聽(tīng)會(huì)說(shuō),能看會(huì)認(rèn);3、認(rèn)知智能:能理解會(huì)思考。而感知智能典型的進(jìn)展是多模態(tài)交互。

從盧堯的介紹來(lái)看,融合了視覺(jué)和語(yǔ)音的多模態(tài)免喚醒系統(tǒng)具有明顯優(yōu)勢(shì)。如下圖:這套多模態(tài)免喚醒交互系統(tǒng),同時(shí)采用視覺(jué)檢測(cè)和語(yǔ)音識(shí)別交互,誤喚醒率僅為0.01%,交互響應(yīng)成功率相較于僅基于語(yǔ)音識(shí)別交互系統(tǒng)大幅提升。

wKgaomWMymCACWUdAAZDJDahffk724.jpg

早在今年5月,科大訊飛AI研究院副院長(zhǎng)高建清博士就在某論壇上介紹過(guò)公司在多模態(tài)語(yǔ)音交互技術(shù)方面的最新進(jìn)展。據(jù)高建清介紹,科大訊飛依托語(yǔ)音與視覺(jué)方面的多年積累,打造了一套語(yǔ)音、視覺(jué)多模態(tài)融合的免喚醒多模態(tài)交互系統(tǒng)。

通過(guò)將麥克風(fēng)提供的空間信息和音視頻提供的說(shuō)話人相關(guān)信息進(jìn)行融合綁定,實(shí)現(xiàn)高準(zhǔn)確度的說(shuō)話人分離;通過(guò)多模態(tài)VAD與端到端意圖技術(shù)的結(jié)合,實(shí)現(xiàn)無(wú)喚醒詞的自然人機(jī)交互,具有可靠、自然、魯棒的特點(diǎn)。

具體來(lái)看,基于多模態(tài)多通道的語(yǔ)音分離系統(tǒng),將語(yǔ)音信號(hào)、麥克風(fēng)陣列提供的空間信息以及主說(shuō)話人的唇形輸入分離模型,系統(tǒng)最終輸出視頻說(shuō)話人的語(yǔ)音,抑制背景噪聲及干擾說(shuō)話人語(yǔ)音。在多人同時(shí)講話、車(chē)載音樂(lè)情況下,語(yǔ)音識(shí)別效果相比單模分離系統(tǒng)有50%以上性能提升。不僅解決了傳統(tǒng)麥克風(fēng)陣列方法無(wú)法有效區(qū)分同向干擾的問(wèn)題,還可提升非同向干擾分離場(chǎng)景的性能。

多模態(tài)交互技術(shù)的應(yīng)用

語(yǔ)音識(shí)別是人工智能技術(shù)的一個(gè)重要分支,近些年來(lái),智能語(yǔ)音也在多項(xiàng)技術(shù)難點(diǎn)上取得突破。業(yè)界普遍認(rèn)為,在語(yǔ)音識(shí)別方面,視聽(tīng)融合的多模態(tài)交互技術(shù)成為技術(shù)演進(jìn)的主要方向。

科大訊飛是國(guó)內(nèi)主要的智能語(yǔ)音技術(shù)玩家,其多模語(yǔ)音增強(qiáng)技術(shù)融合語(yǔ)音與視覺(jué)的多模感知,讓高噪音場(chǎng)景下的語(yǔ)音交互跨過(guò)實(shí)用門(mén)檻,目前已經(jīng)在車(chē)載、會(huì)議、地鐵購(gòu)票和醫(yī)療掛號(hào)等場(chǎng)景落地。

wKgaomWMymyAGg6TAAa96QItwQ8667.jpg

在車(chē)載領(lǐng)域,人機(jī)交互系統(tǒng)需要攻克兩大難題:一是環(huán)境噪音及人聲干擾,尤其是麥克風(fēng)陣列技術(shù)難以解決的同向人聲干擾問(wèn)題(如:駕駛員與左后方乘客同時(shí)說(shuō)話);二是傳統(tǒng)語(yǔ)音交互系統(tǒng)每次啟動(dòng)交互都需要說(shuō)喚醒詞,難以做到像人與人交流一樣自然順暢。

此前就有消息顯示,科大訊飛多模態(tài)免喚醒交互解決方案將率先在廣汽傳祺和威馬等自主品牌車(chē)型上部署應(yīng)用。該方案能夠適應(yīng)復(fù)雜光線暗、語(yǔ)音嘈雜等多種工況,并支持主流SOC和DMS攝像頭。

在地鐵購(gòu)票場(chǎng)景中,此前因?yàn)榈罔F站點(diǎn)太多,買(mǎi)票難以找到目的地站點(diǎn),而且這些操作對(duì)于老年人不太友好,而語(yǔ)音購(gòu)票的功能讓這些問(wèn)題迎刃而解。同時(shí),因?yàn)榈罔F站人聲嘈雜,也使得語(yǔ)音交互的體驗(yàn)并不友好。

根據(jù)此前的報(bào)道,深圳地鐵12號(hào)線智能售票機(jī)及智慧客服終端上,率先采用了科大訊飛多模語(yǔ)音增強(qiáng)技術(shù),該技術(shù)通過(guò)識(shí)別人臉唇形等信息,同時(shí)結(jié)合人聲,使得即使在人聲嘈雜的環(huán)境,語(yǔ)音識(shí)別的準(zhǔn)確率也大大提升。

多模態(tài)語(yǔ)音識(shí)別技術(shù)在智能家居場(chǎng)景中也非常實(shí)用。融合語(yǔ)音、手勢(shì)、視覺(jué)感知,用戶(hù)可以過(guò)簡(jiǎn)單的口頭指令控制智能家居設(shè)備,實(shí)現(xiàn)智能燈光、家居安防等功能,通過(guò)攝像頭和深度學(xué)習(xí)技術(shù),智能家居可以識(shí)別用戶(hù)的手勢(shì)動(dòng)作,實(shí)現(xiàn)手勢(shì)控制家居設(shè)備的操作。同時(shí),通過(guò)視覺(jué)感知技術(shù),識(shí)別用戶(hù)的面部表情和情緒狀態(tài),根據(jù)不同情況提供相應(yīng)的互動(dòng)體驗(yàn)。

總結(jié)

經(jīng)過(guò)多年的發(fā)展,語(yǔ)音識(shí)別技術(shù)已經(jīng)相當(dāng)成熟,并且在車(chē)載、智能家居等各種場(chǎng)景中實(shí)現(xiàn)應(yīng)用,并給人們的生活帶來(lái)便利。然而同時(shí),一直以來(lái)語(yǔ)音識(shí)別也存在諸多難點(diǎn),比如環(huán)境噪聲、多人同時(shí)發(fā)出聲音等情況,都會(huì)影響語(yǔ)音識(shí)別的準(zhǔn)確率。而視聽(tīng)融合的多模態(tài)技術(shù),將視覺(jué)和語(yǔ)音結(jié)合,能夠很好的解決這些問(wèn)題,使得語(yǔ)音識(shí)別的準(zhǔn)確率大幅提升。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    2025年聯(lián)接領(lǐng)域十大創(chuàng)新進(jìn)展回顧

    的創(chuàng)新前沿技術(shù)加速落地,形成“短距+廣域”協(xié)同發(fā)展格局,成為萬(wàn)物互聯(lián)的核心基礎(chǔ)。下面讓我們一起回顧2025年聯(lián)接領(lǐng)域十大創(chuàng)新進(jìn)展。
    的頭像 發(fā)表于 01-19 13:08 ?614次閱讀

    以智能交互拓展邊界,樂(lè)鑫芯片模組的場(chǎng)景化應(yīng)用實(shí)踐

    樂(lè)鑫科技ESP系列芯片模組通過(guò)邊緣AI與模態(tài)交互技術(shù),為智能設(shè)備提供創(chuàng)新解決方案。支持"邊緣預(yù)處理+云端智能"的AI語(yǔ)音
    的頭像 發(fā)表于 01-08 15:52 ?1784次閱讀
    以智能<b class='flag-5'>交互</b>拓展邊界,樂(lè)鑫芯片模組的場(chǎng)景化應(yīng)用實(shí)踐

    從協(xié)議到實(shí)踐——EtherNet/IP與NetStaX的最新進(jìn)展

    從協(xié)議到實(shí)踐——EtherNet/IP與NetStaX的最新進(jìn)展
    的頭像 發(fā)表于 12-19 15:26 ?1527次閱讀
    從協(xié)議到實(shí)踐——EtherNet/IP與NetStaX的<b class='flag-5'>最新進(jìn)展</b>

    存算一體架構(gòu)賦能AI眼鏡革新:S300芯片定義模態(tài)智能終端新思路

    隨著生成式AI與邊緣計(jì)算的深度融合,智能眼鏡正從單一功能的穿戴設(shè)備向“全天候AI助手”演進(jìn)。根據(jù)資料顯示,2025年前三季度全球AI眼鏡市場(chǎng)規(guī)模同比增長(zhǎng)119%,其中具備語(yǔ)音交互、視覺(jué)
    的頭像 發(fā)表于 12-09 16:03 ?806次閱讀
    存算一體架構(gòu)賦能AI眼鏡革新:S300芯片定義<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>智能終端新思路

    RTC技術(shù)重塑AI玩具體驗(yàn),實(shí)時(shí)交互的未來(lái)演進(jìn)之路

    電子發(fā)燒友網(wǎng)綜合報(bào)道 在全球AI玩具市場(chǎng)迅猛發(fā)展的浪潮中,實(shí)時(shí)通信(RTC)技術(shù)正從幕后走向臺(tái)前,成為定義下一代產(chǎn)品體驗(yàn)的核心力量。當(dāng)AI玩具從簡(jiǎn)單的語(yǔ)音應(yīng)答升級(jí)為具備情感陪伴、
    的頭像 發(fā)表于 11-21 14:19 ?2247次閱讀

    芯科科技分享在物聯(lián)網(wǎng)領(lǐng)域的最新進(jìn)展

    Labs(芯科科技)亞太區(qū)業(yè)務(wù)副總裁王祿銘、中國(guó)大陸區(qū)總經(jīng)理周巍及臺(tái)灣區(qū)總經(jīng)理寶陸格就公司技術(shù)路線、產(chǎn)品策略及市場(chǎng)趨勢(shì)回答了媒體提問(wèn)。三位高管?chē)@安全認(rèn)證、無(wú)線連接、邊緣計(jì)算等議題,介紹了公司在物聯(lián)網(wǎng)領(lǐng)域的最新進(jìn)展
    的頭像 發(fā)表于 11-13 10:48 ?1694次閱讀

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    “看圖說(shuō)話+語(yǔ)音問(wèn)答”的融合交互。 五、結(jié)論與未來(lái)發(fā)展方向如果說(shuō) “大模型上云” 是 AI 的 “星辰大海”,那么 “
    發(fā)表于 09-05 17:25

    東風(fēng)汽車(chē)轉(zhuǎn)型突破取得新進(jìn)展

    上半年,東風(fēng)汽車(chē)堅(jiān)定高質(zhì)量發(fā)展步伐,整體銷(xiāo)量逐月回升,經(jīng)營(yíng)質(zhì)量持續(xù)改善,自主品牌和新能源滲透率和收益性進(jìn)一步提升,半年累計(jì)終端銷(xiāo)售汽車(chē)111.6萬(wàn)輛,轉(zhuǎn)型突破取得新進(jìn)展。
    的頭像 發(fā)表于 07-10 15:29 ?919次閱讀

    英特爾持續(xù)推進(jìn)核心制程和先進(jìn)封裝技術(shù)創(chuàng)新,分享最新進(jìn)展

    近日,在2025英特爾代工大會(huì)上,英特爾展示了代核心制程和先進(jìn)封裝技術(shù)最新進(jìn)展,這些突破不僅體現(xiàn)了英特爾在技術(shù)開(kāi)發(fā)領(lǐng)域的持續(xù)創(chuàng)新,也面向客戶(hù)需求提供了更高效、更靈活的解決方案。 在
    的頭像 發(fā)表于 05-09 11:42 ?880次閱讀
    英特爾持續(xù)推進(jìn)核心制程和先進(jìn)封裝<b class='flag-5'>技術(shù)</b>創(chuàng)新,分享<b class='flag-5'>最新進(jìn)展</b>

    百度在AI領(lǐng)域的最新進(jìn)展

    近日,我們?cè)谖錆h舉辦了Create2025百度AI開(kāi)發(fā)者大會(huì),與全球各地的5000多名開(kāi)發(fā)者,分享了百度在AI領(lǐng)域的新進(jìn)展
    的頭像 發(fā)表于 04-30 10:14 ?1348次閱讀

    谷歌Gemini API最新進(jìn)展

    體驗(yàn)的 Live API 的最新進(jìn)展,以及正式面向開(kāi)發(fā)者開(kāi)放的高質(zhì)量視頻生成工具 Veo 2。近期,我們面向在 Google AI Studio 中使用 Gemini API 的開(kāi)發(fā)者推出了許多不容錯(cuò)過(guò)的重要更新,一起來(lái)看看吧。
    的頭像 發(fā)表于 04-12 16:10 ?1700次閱讀

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    隨著千行百業(yè)數(shù)智化進(jìn)程的不斷加速,模態(tài)AI大模型的應(yīng)用需求不斷攀升,圖像、語(yǔ)音、視頻等多樣化的交互方式正逐漸成為推動(dòng)行業(yè)變革的新動(dòng)力。 ?
    發(fā)表于 03-21 14:12 ?538次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能<b class='flag-5'>交互</b>新體驗(yàn)

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    隨著千行百業(yè)數(shù)智化進(jìn)程的不斷加速,模態(tài)AI大模型的應(yīng)用需求不斷攀升,圖像、語(yǔ)音、視頻等多樣化的交互方式正逐漸成為推動(dòng)行業(yè)變革的新動(dòng)力。3月
    的頭像 發(fā)表于 03-20 19:03 ?844次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能<b class='flag-5'>交互</b>新體驗(yàn)

    ?模態(tài)交互技術(shù)解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過(guò)多種感官通道(
    的頭像 發(fā)表于 03-17 15:12 ?4431次閱讀

    京東方華燦光電氮化鎵器件的最新進(jìn)展

    日前,京東方華燦的氮化鎵研發(fā)總監(jiān)馬歡應(yīng)半導(dǎo)體在線邀請(qǐng),分享了關(guān)于氮化鎵器件的最新進(jìn)展,引起了行業(yè)的廣泛關(guān)注。隨著全球半導(dǎo)體領(lǐng)域?qū)Ω咝阅?、高效率器件的需求不斷加大,氮化鎵(GaN)技術(shù)逐漸成為新一代電子器件的熱點(diǎn),其優(yōu)越的性能使其
    的頭像 發(fā)表于 03-13 11:44 ?1722次閱讀