黄页网站毛片带,亚洲偷片在线观看

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）所謂“模態(tài)”，英文是modality，用通俗的話說(shuō)，就是“感官”，多模態(tài)即將多種感官融合。多模態(tài)交互技術(shù)是近年來(lái)人工智能領(lǐng)域的一項(xiàng)重要?jiǎng)?chuàng)新。隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展，采用多種模態(tài)（聲學(xué)、語(yǔ)言模型、視覺(jué)特征等）進(jìn)行聯(lián)合建模，基于深度學(xué)習(xí)的多模態(tài)語(yǔ)音識(shí)別取得了新進(jìn)展。

多模態(tài)交互的原理及優(yōu)勢(shì)

多模態(tài)交互技術(shù)融合了多種輸入方式，包括語(yǔ)音、手勢(shì)、觸摸和眼動(dòng)等，使用戶(hù)可以根據(jù)自己的喜好和習(xí)慣選擇最方便的交互方式。多模態(tài)交互通過(guò)將不同輸入方式的數(shù)據(jù)進(jìn)行融合和處理，實(shí)現(xiàn)更準(zhǔn)確、智能的交互響應(yīng)，提高用戶(hù)體驗(yàn)。

上周在星宸科技2023開(kāi)發(fā)者大會(huì)暨產(chǎn)品發(fā)布會(huì)論壇上，科大訊飛企業(yè)數(shù)字化副總裁盧堯談到，人工智能有三個(gè)層次，1、運(yùn)算智能：能存會(huì)算；2、感知智能：能聽(tīng)會(huì)說(shuō)，能看會(huì)認(rèn)；3、認(rèn)知智能：能理解會(huì)思考。而感知智能典型的進(jìn)展是多模態(tài)交互。

從盧堯的介紹來(lái)看，融合了視覺(jué)和語(yǔ)音的多模態(tài)免喚醒系統(tǒng)具有明顯優(yōu)勢(shì)。如下圖：這套多模態(tài)免喚醒交互系統(tǒng)，同時(shí)采用視覺(jué)檢測(cè)和語(yǔ)音識(shí)別交互，誤喚醒率僅為0.01%，交互響應(yīng)成功率相較于僅基于語(yǔ)音識(shí)別交互系統(tǒng)大幅提升。

早在今年5月，科大訊飛AI研究院副院長(zhǎng)高建清博士就在某論壇上介紹過(guò)公司在多模態(tài)語(yǔ)音交互技術(shù)方面的最新進(jìn)展。據(jù)高建清介紹，科大訊飛依托語(yǔ)音與視覺(jué)方面的多年積累，打造了一套語(yǔ)音、視覺(jué)多模態(tài)融合的免喚醒多模態(tài)交互系統(tǒng)。

通過(guò)將麥克風(fēng)提供的空間信息和音視頻提供的說(shuō)話人相關(guān)信息進(jìn)行融合綁定，實(shí)現(xiàn)高準(zhǔn)確度的說(shuō)話人分離；通過(guò)多模態(tài)VAD與端到端意圖技術(shù)的結(jié)合，實(shí)現(xiàn)無(wú)喚醒詞的自然人機(jī)交互，具有可靠、自然、魯棒的特點(diǎn)。

具體來(lái)看，基于多模態(tài)多通道的語(yǔ)音分離系統(tǒng)，將語(yǔ)音信號(hào)、麥克風(fēng)陣列提供的空間信息以及主說(shuō)話人的唇形輸入分離模型，系統(tǒng)最終輸出視頻說(shuō)話人的語(yǔ)音，抑制背景噪聲及干擾說(shuō)話人語(yǔ)音。在多人同時(shí)講話、車(chē)載音樂(lè)情況下，語(yǔ)音識(shí)別效果相比單模分離系統(tǒng)有50%以上性能提升。不僅解決了傳統(tǒng)麥克風(fēng)陣列方法無(wú)法有效區(qū)分同向干擾的問(wèn)題，還可提升非同向干擾分離場(chǎng)景的性能。

多模態(tài)交互技術(shù)的應(yīng)用

語(yǔ)音識(shí)別是人工智能技術(shù)的一個(gè)重要分支，近些年來(lái)，智能語(yǔ)音也在多項(xiàng)技術(shù)難點(diǎn)上取得突破。業(yè)界普遍認(rèn)為，在語(yǔ)音識(shí)別方面，視聽(tīng)融合的多模態(tài)交互技術(shù)成為技術(shù)演進(jìn)的主要方向。

科大訊飛是國(guó)內(nèi)主要的智能語(yǔ)音技術(shù)玩家，其多模語(yǔ)音增強(qiáng)技術(shù)融合語(yǔ)音與視覺(jué)的多模感知，讓高噪音場(chǎng)景下的語(yǔ)音交互跨過(guò)實(shí)用門(mén)檻，目前已經(jīng)在車(chē)載、會(huì)議、地鐵購(gòu)票和醫(yī)療掛號(hào)等場(chǎng)景落地。

在車(chē)載領(lǐng)域，人機(jī)交互系統(tǒng)需要攻克兩大難題：一是環(huán)境噪音及人聲干擾，尤其是麥克風(fēng)陣列技術(shù)難以解決的同向人聲干擾問(wèn)題（如：駕駛員與左后方乘客同時(shí)說(shuō)話）；二是傳統(tǒng)語(yǔ)音交互系統(tǒng)每次啟動(dòng)交互都需要說(shuō)喚醒詞，難以做到像人與人交流一樣自然順暢。

此前就有消息顯示，科大訊飛多模態(tài)免喚醒交互解決方案將率先在廣汽傳祺和威馬等自主品牌車(chē)型上部署應(yīng)用。該方案能夠適應(yīng)復(fù)雜光線暗、語(yǔ)音嘈雜等多種工況，并支持主流SOC和DMS攝像頭。

在地鐵購(gòu)票場(chǎng)景中，此前因?yàn)榈罔F站點(diǎn)太多，買(mǎi)票難以找到目的地站點(diǎn)，而且這些操作對(duì)于老年人不太友好，而語(yǔ)音購(gòu)票的功能讓這些問(wèn)題迎刃而解。同時(shí)，因?yàn)榈罔F站人聲嘈雜，也使得語(yǔ)音交互的體驗(yàn)并不友好。

根據(jù)此前的報(bào)道，深圳地鐵12號(hào)線智能售票機(jī)及智慧客服終端上，率先采用了科大訊飛多模語(yǔ)音增強(qiáng)技術(shù)，該技術(shù)通過(guò)識(shí)別人臉唇形等信息，同時(shí)結(jié)合人聲，使得即使在人聲嘈雜的環(huán)境，語(yǔ)音識(shí)別的準(zhǔn)確率也大大提升。

多模態(tài)語(yǔ)音識(shí)別技術(shù)在智能家居場(chǎng)景中也非常實(shí)用。融合語(yǔ)音、手勢(shì)、視覺(jué)感知，用戶(hù)可以過(guò)簡(jiǎn)單的口頭指令控制智能家居設(shè)備，實(shí)現(xiàn)智能燈光、家居安防等功能，通過(guò)攝像頭和深度學(xué)習(xí)技術(shù)，智能家居可以識(shí)別用戶(hù)的手勢(shì)動(dòng)作，實(shí)現(xiàn)手勢(shì)控制家居設(shè)備的操作。同時(shí)，通過(guò)視覺(jué)感知技術(shù)，識(shí)別用戶(hù)的面部表情和情緒狀態(tài)，根據(jù)不同情況提供相應(yīng)的互動(dòng)體驗(yàn)。

總結(jié)

經(jīng)過(guò)多年的發(fā)展，語(yǔ)音識(shí)別技術(shù)已經(jīng)相當(dāng)成熟，并且在車(chē)載、智能家居等各種場(chǎng)景中實(shí)現(xiàn)應(yīng)用，并給人們的生活帶來(lái)便利。然而同時(shí)，一直以來(lái)語(yǔ)音識(shí)別也存在諸多難點(diǎn)，比如環(huán)境噪聲、多人同時(shí)發(fā)出聲音等情況，都會(huì)影響語(yǔ)音識(shí)別的準(zhǔn)確率。而視聽(tīng)融合的多模態(tài)技術(shù)，將視覺(jué)和語(yǔ)音結(jié)合，能夠很好的解決這些問(wèn)題，使得語(yǔ)音識(shí)別的準(zhǔn)確率大幅提升。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴