【理論到操作實(shí)現(xiàn)】讓AI玩具機(jī)器人等智能硬件在嘈雜環(huán)境中只聽我說(shuō)話
前言
本文分享的小聆AI相關(guān)的理論和聲紋技術(shù),主要是用來(lái)提升 AI 智能玩具、機(jī)器人等智能硬件在實(shí)際場(chǎng)景的語(yǔ)音交互體驗(yàn)。在用戶使用中通常會(huì)遇到這些問(wèn)題:1、身邊人交談干擾;2、用戶發(fā)音模糊;3、玩具碰撞聲、哭鬧聲等突發(fā)高頻噪聲易被聲學(xué) VAD 誤判為語(yǔ)音;4、呼吸聲、風(fēng)聲等高頻干擾導(dǎo)致語(yǔ)音失真。針對(duì)這些影響人機(jī)交互的常見問(wèn)題,小聆AI做了對(duì)應(yīng)處理,并在小程序端增加了單獨(dú)人聲慮噪的配置功能,大家按照文章中的步驟操作即可自主實(shí)現(xiàn)智能硬件對(duì)應(yīng)功能。下方視頻為實(shí)際人機(jī)交互場(chǎng)景中的率噪效果。
https://docs2.listenai.com/z/233.mp4
單獨(dú)人聲慮噪的實(shí)現(xiàn)理論
為保證AI玩具機(jī)器人等智能硬件在嘈雜環(huán)境中只聽“我”說(shuō)話的效果,從以下幾點(diǎn)進(jìn)行了優(yōu)化:
1、 語(yǔ)音VAD優(yōu)化:消除非人聲噪聲,不響應(yīng)常見家居噪聲(如風(fēng)扇、電視等)
2、 聲紋過(guò)濾:對(duì)人聲進(jìn)行聲紋對(duì)比,只保留指定聲紋的音頻
3、 語(yǔ)義VAD噪聲過(guò)濾:分析上下文語(yǔ)義,用戶附和時(shí)不打斷播報(bào),用戶猶豫、停頓延長(zhǎng)拾音時(shí)間
實(shí)現(xiàn)步驟
1、 準(zhǔn)備一個(gè)語(yǔ)音交互硬件,可以是CSK6大模型開發(fā)板、聆思Arcs mini大模型MCP開發(fā)板、也可以是ESP32語(yǔ)音模組
2、 打開“小聆AI”小程序,點(diǎn)擊添加設(shè)備,選擇對(duì)應(yīng)硬件按提示操作即可完成綁定進(jìn)行配置 (ESP32的開發(fā)板可以選擇【開源套件】)
3、 綁定成功后,進(jìn)入【語(yǔ)音識(shí)別配置】→【識(shí)別模式】→ 【僅識(shí)別已注冊(cè)聲紋的用戶】
識(shí)別默認(rèn)默認(rèn)為【所有人】
識(shí)別已注冊(cè)聲紋的用戶:在連續(xù)交互模式下,僅識(shí)別已注冊(cè)聲紋的用戶語(yǔ)音,如果只想讓AI語(yǔ)音只回復(fù)指定人可以選擇這項(xiàng)
識(shí)別喚醒設(shè)備的用戶:在連續(xù)交互模式下,僅支持喚醒設(shè)備的用戶繼續(xù)交互,其余人的語(yǔ)音將不會(huì)被識(shí)別 (可以理解為AI語(yǔ)音只回復(fù)用名字叫醒它的那個(gè)人)
4、 點(diǎn)擊【確認(rèn)】后,進(jìn)入聲紋注冊(cè)頁(yè)面,點(diǎn)擊【開始錄音】,按文本讀完后點(diǎn)擊創(chuàng)建即可。
5、 聲紋創(chuàng)建成功后會(huì)進(jìn)入聲紋對(duì)應(yīng)的【編輯畫像】界面,這個(gè)頁(yè)面可以手動(dòng)填入聲紋主人的興趣愛好、需要AI長(zhǎng)期記憶的內(nèi)容。
畫像編輯完成后返回【識(shí)別模式】界面,選擇【僅識(shí)別已注冊(cè)聲紋的用戶】即可實(shí)現(xiàn)視頻中的效果。
小聆AI語(yǔ)音交互的更多資料和玩法實(shí)現(xiàn)參考
小聆AI詳細(xì)配置參考:https://docs2.listenai.com/x/S_TEd8h7C
零代碼克隆原神可莉?qū)崿F(xiàn)桌面陪伴參考: https://docs2.listenai.com/x/x7CVdoQI3
更多個(gè)性配置方法可以參考官方開發(fā)文檔:https://docs2.listenai.com/x/S_TEd8h7C
CSK6大模型開發(fā)板的硬件資料:https://docs2.listenai.com/x/nTn9kMMCU
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
91文章
39126瀏覽量
299780 -
聲紋
+關(guān)注
關(guān)注
0文章
26瀏覽量
4531 -
大模型
+關(guān)注
關(guān)注
2文章
3586瀏覽量
5080
發(fā)布評(píng)論請(qǐng)先 登錄
探索RISC-V在機(jī)器人領(lǐng)域的潛力
高精度機(jī)器人控制的核心——基于 MYD-LT536 開發(fā)板的精密運(yùn)動(dòng)控制方案
RK3576機(jī)器人核心:三屏異顯+八路攝像頭,重塑機(jī)器人交互與感知
小蘿卜機(jī)器人的故事
再掀語(yǔ)音交互革命,廣和通AI解決方案加速機(jī)器人聽覺進(jìn)化
機(jī)器人競(jìng)技幕后:磁傳感器芯片激活 “精準(zhǔn)感知力”
工業(yè)機(jī)器人的特點(diǎn)
讓具身智能硬件真正“活”起來(lái) 商湯科技讓機(jī)器人會(huì)說(shuō)話,需要幾步?
詳細(xì)介紹機(jī)場(chǎng)智能指路機(jī)器人的工作原理
【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用
【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】+內(nèi)容初識(shí)
大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開源六軸機(jī)械臂產(chǎn)品
啟明智顯AI服務(wù)機(jī)器人解決方案:智能硬件方案的佼佼者
理論到操作實(shí)現(xiàn) 讓AI玩具機(jī)器人等智能硬件在嘈雜環(huán)境中只聽我說(shuō)話
評(píng)論