【理論到操作實(shí)現(xiàn)】讓AI玩具機(jī)器人等智能硬件在嘈雜環(huán)境中只聽我說話
前言
本文分享的小聆AI相關(guān)的理論和聲紋技術(shù),主要是用來提升 AI 智能玩具、機(jī)器人等智能硬件在實(shí)際場景的語音交互體驗(yàn)。在用戶使用中通常會遇到這些問題:1、身邊人交談干擾;2、用戶發(fā)音模糊;3、玩具碰撞聲、哭鬧聲等突發(fā)高頻噪聲易被聲學(xué) VAD 誤判為語音;4、呼吸聲、風(fēng)聲等高頻干擾導(dǎo)致語音失真。針對這些影響人機(jī)交互的常見問題,小聆AI做了對應(yīng)處理,并在小程序端增加了單獨(dú)人聲慮噪的配置功能,大家按照文章中的步驟操作即可自主實(shí)現(xiàn)智能硬件對應(yīng)功能。下方視頻為實(shí)際人機(jī)交互場景中的率噪效果。
https://docs2.listenai.com/z/233.mp4
單獨(dú)人聲慮噪的實(shí)現(xiàn)理論
為保證AI玩具機(jī)器人等智能硬件在嘈雜環(huán)境中只聽“我”說話的效果,從以下幾點(diǎn)進(jìn)行了優(yōu)化:
1、 語音VAD優(yōu)化:消除非人聲噪聲,不響應(yīng)常見家居噪聲(如風(fēng)扇、電視等)
2、 聲紋過濾:對人聲進(jìn)行聲紋對比,只保留指定聲紋的音頻
3、 語義VAD噪聲過濾:分析上下文語義,用戶附和時不打斷播報,用戶猶豫、停頓延長拾音時間
實(shí)現(xiàn)步驟
1、 準(zhǔn)備一個語音交互硬件,可以是CSK6大模型開發(fā)板、聆思Arcs mini大模型MCP開發(fā)板、也可以是ESP32語音模組
2、 打開“小聆AI”小程序,點(diǎn)擊添加設(shè)備,選擇對應(yīng)硬件按提示操作即可完成綁定進(jìn)行配置 (ESP32的開發(fā)板可以選擇【開源套件】)
3、 綁定成功后,進(jìn)入【語音識別配置】→【識別模式】→ 【僅識別已注冊聲紋的用戶】
識別默認(rèn)默認(rèn)為【所有人】
識別已注冊聲紋的用戶:在連續(xù)交互模式下,僅識別已注冊聲紋的用戶語音,如果只想讓AI語音只回復(fù)指定人可以選擇這項(xiàng)
識別喚醒設(shè)備的用戶:在連續(xù)交互模式下,僅支持喚醒設(shè)備的用戶繼續(xù)交互,其余人的語音將不會被識別 (可以理解為AI語音只回復(fù)用名字叫醒它的那個人)
4、 點(diǎn)擊【確認(rèn)】后,進(jìn)入聲紋注冊頁面,點(diǎn)擊【開始錄音】,按文本讀完后點(diǎn)擊創(chuàng)建即可。
5、 聲紋創(chuàng)建成功后會進(jìn)入聲紋對應(yīng)的【編輯畫像】界面,這個頁面可以手動填入聲紋主人的興趣愛好、需要AI長期記憶的內(nèi)容。
畫像編輯完成后返回【識別模式】界面,選擇【僅識別已注冊聲紋的用戶】即可實(shí)現(xiàn)視頻中的效果。
小聆AI語音交互的更多資料和玩法實(shí)現(xiàn)參考
小聆AI詳細(xì)配置參考:https://docs2.listenai.com/x/S_TEd8h7C
零代碼克隆原神可莉?qū)崿F(xiàn)桌面陪伴參考: https://docs2.listenai.com/x/x7CVdoQI3
更多個性配置方法可以參考官方開發(fā)文檔:https://docs2.listenai.com/x/S_TEd8h7C
CSK6大模型開發(fā)板的硬件資料:https://docs2.listenai.com/x/nTn9kMMCU
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
88文章
37210瀏覽量
291599 -
聲紋
+關(guān)注
關(guān)注
0文章
21瀏覽量
4514 -
大模型
+關(guān)注
關(guān)注
2文章
3365瀏覽量
4801
發(fā)布評論請先 登錄

理論到操作實(shí)現(xiàn) 讓AI玩具機(jī)器人等智能硬件在嘈雜環(huán)境中只聽我說話
評論