跟大家分享一篇非常有意思也很有用的文章,是WACV 2021的錄用論文Visual Speech Enhancement Without A Real Visual Stream。該文研究涉及計算機視覺與語音處理的交叉。
論文信息:
作者來自:印度 IIIT Hyderabad 和英國巴斯大學。
語音增強是語音處理的經(jīng)典研究內(nèi)容,以往的語音增強往往只將語音作為輸入信號,這在現(xiàn)實世界的嘈雜環(huán)境中往往效果不佳。
近年來一種視覺輔助的語音增強技術(shù)取得了突破,通過跟蹤視頻中人物口型,可以較好的輔助過濾環(huán)境噪聲。但其需要人物正臉在視頻中,使用場景較為狹窄,畢竟大多數(shù)場景下,沒有人物正臉,甚至沒有視覺信息輔助。
該文學者指出,實際上根據(jù)語音進行唇語合成已經(jīng)是一個較為成熟的技術(shù),在現(xiàn)有框架下,可以直接使用語音信號本身合成人物口型的視頻,進而輔助語音增強。
以下視頻展示了最終語音增強的效果:
該文在多個數(shù)據(jù)集上取得了SOTA的結(jié)果,并且該技術(shù)可以用于任何語言的語音增強,但由于其中含有視覺生成部分,估計相比傳統(tǒng)算法時間開銷較大。作者已經(jīng)開源了代碼,感興趣的朋友可以試一下。
原文標題:無中生有!沒有視覺信號的視覺語音增強
文章出處:【微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責任編輯:haq
-
計算機
+關(guān)注
關(guān)注
19文章
7663瀏覽量
90821 -
機器視覺
+關(guān)注
關(guān)注
163文章
4597瀏覽量
122914
原文標題:無中生有!沒有視覺信號的視覺語音增強
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
Arm KleidiCV與OpenCV集成助力移動端計算機視覺性能優(yōu)化
量子計算機與普通計算機工作原理的區(qū)別

【小白入門必看】一文讀懂深度學習計算機視覺技術(shù)及學習路線

計算機接口位于什么之間
ARMxy嵌入式計算機在機器視覺中的卓越表現(xiàn)

計算機存儲系統(tǒng)的構(gòu)成
計算機的內(nèi)存容量有什么作用
晶體管計算機和電子管計算機有什么區(qū)別
微處理器如何控制計算機系統(tǒng)
計算機視覺有哪些優(yōu)缺點
圖像處理器與計算機視覺有什么關(guān)系和區(qū)別
計算機視覺中的圖像融合

評論