chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Google研究人員發(fā)現(xiàn)黑科技 只聽你想聽的聲音

454398 ? 來源:網(wǎng)絡整理 ? 作者: 工程師1 ? 2018-04-18 00:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Google 的研究人員創(chuàng)建了一個視聽模型,可以通過算法將視頻中的多個聲音分離,得到一個清晰的單個語音。

一位二次元朋友說他有一種能力,就是在 B 站開彈幕看視頻時,想看視頻就看視頻,想看彈幕就看彈幕,兩者可以自動分離,不會互相干擾。類似的,人類在聽覺上也有一種選擇能力,就是人在集中注意力聽某個聲音時,可以自動忽略其他聲音或噪音,感覺像是把要聽的聲音放大了一樣,這種現(xiàn)象叫做雞尾酒會效應。

這種能力對我們來說好像很自然,但對于計算機可是個不小的挑戰(zhàn)。最近,Google 的研究人員創(chuàng)建了一個視聽模型,可以通過算法將視頻中的多個聲音分離,得到一個清晰的單個語音。簡單來說,你可以選擇只聽視頻中某個人講話的聲音,而不用擔心被干擾。

結合視覺聽覺信號,識別并分離音軌

利用這種技術制作的視頻可以將特定人物的聲音增強,把其他無關的聲音去掉。在普通的單音軌視頻中,用戶可以點擊自己想關注的人物,或者算法會結合上下段內(nèi)容來自動選擇突出誰的聲音。這項技術可以用于增強視頻中的語音,提高視聽效果。

這項技術的原理是結合視頻中的聽覺和視覺信號,以此來識別并分離語音。就像識別唇語的原理一樣,一個人說話時發(fā)出的聲音和他嘴部的運動存在某種關聯(lián),所以可以利用這一點,來辨別某段聲音是誰發(fā)出的。在視覺信號的幫助下,即使是在多種聲音混雜的環(huán)境中,單個聲音的特征也變得更明顯,更重要的是,你還可以在聽到清晰聲音的同時看到人嘴部的運動,更容易接收并理解信息。

研究人員用 10 萬個高質(zhì)量的 YouTube 視頻為樣本,從視頻中提取清晰的演講片段,沒有背景音樂、沒有觀眾鼓掌、沒有噪音,并且視頻中只有一個說話的人。他們共提取出 2000 個小時的訓練數(shù)據(jù),用這些干凈的視頻來合成“雞尾酒會”的效果。這樣就可以訓練一個卷積神經(jīng)網(wǎng)絡模型,將合成的視頻分離出多個單獨的音軌,也就是每個人單獨的聲音。將每一幀中嘴部運動的視覺信息提取出來,然后找到聲譜圖中對應的部分。這樣就可以訓練神經(jīng)網(wǎng)絡,從聲音混雜的視頻中,根據(jù)人的嘴部運動來提取對應的聲音碎片,最后輸出成具有單獨聲音軌道的視頻,每一個人的聲音都可以進行單獨播放。

可以提高語音識別能力

這個黑科技在語音識別中尤其有用,比如 YouTube 自己的自動字幕,如果視頻中有多種聲音混合,字幕就很難準確顯示,而如果這幾種聲音能夠單獨分離播放,對應的字幕也就更準確,用戶也更容易理解。再往遠處想,這項技術可以運用到 Google Glass 這樣的智能眼鏡中,即使是在紛雜世界,你也可以只關注想關注的人,只聽 Ta 的聲音。除此之外,帶視頻能力的智能音箱可能是未來的大趨勢,有了語音分離能力,語音識別的能力也會更精準、更強大。

這種強大的能力也可能帶來隱私問題,比如間諜電影中經(jīng)常見到的天眼系統(tǒng),如果再搭配語音分離的能力,豈不是可以做到視聽上的全能?不過想達到那樣的效果,識別能力就要很精準了。在此之前它的應用可能只是 Google 自己的產(chǎn)品,比如增強視頻智能音箱的語音識別能力,還有讓 YouTube 的自動字幕更智能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1814

    瀏覽量

    60633
  • 谷歌
    +關注

    關注

    27

    文章

    6259

    瀏覽量

    111980
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Cadence與Google合作,利用ChipStack AI Super Agent在Google Cloud上擴展AI驅(qū)動的芯片設計

    Cadence ChipStack AI Super Agent 集成 Google Gemini 模型,加速新一代代理驅(qū)動型設計自動化 中國上海,2026 年 4 月 24 日 —— 半導體與系統(tǒng)
    的頭像 發(fā)表于 04-24 10:36 ?523次閱讀

    解讀大型語言模型的偏見

    在一項新的研究中,研究人員發(fā)現(xiàn)了LLM中某種偏見的根本原因,為更準確、更可靠的AI系統(tǒng)鋪平了道路。研究表明,大型語言模型(LLM)往往傾向于過分強調(diào)文檔或?qū)υ掗_頭和結尾的信息,而相對忽
    的頭像 發(fā)表于 04-15 14:44 ?694次閱讀
    解讀大型語言模型的偏見

    英矽智能發(fā)布 PandaClaw:以智能體AI賦能生物學家開展治療性發(fā)現(xiàn)

    平臺PandaOmics中的變革性新功能。PandaClaw將AI智能體與生物學及生物信息學工作流程相結合,使研究人員能夠借助直觀、智能的自然語言界面,實現(xiàn)自動化實時分析,從而高效便捷的完成靶點發(fā)現(xiàn)、適應癥探索、疾病假說等復雜的生物學任務,從而加速轉(zhuǎn)化醫(yī)學
    的頭像 發(fā)表于 03-23 11:51 ?142次閱讀
    英矽智能發(fā)布 PandaClaw:以智能體AI賦能生物學家開展治療性<b class='flag-5'>發(fā)現(xiàn)</b>

    BlueMatrix與Perplexity達成合作,為機構研究帶來AI驅(qū)動的發(fā)現(xiàn)能力

    機構投資者提供AI賦能的研究發(fā)現(xiàn)服務。 此次合作將授權經(jīng)紀商研究成果帶給Perplexity Enterprise用戶,讓買方專業(yè)人士既能查詢其訂閱的研究內(nèi)容,又能利用Perplex
    的頭像 發(fā)表于 01-14 16:23 ?613次閱讀

    功率放大器使用人,速來報到!我們想聽您的心聲!

    ,獲得了國內(nèi)外一眾工程師、科研人員的青睞。在新的一年,為了讓身處各研究領域的您用上更好的功放產(chǎn)品,親愛的Aigtek功率放大器使用人,您的聲音,對我們至關重要!親愛的客
    的頭像 發(fā)表于 12-18 18:31 ?372次閱讀
    功率放大器使用人,速來報到!我們<b class='flag-5'>想聽</b>您的心聲!

    發(fā)現(xiàn)帶來光量子計算的進步

    多光子干涉網(wǎng)絡 由維也納大學的菲利普-瓦爾特(Philip Walther)領導的國際研究人員合作,在量子技術領域取得了重大突破,利用一種新型資源節(jié)約型平臺成功演示了多個單光子之間的量子干涉。這項
    的頭像 發(fā)表于 12-01 07:38 ?349次閱讀
    新<b class='flag-5'>發(fā)現(xiàn)</b>帶來光量子計算的進步

    研究人員復興針孔相機技術以推動下一代紅外成像發(fā)展

    研究人員運用具有數(shù)百年歷史的針孔成像原理,開發(fā)出一種無需透鏡的高性能中紅外成像系統(tǒng)。這種新型相機能夠在大范圍距離內(nèi)和弱光條件下拍攝極其清晰的照片,使其在傳統(tǒng)相機難以應對的場景中發(fā)揮重要作用。 研究
    的頭像 發(fā)表于 11-17 07:40 ?358次閱讀

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保護科學

    確認未來動物因環(huán)境變化而發(fā)生的變化。例如,通過檢測不同棲息地中發(fā)聲物種的發(fā)聲情況,研究人員可以調(diào)查種群數(shù)量,并繪制其豐度、棲息地利用和生物多樣性的趨勢。這些數(shù)據(jù)集對于建立基線至關重要,這樣才能量化并
    發(fā)表于 10-27 09:18

    如何進行聲音定位?

    文章主要介紹了如何利用一種簡單的TDOA算法進行聲音點位,并使用數(shù)據(jù)采集卡進行聲音定位的實驗。
    的頭像 發(fā)表于 09-23 15:47 ?2134次閱讀
    如何進行<b class='flag-5'>聲音</b>定位?

    谷歌查找我的設備配件(Google Find My Device Accessory)詳解和應用

    谷歌查找我的設備配件(Google Find My Device Accessory)介紹 谷歌查找我的設備配件是與谷歌 “查找我的設備” 應用程序配合使用的配件,旨在幫助用戶更方便地追蹤和定位個人
    發(fā)表于 08-31 21:10

    聲源定位模塊-AR1105# 聲源定位# 聲音定位

    聲音降噪
    深圳市聲訊電子有限公司
    發(fā)布于 :2025年08月01日 16:01:09

    無刷直流電機雙閉環(huán)串級控制系統(tǒng)仿真研究

    以來伴隨著永磁材料技術、計算機及控制技術等支撐技術的快速發(fā)展及微電機制造工藝水平的不斷提高,永磁無刷直流電動機在高性能中、小伺服驅(qū)動領域獲得廣泛應用并日趨占據(jù)主導地位嗎。一直以來,研究人員都比較關注利用
    發(fā)表于 07-07 18:36

    NVIDIA助力研究人員開發(fā)用于搜救任務的無人地面車輛

    NVIDIA 和 Bridge to Türkiye Fund 通過提供學術資助,在土耳其全國推動針對災害響應的創(chuàng)新研究及工程教育的發(fā)展。
    的頭像 發(fā)表于 07-04 15:01 ?1179次閱讀

    Google Fast Pair服務簡介

    Google Fast Pair 是一項利用低功耗藍牙(Bluetooth LE)技術,實現(xiàn)設備間快速安全配對及提供多種服務的協(xié)議。其主要功能包括: 設備處于配對模式時,顯示半頁通知,便于用戶進行
    發(fā)表于 06-29 19:28

    Google推出全新Cloud WAN解決方案

    超過 25 年來,Google 一直在推動網(wǎng)絡技術的邊界,其創(chuàng)新連接了全球數(shù)十億用戶使用 Gmail、YouTube 和 Search 等核心服務。這一切的基礎是 Google 龐大的骨干網(wǎng)絡。憑借
    的頭像 發(fā)表于 05-14 16:48 ?1591次閱讀