chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)懷語言障礙者,谷歌推出突破性工具

Gv1N_smartman16 ? 來源:YXQ ? 2019-07-28 10:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日 Google Brain 團(tuán)隊對外發(fā)布了 Parrotron 項目,幫助人和設(shè)備更準(zhǔn)確地理解具有語音障礙的人。Parrotron 從音頻分析入手,從語音信號的角度來解決問題。它通過單個端到端深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,將來自語音障礙人士的語音,直接轉(zhuǎn)換為流利的合成語音,從而幫助他們解決交流上的問題。

Dimitri Kanevsky,出生于 50 年代的俄羅斯,他的成長階段經(jīng)歷了中蘇冷戰(zhàn),但他仍然完成學(xué)業(yè),并獲得了數(shù)學(xué)博士學(xué)位。

他的求學(xué)、工作足跡從俄羅斯開始,輾轉(zhuǎn)于以色列、德國,最終選擇留在了美國,并成為了谷歌的研究科學(xué)家,專注于語音識別算法領(lǐng)域。

似乎是一個學(xué)霸精英的人生路徑:受到良好的教育,獲得美國綠卡、光鮮的工作、152 項美國科學(xué)技術(shù)專利,最后在硅谷登頂人生巔峰。

故事卻遠(yuǎn)遠(yuǎn)沒這么簡單,Dimitri Kanevsky并不是一個普通人。大多數(shù)人都難以想到,他還是聽障人群中的一員。

Dimitri Kanevsky在一歲時,因?yàn)樗幬飳?dǎo)致了耳聾,但他的家庭依舊為他選擇了正常的教育,他從小就開始學(xué)習(xí)讀唇、發(fā)聲,一直就讀于普通學(xué)校。并在十幾歲的時候,通過俄語發(fā)音的輔助,開始學(xué)習(xí)英語。

但在學(xué)習(xí)英語時,因?yàn)槁犃φ系K、俄語發(fā)音差別等原因,他在語言交流上存在很大的障礙。他說出的語句比較模糊,常常是對方聽不懂的表達(dá)。甚至連對自己的家人的口頭關(guān)懷,都有可能無法遞達(dá)。

簡單來說,他說的英語大多數(shù)人很難直接聽懂,為了解決自己的問題,也幫助更多和自己面臨類似問題的人群,Dimitri Kanevsky一直在攻克語音識別方向的課題。

有時只為完成一些普通的交流

Dimitri Kanevsky需要借助語音轉(zhuǎn)文字的工具

在醫(yī)學(xué)上,這種說話不清楚的情況稱為「構(gòu)音障礙 dysarthria」。據(jù)統(tǒng)計,因?yàn)樯眢w疾病而導(dǎo)致構(gòu)音障礙的情形,在全世界多達(dá)一百萬人。

構(gòu)音障礙是由于神經(jīng)病變,與言語有關(guān)的肌肉麻痹、收縮力減弱或運(yùn)動不協(xié)調(diào)所致的言語障礙,通俗的說法是「口齒不清」。

比如中風(fēng),大腦麻痹,帕金森病,唐氏綜合癥, ALS(漸凍癥)等諸多疾病,都會造成這一狀況。

對方說了嘰里咕嚕的一堆

你聽到的卻是嗚嗚哇哇的一串雜音...

同樣在谷歌,一位叫Aubrie Lee 的品牌市場經(jīng)理,被診斷出罕見的肌肉萎縮癥(漸凍癥),導(dǎo)致她長時間要在輪椅上度過。

全身肌肉的不斷流失,也造成了她在交流上的困難。Aubrie 在聽力和發(fā)音上都異常吃力,還因?yàn)闊o法微笑而常常被人誤解。此外她還擁有多種口音,發(fā)音并不清晰,在對話時對方往往無法明白她的意思。

為了幫助 Dimitri Kanevsky 和 Aubrie Lee 這樣的同伴,解決他們在語言上的難題,構(gòu)音困難逐漸成了谷歌 AI 研究團(tuán)隊的一個科研方向。

關(guān)懷語言障礙者,谷歌推出突破性工具

幾年前,Kanevsky 帶著 30 年的語音識別經(jīng)驗(yàn),加入谷歌的 AI 研究組,那時還沒有能讓他和其他人正常溝通的便捷工具。每次開會, Kanevsky 都需要提前預(yù)定 CART 服務(wù),依賴字幕員進(jìn)入到會議中,將語音信息敲到屏幕上進(jìn)行對話。

同樣的,Aubrie 和自己同事們,也都需要花費(fèi)很大的力氣,才能完成常人輕松勝任的工作交流。但這種窘境,正在慢慢地成為歷史。

2019 年 2 月,谷歌推出了一款A(yù)pp——Live Transcribe ,為便攜式的語言轉(zhuǎn)化帶來了曙光。它是一款即時轉(zhuǎn)錄真實(shí)世界語音的應(yīng)用程序,使用手機(jī)自帶的麥克風(fēng),即可將語音轉(zhuǎn)換為實(shí)時顯示的文字。

隨后,在 5 月份的谷歌I/O 大會上,Project Euphoria 被提出,這個計劃為 ALS 導(dǎo)致的語言受損人群,提供一套語音到文字的解決方案。

Project Euphoria 中

谷歌訓(xùn)練AI 模型以適應(yīng)語言障礙

在這個月,谷歌推出了一款新的 AI 工具 Parrotron,能夠直接將模糊的聲音,轉(zhuǎn)化成標(biāo)準(zhǔn)的合成音。這將解決語言障礙的技術(shù)又往前推進(jìn)了一步。

Parrotron 由端到端的深度神經(jīng)網(wǎng)絡(luò)組成,從音頻分析的角度入手,在使用時,測試者對著手機(jī)等設(shè)備說話,就能快速的得到轉(zhuǎn)述后的標(biāo)準(zhǔn)發(fā)音。

在論文《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》中,Parrotrn 表現(xiàn)優(yōu)異,語音識別和轉(zhuǎn)化的正確率都有了新的突破。

Parrotron:將模糊話語,翻譯成清晰的語音

那這項看起來黑科技滿滿的技術(shù),究竟是怎么做到的呢?

Parrotron 是一個端到端的序列到序列模型,使用輸入/輸出語音對的并行語料庫訓(xùn)練,建立了模糊音與正常語句之間的映。

Parrotron的結(jié)構(gòu)流程示意圖

網(wǎng)絡(luò)模型由注意力機(jī)制的編碼器和解碼器組成,最后由聲碼器合成時域波形,提供預(yù)測出的音頻信號。

編碼器將聲學(xué)幀序列轉(zhuǎn)換為隱藏的特征表示,解碼器將解析出表示以預(yù)測出頻譜圖。

操作上分為兩個步驟:首先,為標(biāo)準(zhǔn)流暢的音頻構(gòu)建語音到語音轉(zhuǎn)換模型,然后調(diào)整模型參數(shù)將模糊語音作為輸入,讓模型學(xué)會分辨和識別。

Kanevsky 和另一員工使用Parrotron

為了模擬 ALS 患者的語音特征,他們使用來自 Project Euphonia 的 ALS 語音語料庫,通過合成語言的方式制造模糊的語句,作為訓(xùn)練數(shù)據(jù)。

而對特定的個人,就由本人提供錄制的素材。

在經(jīng)過訓(xùn)練后,轉(zhuǎn)換模型能夠排除語言中的干擾因素,比如重音、韻律和背景噪音等影響;同時忽略掉所有非語言信息的干擾,包括說話者特征,環(huán)境因素,說話方式,僅分析和處理談話的內(nèi)容。

Parrontron 前兩位測試者:毫無懸念

要驗(yàn)證 Parrotron 的實(shí)際效果,自然還要看它在實(shí)踐中的表現(xiàn)。而測試的最佳人選,毫無疑問落到了Dimitri Kanevsky 和Aubrie Lee身上。

在實(shí)驗(yàn)中,Dimitri 錄制了一個 15 小時長的語料庫,讓模型學(xué)習(xí)他講話時的細(xì)微之處。通過學(xué)習(xí),模型在最后的翻譯中,在測試集里的翻譯錯誤率,從開始的 89% 降低到了 32%

換句話說,使用 Parrotron 轉(zhuǎn)錄的語音,對方或者ASR (語音識別)系統(tǒng)能夠輕松的聽懂他了。

Kanevsky 使用Parrotron的詳情

隨后, Aubrie Lee 也進(jìn)行了測試,通過她貢獻(xiàn)的 1.5 小時講話內(nèi)容,模型翻譯出的準(zhǔn)確的語音,也讓她實(shí)現(xiàn)了清楚表達(dá)的愿望。

AI for Social Good:人工智能的使命

人工智能打造的無障礙項目,在最近幾年被頻繁地提出。許多極具關(guān)懷的技術(shù)紛紛出現(xiàn),在努力幫助殘障人士打開新奇的大門。

當(dāng)然,技術(shù)在服務(wù)這些人的同時,也被這些特別的群體所推動。比如Dimitri Kanevsky,因?yàn)樯钪獦?gòu)音障礙帶來的困境,他一直致力于語音辨識和通訊研究的研究工作。而Aubrie Lee則用熱烈而蓬勃的生活態(tài)度,鼓舞和督促著更多對殘障人群的研究投入。

Aubrie 還是跨學(xué)科藝術(shù)家、設(shè)計師

活躍在多個為殘疾人權(quán)益斗爭的平臺上

雖然目前的數(shù)據(jù)顯示,情況還并不樂觀:在全球所有的殘障人士中,只有十分之一的人,獲得了相應(yīng)的技術(shù)工具。但所幸的是,隨著一些喜人的進(jìn)步,很多情況都在發(fā)生改變。

作為科技大廠的谷歌,還在實(shí)施他們「AI for social good」的計劃,而諸如 Parrotron 之類的工具,大概就是朝著美好愿景踏進(jìn)的腳印。

在人工智能技術(shù)風(fēng)靡世界的當(dāng)下,我們看到了 AI 對藝術(shù)的改造和創(chuàng)造力,對社會生活的積極推動,但也看到了有人利用 AI 惡意換臉、拼接、無中生有。

希望 AI 能回歸科學(xué)的初心,幫助更多需要幫助的人,Make the world a better place!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6231

    瀏覽量

    108158
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1782

    瀏覽量

    114249

原文標(biāo)題:谷歌的語音識別利器,最先造福了自己的員工

文章出處:【微信號:smartman163,微信公眾號:網(wǎng)易智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    當(dāng)機(jī)器人遇上“語言障礙”:CCLINKIE轉(zhuǎn)Profinet的“破冰外掛”來啦\\!

    ”才到機(jī)器人控制器,焊接精度從±0.1mm“漂移”到±0.3mm。直到一次技術(shù)改造,讓不同協(xié)議的設(shè)備實(shí)現(xiàn)了“無障礙對話”,這場工業(yè)互聯(lián)的破局戰(zhàn),藏著哪些硬核邏輯? 一、協(xié)議壁壘下的生產(chǎn)痛點(diǎn) 某合資車企
    發(fā)表于 06-04 14:31

    ITEN與A*STAR IME宣布突破性固態(tài)電池的先進(jìn)封裝整合

    微型固態(tài)電池領(lǐng)域的全球領(lǐng)導(dǎo)ITEN與先進(jìn)封裝研究領(lǐng)域的領(lǐng)導(dǎo)新加坡科技研究局微電子研究所(A*STAR IME)宣布了一項突破性成果:利用A*STAR IME的尖端先進(jìn)封裝平臺成功實(shí)現(xiàn)ITEN微型
    的頭像 發(fā)表于 05-22 13:08 ?171次閱讀

    Profinet轉(zhuǎn)CanOpen協(xié)議轉(zhuǎn)換網(wǎng)關(guān),破解工業(yè)設(shè)備“語言障礙

    在鋁業(yè)這個金屬與數(shù)據(jù)共舞的領(lǐng)域,小疆智控Profinet轉(zhuǎn)CanOpen協(xié)議轉(zhuǎn)換網(wǎng)關(guān)正悄然改變著工業(yè)通信的底層邏輯。它不僅破解了設(shè)備互聯(lián)的"語言障礙",更通過數(shù)據(jù)橋梁的架設(shè),讓
    的頭像 發(fā)表于 05-11 10:52 ?170次閱讀
    Profinet轉(zhuǎn)CanOpen協(xié)議轉(zhuǎn)換網(wǎng)關(guān),破解工業(yè)設(shè)備“<b class='flag-5'>語言障礙</b>”

    德施曼重磅發(fā)布五大突破性技術(shù)及多款重磅新品,開啟AI智能管家時代

    志凌重磅發(fā)布了五大突破性技術(shù),并帶來多款重磅新品;來自全國各地的智能鎖生態(tài)合作伙伴,行業(yè)知名機(jī)構(gòu)、權(quán)威媒體現(xiàn)場見證了AI如何讓智能家居更有靈性,德施曼如何以科技,
    的頭像 發(fā)表于 04-23 20:59 ?442次閱讀
    德施曼重磅發(fā)布五大<b class='flag-5'>突破性</b>技術(shù)及多款重磅新品,開啟AI智能管家時代

    華為公布AI基礎(chǔ)設(shè)施架構(gòu)突破性新進(jìn)展

    近日,華為公司常務(wù)董事、華為云計算CEO張平安在華為云生態(tài)大會2025上公布了AI基礎(chǔ)設(shè)施架構(gòu)突破性新進(jìn)展——推出基于新型高速總線架構(gòu)的CloudMatrix 384超節(jié)點(diǎn)集群,并宣布已在蕪湖數(shù)據(jù)中心規(guī)模上線。
    的頭像 發(fā)表于 04-12 15:09 ?1024次閱讀

    NVIDIA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強(qiáng)功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強(qiáng)功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預(yù)覽版中增加神經(jīng)網(wǎng)絡(luò)著色技術(shù),讓開發(fā)
    的頭像 發(fā)表于 04-07 11:33 ?447次閱讀

    語言康復(fù)行業(yè)首家!陽光語言正式接入DeepSeek

    “新”與“老”的結(jié)合,將融合和迸發(fā)更多可能,為更多語言障礙提供更加科學(xué)、智能、精準(zhǔn)的服務(wù)。 智能問答 一觸即達(dá) 在陪伴孩子成長的過程中,家長會面臨方方面面的問題,發(fā)音不準(zhǔn)、口吃、語言
    的頭像 發(fā)表于 03-06 14:14 ?343次閱讀
    <b class='flag-5'>語言</b>康復(fù)行業(yè)首家!陽光<b class='flag-5'>語言</b>正式接入DeepSeek

    飛騰軌交國產(chǎn)主板GM-FT2000,為交通運(yùn)輸帶來突破性的發(fā)展

    在科技飛速發(fā)展的今天,交通運(yùn)輸領(lǐng)域也在不斷尋求創(chuàng)新與突破,以滿足人們?nèi)找嬖鲩L的出行需求和高效物流的要求。而高能計算機(jī)推出的飛騰軌交國產(chǎn)主板GM - FT2000,宛如一顆璀璨的新星,為交通運(yùn)輸行業(yè)帶來了突破性的發(fā)展。
    的頭像 發(fā)表于 02-12 17:33 ?473次閱讀

    Auracast廣播音頻創(chuàng)新實(shí)時語言翻譯解決方案

    世界正朝著互聯(lián)化方向發(fā)展,但語言障礙仍然為全球溝通和文化交流帶來挑戰(zhàn)。作為藍(lán)牙技術(shù)聯(lián)盟的長期推廣公司,東芝(Toshiba)研發(fā)出將AI同聲傳譯與Auracast廣播音頻技術(shù)相結(jié)合的創(chuàng)新解決方案,為打破公共場所和教育環(huán)境中的語言障礙帶來了更多可能。
    的頭像 發(fā)表于 01-13 14:39 ?857次閱讀

    中科創(chuàng)達(dá)旗下MM Solutions推出突破性視頻降噪算法

    在CES 2025上,中科創(chuàng)達(dá)旗下全球領(lǐng)先的移動和工業(yè)圖形圖像視覺技術(shù)公司MM Solutions重磅推出一款具有突破性的視頻降噪算法——MMS AI Video Denoiser。這款由先進(jìn)AI
    的頭像 發(fā)表于 01-13 11:41 ?1056次閱讀

    谷歌宣布量子計算芯片取得”突破性進(jìn)展”

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年12月11日 11:43:12

    全新NVIDIA NIM微服務(wù)實(shí)現(xiàn)突破性進(jìn)展

    全新 NVIDIA NIM 微服務(wù)實(shí)現(xiàn)突破性進(jìn)展,可助力氣象技術(shù)公司開發(fā)和部署 AI 模型,實(shí)現(xiàn)對降雪、結(jié)冰和冰雹的預(yù)測。
    的頭像 發(fā)表于 11-21 10:07 ?675次閱讀

    泰克推出突破性功率測量工具,從容應(yīng)對全球電氣化加速創(chuàng)新步伐

    新產(chǎn)品系列包括業(yè)界領(lǐng)先的射頻隔離電流探頭和三通道雙向電源 泰克公司今日宣布推出一系列突破性功率測量儀器,旨在助力對功率容量和效率有更高要求的行業(yè),促進(jìn)行業(yè)創(chuàng)新。全新?TICP?系列?IsoVu
    發(fā)表于 11-13 09:12 ?340次閱讀
    泰克<b class='flag-5'>推出</b><b class='flag-5'>突破性</b>功率測量<b class='flag-5'>工具</b>,從容應(yīng)對全球電氣化加速創(chuàng)新步伐

    為空間受限的應(yīng)用提供突破性的動力

    電子發(fā)燒友網(wǎng)站提供《為空間受限的應(yīng)用提供突破性的動力.pdf》資料免費(fèi)下載
    發(fā)表于 08-26 14:28 ?0次下載
    為空間受限的應(yīng)用提供<b class='flag-5'>突破性</b>的動力

    蘋果獲得一項突破性智能戒指技術(shù)的專利

    8月23日傳來新動態(tài),美國商標(biāo)與專利局最新披露的清單中,蘋果公司赫然獲得了一項突破性智能戒指技術(shù)的專利。這款創(chuàng)新之作,深度融合了尖端傳感器技術(shù),旨在為用戶提供前所未有的健康監(jiān)測體驗(yàn)。
    的頭像 發(fā)表于 08-23 15:59 ?733次閱讀