chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌的智能助理Google Assistant 開啟了多語言支持

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-09-02 09:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從今天開始,谷歌的智能助理可以同時說兩種語言了!這意味著雙語家庭可以用任何一種語言進(jìn)行查詢,而無需每次都更改設(shè)置。聽起來簡單,實現(xiàn)這一功能所需的技術(shù)可不簡單,谷歌的口語識別LangID技術(shù)已經(jīng)開發(fā)了5年!

使用 Google Assistant 的 Google Home Mini

多語家庭正變得越來越普遍,有一些研究發(fā)現(xiàn)多語人口已經(jīng)超過單語人口,而且這個數(shù)字還將繼續(xù)增長。隨著多語用戶數(shù)量的不斷增加,開發(fā)能夠同時支持多種語言的產(chǎn)品比以往任何時候都更加重要。

今天,谷歌的智能助理Google Assistant開啟了多語言支持,允許用戶同時使用兩種不同的語言進(jìn)行查詢,而無需返回語言設(shè)置。一旦用戶選擇了兩種支持的語言(目前支持的語言包括英語、西班牙語、法語、德語、意大利語和日語),他們就可以使用其中任一種語言與Google Assistant進(jìn)行對話,智能助理也會以同一種語言做出回復(fù)。

在此之前,用戶必須為智能助理選擇一種語言設(shè)置,每次想要使用另一種語言時都必須更改設(shè)置。但現(xiàn)在,對于多語家庭來說,與谷歌助理交流的體驗變得更加簡單方便了。

Google Assistant現(xiàn)在能夠識別語言、解釋查詢并使用正確的語言提供回復(fù),而無需用戶手動設(shè)置設(shè)置。

然而,實現(xiàn)這一功能并非易事。事實上,研究人員努力了多年,解決了許多具有挑戰(zhàn)性的問題。最后,我們將問題分解為三個獨立的部分:識別多種語言,理解多種語言,以及為Google Assistant用戶優(yōu)化多語言識別。

識別多種語言

人類是有能力識別出別人在說另一種語言的,即使他們自己不會說這種語言,只需要注意語音的聲學(xué)特征(語調(diào)、音域等等)。但是,即使借助于全自動語音識別系統(tǒng),定義一個自動口語語言識別的計算框架也是很有挑戰(zhàn)性的。

研究者通常認(rèn)為,口語識別比基于文本的語言識別更具挑戰(zhàn)性,對于文本語言識別來說,相對簡單的基于字典的技術(shù)已經(jīng)可以做得很好??谡Z詞匯的時間/頻率模式很難比較,口語詞匯很難劃界,因為口語可以毫無停頓地以不同的節(jié)奏說話,而且麥克風(fēng)可能會記錄除了語音之外的背景噪音。

在2013年,谷歌開始使用深度神經(jīng)網(wǎng)絡(luò)開發(fā)口語識別(LangID)技術(shù)。今天,谷歌最先進(jìn)的LangID模型已經(jīng)可以使用遞歸神經(jīng)網(wǎng)絡(luò)區(qū)分超過2000種可供選擇的語言對。遞歸神經(jīng)網(wǎng)絡(luò)特別適用于序列建模問題,例如語音識別、語音檢測、說話人識別等。研究人員遇到的挑戰(zhàn)之一是使用更大的音頻集——獲取能夠自動理解多種語言的模型,并達(dá)到允許這些模型正常工作的質(zhì)量標(biāo)準(zhǔn)。

理解多種語言

要同時理解一種以上的語言,需要并行地運行多個進(jìn)程,每個進(jìn)程都會產(chǎn)生增量結(jié)果,這樣智能助理不僅可以識別查詢所使用的語言,還可以解析查詢以創(chuàng)建可操作的命令。

例如,即使是單語環(huán)境,如果用戶要求“設(shè)一個下午6點的鬧鈴”,谷歌助理必須理解“設(shè)置鬧鈴”意味著打開時鐘app,完成“6pm”的顯式參數(shù),并推斷鬧鐘應(yīng)該設(shè)在今天。為任何一對支持的語言實現(xiàn)這個功能都是一項挑戰(zhàn),因為智能助理需要執(zhí)行與單語環(huán)境時相同的工作,但現(xiàn)在還必須另外啟用LangID。這不僅是一個語言識別系統(tǒng),而是相當(dāng)于兩個單語言識別系統(tǒng)。

更重要的是,Google Assistan以及在用戶查詢中異步引用的其他服務(wù)會生成需要在幾毫秒內(nèi)評估的實時增量結(jié)果。這是借助另外一種算法實現(xiàn)的,該算法使用LangID生成的候選語言的概率、我們對轉(zhuǎn)錄的信心以及用戶的偏好(例如,最喜歡的藝術(shù)家)對兩個語音識別系統(tǒng)提供的轉(zhuǎn)錄假設(shè)進(jìn)行排序。

Google Assistant使用的多語言語音識別系統(tǒng)與標(biāo)準(zhǔn)單語語音識別系統(tǒng)的示意圖。排序算法用于從兩個單語語音識別器中選擇最佳的識別假設(shè),利用了用戶的相關(guān)信息和增量的langID結(jié)果。

當(dāng)用戶停止說話時,該模型不僅確定了用戶所講的語言,還確定了所講的內(nèi)容。當(dāng)然,這個過程需要一個復(fù)雜的架構(gòu),增加了處理成本,并可能造成不必要的延遲。

優(yōu)化多語識別模型

為了最大限度地減少這些不良影響,系統(tǒng)決定使用哪種語言的速度越快越好。如果系統(tǒng)在用戶完成查詢之前確定了所使用的語言,那么它將停止通過losing recognizer運行用戶的語音,并丟棄losing hypothesis,從而降低處理成本,減少任何潛在的延遲。

考慮到這一點,我們嘗試了優(yōu)化系統(tǒng)的幾種方法。

我們考慮的一個用例是,人們通常在一個完整查詢過程中使用相同的語言(這個語言通常也是用戶希望智能助理回復(fù)使用的語言),除了詢問某個東西用不同語言怎樣說之外。這意味著,在大多數(shù)情況下,關(guān)注查詢的開頭部分就可以讓智能助理對所使用的語言進(jìn)行初步猜測,甚至在包含不同語言實體的句子中也是如此。

有了這種早期識別,我們就可以像處理單語查詢那樣,通過切換到單語語音識別器來簡化任務(wù)。然而,快速決定如何以及何時切換到一個單語言,在最后會需要一個技術(shù)轉(zhuǎn)折:具體來說,我們使用隨機(jī)森林(random forest)方法,結(jié)合多個上下文信號,例如正在使用的設(shè)備類型、發(fā)現(xiàn)的語音假設(shè)的數(shù)量、多久收到類似的假設(shè)、各個語音識別器的不確定性、以及每種語言的使用頻率等。

另外一種簡化和改進(jìn)系統(tǒng)質(zhì)量的方法是限制用戶可以選擇的候選語言列表。用戶可以谷歌智能助理設(shè)備目前支持的六種語言中選擇兩種語言,這已經(jīng)能夠支持大多數(shù)多語使用者。

不過,隨著LangID技術(shù)的不斷改進(jìn),谷歌希望接下來能夠解決三語支持的問題,這將進(jìn)一步提升多語用戶群的體驗。而且,谷歌負(fù)責(zé)產(chǎn)品的副總裁 Nick Fox 此前表示,接下來的幾個月里 Google Assistant 將增加支持丹麥語、荷蘭語、印地語、印度尼西亞語、挪威語、瑞典語和泰語。到今年年底,谷歌助理將支持超過 30 種語言,覆蓋 Android 手機(jī)使用語言的 95%。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6241

    瀏覽量

    110011
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4820

    瀏覽量

    106346

原文標(biāo)題:谷歌雙語助理來了!中英夾雜也不怕,遞歸神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林顯神威

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    阿里巴巴國際站關(guān)鍵字搜索 API 實戰(zhàn):3 步搞定多語言適配 + 限流破局,詢盤量提升 40%

    跨境電商API開發(fā)常陷合規(guī)、多語言、限流等坑。本文詳解從國際合規(guī)(GDPR/CCPA)到參數(shù)優(yōu)化、數(shù)據(jù)結(jié)構(gòu)化及區(qū)域化搜索的全鏈路方案,附Python代碼模板與緩存重試架構(gòu),助力提升調(diào)用成功率至99%+,精準(zhǔn)詢盤增長42%。
    的頭像 發(fā)表于 10-20 14:44 ?281次閱讀

    速賣通全球運營利器:商品詳情接口多語言 + 合規(guī) + 物流適配技術(shù)全解析

    速賣通全球化適配是跨境成功關(guān)鍵!本文詳解2025最新接口方案,涵蓋多語言智能翻譯、合規(guī)自動校驗、物流精準(zhǔn)推薦與性能優(yōu)化四大模塊,助力商家提升轉(zhuǎn)化率30%+,降低風(fēng)險,提效80%。附實操代碼與新手三步走策略,適合所有想出海的賣家。
    的頭像 發(fā)表于 10-16 09:30 ?86次閱讀
    速賣通全球運營利器:商品詳情接口<b class='flag-5'>多語言</b> + 合規(guī) + 物流適配技術(shù)全解析

    谷歌查找我的設(shè)備配件(Google Find My Device Accessory)詳解和應(yīng)用

    谷歌查找我的設(shè)備配件(Google Find My Device Accessory)介紹 谷歌查找我的設(shè)備配件是與谷歌 “查找我的設(shè)備” 應(yīng)用程序配合使用的配件,旨在幫助用戶更方便地
    發(fā)表于 08-31 21:10

    匠芯創(chuàng)發(fā)布新版GUI開發(fā)工具 新增多國語言設(shè)置等功能

    ,為開發(fā)者提供直觀的參考。 多國語言示例模板 該模板重點演示不同語言之間的切換流程,幫助開發(fā)者快速掌握多語言支持的實現(xiàn)方法。 視頻播
    發(fā)表于 07-16 13:54

    智能收銀語音交互新標(biāo)桿—WT3000T8語音合成芯片TTS技術(shù)應(yīng)用解析

    性的TTS技術(shù)集成,解決傳統(tǒng)收銀系統(tǒng)語音播報存在的多語言支持不足、資源占用過高、語音定制不靈活等行業(yè)痛點。二、芯片核心特性多模態(tài)語音處理架構(gòu)?采用32位240M
    的頭像 發(fā)表于 04-24 08:45 ?520次閱讀
    <b class='flag-5'>智能</b>收銀語音交互新標(biāo)桿—WT3000T8語音合成芯片TTS技術(shù)應(yīng)用解析

    S1C31D50/51/41愛普生MCU系列語音芯片助力智能語音應(yīng)用

    與背景音樂的協(xié)同播放、多語言支持以及靈活的音調(diào)和語速調(diào)整等。此外,該系列芯片的低功耗設(shè)計和高壓縮率存儲算法,使其在保持高性能的同時,顯著降低了功耗和存儲需求,為電池供電設(shè)備和對功耗敏感的應(yīng)用場景提供理想的解決方案。
    的頭像 發(fā)表于 03-15 14:13 ?757次閱讀
    S1C31D50/51/41愛普生MCU系列語音芯片助力<b class='flag-5'>智能</b>語音應(yīng)用

    谷歌“減法”新動作:砍掉耳機(jī)按鍵喚醒朗讀功能

    電子發(fā)燒友網(wǎng)報道(文/莫婷婷)近期,谷歌宣布將對耳機(jī)上的 Google Assistant語音助手功能進(jìn)行調(diào)整,取消通過觸控喚醒助理“自動朗讀未讀通知”的功能。
    的頭像 發(fā)表于 02-22 22:56 ?2764次閱讀
    <b class='flag-5'>谷歌</b>“減法”新動作:砍掉耳機(jī)按鍵喚醒朗讀功能

    Meta與UNESCO合作推動多語言AI發(fā)展

    Meta最近宣布一項與聯(lián)合國教科文組織(UNESCO)合作的全新計劃——語言技術(shù)伙伴計劃。該計劃旨在收集多種語言的語音錄音和文字記錄,以推動未來開放可用的人工智能(AI)技術(shù)的發(fā)展,
    的頭像 發(fā)表于 02-08 11:04 ?828次閱讀

    微軟Copilot Voice升級,積極拓展多語言支持

    近日,據(jù)報道,微軟近期在人工智能領(lǐng)域取得了新的進(jìn)展,正積極拓展其Copilot Voice的多語言支持功能。這一舉措標(biāo)志著微軟在語音識別和自然語言處理技術(shù)上又邁出了重要一步。 此次Copilot
    的頭像 發(fā)表于 02-06 14:10 ?622次閱讀

    Triton編譯器功能介紹 Triton編譯器使用教程

    。以下是 Triton 編譯器的一些功能介紹和使用教程。 Triton 編譯器功能介紹 多語言支持 :Triton 支持多種編程語言,使得開發(fā)者可以在同一個編譯器框架下處理不同的語言。
    的頭像 發(fā)表于 12-24 17:23 ?2349次閱讀

    谷歌正式發(fā)布Gemini 2.0 性能提升近兩倍

    2.0在關(guān)鍵基準(zhǔn)測試中相比前代產(chǎn)品Gemini 1.5 Pro的性能提升了近兩倍。該模型支持圖像、視頻和音頻等多種輸入與輸出形式,例如可以實現(xiàn)文本與圖像的混合生成以及自定義的多語言文本轉(zhuǎn)語音(TTS)內(nèi)容。 此外,Gemini 2.0還
    的頭像 發(fā)表于 12-12 14:22 ?1025次閱讀

    語音IC方案,在交通信號燈語音提示器的應(yīng)用解析,NV040D

    NV040D語音芯片憑卓越音質(zhì)、靈活編程接口成交通管理首選,支持多語言合成、遠(yuǎn)程更新、智能音量調(diào)節(jié),提升交通安全和效率,展現(xiàn)廣泛應(yīng)用前景,助力智能城市發(fā)展。
    的頭像 發(fā)表于 11-01 13:07 ?614次閱讀
    語音IC方案,在交通信號燈語音提示器的應(yīng)用解析,NV040D

    Sora的功能優(yōu)勢及用戶評價

    多語言支持與自然語言處理 Sora支持多種語言,并且具備先進(jìn)的自然語言處理能力,能夠理解用戶的自然語言
    的頭像 發(fā)表于 10-31 14:38 ?1779次閱讀

    N9300-S16語音芯片:提升電梯播報體驗,實現(xiàn)導(dǎo)航聲音播報提示

    N9300語音芯片提升電梯播報體驗,支持多語言播報,音質(zhì)純凈,控制靈活,廣泛應(yīng)用于公共場所語音導(dǎo)航,推動智能化發(fā)展。
    的頭像 發(fā)表于 10-30 13:10 ?753次閱讀
    N9300-S16語音芯片:提升電梯播報體驗,實現(xiàn)導(dǎo)航聲音播報提示

    Llama 3 語言模型應(yīng)用

    理解復(fù)雜的上下文信息,包括對話歷史、用戶偏好和文化差異。這使得它在對話系統(tǒng)和個性化推薦中表現(xiàn)出色。 情感分析 :通過深度學(xué)習(xí)技術(shù),Llama 3 能夠識別和理解文本中的情感傾向,無論是正面的、負(fù)面的還是中性的。 多語言支持 :Llama 3 支持多種
    的頭像 發(fā)表于 10-27 14:15 ?1011次閱讀