chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

百度端對端語音識別專利揭秘

汽車玩家 ? 來源: 愛集微 ? 作者: 愛集微 ? 2020-01-08 11:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

百度公司提出的端對端神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行語音識別,成功的代替了手工工程化部件的流水線操作,這讓整個語音識別技術(shù)更加便捷,而使用神經(jīng)網(wǎng)絡(luò)來抽取輸入端的特征信息相當(dāng)于人功抽取特征則更加全面。

集微網(wǎng)消息,近年來,語音識別技術(shù)得到了迅猛的發(fā)展,這得益于人工智能的快速發(fā)展,其中最為主要的學(xué)業(yè)界的各大神經(jīng)網(wǎng)絡(luò)的出現(xiàn),包括基礎(chǔ)的序列神經(jīng)網(wǎng)絡(luò)模型RNN、LSTM和GRU。語音識別技術(shù)也已經(jīng)進(jìn)入到各行各業(yè)中,如工業(yè)、家電、通信汽車電子等。于是,對于語音識別技術(shù)的要求也將更加嚴(yán)格了,更傾向于走向準(zhǔn)確化和便捷化。

以往,構(gòu)建語音識別模型主要是使用HMM的序列模型,再使用手工工程化部件來實現(xiàn)整個流水線操作,并且對于不同的語言的語音需要重新構(gòu)建模型的結(jié)果特征。對此,國內(nèi)語音識別技術(shù)第一梯隊公司百度便提出了使用端對端的神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行語音識別工作,該專利為“端對端語音識別”(專利號:CN107408111A)。

首先,小編在這先介紹一下神經(jīng)網(wǎng)絡(luò)端對端的學(xué)習(xí)方式。對于語音識別來說,端到端深度學(xué)習(xí)做的是,訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò),輸入就是一段音頻,輸出直接是聽寫文本。其中這里的端表示輸入源數(shù)據(jù)端,另外一端是神經(jīng)網(wǎng)絡(luò)處理的結(jié)果也就是我們最終需要的目標(biāo)。這種訓(xùn)練學(xué)習(xí)的方式能應(yīng)對多種語言的語音識別的場景構(gòu)建,因為僅僅是需要改變輸入端和輸出端,深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)并不需要根據(jù)語言的語音不同而改變。

專利中提出的端對端的深度學(xué)習(xí)模型的架構(gòu)圖如圖1所示。該架構(gòu)包括訓(xùn)練以攝取語譜并生成文本的遞歸神經(jīng)網(wǎng)絡(luò)模型。首先,使用一個或更多個卷積層對語譜進(jìn)行特征提取,緊接著,使用一個或多個遞歸層(雙向GRU神經(jīng)網(wǎng)絡(luò))對語譜的特征進(jìn)行時序建模。最后再使用全連接層將遞歸層獲取的語譜信息進(jìn)行全連接作為CTC(鏈結(jié)式時間分類算法:重點解決輸入數(shù)據(jù)與給定標(biāo)簽的對齊問題)的輸入,經(jīng)過Softmax計算輸出各個文本標(biāo)簽的概率。

圖1端對端深度學(xué)習(xí)模型架構(gòu)圖

經(jīng)過上述端對端深度學(xué)習(xí)模型構(gòu)建后,專利中還給出了端對端深度學(xué)習(xí)模型的訓(xùn)練方法,如圖2所示。

百度端對端語音識別專利揭秘

圖2 端對端深度學(xué)習(xí)模型訓(xùn)練方法圖

首先需要為模型設(shè)置好,輸入端和輸出端,對于語音識別技術(shù)來說,輸入端為一時間序列頻譜幀的話語X,輸出端是與話語X具有相關(guān)聯(lián)的真實標(biāo)簽Y。

構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型(包括一個或多個卷積層和一個或多個遞歸層的模型)用來預(yù)測一個或多個字符也就是我們輸出端的標(biāo)簽。

根據(jù)網(wǎng)絡(luò)模型的輸出端的標(biāo)簽的概率分布與真實標(biāo)簽的誤差計算損失函數(shù),提供損失函數(shù)推出標(biāo)簽預(yù)測的誤差,再使用梯度反向傳播算法更新模型參數(shù)。從而達(dá)到網(wǎng)絡(luò)模型學(xué)習(xí)的目的。

百度公司提出的端對端神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行語音識別,成功的代替了手工工程化部件的流水線操作,這讓整個語音識別技術(shù)更加便捷,而使用神經(jīng)網(wǎng)絡(luò)來抽取輸入端的特征信息相當(dāng)于人功抽取特征則更加全面,這讓整個語音識別技術(shù)更加準(zhǔn)確。從這兩方面來看,端對端的神經(jīng)網(wǎng)絡(luò)模型確實是讓語音識別技術(shù)走向了便捷化,準(zhǔn)確化。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 百度
    +關(guān)注

    關(guān)注

    9

    文章

    2373

    瀏覽量

    94496
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1809

    瀏覽量

    115841
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    語音交互革命:百度智能云聯(lián)合地瓜機(jī)器人,重塑AI陪伴體驗

    電子發(fā)燒友網(wǎng)報道(文/莫婷婷)隨著大模型技術(shù)的迅猛發(fā)展,人機(jī)交互正經(jīng)歷從“工具式響應(yīng)”向“擬人化陪伴”的深刻變革。在這一進(jìn)程中,語音交互作為最自然的人機(jī)溝通方式。 ? 百度智能云泛科技行業(yè)解決方案
    發(fā)表于 12-01 01:07 ?1560次閱讀
    <b class='flag-5'>端</b>到<b class='flag-5'>端</b><b class='flag-5'>語音</b>交互革命:<b class='flag-5'>百度</b>智能云聯(lián)合地瓜機(jī)器人,重塑AI陪伴體驗

    百度世界大會亮點 五年五芯 百度宣布打造最硬AI云

    自2006年以來,百度世界大會已連續(xù)舉辦近20屆,百度世界大會是百度每年面向行業(yè)、媒體、合作伙伴和廣大用戶的最高級別盛事,作為百度年度最重要的的戰(zhàn)略、技術(shù)、產(chǎn)品發(fā)布會,自2006年以來
    的頭像 發(fā)表于 11-13 15:47 ?1322次閱讀

    百度世界2025進(jìn)行中 百度昆侖芯超節(jié)點亮相 性能巨幅提升

    百度世界大會是百度每年面向行業(yè)、媒體、合作伙伴和廣大用戶的最高級別盛事,作為百度年度最重要的的戰(zhàn)略、技術(shù)、產(chǎn)品發(fā)布會,自2006年以來已連續(xù)舉辦19年,持續(xù)為行業(yè)搭建起交流前沿技術(shù)、碰撞創(chuàng)新
    的頭像 發(fā)表于 11-13 11:51 ?1159次閱讀

    語音交互數(shù)據(jù) 精準(zhǔn)賦能語音大模型進(jìn)階

    語音大模型從“能識別”向“懂語境”跨越的關(guān)鍵階段,高質(zhì)量場景化語音數(shù)據(jù)已成為制約技術(shù)突破的核心瓶頸。傳統(tǒng)語音識別數(shù)據(jù)集采用孤立標(biāo)注,在
    的頭像 發(fā)表于 09-11 17:17 ?667次閱讀

    廣和通發(fā)布自研側(cè)語音識別大模型FiboASR

    7月,全球領(lǐng)先的無線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語音識別大模型FiboASR。該模型專為側(cè)設(shè)備上面臨的面對面實時對話及多人會議場景深度優(yōu)化,在低延遲語音交互、
    的頭像 發(fā)表于 08-04 11:43 ?1490次閱讀

    百度地圖重磅發(fā)布地圖AI開放平臺

    近日,在WGDC25全球時空智能大會上,百度地圖重磅發(fā)布地圖AI開放平臺。百度地圖深耕20年的數(shù)據(jù)能力、引擎能力與AI技術(shù)全面開放,向開發(fā)者深度開放四大核心能力和五大場景解決方案。
    的頭像 發(fā)表于 05-26 11:26 ?1491次閱讀

    百度在AI領(lǐng)域的最新進(jìn)展

    近日,我們在武漢舉辦了Create2025百度AI開發(fā)者大會,與全球各地的5000多名開發(fā)者,分享了百度在AI領(lǐng)域的新進(jìn)展。
    的頭像 發(fā)表于 04-30 10:14 ?1251次閱讀

    上汽大眾與百度地圖達(dá)成戰(zhàn)略合作

    近日,上海國際車展期間,百度地圖與上汽大眾舉行科技X生態(tài)戰(zhàn)略合作伙伴簽約儀式,雙方將基于百度領(lǐng)先的車道級地圖產(chǎn)品,為上汽大眾千萬車主打造更安全、高效的智能化出行體驗。上汽大眾總經(jīng)理陶海龍、百度副總裁尚國斌等出席簽約儀式。
    的頭像 發(fā)表于 04-29 17:28 ?1120次閱讀

    百度AI榮獲2025愛迪生獎金獎和銀獎

    剛剛,百度AI在「2025愛迪生獎」中獲得一金一銀兩項大獎。
    的頭像 發(fā)表于 04-08 15:43 ?896次閱讀

    百度搜索,能否將DeepSeek變成“內(nèi)功”?

    實測之后,會發(fā)現(xiàn)百度搜索和DeepSeek稱得上“王炸組合”
    的頭像 發(fā)表于 02-21 10:04 ?3010次閱讀
    <b class='flag-5'>百度</b>搜索,能否將DeepSeek變成“內(nèi)功”?

    百度2024財報亮點:營收破千億,凈利潤增21%

    百度近日發(fā)布了其2024年第四季度及全年財報,亮點紛呈。數(shù)據(jù)顯示,百度在2024年的總營收達(dá)到了1331億元,顯示出強(qiáng)勁的增長勢頭。 其中,歸屬百度核心的凈利潤更是高達(dá)234億元,與去年同期
    的頭像 發(fā)表于 02-19 13:47 ?820次閱讀

    百度文心大模型將升級并開源

    百度近日宣布,其文心大模型系列將迎來新版本升級,計劃在未來數(shù)月內(nèi)逐步推出文心大模型4.5系列。這一消息無疑為AI領(lǐng)域注入了新的活力。 據(jù)悉,百度文心大模型4.5系列將在技術(shù)上進(jìn)行全面優(yōu)化,旨在為用戶
    的頭像 發(fā)表于 02-14 14:25 ?808次閱讀

    百度文心大模型4月1日起全面免費開放

    近日,百度公司正式對外宣布,其備受關(guān)注的文心大模型在經(jīng)過一系列迭代與優(yōu)化后,將于4月1日零時全面免費開放給所有用戶。此次免費開放的覆蓋范圍廣泛,包括所有PC及App用戶,讓用戶能夠盡情體驗文心系
    的頭像 發(fā)表于 02-14 09:19 ?742次閱讀

    百度自動駕駛或進(jìn)軍阿聯(lián)酋市場

    據(jù)知情人士透露,百度自動駕駛業(yè)務(wù)或?qū)⑼卣怪涟⒙?lián)酋市場。近日,迪拜王儲Hamdan bin Mohammed在迪拜與百度創(chuàng)始人李彥宏進(jìn)行了會面,引發(fā)了業(yè)界廣泛關(guān)注。
    的頭像 發(fā)表于 02-13 15:28 ?790次閱讀

    百度智能云四款大模型應(yīng)用接入DeepSeek

    近日,百度智能云旗下四款重量級大模型應(yīng)用產(chǎn)品——客悅、曦靈、一見、甄知,正式迎來了全新升級,接入了先進(jìn)的DeepSeek模型。這一重要更新,標(biāo)志著百度智能云在為企業(yè)智能化轉(zhuǎn)型提供更強(qiáng)動力方面邁出了堅實的一步。
    的頭像 發(fā)表于 02-10 18:00 ?1221次閱讀