信息爆發(fā)時代,如何快速有效地處理視頻、音頻、文字等信息變得尤為重要。無論是政企會議、公檢法辦案,還是教學培訓、記者采訪、個人錄音等場合均需要形成完整的文字記錄材料,音視頻文件也需要形成字幕。為解決各類場景下的音頻轉文字問題,語音轉寫應運而生。
今年7月,訊飛開放平臺推出語音轉寫功能。這項基于科大訊飛獨立研究的深度全序列卷積升級網(wǎng)絡語音識別框架的技術究竟有哪些核心原理?語音轉寫的產品特性和優(yōu)勢又有哪些?應用落地的場景以及未來發(fā)展前景是什么?這些問題是很多對語音轉寫感興趣的小伙伴想要了解的。
本期AI公開課,我們邀請到科大訊飛AI研究院副院長 高建清博士為我們講解語音轉寫技術。
什么是語音轉寫?01
語音轉寫(LongFormAutomatic Speech Recognition):基于科大訊飛獨立研究的深度全序列卷積神經(jīng)網(wǎng)絡語音識別框架(Deep Fully Convolutional Neural Network, DFCNN),針對語音的長時相關性進行語言建模,將音頻數(shù)據(jù)轉換成文本數(shù)據(jù),可以讓信息傳遞更高效,為后續(xù)的數(shù)據(jù)檢索和數(shù)據(jù)挖掘提供基礎。
按照音頻傳輸形式分為
已錄制音頻(recorded audio):將已經(jīng)錄制好的完整音頻文件傳輸至云端的轉寫后臺,轉寫完畢之后輸出音頻對應的完整文字結果。
實時音頻流(real-time streaming):在采集音頻的同時連續(xù)上傳音頻流至云端,云端實時返回文字結果,可以實現(xiàn)文字和聲音的同步展現(xiàn)。
語音轉寫和語音聽寫的區(qū)別02
語音轉寫和語音聽寫很多開發(fā)者小伙伴容易混淆,在課程開始之前先把兩者的區(qū)別給大家梳理清晰:
語音轉寫應用場景有哪些?03
電話銷售&客服
將坐席的通話轉換成文字,讓電話質檢和信息同步更有效率,同時,也為基于文本建模的數(shù)據(jù)挖掘提供原料基礎。
會議&訪談記錄
可以將線上或者線下的會議和訪談的音頻記錄轉換成文字存稿,讓后期的信息檢索以及精細整理更方便快捷。
字幕生成
能夠將視頻中的音頻文件轉寫成帶有的時間戳的文字信息,幫助您輕松生成與視頻相對應的字幕文件。
語音鑒別
幫助您從音頻轉成的文字信息中搜索匹配相關詞類,對黃暴或者涉政內容進行快速且高效的鑒別。
場景營銷
通過對轉寫結果與用戶自定義的關鍵詞進行搜索匹配,結合對應時間戳信息,進行線上廣告投放。
-
數(shù)據(jù)
+關注
關注
8文章
7314瀏覽量
93914 -
云端
+關注
關注
0文章
126瀏覽量
17520
發(fā)布評論請先 登錄
語音芯片白噪音支持功能詳解:打造舒適音頻體驗的關鍵技術 | 廣州唯創(chuàng)電子語音IC廠家
訊飛實時語音轉寫大模型上線
廣州唯創(chuàng)電子錄音語音芯片IC:工作原理與應用場景全解析
端到端語音交互數(shù)據(jù) 精準賦能語音大模型進階
廣州唯創(chuàng)電子語音芯片的工作原理與應用解析
芯資訊|廣州唯創(chuàng)電子MP3語音芯片IC的音頻解碼方式解析
芯資訊|廣州唯創(chuàng)電子錄音語音芯片應用指南及常見問題解析
芯知識|廣州唯創(chuàng)電子高品質錄音IC語音芯片技術解析與應用指南
智能收銀語音交互新標桿—WT3000T8語音合成芯片TTS技術應用解析
芯資訊|基于廣州唯創(chuàng)電子語音芯片的煙霧報警器語音方案技術解析
芯技術|基于WT588E02B-8S語音芯片的遠程更新技術及應用實踐
WT588F語音芯片響應時間深度解析:從指令觸發(fā)到音頻播放的技術全貌
芯知識|WT3000T8語音合成芯片:功能解析與應用指南
芯資訊|WTK6900系列語音識別芯片IC自學習功能解析
廠家芯資訊|廣州唯創(chuàng)電子語音識別芯片技術解析

關于語音轉寫技術的解析和應用
評論