科大訊飛魏思博士
魏思,肥東一中99屆高中畢業(yè)生,現(xiàn)為中國科學(xué)技術(shù)大學(xué)工學(xué)博士、科大訊飛研究院副院長、訊飛易聽說首席科學(xué)家。2017年獲選《麻省理工科技評論》全球青年科技創(chuàng)新人才,入選為“遠(yuǎn)見者”,代表了深度學(xué)習(xí)與語音識別的創(chuàng)新精神。魏思知識淵博,才思敏捷,為人謙遜,表達(dá)力強(qiáng)且不失幽默,善于深入淺出地把深奧的理學(xué)知識講解得淺顯易懂。
訊飛超腦計(jì)劃及研究成果
科大訊飛研究院副院長,帶領(lǐng)團(tuán)隊(duì)研發(fā)語音識別新框架,和傳統(tǒng)深度學(xué)習(xí)模型相比,增加了“記憶塊”的模塊,用以存儲對判斷當(dāng)前語音幀有用的歷史信息和未來信息,可以使響應(yīng)時(shí)間可以大大縮短。
近幾年,中國討論度最高的人工智能公司少不了科大訊飛。但大部分人是對訊飛的了解僅限于其語音技術(shù),其實(shí),科大訊飛還有一個更大的目標(biāo)——打造“訊飛超腦”。
以“從能聽會說到能理解會思考”為目標(biāo)的訊飛超腦計(jì)劃,要實(shí)現(xiàn)基于類人神經(jīng)網(wǎng)絡(luò)的認(rèn)知智能引擎,預(yù)期成果是實(shí)現(xiàn)世界上第一個中文認(rèn)知智能計(jì)算引擎。
魏思正是“訊飛超腦”計(jì)劃的主要負(fù)責(zé)人之一。1999年,他進(jìn)入中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系學(xué)習(xí),并于 2008年獲得中國科學(xué)技術(shù)大學(xué)工學(xué)博士學(xué)位,同年起在科大訊飛研究院工作至今。如今,身為科大訊飛研究院副院長的魏思,同樣是訊飛語音技術(shù)的核心人物。
基于訊飛超腦計(jì)劃,科大訊飛正在開啟一場以語音和語言為入口的“認(rèn)知革命”。在過去6年中,訊飛的語音識別技術(shù)準(zhǔn)確率從60.2%提升到95%以上。
準(zhǔn)確率提升的背后,是魏思帶領(lǐng)團(tuán)隊(duì)研發(fā)的一個語音識別“新武器”——一種名為“前饋型序列記憶網(wǎng)絡(luò) ”( FSMN )的新框架。據(jù)魏思介紹,和傳統(tǒng)深度學(xué)習(xí)模型相比,前饋型序列記憶網(wǎng)絡(luò)增加了一個“記憶塊”的模塊,用以存儲對判斷當(dāng)前語音幀有用的歷史信息和未來信息,從而實(shí)現(xiàn)語音識別中的“端到端”建模。和其他多個技術(shù)點(diǎn)結(jié)合后,訊飛基于FSMN的語音識別框架獲得了大幅度的性能提升。這個新模型可以使響應(yīng)時(shí)間可以大大縮短,例如原來的一個星期可以縮短到一天,還可以提升訓(xùn)練效果。
FSMN保證了語音識別的準(zhǔn)確性,但這還不夠。一個大趨勢是,幾乎所有在做語音技術(shù)的人工智能公司都會追求更高的語音合成自然程度。在這一點(diǎn)上,魏思領(lǐng)導(dǎo)團(tuán)隊(duì)則實(shí)現(xiàn)了基于深度學(xué)習(xí)的全新的語音合成系統(tǒng),進(jìn)一步提升合成語音的自然度和表現(xiàn)力。在有麻省理工學(xué)院、卡內(nèi)基梅隆大學(xué)等國際知名科研機(jī)構(gòu)參加的國際最高水平的語音合成比賽 Blizzard Challenge(暴風(fēng)雪競賽)中,魏思團(tuán)隊(duì)開發(fā)的系統(tǒng)連續(xù) 11 年奪冠,7 項(xiàng)指標(biāo)全部全球第一,并且是所有參賽隊(duì)伍中唯一超過自然人發(fā)音水平的系統(tǒng)。
當(dāng)然,對于正在采取“平臺+賽道”擴(kuò)張方式的訊飛而言,無論是哪一個賽道,都離不開技術(shù)的積累,魏思在多年科研工作中的成果也正迎來新的機(jī)會。
比如,他曾創(chuàng)造性地提出多種中英文語音評測評測算法,并帶領(lǐng)團(tuán)隊(duì)獲得國際領(lǐng)先成果。現(xiàn)在,他們已經(jīng)可以將相關(guān)的評測技術(shù)應(yīng)用到普通話測試及教學(xué)中,其中英文口語測試系統(tǒng)在國內(nèi)外首次達(dá)到人工評測員水平。這項(xiàng)技術(shù)最主要的特點(diǎn)是實(shí)現(xiàn)了測試管理的信息化和測試手段的現(xiàn)代化。
而在說話人語種識別研究上,魏思則提出了基于深度神經(jīng)網(wǎng)絡(luò)的語種識別算法,大幅提升了語種識別的效果,成為目前業(yè)界所有語種識別系統(tǒng)的標(biāo)準(zhǔn)配置。
類似的案例還有很多,魏思的技術(shù)征途也不再僅限于語音:他帶領(lǐng)團(tuán)隊(duì)提出基于CNN的離線手寫識別策略,在世界上首次實(shí)現(xiàn)試卷掃描自動評分系統(tǒng);在人工智能-認(rèn)知智能方面,魏思帶領(lǐng)團(tuán)隊(duì)獲得國際著名的常識推理比賽Winograd Schema Challenge 2016的第一名成績,該任務(wù)是國際常識推理領(lǐng)域的新型評測任務(wù),被學(xué)術(shù)界普遍認(rèn)為是替代圖靈測試衡量機(jī)器智能水平的重要學(xué)術(shù)挑戰(zhàn)……
如果說有什么在驅(qū)動魏思不斷地創(chuàng)新,那肯定少不了他對現(xiàn)有技術(shù)的“不滿足”?!半m然近幾年深度神經(jīng)網(wǎng)絡(luò)的興起使得語音識別性能獲得了極大的提升,但是我們并不能迷信于現(xiàn)有的技術(shù),總有一天新技術(shù)的提出會替代現(xiàn)有的技術(shù)”,魏思曾在一篇博文中這樣寫道。
回顧語音識別的發(fā)展歷史和訊飛語音識別系統(tǒng)的最新進(jìn)展,他也發(fā)現(xiàn),技術(shù)的突破總是艱難而緩慢的,重要的是堅(jiān)持和不斷思考。他也堅(jiān)信,“現(xiàn)在是一個偉大的時(shí)代”。
“那么,在這個偉大的時(shí)代,我們的征途是什么呢?我覺得有一句話非常能夠表現(xiàn)我自己或者是訊飛研究院這么多年的思考,那就是:在中國,可以改變世界”。魏思認(rèn)為,在這10年中,中國原創(chuàng)能力的蓬勃發(fā)展已經(jīng)顯現(xiàn)出來,與全世界同臺競技,“我們毫不怯場”。
展望下一個10年,魏思和他的團(tuán)隊(duì)同樣有幾個小目標(biāo):將訊飛研究院打造成一個世界知名的研究機(jī)構(gòu),培養(yǎng)出一批世界頂級的科學(xué)家,最后,能夠解決幾個基本的科學(xué)問題。
“在下一個10年或者20年,我們終將可以觸及智能的本質(zhì),解開智慧之謎”。
-
語音識別
+關(guān)注
關(guān)注
39文章
1780瀏覽量
114218 -
科大訊飛
+關(guān)注
關(guān)注
19文章
841瀏覽量
62440 -
訊飛超腦
+關(guān)注
關(guān)注
0文章
3瀏覽量
4027
發(fā)布評論請先 登錄
科大訊飛亮相第137屆廣交會
科大訊飛深度解析DeepSeek-V3/R1推理系統(tǒng)成本

評論