近日,第58屆國際計(jì)算語言學(xué)協(xié)會年會ACL 2020(The Association for Computational Linguistics)于線上開啟。這次會議,百度共有11篇論文被錄用,覆蓋自然語言處理眾多前沿研究方向;百度聯(lián)合谷歌、Facebook、清華大學(xué)等全球頂尖機(jī)構(gòu),共同舉辦首屆同聲傳譯研討會;在線上展臺主題技術(shù)TALK環(huán)節(jié),百度還就開放域人機(jī)對話技術(shù)、ERNIE核心技術(shù)等業(yè)內(nèi)關(guān)注的話題展開分享,展現(xiàn)了中國企業(yè)在自然語言處理及人工智能領(lǐng)域的技術(shù)創(chuàng)新與落地實(shí)踐能力。
ACL成立于1962年,是自然語言處理領(lǐng)域影響力最大、最具活力的國際學(xué)術(shù)組織之一。自成立之日起,致力于推動計(jì)算語言學(xué)及自然語言處理相關(guān)研究的發(fā)展和國際學(xué)術(shù)交流。百度的自然語言處理技術(shù),在技術(shù)創(chuàng)新及應(yīng)用上始終保持領(lǐng)先,一直被視為自然語言處理研究界的“第一梯隊(duì)”,此次在ACL 2020大會中的亮眼表現(xiàn),正是源于百度在技術(shù)領(lǐng)域的長期積累。
除了在國際 AI 學(xué)界的影響力外,ACL 無論是審稿規(guī)范還是審稿質(zhì)量,都是當(dāng)今 AI 領(lǐng)域國際頂級會議中公認(rèn)的翹楚。
本屆大會百度共有11篇論文被收錄,覆蓋了人機(jī)對話系統(tǒng)、情感分析/預(yù)訓(xùn)練表示學(xué)習(xí)、NLP 文本生成與摘要、機(jī)器翻譯/同聲翻譯、知識推理、AI 輔助臨床診斷等諸多自然語言處理界的前沿研究方向,提出了包括端到端開放域生成模型PLATO、面向開放域?qū)υ挼幕趫D譜的對話管理機(jī)制、情感知識增強(qiáng)的語言模型預(yù)訓(xùn)練方法、基于圖表示的多文檔生成式摘要方法 GraphSum 等諸多新框架、新算法、新數(shù)據(jù),不僅極大提升了相關(guān)領(lǐng)域的研究水平,也將推動人機(jī)交互、機(jī)器翻譯、智慧醫(yī)療等場景的技術(shù)落地應(yīng)用。
此次 ACL 2020的審稿周期,從去年12月一直持續(xù)到今年4月,相比往年幾乎增加了一倍。會議投稿數(shù)量為 3088 篇,共有 779 篇論文被接收,包括 571 篇長論文和 208 篇短論文,接收率僅為25.2%。百度11篇論文被收錄的成績,不僅意味著研究成果得到了國際學(xué)術(shù)界的認(rèn)可,也證明了其研究本身在實(shí)驗(yàn)嚴(yán)謹(jǐn)性、思路創(chuàng)新性等方面的實(shí)力。
同聲傳譯以其高效的信息傳遞方式,廣泛應(yīng)用于國際會議、商務(wù)會談、新聞發(fā)布、法律訴訟等多種跨語言交流場景。機(jī)器同傳結(jié)合了機(jī)器翻譯(Machine Translation)、語音識別(Automatic Speech Recognition)和語音合成(Text-To-Speech)等人工智能技術(shù),已經(jīng)成為重要的前沿研究領(lǐng)域。目前,機(jī)器同傳還需要攻克高魯棒性、高翻譯質(zhì)量、低延時(shí)的相關(guān)問題。
本次會議中,百度聯(lián)合國內(nèi)外頂尖企業(yè)和高校共同舉辦全球首屆同聲傳譯研討會,匯集包括機(jī)器翻譯、語音處理和人類口譯領(lǐng)域的研究和從業(yè)人員,共同就機(jī)器同傳架構(gòu)、翻譯模型、數(shù)據(jù)資源等問題展開研討。
研討會有多場高質(zhì)量主題演講,百度技術(shù)委員會主席、百度自然語言處理首席科學(xué)家吳華等國內(nèi)外多名專家就機(jī)器同傳研究現(xiàn)狀、面臨挑戰(zhàn)以及未來發(fā)展進(jìn)行探討,加深了機(jī)器同傳與口譯兩個(gè)領(lǐng)域之間的交流,極大地推動了機(jī)器同傳技術(shù)發(fā)展以及機(jī)器和人工同傳的協(xié)同合作。
在本次研討會同期舉辦的國際首屆同傳評測比賽中,百度行業(yè)首發(fā)業(yè)內(nèi)最大規(guī)模面向真實(shí)場景的中英同傳數(shù)據(jù),涵蓋信息技術(shù)、經(jīng)濟(jì)、文化、生物、藝術(shù)等多個(gè)領(lǐng)域。同時(shí),基于百度深度學(xué)習(xí)平臺飛槳的一站式AI開發(fā)實(shí)訓(xùn)平臺百度大腦AI Studio,百度為參賽選手提供在線編程環(huán)境、免費(fèi)GPU算力、海量開源算法和開放數(shù)據(jù),幫助開發(fā)者快速創(chuàng)建和部署模型。
在本次大會的線上展臺主題技術(shù)TALK環(huán)節(jié),百度也展現(xiàn)出多個(gè)亮點(diǎn),體現(xiàn)出百度領(lǐng)先的技術(shù)創(chuàng)新與落地實(shí)踐能力,圍繞ERNIE核心技術(shù)、開放域人機(jī)對話技術(shù)、智慧醫(yī)療、生物醫(yī)藥等業(yè)內(nèi)關(guān)注的話題,百度獻(xiàn)上了精彩的演講。
在展臺主題技術(shù)TALK環(huán)節(jié),百度研究人員做出主題為《ERNIE的技術(shù)原理、平臺與應(yīng)用》的分享。百度提出了知識增強(qiáng)的語義表示模型 ERNIE 及持續(xù)學(xué)習(xí)語義理解框架 ERNIE 2.0,在16 個(gè)中英文任務(wù)上超越國際最好效果,取得了 SOTA 的效果。去年12月,ERNIE 在國際權(quán)威的通用語言理解評估基準(zhǔn) GLUE上首次突破90大關(guān),超越人類三個(gè)點(diǎn),取得全球第一。今年3月,在全球最大規(guī)模的國際語義評測 SemEval 上獲得5項(xiàng)世界冠軍。
近期,百度又相繼發(fā)布了面向生成的預(yù)訓(xùn)練技術(shù) ERNIE-Gen 和知識增強(qiáng)的視覺-語言預(yù)訓(xùn)練模型 ERNIE-ViL。ERNIE-Gen 首次提出基于多流機(jī)制生成完整語義片段,在5個(gè)生成類任務(wù)上取得了SOTA效果。ERNIE-ViL首次將場景圖知識融入多模態(tài)預(yù)訓(xùn)練, 刷新了5項(xiàng)多模態(tài)任務(wù)紀(jì)錄,并登頂權(quán)威榜單VCR。在剛剛舉行的世界人工智能大會上,百度文心(ERNIE)知識增強(qiáng)語義理解技術(shù)與平臺獲得了大會最高榮譽(yù)獎項(xiàng)“卓越人工智能引領(lǐng)者”(SAIL)獎。
在《基于意圖圖譜的開放域?qū)υ捝煽蚣堋贩窒碇?,百度研究人員介紹到,為了提升多輪對話下的整體對話質(zhì)量,提出基于意圖圖譜的對話生成框架,在該框架中引入顯式的對話管理機(jī)制,以增強(qiáng)對多輪對話流的控制能力。在公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,以上模型或系統(tǒng)在主題連貫性、對話目標(biāo)引導(dǎo)成功率等關(guān)鍵多輪效果指標(biāo)上顯著超越基線模型。
同時(shí),百度借助這次展臺技術(shù)Talk發(fā)布了業(yè)界首個(gè)基于隱變量的大規(guī)模對話模型PLATO以及基于PLATO相關(guān)工作擴(kuò)展升級的PLATO-2。該模型使用了最多16億參數(shù),發(fā)布了中英文版本。其中,英文效果超越了Google的Meena和Facebook AI Research的Blender,中文模型也遠(yuǎn)超過現(xiàn)有基線。
在主題為《基于計(jì)算語言學(xué)的新冠病毒分析和疫苗設(shè)計(jì)算法》的分享中,針對新冠疫情,百度研究人員把自然語言處理領(lǐng)域的經(jīng)典句法分析算法移植到核酸序列結(jié)構(gòu)分析,介紹了全球首個(gè)線性時(shí)間的 RNA 結(jié)構(gòu)預(yù)測算法 LinearFold,可以將新冠病毒基因組全序列結(jié)構(gòu)分析的時(shí)間從55分鐘降低到 27 秒。在此基礎(chǔ)上,百度還研發(fā)出了全球首個(gè)mRNA 疫苗序列設(shè)計(jì)算法 LinearDesign,可以設(shè)計(jì)出結(jié)構(gòu)最穩(wěn)定的疫苗序列。對于新冠S蛋白,該算法16分鐘內(nèi)就可設(shè)計(jì)出優(yōu)化疫苗序列,解決了mRNA疫苗研發(fā)中的一個(gè)重大難題。目前,百度正在積極推進(jìn)和中國疾控中心、各大疫苗公司和科研機(jī)構(gòu)的合作。
在主題為《自然語言處理和知識圖譜技術(shù)在臨床輔助決策中的應(yīng)用研究》的演講中,百度研究人員分享了靈醫(yī)智惠在臨床輔助決策中應(yīng)用。以百度世界領(lǐng)先的中文自然語言處理和知識圖譜等技術(shù)為基礎(chǔ),靈醫(yī)智惠打造了強(qiáng)大的醫(yī)療認(rèn)知計(jì)算能力,形成了醫(yī)療場景下的語言、知識和認(rèn)知計(jì)算三位一體的臨床輔助決策引擎。
近年來,中國 AI 企業(yè)、開發(fā)者及高校在國際AI頂會上的表現(xiàn)也愈發(fā)亮眼。ACL2020大會中,無論是論文入選量、領(lǐng)銜舉辦研討會、同傳比賽,百度都展現(xiàn)出中國 AI 行業(yè)頭雁的實(shí)力。百度NLP是百度AI技術(shù)和應(yīng)用的萌芽起點(diǎn)和帶動力量,始終聚焦核心前沿,持續(xù)引領(lǐng)技術(shù)創(chuàng)新,持續(xù)引領(lǐng)中國NLP技術(shù)發(fā)展方向,不僅為此次大會交上了一份滿意的答卷,也為中國AI崛起、走向世界發(fā)展貢獻(xiàn)了重要的力量。
fqj
-
百度
+關(guān)注
關(guān)注
9文章
2335瀏覽量
92205 -
人工智能
+關(guān)注
關(guān)注
1806文章
49009瀏覽量
249328
發(fā)布評論請先 登錄
世界模型:多模態(tài)融合+因果推理,解鎖AI認(rèn)知邊界
FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測

評論