1月27日,第33屆 AAAI(AAAI 2019)在美國(guó)夏威夷召開(kāi),其中百度共有15篇論文被收錄。
AAAI于1979年成立,是國(guó)際人工智能領(lǐng)域的頂級(jí)國(guó)際會(huì)議。這一協(xié)會(huì)如今在全球已有超過(guò)6000名的會(huì)員,匯集了全球最頂尖的人工智能領(lǐng)域?qū)<覍W(xué)者,一直是人工智能界的研究風(fēng)向標(biāo),在學(xué)術(shù)界久負(fù)盛名。
本屆大會(huì)共收到7700余篇有效投稿,其中7095篇論文進(jìn)入評(píng)審環(huán)節(jié),最終有1150篇論文被錄用,錄取率為近年最低僅為16.2%。百度共獲得15篇論文被收錄的成績(jī)。其中有5位作者受邀在主會(huì)做 Oral 形式報(bào)告,另有10位作者將攜論文在主會(huì)以 Spotlight Poster 形式做報(bào)告。
在百度此次收錄的15篇論文中,內(nèi)容涉及智能出行、機(jī)器學(xué)習(xí)、視頻建模、無(wú)人駕駛、自然語(yǔ)言處理、智能醫(yī)療等多個(gè)領(lǐng)域。
自然語(yǔ)言處理領(lǐng)域
百度這次被AAAI收錄的論文《Modeling Coherence for Discourse Neural Machine Translation》,提出了一種篇章級(jí)別的翻譯模型,能夠使得篇章內(nèi)的句子之間保持良好的連貫性和一致性。這是由于翻譯一些文檔、演講之類的文本時(shí),通常需要慮句子之間的銜接性和連貫性。而傳統(tǒng)的翻譯模型通常都是將一個(gè)句子當(dāng)做單獨(dú)的翻譯單元,忽視了句子之間的關(guān)聯(lián)性。
具體來(lái)說(shuō),該論文提出了一種多輪解碼方案,在第一輪解碼中單獨(dú)生成每個(gè)句子的初步翻譯結(jié)果,在第二輪解碼中利用第一輪翻譯的結(jié)果進(jìn)行翻譯內(nèi)容潤(rùn)色,并且提出使用增強(qiáng)式學(xué)習(xí)模型來(lái)獎(jiǎng)勵(lì)模型產(chǎn)生篇幅更一致的譯文。最終在演講文本的測(cè)試集合上,論文提出的模型不僅能夠提升句子級(jí)別1.23 BLEU,同時(shí)能夠提升篇章級(jí)別2.2 BLEU。通過(guò)實(shí)驗(yàn)分析,本文提出的翻譯模型確實(shí)能產(chǎn)生篇章更加連貫和一致的句子。
此模型是基于 Transformer 模型設(shè)計(jì)的。首先,訓(xùn)練流程中的一個(gè) batch 為一篇文章中的所有句子,在第一輪解碼中,采用標(biāo)準(zhǔn)的 Transformer 模型生成單個(gè)句子的初步翻譯結(jié)果。在第二輪解碼中,將第一輪產(chǎn)生的譯文合并成一個(gè)句子,構(gòu)成此篇章翻譯的參考譯文。同時(shí)將初步翻譯結(jié)果作為一個(gè)額外的 Multi-Head Attention 機(jī)制,加入到 Decoder 的解碼流程中。通過(guò)這個(gè)步驟,在第二輪解碼的過(guò)程中,在翻譯單個(gè)句子時(shí),能夠考察其他句子可能產(chǎn)生的翻譯結(jié)果,進(jìn)而調(diào)整當(dāng)前句子的文本輸出概率,盡量使得翻譯結(jié)果更一致。最終利用 Self-critical 的學(xué)習(xí)機(jī)制,鼓勵(lì)模型生成篇章一致性的譯文。值得一提的是,不僅僅是第二輪解碼中可以使用增強(qiáng)式學(xué)習(xí)機(jī)制,在第一輪解碼中也可以鼓勵(lì)模型產(chǎn)生更一致的譯文。
本文首次在學(xué)術(shù)和工業(yè)界提出解決神經(jīng)網(wǎng)絡(luò)翻譯中的篇章一致性和連貫性問(wèn)題,并且提出了一種通用的解碼框架,通過(guò)多輪解碼和增強(qiáng)式學(xué)習(xí)策略,使得模型能產(chǎn)生良好的篇章連貫和一致性的譯文。同時(shí),本文還提出了若干評(píng)估篇章連貫和一致性的評(píng)價(jià)方法,有利于促進(jìn)相關(guān)的研究工作發(fā)展。
目前的在線翻譯引擎基本都是針對(duì)單個(gè)句子進(jìn)行解碼翻譯,并不能保證一篇文章翻譯出來(lái)后句子之間有很好的連貫性,采用本文提出的方法,能夠使得篇章級(jí)別的翻譯文本閱讀起來(lái)更流暢,句子之間的連貫性更好。
無(wú)人車(chē)駕駛領(lǐng)域
為了能在復(fù)雜的城市交通中安全有效地行駛,無(wú)人車(chē)必須對(duì)周?chē)煌w(機(jī)動(dòng)車(chē),自行車(chē),行人等等)的行為軌跡做出可靠的預(yù)測(cè)。一個(gè)十分重要又具有挑戰(zhàn)性的任務(wù)就是探索各種各樣的交通體的不同的行為特征并能對(duì)它們做出及時(shí)準(zhǔn)確的預(yù)測(cè),進(jìn)而幫助無(wú)人車(chē)做出合理的行駛決策。
為了解決這個(gè)問(wèn)題,《TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents》的作者提出了基于 LSTM 的路徑預(yù)測(cè)算法 TrafficPredict。他們的方法是用實(shí)例層來(lái)學(xué)習(xí)個(gè)體的運(yùn)動(dòng)規(guī)律和它們之間的交互,用類別層來(lái)學(xué)習(xí)同一類別的個(gè)體的運(yùn)動(dòng)的相似性,從而進(jìn)一步優(yōu)化對(duì)個(gè)體的預(yù)測(cè)結(jié)果。
他們采集了一個(gè)復(fù)雜路況下的交通數(shù)據(jù)集,正常行駛的汽車(chē)通過(guò) Lidar 采集的連續(xù)幀數(shù)據(jù)經(jīng)過(guò)標(biāo)注得到。問(wèn)題設(shè)定為觀察交通體[0 : Tobs]時(shí)間段內(nèi)的運(yùn)動(dòng)軌跡,預(yù)測(cè) [Tobs + 1 : Tpred]的運(yùn)動(dòng)軌跡。對(duì)于一個(gè)時(shí)間段的數(shù)據(jù),首先把數(shù)據(jù)組織成一個(gè)4D Graph。
這個(gè) Graph 包含兩個(gè)層,一個(gè)是實(shí)例層,一個(gè)是類別層。在實(shí)例層中,每一個(gè)個(gè)體看成一個(gè)節(jié)點(diǎn),每一幀中個(gè)體之間通過(guò)邊連接,相鄰幀的同一個(gè)體也通過(guò)邊連接。在類別層中,同一幀中相同類別的個(gè)體把信息匯總到一個(gè)超節(jié)點(diǎn)中,超節(jié)點(diǎn)會(huì)總結(jié)經(jīng)驗(yàn),進(jìn)而反向改善每一個(gè)個(gè)體的預(yù)測(cè)結(jié)果,相鄰幀的同一個(gè)超節(jié)點(diǎn)也通過(guò)邊連接。4D Graph 通過(guò)邊捕捉個(gè)體在空間上的交互信息,在時(shí)間上的連續(xù)信息,和在類別上的相似信息,通過(guò)節(jié)點(diǎn)和超節(jié)點(diǎn)匯總和分析這些信息。
本文提出的方法把多類別交通體的路線預(yù)測(cè)統(tǒng)一到一個(gè)框架之下,通過(guò)構(gòu)建空間和時(shí)間維度上的4D Graph,充分利用交通體自身的運(yùn)動(dòng)模式和與周?chē)煌w交互的信息,并通過(guò)超節(jié)點(diǎn)總結(jié)概括同類別運(yùn)動(dòng)相似性來(lái)改善個(gè)體的結(jié)果,從而對(duì)每個(gè)交通體的軌跡預(yù)測(cè)精度有了較大提高。另外,本文還發(fā)布了多類別體的復(fù)雜城市交通的路線數(shù)據(jù)集。
目前自動(dòng)駕駛的測(cè)試場(chǎng)景都是比較規(guī)則和簡(jiǎn)單的交通場(chǎng)景:有清晰的車(chē)道線,紅綠燈,交通參與體比較單一。但是,很多城市交通,比如中國(guó)或印度的城市交通,具有很高的復(fù)雜度。尤其在一些十字路口,自行車(chē)、三輪車(chē)、汽車(chē)、公交車(chē)交互前進(jìn)。本文針對(duì)多類別體城市交通提出的的路徑預(yù)測(cè)算法,為無(wú)人車(chē)在復(fù)雜交通場(chǎng)景下的導(dǎo)航提供了更為精確的指導(dǎo),進(jìn)而可以提升自動(dòng)駕駛系統(tǒng)的安全性。
視頻建模
深度學(xué)習(xí)在靜態(tài)圖像理解上取得了巨大成功,然而高效的視頻時(shí)序及空域建模的網(wǎng)絡(luò)模型尚無(wú)定論。不同于已有的基于 CNN+RNN 或者 3D 卷積網(wǎng)絡(luò)的方法,《StNet: Local and Global Spatial-Temporal Modeling for Action Recognition》 一文提出了兼顧局部時(shí)空聯(lián)系以及全局時(shí)空聯(lián)系的視頻時(shí)空聯(lián)合建模網(wǎng)絡(luò)框架 StNet。
具體而言,StNet 將視頻中連續(xù) N 幀圖像級(jí)聯(lián)成一個(gè) 3N 通道的“超圖”,然后用 2D 卷積對(duì)超圖進(jìn)行局部時(shí)空聯(lián)系的建模。為了建立全局時(shí)空關(guān)聯(lián),StNet 中引入了對(duì)多個(gè)局部時(shí)空特征圖進(jìn)行時(shí)域卷積的模塊。特別地,我們提出了時(shí)序 Xception 模塊對(duì)視頻特征序列進(jìn)一步建模時(shí)序依賴。在 Kinetics 動(dòng)作識(shí)別數(shù)據(jù)集的大量實(shí)驗(yàn)結(jié)果表明,StNet 能夠取得 State-of-the-art 的識(shí)別性能,同時(shí) StNet 在計(jì)算量與準(zhǔn)確率的折衷方面表現(xiàn)優(yōu)異。此外實(shí)驗(yàn)結(jié)果驗(yàn)證了 StNet 學(xué)習(xí)到的視頻表征能夠在 UCF101 上有很好的遷移泛化能力。
StNet 提出了局部和全局時(shí)空聯(lián)系聯(lián)合建模的概念,能得到更具判別力的視頻表征,有效的提高視頻動(dòng)作識(shí)別的性能。同時(shí),StNet 的設(shè)計(jì)兼顧了計(jì)算量與識(shí)別準(zhǔn)確率的折衷,具有很好的實(shí)用價(jià)值。StNet 作為一個(gè) backbone 網(wǎng)絡(luò)結(jié)構(gòu),可以應(yīng)用在用 video2vector、視頻識(shí)別等方面。
附:被 AAAI 2019收錄的百度15篇論文題目
lModeling Coherence for Discourse Neural Machine Translation
lJoint Representation Learning for Multi-Modal Transportation Recommendation
lSpHMC: Spectral Hamiltonian Monte Carlo
lStNet: Local and Global Spatial-Temporal Modeling for Action Recognition
lTrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents
lRead, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos
lAddressing the Under-translation Problem from the Entropy Perspective
lUnderstanding Story Characters, Movie Actors and Their Versatility with Gaussian Representations
lJoint Extraction of Entities and Overlapping Relations using Position-Attentive Sequence Labeling
lOversampling for Imbalanced Data via Optimal Transport
lMulti-agent Discussion Mechanism for Natural Language Generation
lSign-Full Random Projections
lInteractive Attention Transfer Network for Cross-domain Sentiment Classification
lExploiting the Contagious Effect for Employee Turnover Prediction
lDistant Supervision for Relation Extraction with Linear Attenuation Simulation and Non-IID Relevance Embedding
-
百度
+關(guān)注
關(guān)注
9文章
2335瀏覽量
92244 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134637 -
論文
+關(guān)注
關(guān)注
1文章
103瀏覽量
15223
原文標(biāo)題:百度15篇論文被AAAI 2019收錄
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
后摩智能四篇論文入選三大國(guó)際頂會(huì)
云知聲四篇論文入選自然語(yǔ)言處理頂會(huì)ACL 2025

評(píng)論