不到現(xiàn)場(chǎng),照樣看最干貨的學(xué)術(shù)報(bào)告!嗨,大家好。這里是學(xué)術(shù)報(bào)告專欄,讀芯術(shù)小編不定期挑選并親自跑會(huì),為大家奉獻(xiàn)科技領(lǐng)域最優(yōu)秀的學(xué)術(shù)報(bào)告,為同學(xué)們記錄報(bào)告干貨,并想方設(shè)法搞到一手的PPT和現(xiàn)場(chǎng)視頻——足夠干貨,足夠新鮮!話不多說(shuō),快快看過(guò)來(lái),希望這些優(yōu)秀的青年學(xué)者、專家杰青的學(xué)術(shù)報(bào)告 ,能讓您在業(yè)余時(shí)間的知識(shí)閱讀更有價(jià)值。
人工智能論壇如今浩如煙海,有硬貨、有干貨的講座卻百里挑一?!?a href="http://www.brongaenegriffin.com/tags/ai/" target="_blank">AI未來(lái)說(shuō)·青年學(xué)術(shù)論壇”系列講座由中國(guó)科學(xué)院大學(xué)主辦,承辦單位為中國(guó)科學(xué)院大學(xué)學(xué)生會(huì),協(xié)辦單位為中國(guó)科學(xué)院計(jì)算所研究生會(huì)、網(wǎng)絡(luò)中心研究生會(huì)、人工智能學(xué)院學(xué)生會(huì)、化學(xué)工程學(xué)院學(xué)生會(huì)、公共政策與管理學(xué)院學(xué)生會(huì)、微電子學(xué)院學(xué)生會(huì),百度為支持單位,讀芯術(shù)、PaperWeekly為合作自媒體?!癆I未來(lái)說(shuō)·青年學(xué)術(shù)論壇”第八期“深度學(xué)習(xí)”專場(chǎng)已于2019年8月25日下午在中科院舉行。中科院付鵬為大家?guī)?lái)報(bào)告《深度學(xué)習(xí)與機(jī)器閱讀》。
付鵬,男,中國(guó)科學(xué)院信息工程研究所博士,現(xiàn)為中國(guó)科學(xué)院信息工程研究所助理研究員,主要從事自然語(yǔ)言處理、機(jī)器學(xué)習(xí),具體包括情感/情緒分析、語(yǔ)義理解、機(jī)器閱讀、文本生成等,在2018全國(guó)“軍事智能-機(jī)器閱讀”挑戰(zhàn)賽中,獲得決賽總成績(jī)第一(1/267,獎(jiǎng)金20萬(wàn)),并且包攬了所有單項(xiàng)第一名,主持和參與了國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃等課題,近幾年在AAAI、EMNLP、CIKM等國(guó)內(nèi)外學(xué)術(shù)會(huì)議與期刊上發(fā)表學(xué)術(shù)論文10余篇。
報(bào)告內(nèi)容:本次報(bào)告主要包括機(jī)器閱讀概述、傳統(tǒng)機(jī)器閱讀方法、深度學(xué)習(xí)方法和競(jìng)賽分享四個(gè)部分。
深度學(xué)習(xí)與機(jī)器閱讀
付鵬老師先介紹了自然語(yǔ)言處理的概念,即研究實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理技術(shù)的發(fā)展經(jīng)歷了基于規(guī)則(1990年以前)、基于統(tǒng)計(jì)學(xué)習(xí)(1990年~2012年)和基于深度學(xué)習(xí)(2012年至今)的方法三個(gè)階段,涉及由淺入深的四個(gè)層面,分別為形式、語(yǔ)義、推理和語(yǔ)用,當(dāng)前正處于由語(yǔ)義向推理的發(fā)展階段。
然后引出了自然語(yǔ)言處理技術(shù)所面臨的難題:1)中文分詞(segmentation)困難,如“一行行行行行,一行不行行行不行”和“一位友好/的哥/譚市民”;
2)歧義(ambiguity)現(xiàn)象:一是結(jié)構(gòu)歧義,如“今天中午吃饅頭”和“今天中午吃食堂”;二是指代歧義,如“他快抱不起兒子了,因?yàn)樗至恕保蝗钦Z(yǔ)義歧義,如“她這個(gè)人真有意思(funny)”,“人們以為他們有了意思(wish)”,“我根本沒(méi)有那個(gè)意思(thought)”和“真沒(méi)意思(nonsense)”;
3)未知語(yǔ)言現(xiàn)象:一是新詞,如不明覺(jué)厲、累覺(jué)不愛和十動(dòng)然拒;二是舊詞新義,如母雞、白骨精和潛水;三是新用法新結(jié)構(gòu),在口語(yǔ)中或部分網(wǎng)絡(luò)語(yǔ)言中,不斷出現(xiàn)一些“非規(guī)范的”新的語(yǔ)句結(jié)構(gòu),如c位出道、ORZ和熱skr人了;
4)不同語(yǔ)系的差異:一是屈折語(yǔ),用詞的形態(tài)變化表示語(yǔ)法關(guān)系,如英語(yǔ)、法語(yǔ)等;二是黏著語(yǔ),詞內(nèi)有專門表示語(yǔ)法意義的附加成分,詞根或詞干與附加成分的結(jié)合不緊密,如日語(yǔ)、韓語(yǔ)、土耳其語(yǔ)等;三是孤立語(yǔ),形態(tài)變化少,語(yǔ)法關(guān)系靠詞序和虛詞表示,如漢語(yǔ)。
接著介紹了自然語(yǔ)言處理的技術(shù)概覽,主要包括:1)NLP基礎(chǔ)技術(shù),如詞匯表示和語(yǔ)義分析、短語(yǔ)表示和語(yǔ)義分析、句子表示和語(yǔ)義分析以及篇章表示和語(yǔ)義分析;2)NLP核心技術(shù),如情感分析、信息檢索、機(jī)器翻譯、機(jī)器閱讀、問(wèn)答系統(tǒng)、語(yǔ)言生成、推薦系統(tǒng)以及聊天和對(duì)話;3)NLP+,如智能分析、搜索引擎、商業(yè)智能和輿情分析。
進(jìn)而引出了機(jī)器閱讀的主題,機(jī)器閱讀是自然語(yǔ)言處理領(lǐng)域“皇冠上的明珠”,涉及到語(yǔ)義理解、知識(shí)推理等多項(xiàng)復(fù)雜技術(shù),極具挑戰(zhàn)性,該技術(shù)旨在讓AI代替人類,自動(dòng)閱讀新聞報(bào)道等信息并根據(jù)問(wèn)題給出答案,可應(yīng)用于輿情分析和情報(bào)挖掘領(lǐng)域等多個(gè)場(chǎng)景。機(jī)器閱讀的難點(diǎn)挑戰(zhàn)主要包括:1)語(yǔ)義推理難,語(yǔ)言博大精深,如“作為失敗的典型,你真的太成功了”;2)語(yǔ)義關(guān)聯(lián)難,字同意不同,如“誰(shuí)是特朗普的兒子”和“誰(shuí)的兒子是特朗普”;3)語(yǔ)義表示難,分詞歧義,如“昨天/下午”和“作/天下/午”,一詞有多義,如“我愛吃蘋果”和“蘋果發(fā)布會(huì)”。
在介紹完機(jī)器閱讀的難點(diǎn)挑戰(zhàn)之后,又介紹了機(jī)器閱讀的發(fā)展歷程:TeachingMachines to Read and Comprehend(Karl Moritz Hermann et al.) → Attention-Sum Reader(Kadlec et al.) →SQuAD(Rajpurkar et al.) → Match-LSTM(Wang et al.) → R-Net(Wang et al.) →BiDAF(Minjoon Seo et al.) → QA-Net(Yu et al.) → BiDAF+self-attention + BERT。
緊接著介紹了傳統(tǒng)機(jī)器閱讀方法,主要包括早期系統(tǒng)和機(jī)器學(xué)習(xí)時(shí)代的方法。其中,在介紹早期系統(tǒng)時(shí),介紹了QUALM系統(tǒng)(Lehnert,1977)、早期數(shù)據(jù)集(Hirschman, 1999)、Deep Read系統(tǒng)(Hirschman, 1999)和QUARC系統(tǒng)(Riloff andThelen, 2000)。在機(jī)器學(xué)習(xí)時(shí)代,機(jī)器閱讀的數(shù)據(jù)被轉(zhuǎn)化為 《文章,問(wèn)題,答案》 的三元組形式,有兩個(gè)重要的數(shù)據(jù)集:1)MCTest,四選一數(shù)據(jù)集,包含660篇科幻小說(shuō);2)ProcessBank,二分類數(shù)據(jù)集,包含585個(gè)問(wèn)題和200個(gè)段落,是生物類型文章,需要理解實(shí)體關(guān)系和事件?;趥鹘y(tǒng)規(guī)則方法的特點(diǎn)包括:1)不使用訓(xùn)練數(shù)據(jù)集;2)啟發(fā)式的滑動(dòng)窗口方法,計(jì)算word overlap、distance information;3)文本蘊(yùn)含方法,用現(xiàn)有的文本蘊(yùn)含系統(tǒng),把(問(wèn)題,答案)對(duì)轉(zhuǎn)化為一個(gè)statement;4)max-margin學(xué)習(xí)框架,使用了很多語(yǔ)言特征,如句法依存、semantic frames、指代消解、discourse relation和詞向量等。
隨后,以傳統(tǒng)機(jī)器閱讀的方法作為引入,引出了深度學(xué)習(xí)的方法。先介紹了機(jī)器閱讀的主要步驟:文本表示(將文本表示成機(jī)器能理解的符號(hào))→ 語(yǔ)義匹配(尋找問(wèn)題和原文句子的語(yǔ)義關(guān)聯(lián)) → 理解推理(對(duì)語(yǔ)義關(guān)聯(lián)進(jìn)行加工和推理) → 結(jié)果推薦(對(duì)候選答案進(jìn)行排序和輸出)。
在介紹完機(jī)器閱讀的主要步驟之后,又介紹了機(jī)器閱讀的主要數(shù)據(jù)集:1)MCTest數(shù)據(jù)集,給定一篇文章、一個(gè)問(wèn)題以及四個(gè)選項(xiàng),預(yù)測(cè)哪個(gè)選項(xiàng)是問(wèn)題的答案;2)CNN/Daily Mail 數(shù)據(jù)集,給定一篇文章和一個(gè)問(wèn)題,預(yù)測(cè)問(wèn)題中被X替代的實(shí)體是文章中的哪個(gè)實(shí)體;3)SQuAD數(shù)據(jù)集,給定一篇文章、一個(gè)問(wèn)題,預(yù)測(cè)文章中的一個(gè)區(qū)間(一個(gè)或幾個(gè)詞)作為答案;4)Quasar-T數(shù)據(jù)集,給定幾篇文章、一個(gè)問(wèn)題,預(yù)測(cè)文章中的一個(gè)區(qū)間(一個(gè)或幾個(gè)詞)作為答案。
然后又講到了注意力機(jī)制,Seq2Seq模型存在兩個(gè)問(wèn)題,一是定長(zhǎng)的中間向量 c 限制了模型性能,二是輸入序列的不同部分對(duì)于輸出序列的重要性不同。對(duì)于Seq2Seq存在的問(wèn)題,提出了相應(yīng)的解決方案:解碼器中的每個(gè)時(shí)刻不是輸入固定的c,而是輸入不同的 ci,每個(gè)時(shí)刻的 c 自動(dòng)選取與當(dāng)前輸出最相關(guān)的上下文。其中,ci 為編碼器中隱狀態(tài)的加權(quán)和。
在介紹完注意力機(jī)制之后,又詳細(xì)介紹了機(jī)器閱讀模型BiDAF (ICLR 2017),該模型包括輸入部分、雙向注意力和輸出部分,其中,輸入為一篇文章X和一個(gè)問(wèn)題Y,輸出為文章中每一個(gè)詞作為答案開始的概率和答案結(jié)束的概率。雙向注意力是上下文(context)和檢索(query)之間相互指導(dǎo)的注意力機(jī)制。
接著又進(jìn)一步介紹了機(jī)器閱讀的最新進(jìn)展,重點(diǎn)講解了兩篇文章,分別為Improving Machine Reading Comprehension with Reading Strategies (NAACL 2019) 和Adversarial Examples for Evaluating Reading Comprehension Systems (EMNLP 2017)。其中,前者是基于已有模型的改進(jìn),受閱讀策略被證明可以提高閱讀理解的水平的啟發(fā),提出了三種閱讀策略:Backand Forth Reading,Highlighting 和 Self-Assessment,并且模型中用到了GPT (GenerativePre-trained Transformer)。后者介紹了機(jī)器閱讀的新問(wèn)題-對(duì)抗閱讀,文本針對(duì)斯坦福問(wèn)答數(shù)據(jù)集(SQuAD)提出一個(gè)對(duì)抗評(píng)估方案,自動(dòng)生成并在段落中插入對(duì)抗語(yǔ)句,然后測(cè)試系統(tǒng)能否圍繞這一段落回答問(wèn)題。這些對(duì)抗語(yǔ)句的目的在于干擾計(jì)算機(jī)回答系統(tǒng),但并不會(huì)改變問(wèn)題的正確答案,也不會(huì)對(duì)人類造成干擾。在這種對(duì)抗方案中,16個(gè)已發(fā)表模型的精確度從75%(F1數(shù))降到了36%。當(dāng)對(duì)抗系統(tǒng)被允許加入不符合語(yǔ)法的短語(yǔ)串,有四個(gè)模型的平均精度下降到了7%。
在介紹完最新的研究進(jìn)展之后,又介紹了多文檔閱讀,多文檔閱讀的過(guò)程:?jiǎn)栴}文檔集合→ 文檔檢索模塊 → 答案抽取模塊 → 最終答案。多文檔閱讀主要存在三個(gè)難點(diǎn):1)需要基于多個(gè)段落預(yù)測(cè)答案;2)與問(wèn)題相似的段落干擾問(wèn)題;3)遠(yuǎn)程監(jiān)督假設(shè)帶來(lái)噪音問(wèn)題。然后又介紹了國(guó)內(nèi)外的研究現(xiàn)狀,開放域問(wèn)答包括單段落方案和多段落方案,其中多段落的方案又包括基于答案重排序和基于答案置信度。
接著,付鵬老師又介紹了他所在團(tuán)隊(duì)提出的模型Ranking and Sampling in Open-Domain Question Answering (EMNLP 2019),該模型的特點(diǎn):1)在段落選擇部分充分利用段落和問(wèn)題以及段落和段落之間的信息,采用層級(jí)注意力機(jī)制和自注意力機(jī)制進(jìn)行降噪;2)在訓(xùn)練時(shí)采用隨機(jī)采樣→ 帶權(quán)采樣段落選擇方案,提升模型泛化能力,避免干擾;3)解決開放域問(wèn)答中的噪音和干擾問(wèn)題,提升系統(tǒng)準(zhǔn)確率。
最后,付鵬老師介紹了他們?cè)谌珖?guó)“軍事智能-機(jī)器閱讀”競(jìng)賽中的參賽經(jīng)歷,他所在的團(tuán)隊(duì)獲得了決賽總成績(jī)第一名,并且包攬了所有單項(xiàng)第一名(軍事新聞、防務(wù)快訊、非密情報(bào)三個(gè)單項(xiàng)比賽),RougeL值高達(dá)91.39%。并介紹了競(jìng)賽的任務(wù)、問(wèn)題實(shí)例、數(shù)據(jù)特點(diǎn)以及總體的框架。
其中競(jìng)賽任務(wù)的問(wèn)題包括6種類型:1)事實(shí)型問(wèn)題(第X艦隊(duì)指揮官是誰(shuí)?)2)列表型問(wèn)題(X國(guó)艦載機(jī)機(jī)型?)3)數(shù)值型問(wèn)題(XX艦的排水量?)4)定義型問(wèn)題(“XX一體站”的定義?)5)觀點(diǎn)型問(wèn)題(XX對(duì)軍事智能化的指示?)6)篇章型問(wèn)題(X國(guó)與X國(guó)領(lǐng)土爭(zhēng)端的進(jìn)展?)。
數(shù)據(jù)的特點(diǎn)包括:1)文章的長(zhǎng)度較長(zhǎng),經(jīng)典的SQUAD數(shù)據(jù)集的最長(zhǎng)文章的單詞數(shù)在700以下。但是該數(shù)據(jù)集文章中字符的個(gè)數(shù)普遍在幾千甚至上萬(wàn),最長(zhǎng)的一篇還有10萬(wàn)多的字符;2)標(biāo)注的問(wèn)答可能在文章中出現(xiàn)多次或者不出現(xiàn),訓(xùn)練數(shù)據(jù)標(biāo)注存在噪音問(wèn)題;3)一部分問(wèn)題的答案由文中不相鄰的多句話組成,比如,列表型問(wèn)題和篇章型問(wèn)題可能出現(xiàn)答案由文中不相鄰的多句話組成,但是數(shù)目比較少。
模型的總體框架分為兩步:1)利用問(wèn)題去篩選答案候選集;2)利用模型預(yù)測(cè)最終答案??傮w框架的流程:數(shù)據(jù)預(yù)處理→ 答案候選集篩選 → 模型預(yù)測(cè)答案 → 后處理 → 最終答案。更多精彩內(nèi)容請(qǐng)關(guān)注微信公眾號(hào)中的視頻分享。
-
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249581 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122799 -
nlp
+關(guān)注
關(guān)注
1文章
490瀏覽量
22625
發(fā)布評(píng)論請(qǐng)先 登錄
【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺(jué)實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用
SLAMTEC Aurora:把深度學(xué)習(xí)“卷”進(jìn)機(jī)器人日常
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+兩本互為支持的書
傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

NPU在深度學(xué)習(xí)中的應(yīng)用
AI干貨補(bǔ)給站 | 深度學(xué)習(xí)與機(jī)器視覺(jué)的融合探索

評(píng)論