很多朋友在互聯(lián)網(wǎng)搜索問題的時候都會大贊引擎返回的結(jié)果,而不是丟給你一堆鏈接讓你自己去查找。各類搜索引擎會對問題進(jìn)行有效的匹配,總能準(zhǔn)確的告訴你世界上有多少個國家、中國的面積有多大,以及今年清明放幾天假。但是面對更為復(fù)雜的問題可能搜索引擎黔驢技窮了,比如你想要去把上周末貪心吃掉一大塊巧克力芝士蛋糕運(yùn)動燃燒掉,無論是谷歌百度還是必應(yīng)搜狗都沒辦法告訴你需要騎多久的車、走多遠(yuǎn)的路才能燃燒你的卡路里。但是,任何一個人都可以從引擎返回的前面一兩條鏈接內(nèi)容里找到自己的答案。
在如今這個信息爆炸的時代,無數(shù)的信息和知識文本讓我們目不暇接。讓機(jī)器替代我們?nèi)ラ喿x海量的文獻(xiàn)并為我們提供相關(guān)問題的答案在當(dāng)今社會有著十分巨大的現(xiàn)實需求和重要的現(xiàn)實意義,機(jī)器閱讀理解和問答已經(jīng)成為了自然語言處理領(lǐng)域的關(guān)鍵任務(wù),這一能力將會實現(xiàn)像電影時光機(jī)器中那位知識淵博的圖書管理員一樣強(qiáng)大的智能AI知識系統(tǒng)。
近年來,類似SQuAD和TriviaQA等大規(guī)模的問答數(shù)據(jù)集促進(jìn)了這一領(lǐng)域的快速發(fā)展,龐大的數(shù)據(jù)集是的研究人員可以訓(xùn)練更大更深更強(qiáng)的深度學(xué)習(xí)模型。通過這些龐大數(shù)據(jù)集驅(qū)動的算法已經(jīng)可以通過在百科中搜尋合適的內(nèi)容來回答很多隨機(jī)的問題,而無需人類親力親為尋找答案。

SQuAD數(shù)據(jù)集從超過500篇百科文章中收集了超過10萬個問題,文章的每一段都列出一系列獨(dú)立的問題和與之相對應(yīng)段落內(nèi)一段連續(xù)內(nèi)容作為答案。這種方式又稱為“抽取式問答” 。
雖然這些數(shù)據(jù)集推動著這一領(lǐng)域飛速發(fā)展,但依然存在不可回避的問題。事實上研究人員發(fā)現(xiàn)模型并沒有理解問題的內(nèi)涵,而更多地傾向于去對問題的答案進(jìn)行模式匹配。

From Jia and Liang. 研究顯示模型只學(xué)會了匹配城市名字而不是理解問題和答案。
為了克服這些問題,斯坦福NLP組的研究人員們Peng Qi & Danqi Chen提出了兩個新的數(shù)據(jù)集。在這篇文章中,研究人員探索了如何拓展現(xiàn)有機(jī)器閱讀系統(tǒng)的能力,并基于這兩個新的數(shù)據(jù)集探索了在問答任務(wù)中機(jī)器“閱讀”與“推理”間的相關(guān)性,以突破機(jī)器以簡單的模式匹配方式來回答問題。
其中CoQA數(shù)據(jù)集集中于對話的角度,通過自然對話的形式引入與文本段落相關(guān)豐富的上下文信息來為問答系統(tǒng)提供對話角度的探索方向。而HotpotQA數(shù)據(jù)集則超越了段落內(nèi)容,主要集中于解決需要綜合多個文本,并進(jìn)行有效推理才能獲得答案的復(fù)雜挑戰(zhàn)。
CoQA數(shù)據(jù)集
絕大多數(shù)現(xiàn)存的問答系統(tǒng)局限于獨(dú)立的回答問題(類似于SQuAD)。盡管這也是一種問答方式,但對人人類來說更常見的做法是聽過一系列你問我答的具有相互關(guān)聯(lián)的交流對話來獲取有效信息。CoQA就是這樣一個機(jī)遇對話問答的數(shù)據(jù)集,其中包含了自七個領(lǐng)域的8千個對話過程,共十二萬七千個問答數(shù)據(jù),可以有效解決現(xiàn)有AI問答系統(tǒng)中存在的上述問題。

CoQA主要包含了從各種來源收集的文章,以及關(guān)于文章內(nèi)容的一系列相關(guān)對話。對話的每一輪包含一個問題及其答案,同時每一個問題都依賴于先前的問題。與SQuAD以及其他現(xiàn)存的數(shù)據(jù)集不同的是,這一數(shù)據(jù)集中對話歷史對于回答很多問題的答案是不可或缺的。例如在上面例子中的第二個問題,在沒有對先前回答歷史理解的情況下是無法回答的。此外在對話中人們的注意力中心會隨著對話的進(jìn)行而轉(zhuǎn)移,例如前述例子中的從問題四中的他們,到問題五中的他再到問題六中的他們,對于機(jī)器來說要回答這類對話中心迅速變化問題充滿了調(diào)整,數(shù)據(jù)集中的問題需要機(jī)器能夠更加理解對話的上下文內(nèi)容才能有效回答。
CoQA還具有很多不同于先前數(shù)據(jù)集的新特征:
首先這一數(shù)據(jù)集并不會像SQuAD一樣將答案限制在文章中一個連續(xù)地區(qū)域。研究人員認(rèn)為一個問題的答案不僅僅局限于一個單一的部分,而是會分布在文章各處。此外研究人員希望這一數(shù)據(jù)集可以支持自動評價,問題的答案可以獲得人類的認(rèn)同。所以數(shù)據(jù)集的標(biāo)注者不僅標(biāo)注出了文章中對應(yīng)的部分(作為給出答案的理由),同時將這些部分編輯為了自然語言形式的回答。這些給出答案的理由將提升問答系統(tǒng)模型的訓(xùn)練效果。
其次現(xiàn)存的QA數(shù)據(jù)集大都集中在單個領(lǐng)域,使得基于這些數(shù)據(jù)集訓(xùn)練的模型不具有通過的泛化能力。為了解決這一問題CoQA數(shù)據(jù)集收集了來自兒童故事、文學(xué)、中學(xué)英語測試、新聞、百科、Reddit和科學(xué)等七個領(lǐng)域的不同材料,使得數(shù)據(jù)集具有了更為豐富的特性。
通過對數(shù)據(jù)集進(jìn)行深度的分析,研究人員發(fā)現(xiàn)了一系列豐富的語言學(xué)現(xiàn)象。首先27.2%的問題需要進(jìn)行實際的推理,包括常識和預(yù)測的輔助,而不能簡單的從文章內(nèi)容中進(jìn)行轉(zhuǎn)述。比如需要通過對于主人公動作的描寫來推測他的性格。只有29.8%的問題可以直接通過文本匹配來回答。此外研究人員發(fā)現(xiàn)有30.5%的問題并不依賴于討論歷史,49.7%的問題包含“它”、“他”、“她”等清晰的討論語言標(biāo)志,額外19.8%的問題需要參考整個段落或事件來進(jìn)行回答。

與SQuAD2.0相比,CoQA數(shù)據(jù)集的問題要短很多(平均5.5詞),這反映了數(shù)據(jù)集中對話的特點。此外數(shù)據(jù)集中的問題還包含了更多豐富的問題和更多類型的提問方式,而SQuAD中的問題則更多的集中于問題本身。同時CoQA數(shù)據(jù)集還加入了更多的前綴、時態(tài)的變化,豐富了問答系統(tǒng)的表達(dá)。

最新進(jìn)展
去年八月公布數(shù)據(jù)集以來,CoQA引起了全球范圍內(nèi)研究者的關(guān)注,并成為了最有效的基準(zhǔn)數(shù)據(jù)集。基于它產(chǎn)生了一系列優(yōu)秀的研究工作,包括谷歌強(qiáng)大的BERT模型和微軟亞洲研究院提出的“BERT+MMFT+ADA”方案實現(xiàn)87.5%的領(lǐng)域F1和85.3%域外F1精度。不僅達(dá)到了人類的水平并超過了不久之前基準(zhǔn)模型將近20個點。我們相信在優(yōu)秀數(shù)據(jù)集的基礎(chǔ)上,好的模型還將不斷涌現(xiàn),未來可期!

HotpotQA:基于多文本的機(jī)器閱讀
為了探索世界本來的面目,我們再閱讀時不僅需要深入理解每篇文章上下文的內(nèi)容和關(guān)系,更需要搜尋多篇相關(guān)的文獻(xiàn)探求事物背后的內(nèi)在聯(lián)系。例如下面這些問題問題,我們基于從單篇材料進(jìn)行回答:
- 雅虎是在哪個州建立的?
- 斯坦福還是CMU的計算機(jī)研究人員多?
- 剛剛吃的小蛋糕需要跑步多久才能消耗掉?
雖然網(wǎng)上有豐富的資料幾乎可以幫助我們解答任何問題,但很多時候我們并不能直接搜索到需要的答案。如果我們想要知道雅虎在美國哪個州創(chuàng)立的,我們假設(shè)你就只在wiki上進(jìn)行檢索,發(fā)現(xiàn)我們沒能找到這個問題的直接答案,而僅僅發(fā)現(xiàn)了Yahoo的主頁和楊致遠(yuǎn),David Filo的介紹。為了回答這個問題,你需要在wiki上瀏覽并總結(jié)如下的分析才能回答這一問題:

通常我們將經(jīng)歷以下步驟來回答這個問題:我們首先注意到,雅虎是在斯坦福創(chuàng)建的,那么隨后我們就將問題中心轉(zhuǎn)移到斯坦福在哪。隨后在斯坦福的頁面上發(fā)現(xiàn)它坐落于加州,最后我們就將這兩個問題聯(lián)系起來得到了雅虎于加州創(chuàng)立的答案。
顯然在回答這類問題的時候我們需要具備兩種能力:尋找相關(guān)信息的檢索能力以及基于多個文檔信息進(jìn)行推理的能力。
這對于機(jī)器閱讀系統(tǒng)來說是十分重要的能力,只有具備這樣的檢索推理能力才能幫助我們從海量的信息總尋求需要的答案。
然而目前的數(shù)據(jù)集大都集中于單個文檔的理解問答,為了解決這一問題,斯坦福的研究人員們建立了另一個優(yōu)秀的數(shù)據(jù)集HotPotQA。
HotpotQA數(shù)據(jù)集的內(nèi)容
HotpotQA是一個包含十一萬三千個問答對的龐大數(shù)據(jù)集, 這一數(shù)據(jù)集的特點在于問題的答案需要結(jié)合大量的文檔進(jìn)行分析綜合,并最終基于多個事實的支撐來推理得出答案。

這一數(shù)據(jù)集中的問答來源于整個英文版的Wikipedia,覆蓋了從科學(xué)、宇宙、地理到娛樂、運(yùn)動、和法律等多樣性的內(nèi)容。其中的每一個問題都需要綜合多個文檔進(jìn)行推理而得到。例如前文雅虎的例子中,斯坦福大學(xué)就是回答問題中確實的一環(huán),我們通過尋找斯坦福的位置間接的回答了雅虎創(chuàng)立的地點。這一條推理的邏輯鏈條如下所示:

在這問答中,斯坦福大學(xué)成為了我們銜接不同知識間的橋梁和紐帶。在很多類似的問題里都會存在這里銜接不同知識的橋梁,幫助我們最終通過整合推理得到答案。
也許你會想到,我們?nèi)绻梢灾苯诱业絾栴}中的橋梁媒介那就太好了!雖然這一中介不能回答原始問題,但它可以指導(dǎo)我們進(jìn)行推理和進(jìn)一步的信息搜尋已解決問題。在Hotpot數(shù)據(jù)集中,研究人員總結(jié)出了一類新的問題類型:比較形問題,以增強(qiáng)問答系統(tǒng)的推理和語言理解能力。
例如,到底是斯坦福還是CMU的計算機(jī)研究人員多呢?為了回答這一問題,QA系統(tǒng)不僅需要檢索出相應(yīng)的材料,分別找出兩個學(xué)校計算機(jī)研究人員的數(shù)量,同時還需要對結(jié)果進(jìn)行比較以獲取最終答案。而比較對于現(xiàn)有的問答系統(tǒng)十分困難,問題中引入的數(shù)值比較、時間比較、數(shù)量甚至是算數(shù)問題的比較提高問題的復(fù)雜度和難度。
但這并不意味著前一個尋找相關(guān)材料的問題簡單。盡管在比較問題中搜索和定位支持材料較為容易,但對于需要橋梁媒介來進(jìn)行回答的問題,這一任務(wù)很可能更具挑戰(zhàn)。
基于傳統(tǒng)信息檢索方法將wiki的文章按照與問題的相關(guān)性進(jìn)行排名,研究人員發(fā)現(xiàn)需要平均檢索兩個以上的段落(黃金段落)才能找到與問題相關(guān)的答案,而在排名最高的是個段落中只能找到1.1個黃金段落。在按照相關(guān)性排序畫出的圖中,無論排序較高或者是較低的段落都呈現(xiàn)出了明顯的厚尾效應(yīng)。

具體來講,有超過80%的高排名段落可以再Top10的檢索結(jié)果中找到,而只有30%的低排名結(jié)果可以在Top10中找到。假設(shè)我們僅僅依靠閱讀相關(guān)性排名較高的文件來尋找可以回答問題的環(huán)境段落的話,我們需要閱讀近600個文本,這還不包括機(jī)器有時候無法準(zhǔn)確識別黃金段落帶來的損耗。
所以我們需要新的方法來解決這種原始的機(jī)器閱讀方法,引入推理和歸納來提升系統(tǒng)表現(xiàn),這也將為我們帶來對于海量信息更加便捷的和有效的接入。
創(chuàng)建更具解釋性的問答系統(tǒng)
問答系統(tǒng)另一個重要的需求是產(chǎn)生結(jié)果的可解釋性。一個只會簡單給出答案的問答系統(tǒng),而不能解釋或者嚴(yán)重答案的問答系統(tǒng),在某種程度上來說是無法使用的。即便是在絕大多是時候這一系統(tǒng)都給出了正確的答案,用戶在無法再無法驗證答案的情況下是不會充分信任它的。
所以HotpotQA數(shù)據(jù)集在收集過程中,標(biāo)注人員將得到答案的支撐語句標(biāo)記了出來,作為數(shù)據(jù)集的一部分為問答系統(tǒng)提供可解釋性的支持。下圖中綠色的句子作為得到答案的依據(jù)被標(biāo)注了出來。

這些依據(jù)不僅能夠幫助用戶更有效地檢查系統(tǒng)給出的答案,同時也能在很大程度上促進(jìn)系統(tǒng)更精確地尋找所期望的答案,為模型提供比先前數(shù)據(jù)集更豐富的監(jiān)督信號。
寫在最后的思考
書寫的文字中濃縮了人類最寶貴的智慧,越來越多的電子化文件將有效驅(qū)動智能問答系統(tǒng)的閱讀、推理和理解能力,超越傳統(tǒng)的模式匹配,單一文本的學(xué)習(xí)模式,并發(fā)展出具有多文件歸納、推理和理解能力的強(qiáng)大系統(tǒng)。
CoQA系統(tǒng)中一系列問題形式的數(shù)據(jù)集將有效共享多個對話之間的上下文內(nèi)容,綜合推理回答復(fù)雜的問題;HotpotQA數(shù)據(jù)集中的多文件推理和支撐依據(jù)將進(jìn)一步促進(jìn)智能問答系統(tǒng)對問題的綜合理解及可解釋性。這將促進(jìn)學(xué)界在相關(guān)方向上更為深入的研究,更多的優(yōu)秀研究和高性能模型將會不斷涌現(xiàn)。
數(shù)據(jù)是深度學(xué)習(xí)系統(tǒng),特別是問答系統(tǒng)最為重要的燃料,這兩個數(shù)據(jù)集將為投入深度學(xué)習(xí)的熔爐,推動用問答系統(tǒng)的引擎推動深度學(xué)習(xí)這艘巨輪不斷向前。
-
AI
+關(guān)注
關(guān)注
89文章
38031瀏覽量
296107 -
機(jī)器
+關(guān)注
關(guān)注
0文章
795瀏覽量
41771 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1229瀏覽量
26031
原文標(biāo)題:機(jī)器閱讀理解最新進(jìn)展:超越模式匹配,斯坦福研究員探索機(jī)器“閱讀”與“推理”的相關(guān)性
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
斯坦福開發(fā)過熱自動斷電電池
關(guān)于斯坦福的CNTFET的問題
斯坦福 CG635 供應(yīng) CG635 時鐘發(fā)生器
供應(yīng) 現(xiàn)貨 CG635 斯坦福 時鐘發(fā)生器
熱賣現(xiàn)貨 CG635 斯坦福 時鐘發(fā)生器
回收新舊 斯坦福SRS DG645 延遲發(fā)生器
DG645 斯坦福 SRS DG645 延遲發(fā)生器 現(xiàn)金回收
"現(xiàn)代愛迪生"鎳氫反應(yīng)電池發(fā)明者斯坦福逝世
斯坦福開啟以人為中心的AI計劃
2021年斯坦福關(guān)于AI的全面報告
斯坦福STANFORD FS725銣鐘
詳解《斯坦福 AI 報告 2025》:國產(chǎn)模型崛起、清華論文領(lǐng)先
斯坦福(Stanford)鎖相放大器故障修復(fù)

斯坦福NLP的強(qiáng)大QA數(shù)據(jù)集
評論