丁香婷婷久久综合五月天,正在播放国产绿帽男献娇妻

今天，谷歌重磅發(fā)布自然問題數(shù)據(jù)集(Natural Questions)，包含30萬個(gè)自然發(fā)生的問題和人工注釋的答案，16000個(gè)示例，并發(fā)起基于此數(shù)據(jù)集的問答系統(tǒng)挑戰(zhàn)賽。有望成為自然語言理解領(lǐng)域的SQuAD！

開放領(lǐng)域問題回答(QA)是自然語言理解(NLU)中的一項(xiàng)基準(zhǔn)任務(wù)，它的目的是模擬人類如何查找信息，通過閱讀和理解整個(gè)文檔來找到問題的答案。

比如，給定一個(gè)用自然語言表達(dá)的問題“為什么天空是藍(lán)色的?”("Why is the sky blue?”)，QA系統(tǒng)應(yīng)該能夠閱讀網(wǎng)頁(例如“天空漫射”的維基百科頁面)并返回正確的答案，即使答案有些復(fù)雜和冗長。

然而，目前還沒有可以用于訓(xùn)練和評估QA模型的大型、公開的自然發(fā)生問題(即由尋求信息的人提出的問題)和答案數(shù)據(jù)集。

這是因?yàn)闃?gòu)建用于QA任務(wù)的高質(zhì)量數(shù)據(jù)集需要大量的真實(shí)問題來源，并且需要大量人力來為這些問題尋找正確答案。

為了促進(jìn)QA領(lǐng)域的研究進(jìn)展，谷歌今天發(fā)布自然問題數(shù)據(jù)集(Natural Questions, NQ)，這是一個(gè)用于訓(xùn)練和評估開放領(lǐng)域問答系統(tǒng)的新的、大規(guī)模語料庫，也是第一個(gè)復(fù)制人類查找問題答案的端到端流程的語料庫。

Natural Questions數(shù)據(jù)集

NQ的規(guī)模非常龐大，包含30萬個(gè)自然發(fā)生的問題，以及來自Wikipedia頁面的人工注釋答案，用于訓(xùn)練QA系統(tǒng)。

此外，NQ語料庫還包含16000個(gè)示例，每個(gè)示例都由5位不同的注釋人提供答案(針對相同的問題)，這對于評估所學(xué)習(xí)的QA系統(tǒng)的性能非常有用。

Natural Questions數(shù)據(jù)集中的示例

由于回答NQ中的問題比回答瑣碎問題(這些問題對計(jì)算機(jī)來說已經(jīng)很容易解決)需要有更深入的理解，谷歌還發(fā)起了一項(xiàng)基于此數(shù)據(jù)集的挑戰(zhàn)賽，以幫助提高計(jì)算機(jī)對自然語言的理解。

NQ挑戰(zhàn)賽排行榜

NQ數(shù)據(jù)集包含307K訓(xùn)練示例、8K開發(fā)示例和8K測試示例。

目前，NQ挑戰(zhàn)賽排行榜上只有谷歌的BERT模型和DecAtt-DocReader模型的成績。在論文中，谷歌證明在長答案選擇任務(wù)上的人類的最優(yōu)成績?yōu)?7% F1，在短答案選擇任務(wù)上人類的最優(yōu)成績?yōu)?6%。

來自谷歌搜索的真實(shí)問題

NQ是第一個(gè)使用自然發(fā)生的查詢創(chuàng)建的數(shù)據(jù)集，并專注于通過閱讀整個(gè)頁面來查找答案，而不是從一個(gè)短段落中提取答案。

為了創(chuàng)建NQ，我們從用戶提交給Google搜索引擎的真實(shí)、匿名、聚合的查詢開始。

然后，我們要求注釋者通過通讀整個(gè)維基百科頁面來找到答案，就好像這個(gè)問題是他們自己提出的一樣。注釋者需要找到一個(gè)長答案和一個(gè)短答案，長答案涵蓋推斷問題所需的所有信息，短答案需要用一個(gè)或多個(gè)實(shí)體的名稱簡潔地回答問題。

對NQ語料庫的注釋質(zhì)量進(jìn)行評估，顯示準(zhǔn)確率達(dá)到90%。

注釋包含一個(gè)長答案和一個(gè)短答案

研究人員在論文《自然問題：問答研究的基準(zhǔn)》(Natural Questions: a Benchmark for Question Answering Research）中對數(shù)據(jù)收集的過程進(jìn)行了全面描述，論文已發(fā)表在《計(jì)算語言學(xué)協(xié)會會刊》(Transactions of the Association for computing Linguistics)。大家也可以在NQ網(wǎng)站上查看更多來自數(shù)據(jù)集的示例。

自然語言理解挑戰(zhàn)

NQ的目的是使QA系統(tǒng)能夠閱讀和理解完整的維基百科文章，其中可能包含問題的答案，也可能不包含問題的答案。

系統(tǒng)首先需要確定這個(gè)問題的定義是否足夠充分，是否可以回答——許多問題本身基于錯(cuò)誤的假設(shè)，或者過于模糊，無法簡明扼要地回答。

然后，系統(tǒng)需要確定維基百科頁面中是否包含推斷答案所需的所有信息。我們認(rèn)為，相比在知道長答案后在尋找短答案，長答案識別任務(wù)——找到推斷答案所需的所有信息——需要更深層次的語言理解。

我們希望NQ的發(fā)布以及相關(guān)的挑戰(zhàn)賽將有助于推動(dòng)更有效、更強(qiáng)大的QA系統(tǒng)的開發(fā)。我們鼓勵(lì)NLU社區(qū)參與進(jìn)來，并幫助縮小目前最先進(jìn)方法的性能與人類上限之間的巨大差距。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴