chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌重磅發(fā)布自然問(wèn)題數(shù)據(jù)集

電子工程師 ? 來(lái)源:cc ? 2019-01-28 15:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌重磅發(fā)布自然問(wèn)題數(shù)據(jù)集(Natural Questions),包含30萬(wàn)個(gè)自然發(fā)生的問(wèn)題和人工注釋的答案,16000個(gè)示例,并發(fā)起基于此數(shù)據(jù)集的問(wèn)答系統(tǒng)挑戰(zhàn)賽。有望成為自然語(yǔ)言理解領(lǐng)域的SQuAD!

開放領(lǐng)域問(wèn)題回答(QA)是自然語(yǔ)言理解(NLU)中的一項(xiàng)基準(zhǔn)任務(wù),它的目的是模擬人類如何查找信息,通過(guò)閱讀和理解整個(gè)文檔來(lái)找到問(wèn)題的答案。

比如,給定一個(gè)用自然語(yǔ)言表達(dá)的問(wèn)題“為什么天空是藍(lán)色的?”("Why is the sky blue?”),QA系統(tǒng)應(yīng)該能夠閱讀網(wǎng)頁(yè)(例如“天空漫射”的維基百科頁(yè)面)并返回正確的答案,即使答案有些復(fù)雜和冗長(zhǎng)。

然而,目前還沒有可以用于訓(xùn)練和評(píng)估QA模型的大型、公開的自然發(fā)生問(wèn)題(即由尋求信息的人提出的問(wèn)題)和答案數(shù)據(jù)集。

這是因?yàn)闃?gòu)建用于QA任務(wù)的高質(zhì)量數(shù)據(jù)集需要大量的真實(shí)問(wèn)題來(lái)源,并且需要大量人力來(lái)為這些問(wèn)題尋找正確答案。

為了促進(jìn)QA領(lǐng)域的研究進(jìn)展,谷歌今天發(fā)布自然問(wèn)題數(shù)據(jù)集(Natural Questions, NQ),這是一個(gè)用于訓(xùn)練和評(píng)估開放領(lǐng)域問(wèn)答系統(tǒng)的新的、大規(guī)模語(yǔ)料庫(kù),也是第一個(gè)復(fù)制人類查找問(wèn)題答案的端到端流程的語(yǔ)料庫(kù)。

Natural Questions數(shù)據(jù)集

NQ的規(guī)模非常龐大,包含30萬(wàn)個(gè)自然發(fā)生的問(wèn)題,以及來(lái)自Wikipedia頁(yè)面的人工注釋答案,用于訓(xùn)練QA系統(tǒng)。

此外,NQ語(yǔ)料庫(kù)還包含16000個(gè)示例,每個(gè)示例都由5位不同的注釋人提供答案(針對(duì)相同的問(wèn)題),這對(duì)于***的QA系統(tǒng)的性能非常有用。

Natural Questions數(shù)據(jù)集中的示例

由于回答NQ中的問(wèn)題比回答瑣碎問(wèn)題(這些問(wèn)題對(duì)計(jì)算機(jī)來(lái)說(shuō)已經(jīng)很容易解決)需要有更深入的理解,谷歌還發(fā)起了一項(xiàng)基于此數(shù)據(jù)集的挑戰(zhàn)賽,以幫助提高計(jì)算機(jī)對(duì)自然語(yǔ)言的理解。

NQ挑戰(zhàn)賽排行榜

NQ數(shù)據(jù)集包含307K訓(xùn)練示例、8K開發(fā)示例和8K測(cè)試示例。

目前,NQ挑戰(zhàn)賽排行榜上只有谷歌的BERT模型和DecAtt-DocReader模型的成績(jī)。在論文中,谷歌證明在長(zhǎng)答案選擇任務(wù)上的人類的最優(yōu)成績(jī)?yōu)?7% F1,在短答案選擇任務(wù)上人類的最優(yōu)成績(jī)?yōu)?6%。

來(lái)自谷歌搜索的真實(shí)問(wèn)題

NQ是第一個(gè)使用自然發(fā)生的查詢創(chuàng)建的數(shù)據(jù)集,并專注于通過(guò)閱讀整個(gè)頁(yè)面來(lái)查找答案,而不是從一個(gè)短段落中提取答案。

為了創(chuàng)建NQ,我們從用戶提交給Google搜索引擎的真實(shí)、匿名、聚合的查詢開始。

然后,我們要求注釋者通過(guò)通讀整個(gè)維基百科頁(yè)面來(lái)找到答案,就好像這個(gè)問(wèn)題是他們自己提出的一樣。注釋者需要找到一個(gè)長(zhǎng)答案和一個(gè)短答案,長(zhǎng)答案涵蓋推斷問(wèn)題所需的所有信息,短答案需要用一個(gè)或多個(gè)實(shí)體的名稱簡(jiǎn)潔地回答問(wèn)題。

對(duì)NQ語(yǔ)料庫(kù)的注釋質(zhì)量進(jìn)行評(píng)估,顯示準(zhǔn)確率達(dá)到90%。

注釋包含一個(gè)長(zhǎng)答案和一個(gè)短答案

研究人員在論文《自然問(wèn)題:?jiǎn)柎鹧芯康幕鶞?zhǔn)》(Natural Questions: a Benchmark for Question Answering Research)中對(duì)數(shù)據(jù)收集的過(guò)程進(jìn)行了全面描述,論文已發(fā)表在《計(jì)算語(yǔ)言學(xué)協(xié)會(huì)會(huì)刊》(Transactions of the Association for computing Linguistics)。大家也可以在NQ網(wǎng)站上查看更多來(lái)自數(shù)據(jù)集的示例。

自然語(yǔ)言理解挑戰(zhàn)

NQ的目的是使QA系統(tǒng)能夠閱讀和理解完整的維基百科文章,其中可能包含問(wèn)題的答案,也可能不包含問(wèn)題的答案。

系統(tǒng)首先需要確定這個(gè)問(wèn)題的定義是否足夠充分,是否可以回答——許多問(wèn)題本身基于錯(cuò)誤的假設(shè),或者過(guò)于模糊,無(wú)法簡(jiǎn)明扼要地回答。

然后,系統(tǒng)需要確定維基百科頁(yè)面中是否包含推斷答案所需的所有信息。我們認(rèn)為,相比在知道長(zhǎng)答案后在尋找短答案,長(zhǎng)答案識(shí)別任務(wù)——找到推斷答案所需的所有信息——需要更深層次的語(yǔ)言理解。

我們希望NQ的發(fā)布以及相關(guān)的挑戰(zhàn)賽將有助于推動(dòng)更有效、更強(qiáng)大的QA系統(tǒng)的開發(fā)。我們鼓勵(lì)NLU社區(qū)參與進(jìn)來(lái),并幫助縮小目前最先進(jìn)方法的性能與人類上限之間的巨大差距。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6241

    瀏覽量

    109992
  • 人工智能
    +關(guān)注

    關(guān)注

    1812

    文章

    49536

    瀏覽量

    259252

原文標(biāo)題:NLP新基準(zhǔn)!谷歌重磅發(fā)布開放問(wèn)答數(shù)據(jù)集,30萬(wàn)自然提問(wèn)+人工注釋答案

文章出處:【微信號(hào):aicapital,微信公眾號(hào):全球人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    偉創(chuàng)力重磅發(fā)布全球首款面向千兆瓦級(jí)數(shù)據(jù)中心的AI基礎(chǔ)設(shè)施平臺(tái)

    偉創(chuàng)力重磅發(fā)布全球首款面向千兆瓦級(jí)數(shù)據(jù)中心的AI基礎(chǔ)設(shè)施平臺(tái),平臺(tái)集成了電源和冷卻產(chǎn)品、計(jì)算能力和服務(wù),專為AI和高性能計(jì)算而設(shè)計(jì),幫助數(shù)據(jù)中心運(yùn)營(yíng)商將部署速度提升高達(dá)30%,大幅降低
    的頭像 發(fā)表于 10-23 15:08 ?280次閱讀

    匯川技術(shù)17款新品重磅發(fā)布

    今天,匯川技術(shù) 2025 年度爆品發(fā)布會(huì)以 “數(shù)自融合 軟件定義自動(dòng)化” 為主題,面向全球重磅發(fā)布。
    的頭像 發(fā)表于 09-02 15:58 ?3126次閱讀

    云訓(xùn)練平臺(tái)數(shù)據(jù)過(guò)大無(wú)法下載數(shù)據(jù)至本地怎么解決?

    起因是現(xiàn)在平臺(tái)限制了圖片數(shù)量,想要本地訓(xùn)練下載數(shù)據(jù)時(shí)發(fā)現(xiàn)只會(huì)跳出網(wǎng)絡(luò)異常的錯(cuò)誤,請(qǐng)問(wèn)這有什么解決辦法?
    發(fā)表于 07-22 06:03

    使用AICube導(dǎo)入數(shù)據(jù)點(diǎn)創(chuàng)建后提示數(shù)據(jù)不合法怎么處理?

    重現(xiàn)步驟 data目錄下 labels.txt只有英文 **錯(cuò)誤日志** 但是使用示例的數(shù)據(jù)可以完成訓(xùn)練并部署
    發(fā)表于 06-24 06:07

    數(shù)據(jù)下載失敗的原因?

    數(shù)據(jù)下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓(xùn)練報(bào)錯(cuò)網(wǎng)絡(luò)錯(cuò)誤 大的數(shù)據(jù)多大?數(shù)據(jù)量有多少?
    發(fā)表于 06-18 07:04

    百度地圖重磅發(fā)布地圖AI開放平臺(tái)

    近日,在WGDC25全球時(shí)空智能大會(huì)上,百度地圖重磅發(fā)布地圖AI開放平臺(tái)。百度地圖深耕20年的數(shù)據(jù)能力、引擎能力與AI技術(shù)全面開放,向開發(fā)者深度開放四大核心能力和五大場(chǎng)景解決方案。
    的頭像 發(fā)表于 05-26 11:26 ?1230次閱讀

    重磅更新 | 先楫半導(dǎo)體HPM_APPS v1.9.0發(fā)布

    重磅更新 | 先楫半導(dǎo)體HPM_APPS v1.9.0發(fā)布
    的頭像 發(fā)表于 05-13 11:29 ?1148次閱讀
    <b class='flag-5'>重磅</b>更新 | 先楫半導(dǎo)體HPM_APPS v1.9.0<b class='flag-5'>發(fā)布</b>

    谷歌發(fā)布混合量子模擬方法

    據(jù)外媒報(bào)道,谷歌發(fā)布了一種混合量子模擬方法;論文已經(jīng)在Nature正式發(fā)表,谷歌混合量子模擬器的核心在于將模擬和數(shù)字技術(shù)相結(jié)合;是全新的模擬-數(shù)字方案,可在保持速度的同時(shí)增強(qiáng)可控制性,這一方案顛覆了
    的頭像 發(fā)表于 04-22 17:17 ?589次閱讀

    請(qǐng)問(wèn)NanoEdge AI數(shù)據(jù)該如何構(gòu)建?

    我想用NanoEdge來(lái)識(shí)別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數(shù)據(jù)的問(wèn)題,請(qǐng)問(wèn)我該怎么構(gòu)建數(shù)據(jù)?或者生成模型失敗還會(huì)有哪些原因?
    發(fā)表于 03-10 08:20

    破解OPC難題: 宏DataHub OPC隧道技術(shù)助力生產(chǎn)線高效運(yùn)行

    Xedge Slim緊湊型工業(yè)PC重磅發(fā)布!更緊湊,更高效,靈活適配邊緣計(jì)算、遠(yuǎn)程監(jiān)控與維護(hù)、設(shè)備數(shù)據(jù)集成等多種應(yīng)用場(chǎng)景。
    的頭像 發(fā)表于 01-10 14:56 ?688次閱讀
    破解OPC難題: 宏<b class='flag-5'>集</b>DataHub OPC隧道技術(shù)助力生產(chǎn)線高效運(yùn)行

    精于緊湊,強(qiáng)于性能—宏Xedge Slim工業(yè)PC有何不同?

    Xedge Slim緊湊型工業(yè)PC重磅發(fā)布!更緊湊,更高效,靈活適配邊緣計(jì)算、遠(yuǎn)程監(jiān)控與維護(hù)、設(shè)備數(shù)據(jù)集成等多種應(yīng)用場(chǎng)景。
    的頭像 發(fā)表于 01-10 14:53 ?559次閱讀
    精于緊湊,強(qiáng)于性能—宏<b class='flag-5'>集</b>Xedge Slim工業(yè)PC有何不同?

    谷歌在芬蘭購(gòu)地?cái)U(kuò)建云計(jì)算與數(shù)據(jù)中心

    谷歌公司近日發(fā)布聲明,宣布在芬蘭卡亞尼和穆霍斯兩地購(gòu)買土地,作為其擴(kuò)建云計(jì)算和數(shù)據(jù)中心基礎(chǔ)設(shè)施計(jì)劃的重要一步。此次購(gòu)地行動(dòng)標(biāo)志著谷歌在芬蘭的投資進(jìn)一步加深。 據(jù)芬蘭農(nóng)業(yè)和林業(yè)部透露,
    的頭像 發(fā)表于 12-04 11:38 ?794次閱讀

    itel全品類創(chuàng)新產(chǎn)品重磅發(fā)布

    近日,itel 在印度尼西亞雅加達(dá)成功舉辦全品類新品發(fā)布會(huì),以“Elegance in Excellence”為主題,重磅發(fā)布itel S25系列新品、itel首款Smart Ring、旗艦商務(wù)平板VistaTab 30Pro、
    的頭像 發(fā)表于 11-14 10:43 ?1551次閱讀

    谷歌計(jì)劃12月發(fā)布Gemini 2.0模型

    近日,有消息稱谷歌計(jì)劃在12月發(fā)布其下一代人工智能模型——Gemini 2.0。這一消息引發(fā)了業(yè)界的廣泛關(guān)注,因?yàn)?b class='flag-5'>谷歌在人工智能領(lǐng)域一直保持著領(lǐng)先地位,而Gemini系列模型更是其重要的產(chǎn)品之一。
    的頭像 發(fā)表于 10-29 11:02 ?1331次閱讀