4月1 日, 亞馬遜宣布:他們計(jì)劃向公眾公開“Topical Chat”數(shù)據(jù)集,超410萬(wàn)單詞21萬(wàn)句子的語(yǔ)料庫(kù)將于2019年9月17日發(fā)布。
該數(shù)據(jù)集是為參加Alexa Prize Socialbot Grand Challenge 3競(jìng)賽的團(tuán)隊(duì)開發(fā)的,申請(qǐng)截止日期為2019年5月14日,比賽于2019年9月9日開始。所有參加Alexa Prize競(jìng)賽的團(tuán)隊(duì)將可以訪問此數(shù)據(jù)集的擴(kuò)展版本(擴(kuò)展主題聊天數(shù)據(jù)集),其中包括正在進(jìn)行的集合和注釋的結(jié)果。
主題聊天數(shù)據(jù)集將包含超過210,000個(gè)句子(超過4,100,000個(gè)單詞),可支持高質(zhì)量,可重復(fù)的研究,將成為研究界公開可用的最大社交對(duì)話和知識(shí)數(shù)據(jù)集。
每個(gè)語(yǔ)料庫(kù)的對(duì)話和對(duì)話輪次與提供給眾包工作者的知識(shí)相關(guān)聯(lián),并且所述知識(shí)是從與一組實(shí)體相關(guān)的一系列“非結(jié)構(gòu)化”和“松散結(jié)構(gòu)化”的文本資源中收集的。
亞馬遜高級(jí)首席科學(xué)家Dilek Hakkani-Tur在博客文章中明確表示,沒有任何語(yǔ)料是與Alexa客戶的互動(dòng)。
該數(shù)據(jù)庫(kù)是實(shí)現(xiàn)基于知識(shí)的神經(jīng)反應(yīng)生成系統(tǒng)的后續(xù)研究,解決其他公開數(shù)據(jù)集無(wú)法解決的自然對(duì)話中的難題。這將使研究者可以專注于研究對(duì)話中主題和知識(shí)選擇方面的轉(zhuǎn)換,以及如何在對(duì)話中融入事實(shí)和觀點(diǎn)。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25449 -
亞馬遜
+關(guān)注
關(guān)注
8文章
2696瀏覽量
84683
原文標(biāo)題:亞馬遜將公布超過最大會(huì)話和知識(shí)數(shù)據(jù)集,超400萬(wàn)字
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
微軟開源GitHub Copilot Chat,AI編程迎來(lái)新突破

Krea發(fā)布Deepseek R1驅(qū)動(dòng)的Chat功能
lmp91200集成的spi沒有MISO,控制器向它寫命令不會(huì)返回數(shù)據(jù)是哪里出了問題?
亞馬遜云科技發(fā)布全新數(shù)據(jù)中心組件
亞馬遜將推出最新人工智能芯片
亞馬遜云未來(lái)五年將在意大利投資12億歐元
OpenAI收購(gòu)chat.com,強(qiáng)化ChatGPT品牌
亞馬遜基于人工智能的Alexa發(fā)布計(jì)劃延期至明年
Lumen將AI光纖交易鏈接亞馬遜數(shù)據(jù)中心
亞馬遜逐步關(guān)閉Amazon Today服務(wù)
亞馬遜云與阿聯(lián)酋電訊公司簽署10億美元合作協(xié)議
亞馬遜云科技正式推出全球通行計(jì)劃 助力軟件企業(yè)加速增長(zhǎng)和國(guó)際化拓展
亞馬遜斥資80億英鎊擴(kuò)建英國(guó)數(shù)據(jù)中心
亞馬遜云科技啟動(dòng)"智能家居與智能產(chǎn)品創(chuàng)新加速計(jì)劃"

亞馬遜云科技啟動(dòng)“智能家居與智能產(chǎn)品創(chuàng)新加速計(jì)劃”

評(píng)論