chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

騰訊AI實(shí)驗(yàn)室是如何構(gòu)建的?有什么特點(diǎn)

悟空智能科技 ? 2018-12-01 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

又一來自騰訊AI實(shí)驗(yàn)室的資源帖。騰訊AI實(shí)驗(yàn)室宣布,正式開源一個(gè)大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù)集。該數(shù)據(jù)集包含800多萬中文詞匯,相比現(xiàn)有的公開數(shù)據(jù),在覆蓋率、新鮮度及準(zhǔn)確性上大幅提高。在對(duì)話回復(fù)質(zhì)量預(yù)測(cè)、醫(yī)療實(shí)體識(shí)別等自然語(yǔ)言處理方向的業(yè)務(wù)應(yīng)用方面,騰訊內(nèi)部效果提升顯著。

數(shù)據(jù)集特點(diǎn)

總體來講,騰訊AI實(shí)驗(yàn)室此次公開的中文詞向量數(shù)據(jù)集包含800多萬中文詞匯,其中每個(gè)詞對(duì)應(yīng)一個(gè)200維的向量。

具體方面,騰訊自稱,該數(shù)據(jù)集著重在3方面進(jìn)行了提升:

1. 覆蓋率(Coverage):

該詞向量數(shù)據(jù)包含很多現(xiàn)有公開的詞向量數(shù)據(jù)所欠缺的短語(yǔ),比如“不念僧面念佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”為例,利用騰訊AI Lab詞向量計(jì)算出的語(yǔ)義相似詞如下:

墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河

2. 新鮮度(Freshness):

該數(shù)據(jù)包含一些最近一兩年出現(xiàn)的新詞,如“戀與制作人”、“三生三世十里桃花”、“打call”、“十動(dòng)然拒”、“供給側(cè)改革”、“因吹斯汀”等。

以“因吹斯汀”為例,利用騰訊AI Lab詞向量計(jì)算出的語(yǔ)義相似詞如下:

一顆賽艇、因吹斯聽、城會(huì)玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了

3. 準(zhǔn)確性(Accuracy):

由于采用了更大規(guī)模的訓(xùn)練數(shù)據(jù)和更好的訓(xùn)練算法,所生成的詞向量能夠更好地表達(dá)詞之間的語(yǔ)義關(guān)系,如下列相似詞檢索結(jié)果所示:

在開源前,騰訊內(nèi)部經(jīng)歷了多次測(cè)評(píng),認(rèn)為該數(shù)據(jù)集相比于現(xiàn)有的公開數(shù)據(jù),在相似度和相關(guān)度指標(biāo)上均達(dá)到了更高的分值。

數(shù)據(jù)集構(gòu)建經(jīng)驗(yàn)

那么這樣的數(shù)據(jù)集,騰訊AI實(shí)驗(yàn)室是如何構(gòu)建的呢?

他們圍繞3方面分享了構(gòu)建及優(yōu)化經(jīng)驗(yàn):

1. 語(yǔ)料采集:

訓(xùn)練詞向量的語(yǔ)料來自騰訊新聞和天天快報(bào)的新聞?wù)Z料,以及自行抓取的互聯(lián)網(wǎng)網(wǎng)頁(yè)和小說語(yǔ)料。

大規(guī)模多來源語(yǔ)料的組合,使得所生成的詞向量數(shù)據(jù)能夠涵蓋多種類型的詞匯。

而采用新聞數(shù)據(jù)和最新網(wǎng)頁(yè)數(shù)據(jù)對(duì)新詞建模,也使得詞向量數(shù)據(jù)的新鮮度大為提升。

2. 詞庫(kù)構(gòu)建:

除了引入維基百科和百度百科的部分詞條之外,還實(shí)現(xiàn)了Shi等人于2010年提出的語(yǔ)義擴(kuò)展算法,可從海量的網(wǎng)頁(yè)數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)新詞——根據(jù)詞匯模式和超文本標(biāo)記模式,在發(fā)現(xiàn)新詞的同時(shí)計(jì)算新詞之間的語(yǔ)義相似度。

3. 訓(xùn)練算法:

騰訊AI Lab采用自研的Directional Skip-Gram (DSG)算法作為詞向量的訓(xùn)練算法。

DSG算法基于廣泛采用的詞向量訓(xùn)練算法Skip-Gram (SG),在文本窗口中詞對(duì)共現(xiàn)關(guān)系的基礎(chǔ)上,額外考慮了詞對(duì)的相對(duì)位置,以提高詞向量語(yǔ)義表示的準(zhǔn)確性。

意義

最后,表?yè)P(yáng)一下鵝廠的開源之舉。

目前針對(duì)英語(yǔ)環(huán)境,工業(yè)界和學(xué)術(shù)界已發(fā)布了一些高質(zhì)量的詞向量數(shù)據(jù),并得到了廣泛的使用和驗(yàn)證。

其中較為知名的有谷歌公司基于word2vec算法、斯坦福大學(xué)基于GloVe算法、Facebook基于fastText項(xiàng)目發(fā)布的數(shù)據(jù)等。

然而,目前公開可下載的中文詞向量數(shù)據(jù)還比較少,并且數(shù)據(jù)的詞匯覆蓋率有所不足,特別是缺乏很多短語(yǔ)和網(wǎng)絡(luò)新詞。

所以有資源有能力的騰訊,還有心做這樣的事情,對(duì)業(yè)界實(shí)屬利好。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279979
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1678

    瀏覽量

    50303

原文標(biāo)題:資源 | 騰訊開源800萬中文詞的NLP數(shù)據(jù)集

文章出處:【微信號(hào):WUKOOAI,微信公眾號(hào):悟空智能科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華為智算實(shí)驗(yàn)室方案加速構(gòu)建AI4S新質(zhì)生產(chǎn)力

    為科學(xué)發(fā)現(xiàn)的核心引擎。在這場(chǎng)全球科研范式重構(gòu)的浪潮中,國(guó)家實(shí)驗(yàn)室對(duì)基礎(chǔ)設(shè)施的訴求已發(fā)生本質(zhì)性嬗變——全棧自主創(chuàng)新、數(shù)據(jù)主權(quán)保障、多模態(tài)算力融合正取代單純的算力規(guī)模,成為AI for Science落地的戰(zhàn)略支點(diǎn)。華為以“智算實(shí)驗(yàn)室
    的頭像 發(fā)表于 07-05 17:53 ?890次閱讀
    華為智算<b class='flag-5'>實(shí)驗(yàn)室</b>方案加速<b class='flag-5'>構(gòu)建</b><b class='flag-5'>AI</b>4S新質(zhì)生產(chǎn)力

    實(shí)驗(yàn)室安全管理成焦點(diǎn),漢威科技賦能實(shí)驗(yàn)室安全升級(jí)

    實(shí)驗(yàn)室是國(guó)家科技創(chuàng)新體系的重要組成部分,是國(guó)家組織高水平基礎(chǔ)研究和應(yīng)用基礎(chǔ)研究、聚集和培養(yǎng)優(yōu)秀科學(xué)家、開展學(xué)術(shù)交流的重要基地。近年來,各高校、研究院所、科創(chuàng)園區(qū)、高新產(chǎn)業(yè)園區(qū)相關(guān)企業(yè)的實(shí)驗(yàn)室呈現(xiàn)爆發(fā)
    的頭像 發(fā)表于 04-10 10:41 ?415次閱讀
    <b class='flag-5'>實(shí)驗(yàn)室</b>安全管理成焦點(diǎn),漢威科技賦能<b class='flag-5'>實(shí)驗(yàn)室</b>安全升級(jí)

    達(dá)實(shí)智能“AI+物聯(lián)網(wǎng)”開放實(shí)驗(yàn)室啟動(dòng)

    近日,“AI+物聯(lián)網(wǎng)”開放實(shí)驗(yàn)室于達(dá)實(shí)智能大廈正式啟動(dòng)。開放實(shí)驗(yàn)室項(xiàng)目由深圳市科學(xué)技術(shù)協(xié)會(huì)、南山區(qū)科學(xué)技術(shù)協(xié)會(huì)作為指導(dǎo)單位;深圳達(dá)實(shí)智能股份有限公司為發(fā)起單位,首批9家共建單位入駐。
    的頭像 發(fā)表于 03-19 16:43 ?562次閱讀

    愛立信成立認(rèn)知實(shí)驗(yàn)室

    愛立信近日宣布成立Ericsson Cognitive Labs認(rèn)知實(shí)驗(yàn)室
    的頭像 發(fā)表于 02-19 10:09 ?7599次閱讀

    NVIDIA推出DRIVE AI安全檢測(cè)實(shí)驗(yàn)室

    全新 NVIDIA 實(shí)驗(yàn)室獲得美國(guó)國(guó)家標(biāo)準(zhǔn)學(xué)會(huì)國(guó)家認(rèn)可委員會(huì)(ANAB)的認(rèn)證,可執(zhí)行自動(dòng)駕駛汽車的功能安全、網(wǎng)絡(luò)安全和 AI 檢測(cè)。
    的頭像 發(fā)表于 01-09 16:01 ?682次閱讀

    湖畔實(shí)驗(yàn)室發(fā)布2024年度創(chuàng)新成果

    近日,湖畔實(shí)驗(yàn)室(數(shù)據(jù)科學(xué)與應(yīng)用浙江省實(shí)驗(yàn)室)在年度大會(huì)上發(fā)布了多項(xiàng)令人矚目的創(chuàng)新成果,涵蓋AI多癌早篩、氣象大模型等多個(gè)領(lǐng)域。這些成果不僅展示了實(shí)驗(yàn)室在前沿
    的頭像 發(fā)表于 12-23 11:18 ?655次閱讀

    梯度科技成為AI Cloud MSP技術(shù)服務(wù)實(shí)驗(yàn)室首批成員單位

    近日,2024全球數(shù)字經(jīng)濟(jì)大會(huì)云·AI·計(jì)算國(guó)際合作論壇成功召開。會(huì)上,公布了AI Cloud MSP技術(shù)服務(wù)實(shí)驗(yàn)室首批成員單位,梯度科技憑借在人工智能云管理服務(wù)領(lǐng)域的卓越實(shí)力成為AI
    的頭像 發(fā)表于 12-18 10:07 ?714次閱讀

    創(chuàng)夢(mèng)天地與騰訊云攜手成立聯(lián)合創(chuàng)新實(shí)驗(yàn)室

    成立聯(lián)合創(chuàng)新實(shí)驗(yàn)室,旨在深化并拓展雙方在游戲研發(fā)中的合作。 根據(jù)協(xié)議,聯(lián)合創(chuàng)新實(shí)驗(yàn)室將圍繞“AI助力游戲研發(fā)提質(zhì)增效”這一主題展開工作。雙方將在已有的AI代碼助手、
    的頭像 發(fā)表于 11-21 13:58 ?980次閱讀

    LIMS系統(tǒng)在芯片實(shí)驗(yàn)室中的應(yīng)用

    在高速發(fā)展的芯片行業(yè)中,芯片實(shí)驗(yàn)室作為技術(shù)創(chuàng)新和產(chǎn)品驗(yàn)證的核心部門,面臨著諸多挑戰(zhàn)與問題。這些問題不僅影響了實(shí)驗(yàn)室的工作效率,還可能對(duì)芯片產(chǎn)品的質(zhì)量和研發(fā)周期產(chǎn)生不利影響。幸運(yùn)的是,LIMS系統(tǒng)
    的頭像 發(fā)表于 11-07 17:59 ?828次閱讀

    深圳南柯電子 電磁兼容性EMC實(shí)驗(yàn)室構(gòu)建與測(cè)試的關(guān)鍵要素

    深圳南柯電子|電磁兼容性EMC實(shí)驗(yàn)室構(gòu)建與測(cè)試的關(guān)鍵要素
    的頭像 發(fā)表于 11-05 14:53 ?673次閱讀
    深圳南柯電子 電磁兼容性EMC<b class='flag-5'>實(shí)驗(yàn)室</b>:<b class='flag-5'>構(gòu)建</b>與測(cè)試的關(guān)鍵要素

    LIMS實(shí)驗(yàn)室管理平臺(tái)的實(shí)施步驟

    實(shí)驗(yàn)室信息管理系統(tǒng)(LIMS)是現(xiàn)代實(shí)驗(yàn)室管理的核心,它通過集成各種實(shí)驗(yàn)室操作流程,提高實(shí)驗(yàn)室的工作效率和數(shù)據(jù)管理能力。實(shí)施LIMS系統(tǒng)是一個(gè)系統(tǒng)化的過程,需要精心規(guī)劃和執(zhí)行。以下是實(shí)
    的頭像 發(fā)表于 10-29 09:10 ?1247次閱讀

    實(shí)驗(yàn)室數(shù)據(jù)管理與LIMS平臺(tái)的關(guān)系

    實(shí)驗(yàn)室數(shù)據(jù)管理(Laboratory Data Management)是指對(duì)實(shí)驗(yàn)室產(chǎn)生的數(shù)據(jù)進(jìn)行收集、存儲(chǔ)、處理、分析和報(bào)告的過程。這包括了樣品的接收、測(cè)試結(jié)果的記錄、質(zhì)量控制數(shù)據(jù)的跟蹤以及最終報(bào)告
    的頭像 發(fā)表于 10-28 18:10 ?923次閱讀

    如何選擇合適的LIMS實(shí)驗(yàn)室管理軟件

    選擇合適的實(shí)驗(yàn)室信息管理系統(tǒng)(LIMS)對(duì)于確保實(shí)驗(yàn)室的效率、準(zhǔn)確性和合規(guī)性至關(guān)重要。 需求分析 : 確定實(shí)驗(yàn)室的具體需求,包括測(cè)試類型、樣品管理、數(shù)據(jù)報(bào)告、分析方法、質(zhì)量控制等。 考慮實(shí)驗(yàn)室
    的頭像 發(fā)表于 10-28 16:56 ?973次閱讀

    榮耀與智譜攜手共建AI大模型聯(lián)合實(shí)驗(yàn)室

    近日,榮耀終端有限公司與北京智譜華章科技有限公司正式攜手,共同宣布成立AI大模型技術(shù)聯(lián)合實(shí)驗(yàn)室,并簽署了戰(zhàn)略合作協(xié)議。此次合作標(biāo)志著雙方在人工智能領(lǐng)域的深度合作邁入新階段,共同致力于為用戶帶來前所未有的智能體驗(yàn)。
    的頭像 發(fā)表于 09-03 18:15 ?1335次閱讀

    中軟國(guó)際金融AI實(shí)驗(yàn)室成立 引領(lǐng)金融科技新動(dòng)力

    進(jìn)程的新里程碑。 推動(dòng)金融智能化? 中軟國(guó)際金融AI實(shí)驗(yàn)室的使命是通過 AICC 人工智能客戶聯(lián)絡(luò)中心構(gòu)建的金融解決方案,驅(qū)動(dòng)下一代金融呼叫中心的企業(yè)工作流程。實(shí)驗(yàn)室致力于在金融領(lǐng)域推
    的頭像 發(fā)表于 08-01 18:49 ?1350次閱讀