chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

騰訊AI實(shí)驗(yàn)室是如何構(gòu)建的?有什么特點(diǎn)

悟空智能科技 ? 2018-12-01 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

又一來(lái)自騰訊AI實(shí)驗(yàn)室的資源帖。騰訊AI實(shí)驗(yàn)室宣布,正式開(kāi)源一個(gè)大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù)集。該數(shù)據(jù)集包含800多萬(wàn)中文詞匯,相比現(xiàn)有的公開(kāi)數(shù)據(jù),在覆蓋率、新鮮度及準(zhǔn)確性上大幅提高。在對(duì)話回復(fù)質(zhì)量預(yù)測(cè)、醫(yī)療實(shí)體識(shí)別等自然語(yǔ)言處理方向的業(yè)務(wù)應(yīng)用方面,騰訊內(nèi)部效果提升顯著。

數(shù)據(jù)集特點(diǎn)

總體來(lái)講,騰訊AI實(shí)驗(yàn)室此次公開(kāi)的中文詞向量數(shù)據(jù)集包含800多萬(wàn)中文詞匯,其中每個(gè)詞對(duì)應(yīng)一個(gè)200維的向量。

具體方面,騰訊自稱,該數(shù)據(jù)集著重在3方面進(jìn)行了提升:

1. 覆蓋率(Coverage):

該詞向量數(shù)據(jù)包含很多現(xiàn)有公開(kāi)的詞向量數(shù)據(jù)所欠缺的短語(yǔ),比如“不念僧面念佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”為例,利用騰訊AI Lab詞向量計(jì)算出的語(yǔ)義相似詞如下:

墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河

2. 新鮮度(Freshness):

該數(shù)據(jù)包含一些最近一兩年出現(xiàn)的新詞,如“戀與制作人”、“三生三世十里桃花”、“打call”、“十動(dòng)然拒”、“供給側(cè)改革”、“因吹斯汀”等。

以“因吹斯汀”為例,利用騰訊AI Lab詞向量計(jì)算出的語(yǔ)義相似詞如下:

一顆賽艇、因吹斯聽(tīng)、城會(huì)玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說(shuō)是非常爆笑了

3. 準(zhǔn)確性(Accuracy):

由于采用了更大規(guī)模的訓(xùn)練數(shù)據(jù)和更好的訓(xùn)練算法,所生成的詞向量能夠更好地表達(dá)詞之間的語(yǔ)義關(guān)系,如下列相似詞檢索結(jié)果所示:

在開(kāi)源前,騰訊內(nèi)部經(jīng)歷了多次測(cè)評(píng),認(rèn)為該數(shù)據(jù)集相比于現(xiàn)有的公開(kāi)數(shù)據(jù),在相似度和相關(guān)度指標(biāo)上均達(dá)到了更高的分值。

數(shù)據(jù)集構(gòu)建經(jīng)驗(yàn)

那么這樣的數(shù)據(jù)集,騰訊AI實(shí)驗(yàn)室是如何構(gòu)建的呢?

他們圍繞3方面分享了構(gòu)建及優(yōu)化經(jīng)驗(yàn):

1. 語(yǔ)料采集:

訓(xùn)練詞向量的語(yǔ)料來(lái)自騰訊新聞和天天快報(bào)的新聞?wù)Z料,以及自行抓取的互聯(lián)網(wǎng)網(wǎng)頁(yè)和小說(shuō)語(yǔ)料。

大規(guī)模多來(lái)源語(yǔ)料的組合,使得所生成的詞向量數(shù)據(jù)能夠涵蓋多種類型的詞匯。

而采用新聞數(shù)據(jù)和最新網(wǎng)頁(yè)數(shù)據(jù)對(duì)新詞建模,也使得詞向量數(shù)據(jù)的新鮮度大為提升。

2. 詞庫(kù)構(gòu)建:

除了引入維基百科和百度百科的部分詞條之外,還實(shí)現(xiàn)了Shi等人于2010年提出的語(yǔ)義擴(kuò)展算法,可從海量的網(wǎng)頁(yè)數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)新詞——根據(jù)詞匯模式和超文本標(biāo)記模式,在發(fā)現(xiàn)新詞的同時(shí)計(jì)算新詞之間的語(yǔ)義相似度。

3. 訓(xùn)練算法:

騰訊AI Lab采用自研的Directional Skip-Gram (DSG)算法作為詞向量的訓(xùn)練算法。

DSG算法基于廣泛采用的詞向量訓(xùn)練算法Skip-Gram (SG),在文本窗口中詞對(duì)共現(xiàn)關(guān)系的基礎(chǔ)上,額外考慮了詞對(duì)的相對(duì)位置,以提高詞向量語(yǔ)義表示的準(zhǔn)確性。

意義

最后,表?yè)P(yáng)一下鵝廠的開(kāi)源之舉。

目前針對(duì)英語(yǔ)環(huán)境,工業(yè)界和學(xué)術(shù)界已發(fā)布了一些高質(zhì)量的詞向量數(shù)據(jù),并得到了廣泛的使用和驗(yàn)證。

其中較為知名的有谷歌公司基于word2vec算法、斯坦福大學(xué)基于GloVe算法、Facebook基于fastText項(xiàng)目發(fā)布的數(shù)據(jù)等。

然而,目前公開(kāi)可下載的中文詞向量數(shù)據(jù)還比較少,并且數(shù)據(jù)的詞匯覆蓋率有所不足,特別是缺乏很多短語(yǔ)和網(wǎng)絡(luò)新詞。

所以有資源有能力的騰訊,還有心做這樣的事情,對(duì)業(yè)界實(shí)屬利好。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41115

    瀏覽量

    302607
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1687

    瀏覽量

    51002

原文標(biāo)題:資源 | 騰訊開(kāi)源800萬(wàn)中文詞的NLP數(shù)據(jù)集

文章出處:【微信號(hào):WUKOOAI,微信公眾號(hào):悟空智能科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    新能源實(shí)驗(yàn)室可以做哪些檢測(cè)?流程是什么

    新能源實(shí)驗(yàn)室在推動(dòng)新能源汽車及相關(guān)技術(shù)的發(fā)展中扮演著至關(guān)重要的角色。這些實(shí)驗(yàn)室不僅進(jìn)行基礎(chǔ)研究和創(chuàng)新,還承擔(dān)著多種關(guān)鍵檢測(cè)任務(wù),以確保新能源汽車的安全性、性能和可靠性。新能源實(shí)驗(yàn)室的研究方向廣泛
    的頭像 發(fā)表于 04-24 15:02 ?49次閱讀
    新能源<b class='flag-5'>實(shí)驗(yàn)室</b>可以做哪些檢測(cè)?流程是什么

    中微愛(ài)芯檢測(cè)與實(shí)驗(yàn)中心正式通過(guò)CNAS國(guó)家實(shí)驗(yàn)室認(rèn)可

    3月30日,中國(guó)合格評(píng)定國(guó)家認(rèn)可委員會(huì)(CNAS)正式向無(wú)錫中微愛(ài)芯電子有限公司(以下簡(jiǎn)稱“中微愛(ài)芯”)檢測(cè)與實(shí)驗(yàn)中心頒發(fā)CNAS實(shí)驗(yàn)室認(rèn)可證書(shū)(注冊(cè)號(hào):CNAS L25597)。CNAS作為國(guó)際
    的頭像 發(fā)表于 04-16 17:25 ?843次閱讀

    致真精密儀器獲批建設(shè)智能儀器方向北京市重點(diǎn)實(shí)驗(yàn)室

    近期,由北京航空航天大學(xué)牽頭,致真精密儀器與松延動(dòng)力共同參與建設(shè)的“人工智能全自動(dòng)化實(shí)驗(yàn)室關(guān)鍵共性技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室”正式獲批。這是致真精密儀器面向人工智能賦能科學(xué)儀器和科學(xué)研究領(lǐng)域布局的關(guān)鍵一步,為構(gòu)建未來(lái)全智能化的科學(xué)儀器
    的頭像 發(fā)表于 03-30 14:04 ?496次閱讀

    禮來(lái)與NVIDIA宣布成立AI聯(lián)合創(chuàng)新實(shí)驗(yàn)室以應(yīng)對(duì)藥物研發(fā)挑戰(zhàn)

    NVIDIA 與禮來(lái)公司在今日共同宣布,將合作成立一家開(kāi)創(chuàng)性的 AI 聯(lián)合創(chuàng)新實(shí)驗(yàn)室,致力于運(yùn)用 AI 技術(shù)解決制藥行業(yè)長(zhǎng)期面臨的諸多挑戰(zhàn)。
    的頭像 發(fā)表于 01-20 09:44 ?677次閱讀

    3年10億,攜手攻堅(jiān):“AI計(jì)算開(kāi)放架構(gòu)聯(lián)合實(shí)驗(yàn)室”協(xié)同創(chuàng)新計(jì)劃正式啟動(dòng)

    在剛剛結(jié)束的光合組織2025人工智能創(chuàng)新大會(huì)(HAIC2025)上,一項(xiàng)項(xiàng)助力中國(guó)AI產(chǎn)業(yè)發(fā)展、推動(dòng)產(chǎn)業(yè)底層協(xié)同等的關(guān)鍵舉措逐一發(fā)布,包括30余家生態(tài)企業(yè)聯(lián)合發(fā)起的“AI計(jì)算開(kāi)放架構(gòu)聯(lián)合實(shí)驗(yàn)室”首批
    發(fā)表于 12-21 16:15 ?2469次閱讀
    3年10億,攜手攻堅(jiān):“<b class='flag-5'>AI</b>計(jì)算開(kāi)放架構(gòu)聯(lián)合<b class='flag-5'>實(shí)驗(yàn)室</b>”協(xié)同創(chuàng)新計(jì)劃正式啟動(dòng)

    江波龍與華曦達(dá)聯(lián)合創(chuàng)新實(shí)驗(yàn)室揭牌,共建AI存儲(chǔ)創(chuàng)新生態(tài)

    切入點(diǎn),旨在構(gòu)建覆蓋端側(cè)AI設(shè)備與智能家庭場(chǎng)景的技術(shù)驗(yàn)證體系。實(shí)驗(yàn)室秉承開(kāi)源協(xié)作理念,致力于解決存儲(chǔ)與AI終端適配中的關(guān)鍵痛點(diǎn),形成從聯(lián)合調(diào)試、場(chǎng)景驗(yàn)證到可靠性評(píng)估的全流程
    的頭像 發(fā)表于 12-05 13:36 ?1568次閱讀
    江波龍與華曦達(dá)聯(lián)合創(chuàng)新<b class='flag-5'>實(shí)驗(yàn)室</b>揭牌,共建<b class='flag-5'>AI</b>存儲(chǔ)創(chuàng)新生態(tài)

    廣凌智慧實(shí)驗(yàn)室管理系統(tǒng)技術(shù)亮點(diǎn)與功能介紹

    廣凌智慧實(shí)驗(yàn)室管理系統(tǒng)以“AI+物聯(lián)網(wǎng)”為核心,通過(guò)危險(xiǎn)源動(dòng)態(tài)管控、智能巡檢、安全準(zhǔn)入、資源調(diào)度、數(shù)據(jù)決策五大核心功能,構(gòu)建了覆蓋實(shí)驗(yàn)室全生命周期的智能化治理生態(tài)。
    的頭像 發(fā)表于 12-03 10:55 ?600次閱讀
    廣凌智慧<b class='flag-5'>實(shí)驗(yàn)室</b>管理系統(tǒng)技術(shù)亮點(diǎn)與功能介紹

    強(qiáng)強(qiáng)聯(lián)合:之江實(shí)驗(yàn)室與沐曦股份共建智算集群聯(lián)合實(shí)驗(yàn)室

    2025年10月22日, 之江實(shí)驗(yàn)室與沐曦集成電路(上海)股份有限公司(以下簡(jiǎn)稱“沐曦股份”)正式簽署合作協(xié)議,共同組建“智算集群聯(lián)合實(shí)驗(yàn)室”,攜手推進(jìn)人工智能算力基礎(chǔ)設(shè)施創(chuàng)新發(fā)展 。之江實(shí)驗(yàn)室
    的頭像 發(fā)表于 10-23 10:50 ?1558次閱讀

    Solidigm 成立AI中央實(shí)驗(yàn)室,配備高性能、大密度存儲(chǔ)測(cè)試集群

    實(shí)驗(yàn)室匯聚AI與存儲(chǔ)專業(yè)技術(shù),為Solidigm合作者提供研究和優(yōu)化存儲(chǔ)對(duì)AI工作負(fù)載影響的平臺(tái)。 2025年10月9日,北京 ——企業(yè)數(shù)據(jù)存儲(chǔ)領(lǐng)域領(lǐng)導(dǎo)者 Solidigm正式揭幕其 AI
    的頭像 發(fā)表于 10-10 17:03 ?959次閱讀

    CTI華測(cè)檢測(cè)與戴納科技簽署戰(zhàn)略合作,共建AI驅(qū)動(dòng)黑燈實(shí)驗(yàn)室

    基地完成戰(zhàn)略簽約,雙方將合作打造AI驅(qū)動(dòng)黑燈實(shí)驗(yàn)室,攻克關(guān)鍵技術(shù)瓶頸,共同推動(dòng)檢測(cè)認(rèn)證實(shí)驗(yàn)室向全面數(shù)智化及自動(dòng)化升級(jí)。 CTI華測(cè)檢測(cè)集團(tuán)總裁申屠獻(xiàn)忠在簽約儀式上表示:"本次合作是華測(cè)集團(tuán)面向未來(lái)、
    的頭像 發(fā)表于 08-28 09:48 ?746次閱讀
    CTI華測(cè)檢測(cè)與戴納科技簽署戰(zhàn)略合作,共建<b class='flag-5'>AI</b>驅(qū)動(dòng)黑燈<b class='flag-5'>實(shí)驗(yàn)室</b>

    麥捷科技與光明實(shí)驗(yàn)室開(kāi)啟AI物理交互新紀(jì)元

    麥捷科技與人工智能與數(shù)字經(jīng)濟(jì)廣東省實(shí)驗(yàn)室(深圳)(以下簡(jiǎn)稱“光明實(shí)驗(yàn)室”)“微型驅(qū)動(dòng)關(guān)節(jié)與仿生靈巧手” 聯(lián)合實(shí)驗(yàn)室揭牌儀式暨合作啟動(dòng)會(huì)在深圳市光明區(qū)科潤(rùn)大廈B 座7 樓活動(dòng)廳隆重舉行。此次活動(dòng)匯聚了雙方領(lǐng)導(dǎo)、高校專家代表,共同見(jiàn)
    的頭像 發(fā)表于 08-27 11:27 ?1596次閱讀

    高德地圖與通義實(shí)驗(yàn)室達(dá)成深度合作

    AI原生浪潮推動(dòng)下,阿里巴巴集團(tuán)旗下高德地圖與通義實(shí)驗(yàn)室宣布達(dá)成深度合作,并在近日發(fā)布的高德地圖2025版本中落地多項(xiàng)共建成果。
    的頭像 發(fā)表于 08-15 17:23 ?1797次閱讀

    Grameenphone參與愛(ài)立信與AWS Gen-AI實(shí)驗(yàn)室項(xiàng)目

    愛(ài)立信×AWS 「Gen-AI實(shí)驗(yàn)室」旨在推動(dòng)運(yùn)營(yíng)商在OSS/BSS中的AI應(yīng)用突破。通過(guò)結(jié)構(gòu)化、結(jié)果導(dǎo)向的協(xié)作方式,實(shí)驗(yàn)室將愛(ài)立信在OSS/BSS產(chǎn)品組合和行業(yè)專業(yè)知識(shí)方面的深厚積累
    的頭像 發(fā)表于 07-16 10:49 ?1.6w次閱讀

    華為智算實(shí)驗(yàn)室方案加速構(gòu)建AI4S新質(zhì)生產(chǎn)力

    為科學(xué)發(fā)現(xiàn)的核心引擎。在這場(chǎng)全球科研范式重構(gòu)的浪潮中,國(guó)家實(shí)驗(yàn)室對(duì)基礎(chǔ)設(shè)施的訴求已發(fā)生本質(zhì)性嬗變——全棧自主創(chuàng)新、數(shù)據(jù)主權(quán)保障、多模態(tài)算力融合正取代單純的算力規(guī)模,成為AI for Science落地的戰(zhàn)略支點(diǎn)。華為以“智算實(shí)驗(yàn)室
    的頭像 發(fā)表于 07-05 17:53 ?1989次閱讀
    華為智算<b class='flag-5'>實(shí)驗(yàn)室</b>方案加速<b class='flag-5'>構(gòu)建</b><b class='flag-5'>AI</b>4S新質(zhì)生產(chǎn)力

    晶科儲(chǔ)能檢測(cè)中心獲萊茵目擊實(shí)驗(yàn)室資質(zhì)

    目擊實(shí)驗(yàn)室資質(zhì)后,晶科儲(chǔ)能在國(guó)際檢測(cè)認(rèn)證領(lǐng)域的又一里程碑,標(biāo)志著其實(shí)驗(yàn)室測(cè)試能力全面覆蓋歐美核心市場(chǎng)標(biāo)準(zhǔn),為全球產(chǎn)品合規(guī)準(zhǔn)入構(gòu)建“雙通道”認(rèn)證引擎。
    的頭像 發(fā)表于 06-19 16:25 ?1118次閱讀