chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Byte Cup 2018國際機器學(xué)習(xí)競賽奪冠記

IEEE電氣電子工程師 ? 來源:lq ? 2019-02-14 09:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

9月份,我們兩位同學(xué)一起組隊,參加Byte Cup 2018國際機器學(xué)習(xí)競賽。本次比賽由中國人工智能學(xué)會和字節(jié)跳動主辦,IEEE中國代表處聯(lián)合組織。比賽的任務(wù)是文章標題自動生成。最終,我們隊伍獲得了第一名。

1.比賽介紹

本次比賽的任務(wù)是給定文章文本內(nèi)容,自動生成標題。本質(zhì)上和文本摘要任務(wù)比較類似。本次比賽有100多萬篇文章的訓(xùn)練數(shù)據(jù)。

1.1數(shù)據(jù)介紹

詳細參見:https://biendata.com/competition/bytecup2018/data/。

本次競賽使用的訓(xùn)練集包括了約130萬篇文本的信息,驗證集1000篇文章,

測試集800篇文章。

1.2數(shù)據(jù)處理

文章去重,訓(xùn)練數(shù)據(jù)中包含一些重復(fù)數(shù)據(jù),清洗,去重;

清洗非英文文章。

1.3評價指標

本次比賽將使用Rouge(Recall-Oriented Understudy for Gisting Evaluation)作為模型評估度量。Rough是評估自動文摘以及機器翻譯的常見指標。它通過將自動生成的文本與人工生成的文本(即參考文本)進行比較,根據(jù)相似度得出分值。

2.模型介紹

本次比賽主要嘗試了seq2seq的方法。參考的模型包括Transformer模型和pointer-generator模型。

模型如下圖:

(其實就是將pointer-generator的copy機制加到transformer模型上)。

同時,嘗試了將ner-tagger和pos-tagger信息加入到模型中,如下圖所示:

3.問題分析

最開始我們嘗試了最基本的transformer模型,通過查看數(shù)據(jù),遇到以下幾類明顯錯誤:

OOV(out of vocabulary);

數(shù)字,人名,地名預(yù)測錯誤;

詞形預(yù)測錯誤。

OOV問題,主要原因是數(shù)據(jù)集詞表太大,但是,模型能夠?qū)嶋H使用的詞表較??;數(shù)字,人名,地名預(yù)測錯誤,主要原因是低頻詞embedding學(xué)習(xí)不充分;詞形預(yù)測錯誤,主要原因是模型中沒有考慮詞的形態(tài)問題(當(dāng)然,如果訓(xùn)練數(shù)據(jù)足夠大,是能避免這個問題的)。

為了解決這些問題,我們嘗試了以下方法。

4.重要組件

4.1copy機制

對于很多低頻詞,通過生成式方法生成,其實是很不靠譜的。為此,我們借鑒Pointer-generator的方法,在生成標題的單詞的時候,通過Attention的概率分布,從原文中拷貝詞。

4.2subword

為了避免oov問題,我們采用subword的方法,處理文本。這樣,可以將詞表大小減小到20k,同時,subword會包含一些單詞詞形結(jié)構(gòu)的信息。

4.3ner-tagger和pos-tagger信息

因為baseline在數(shù)字,人名,地名,詞形上預(yù)測錯誤率較高,所以我們考慮能不能將ner-tagger和pos-tagger信息加入到模型中。如上圖所示。實驗證明通過加入這兩個序列信息能夠大大加快模型的收斂速度(訓(xùn)練收斂后,指標上基本沒差異)。

4.4Gradient Accumulation

在實驗過程中,我們發(fā)現(xiàn)transformer模型對batch_size非常敏感。之前,有研究者在機器翻譯任務(wù)中,通過實驗也證明了這一觀點。然而,對于文章標題生成任務(wù),因為每個sample的文章長度較長,所以,并不能使用超大batch_size來訓(xùn)練模型,所以,我們用Gradient Accumulation的方法模擬超大batch_size。

4.5ensemble

采用了兩層融合。第一層,對于每一個模型,將訓(xùn)練最后保存的N個模型參數(shù)求平均值(在valid集上選擇最好的N)。第二層,通過不同隨機種子得到的兩個模型,一個作為生成候選標題模型(選擇不同的beam_width, length_penalty), 一個作為打分模型,將候選標題送到模型打分,選擇分數(shù)最高的標題。

5.失敗的方法

將copy機制加入到transformer遇到一些問題,我們直接在decoder倒數(shù)第二層加了一層Attention層作為copy機制需要的概率分布,訓(xùn)練模型非常不穩(wěn)定,并且結(jié)果比baseline還要差很多;

我們嘗試了bert,我們將bert-encoder抽出的feature拼接到我們模型的encoder的最后一層,結(jié)果并沒有得到提升;

word-embedding的選擇,我們使用glove和fasttext等預(yù)訓(xùn)練的詞向量,模型收斂速度加快,但是,結(jié)果并沒有random的方法好。

6.結(jié)束語

非常感謝主辦方舉辦本次比賽,通過本次比賽,我們探索,學(xué)習(xí)到了很多算法方法和調(diào)參技巧。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249660
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    140

    瀏覽量

    15199
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25459

原文標題:Byte Cup 2018國際機器學(xué)習(xí)競賽奪冠記

文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機器學(xué)習(xí)模型市場前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學(xué)習(xí)模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?365次閱讀

    嵌入式機器學(xué)習(xí)的應(yīng)用特性與軟件開發(fā)環(huán)境

    作者:DigiKey Editor 在許多嵌入式系統(tǒng)中,必須采用嵌入式機器學(xué)習(xí)(Embedded Machine Learning)技術(shù),這是指將機器學(xué)習(xí)模型部署在資源受限的設(shè)備(如微
    的頭像 發(fā)表于 01-25 17:05 ?668次閱讀
    嵌入式<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>的應(yīng)用特性與軟件開發(fā)環(huán)境

    傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機器
    的頭像 發(fā)表于 12-30 09:16 ?1194次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    云天勵飛助力國際青少年機器競賽IYRC圓滿落幕

    近日,由云天勵飛與華嶺韓端共同主辦的第十二屆IYRC青少年數(shù)字創(chuàng)意機器國際邀請展示活動暨2024開源鴻蒙數(shù)字創(chuàng)意文化產(chǎn)業(yè)高峰論壇在深圳舉行。
    的頭像 發(fā)表于 12-26 10:39 ?639次閱讀

    如何選擇云原生機器學(xué)習(xí)平臺

    當(dāng)今,云原生機器學(xué)習(xí)平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生機器
    的頭像 發(fā)表于 12-25 11:54 ?459次閱讀

    螞蟻數(shù)科與浙大團隊榮獲NeurIPS競賽冠軍

    近日,在機器學(xué)習(xí)領(lǐng)域的頂級國際會議NeurIPS的特設(shè)競賽中,螞蟻數(shù)科旗下的摩斯聯(lián)合浙江大學(xué)計算機體系結(jié)構(gòu)實驗室陳文智、魏成坤團隊組成的“Morse ARCLab”參賽隊伍憑借出色的表
    的頭像 發(fā)表于 11-26 10:27 ?889次閱讀

    什么是機器學(xué)習(xí)?通過機器學(xué)習(xí)方法能解決哪些問題?

    來源:Master編程樹“機器學(xué)習(xí)”最初的研究動機是讓計算機系統(tǒng)具有人的學(xué)習(xí)能力以便實現(xiàn)人工智能。因為沒有學(xué)習(xí)能力的系統(tǒng)很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?967次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    NPU與機器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機器學(xué)習(xí)算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)機器
    的頭像 發(fā)表于 11-15 09:19 ?1230次閱讀

    電子設(shè)計競賽準備經(jīng)歷分享

    在我大學(xué)生涯中,參加電子設(shè)計競賽無疑是一段難忘且充滿挑戰(zhàn)的經(jīng)歷。從最初的迷茫與不安,到最終的收獲與成長,這段旅程讓我深刻體會到了團隊合作的力量,以及不斷學(xué)習(xí)與探索的重要性。以下是我個人參加電子設(shè)計競賽的準備經(jīng)歷,希望能為即將參賽
    的頭像 發(fā)表于 11-06 10:49 ?616次閱讀
    電子設(shè)計<b class='flag-5'>競賽</b>準備經(jīng)歷分享

    具身智能與機器學(xué)習(xí)的關(guān)系

    具身智能(Embodied Intelligence)和機器學(xué)習(xí)(Machine Learning)是人工智能領(lǐng)域的兩個重要概念,它們之間存在著密切的關(guān)系。 1. 具身智能的定義 具身智能是指智能體
    的頭像 發(fā)表于 10-27 10:33 ?1052次閱讀

    人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設(shè)備。AI有很多技術(shù),但其中一個很大的子集是機器學(xué)習(xí)——讓算法從數(shù)據(jù)中學(xué)習(xí)
    發(fā)表于 10-24 17:22 ?2982次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>存在什么區(qū)別

    入門?畢設(shè)?競賽?項目練手?STM32/嵌入式/物聯(lián)網(wǎng)學(xué)習(xí),有這幾款開發(fā)板就夠了!

    、項目練手、創(chuàng)新競賽、技能認證等。01STM32入門+項目進階學(xué)習(xí)適用場合高校教學(xué)、學(xué)生畢設(shè)、個人學(xué)習(xí)、項目練手、創(chuàng)新競賽、技術(shù)認證可學(xué)習(xí)
    的頭像 發(fā)表于 10-10 16:31 ?1131次閱讀
    入門?畢設(shè)?<b class='flag-5'>競賽</b>?項目練手?STM32/嵌入式/物聯(lián)網(wǎng)<b class='flag-5'>學(xué)習(xí)</b>,有這幾款開發(fā)板就夠了!

    AMD贊助多支FIRST機器競賽團隊

    AMD 在 2024 賽季贊助了多支 FIRST 機器競賽團隊。FIRST 機器競賽旨在教導(dǎo)高中生如何構(gòu)建能夠執(zhí)行特定任務(wù)的機器人,同時
    的頭像 發(fā)表于 09-18 09:45 ?882次閱讀

    【「時間序列與機器學(xué)習(xí)」閱讀體驗】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學(xué)習(xí)融合應(yīng)用的宏偉藍圖。作者不僅扎實地構(gòu)建了時間序列分析的基礎(chǔ)知識,更巧妙地展示了機器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21

    TE Connectivity AI Cup 第五屆全球競賽結(jié)果揭曉 中國高校團隊連續(xù)兩年奪得桂冠

    中國上海 - 2024 年 7 月 31 日 - 近日,由全球行業(yè)技術(shù)領(lǐng)先企業(yè)TE Connectivity(以下簡稱“TE”)主辦的TE AI Cup第五屆全球競賽圓滿收官。來自華南農(nóng)業(yè)大學(xué)
    發(fā)表于 08-01 14:39 ?2669次閱讀
    TE Connectivity AI <b class='flag-5'>Cup</b> 第五屆全球<b class='flag-5'>競賽</b>結(jié)果揭曉 中國高校團隊連續(xù)兩年奪得桂冠