chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)與機器閱讀

倩倩 ? 來源:lq ? 作者:讀芯術(shù) ? 2019-09-20 16:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

不到現(xiàn)場,照樣看最干貨的學(xué)術(shù)報告!嗨,大家好。這里是學(xué)術(shù)報告專欄,讀芯術(shù)小編不定期挑選并親自跑會,為大家奉獻科技領(lǐng)域最優(yōu)秀的學(xué)術(shù)報告,為同學(xué)們記錄報告干貨,并想方設(shè)法搞到一手的PPT和現(xiàn)場視頻——足夠干貨,足夠新鮮!話不多說,快快看過來,希望這些優(yōu)秀的青年學(xué)者、專家杰青的學(xué)術(shù)報告 ,能讓您在業(yè)余時間的知識閱讀更有價值。

人工智能論壇如今浩如煙海,有硬貨、有干貨的講座卻百里挑一。“AI未來說·青年學(xué)術(shù)論壇”系列講座由中國科學(xué)院大學(xué)主辦,承辦單位為中國科學(xué)院大學(xué)學(xué)生會,協(xié)辦單位為中國科學(xué)院計算所研究生會、網(wǎng)絡(luò)中心研究生會、人工智能學(xué)院學(xué)生會、化學(xué)工程學(xué)院學(xué)生會、公共政策與管理學(xué)院學(xué)生會、微電子學(xué)院學(xué)生會,百度為支持單位,讀芯術(shù)、PaperWeekly為合作自媒體?!癆I未來說·青年學(xué)術(shù)論壇”第八期“深度學(xué)習(xí)”專場已于2019年8月25日下午在中科院舉行。中科院付鵬為大家?guī)韴蟾妗渡疃葘W(xué)習(xí)與機器閱讀》。

付鵬,男,中國科學(xué)院信息工程研究所博士,現(xiàn)為中國科學(xué)院信息工程研究所助理研究員,主要從事自然語言處理、機器學(xué)習(xí),具體包括情感/情緒分析、語義理解、機器閱讀、文本生成等,在2018全國“軍事智能-機器閱讀”挑戰(zhàn)賽中,獲得決賽總成績第一(1/267,獎金20萬),并且包攬了所有單項第一名,主持和參與了國家自然科學(xué)基金、國家重點研發(fā)計劃等課題,近幾年在AAAI、EMNLP、CIKM等國內(nèi)外學(xué)術(shù)會議與期刊上發(fā)表學(xué)術(shù)論文10余篇。

報告內(nèi)容:本次報告主要包括機器閱讀概述、傳統(tǒng)機器閱讀方法、深度學(xué)習(xí)方法和競賽分享四個部分。

深度學(xué)習(xí)與機器閱讀

付鵬老師先介紹了自然語言處理的概念,即研究實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理技術(shù)的發(fā)展經(jīng)歷了基于規(guī)則(1990年以前)、基于統(tǒng)計學(xué)習(xí)(1990年~2012年)和基于深度學(xué)習(xí)(2012年至今)的方法三個階段,涉及由淺入深的四個層面,分別為形式、語義、推理和語用,當前正處于由語義向推理的發(fā)展階段。

然后引出了自然語言處理技術(shù)所面臨的難題:1)中文分詞(segmentation)困難,如“一行行行行行,一行不行行行不行”和“一位友好/的哥/譚市民”;

2)歧義(ambiguity)現(xiàn)象:一是結(jié)構(gòu)歧義,如“今天中午吃饅頭”和“今天中午吃食堂”;二是指代歧義,如“他快抱不起兒子了,因為他太胖了”;三是語義歧義,如“她這個人真有意思(funny)”,“人們以為他們有了意思(wish)”,“我根本沒有那個意思(thought)”和“真沒意思(nonsense)”;

3)未知語言現(xiàn)象:一是新詞,如不明覺厲、累覺不愛和十動然拒;二是舊詞新義,如母雞、白骨精和潛水;三是新用法新結(jié)構(gòu),在口語中或部分網(wǎng)絡(luò)語言中,不斷出現(xiàn)一些“非規(guī)范的”新的語句結(jié)構(gòu),如c位出道、ORZ和熱skr人了;

4)不同語系的差異:一是屈折語,用詞的形態(tài)變化表示語法關(guān)系,如英語、法語等;二是黏著語,詞內(nèi)有專門表示語法意義的附加成分,詞根或詞干與附加成分的結(jié)合不緊密,如日語、韓語、土耳其語等;三是孤立語,形態(tài)變化少,語法關(guān)系靠詞序和虛詞表示,如漢語。

接著介紹了自然語言處理的技術(shù)概覽,主要包括:1)NLP基礎(chǔ)技術(shù),如詞匯表示和語義分析、短語表示和語義分析、句子表示和語義分析以及篇章表示和語義分析;2)NLP核心技術(shù),如情感分析、信息檢索、機器翻譯、機器閱讀、問答系統(tǒng)、語言生成、推薦系統(tǒng)以及聊天和對話;3)NLP+,如智能分析、搜索引擎、商業(yè)智能和輿情分析。

進而引出了機器閱讀的主題,機器閱讀是自然語言處理領(lǐng)域“皇冠上的明珠”,涉及到語義理解、知識推理等多項復(fù)雜技術(shù),極具挑戰(zhàn)性,該技術(shù)旨在讓AI代替人類,自動閱讀新聞報道等信息并根據(jù)問題給出答案,可應(yīng)用于輿情分析和情報挖掘領(lǐng)域等多個場景。機器閱讀的難點挑戰(zhàn)主要包括:1)語義推理難,語言博大精深,如“作為失敗的典型,你真的太成功了”;2)語義關(guān)聯(lián)難,字同意不同,如“誰是特朗普的兒子”和“誰的兒子是特朗普”;3)語義表示難,分詞歧義,如“昨天/下午”和“作/天下/午”,一詞有多義,如“我愛吃蘋果”和“蘋果發(fā)布會”。

在介紹完機器閱讀的難點挑戰(zhàn)之后,又介紹了機器閱讀的發(fā)展歷程:TeachingMachines to Read and Comprehend(Karl Moritz Hermann et al.) → Attention-Sum Reader(Kadlec et al.) →SQuAD(Rajpurkar et al.) → Match-LSTM(Wang et al.) → R-Net(Wang et al.) →BiDAF(Minjoon Seo et al.) → QA-Net(Yu et al.) → BiDAF+self-attention + BERT。

緊接著介紹了傳統(tǒng)機器閱讀方法,主要包括早期系統(tǒng)和機器學(xué)習(xí)時代的方法。其中,在介紹早期系統(tǒng)時,介紹了QUALM系統(tǒng)(Lehnert,1977)、早期數(shù)據(jù)集(Hirschman, 1999)、Deep Read系統(tǒng)(Hirschman, 1999)和QUARC系統(tǒng)(Riloff andThelen, 2000)。在機器學(xué)習(xí)時代,機器閱讀的數(shù)據(jù)被轉(zhuǎn)化為 《文章,問題,答案》 的三元組形式,有兩個重要的數(shù)據(jù)集:1)MCTest,四選一數(shù)據(jù)集,包含660篇科幻小說;2)ProcessBank,二分類數(shù)據(jù)集,包含585個問題和200個段落,是生物類型文章,需要理解實體關(guān)系和事件。基于傳統(tǒng)規(guī)則方法的特點包括:1)不使用訓(xùn)練數(shù)據(jù)集;2)啟發(fā)式的滑動窗口方法,計算word overlap、distance information;3)文本蘊含方法,用現(xiàn)有的文本蘊含系統(tǒng),把(問題,答案)對轉(zhuǎn)化為一個statement;4)max-margin學(xué)習(xí)框架,使用了很多語言特征,如句法依存、semantic frames、指代消解、discourse relation和詞向量等。

隨后,以傳統(tǒng)機器閱讀的方法作為引入,引出了深度學(xué)習(xí)的方法。先介紹了機器閱讀的主要步驟:文本表示(將文本表示成機器能理解的符號)→ 語義匹配(尋找問題和原文句子的語義關(guān)聯(lián)) → 理解推理(對語義關(guān)聯(lián)進行加工和推理) → 結(jié)果推薦(對候選答案進行排序和輸出)。

在介紹完機器閱讀的主要步驟之后,又介紹了機器閱讀的主要數(shù)據(jù)集:1)MCTest數(shù)據(jù)集,給定一篇文章、一個問題以及四個選項,預(yù)測哪個選項是問題的答案;2)CNN/Daily Mail 數(shù)據(jù)集,給定一篇文章和一個問題,預(yù)測問題中被X替代的實體是文章中的哪個實體;3)SQuAD數(shù)據(jù)集,給定一篇文章、一個問題,預(yù)測文章中的一個區(qū)間(一個或幾個詞)作為答案;4)Quasar-T數(shù)據(jù)集,給定幾篇文章、一個問題,預(yù)測文章中的一個區(qū)間(一個或幾個詞)作為答案。

然后又講到了注意力機制,Seq2Seq模型存在兩個問題,一是定長的中間向量 c 限制了模型性能,二是輸入序列的不同部分對于輸出序列的重要性不同。對于Seq2Seq存在的問題,提出了相應(yīng)的解決方案:解碼器中的每個時刻不是輸入固定的c,而是輸入不同的 ci,每個時刻的 c 自動選取與當前輸出最相關(guān)的上下文。其中,ci 為編碼器中隱狀態(tài)的加權(quán)和。

在介紹完注意力機制之后,又詳細介紹了機器閱讀模型BiDAF (ICLR 2017),該模型包括輸入部分、雙向注意力和輸出部分,其中,輸入為一篇文章X和一個問題Y,輸出為文章中每一個詞作為答案開始的概率和答案結(jié)束的概率。雙向注意力是上下文(context)和檢索(query)之間相互指導(dǎo)的注意力機制。

接著又進一步介紹了機器閱讀的最新進展,重點講解了兩篇文章,分別為Improving Machine Reading Comprehension with Reading Strategies (NAACL 2019) 和Adversarial Examples for Evaluating Reading Comprehension Systems (EMNLP 2017)。其中,前者是基于已有模型的改進,受閱讀策略被證明可以提高閱讀理解的水平的啟發(fā),提出了三種閱讀策略:Backand Forth Reading,Highlighting 和 Self-Assessment,并且模型中用到了GPT (GenerativePre-trained Transformer)。后者介紹了機器閱讀的新問題-對抗閱讀,文本針對斯坦福問答數(shù)據(jù)集(SQuAD)提出一個對抗評估方案,自動生成并在段落中插入對抗語句,然后測試系統(tǒng)能否圍繞這一段落回答問題。這些對抗語句的目的在于干擾計算機回答系統(tǒng),但并不會改變問題的正確答案,也不會對人類造成干擾。在這種對抗方案中,16個已發(fā)表模型的精確度從75%(F1數(shù))降到了36%。當對抗系統(tǒng)被允許加入不符合語法的短語串,有四個模型的平均精度下降到了7%。

在介紹完最新的研究進展之后,又介紹了多文檔閱讀,多文檔閱讀的過程:問題文檔集合→ 文檔檢索模塊 → 答案抽取模塊 → 最終答案。多文檔閱讀主要存在三個難點:1)需要基于多個段落預(yù)測答案;2)與問題相似的段落干擾問題;3)遠程監(jiān)督假設(shè)帶來噪音問題。然后又介紹了國內(nèi)外的研究現(xiàn)狀,開放域問答包括單段落方案和多段落方案,其中多段落的方案又包括基于答案重排序和基于答案置信度。

接著,付鵬老師又介紹了他所在團隊提出的模型Ranking and Sampling in Open-Domain Question Answering (EMNLP 2019),該模型的特點:1)在段落選擇部分充分利用段落和問題以及段落和段落之間的信息,采用層級注意力機制和自注意力機制進行降噪;2)在訓(xùn)練時采用隨機采樣→ 帶權(quán)采樣段落選擇方案,提升模型泛化能力,避免干擾;3)解決開放域問答中的噪音和干擾問題,提升系統(tǒng)準確率。

最后,付鵬老師介紹了他們在全國“軍事智能-機器閱讀”競賽中的參賽經(jīng)歷,他所在的團隊獲得了決賽總成績第一名,并且包攬了所有單項第一名(軍事新聞、防務(wù)快訊、非密情報三個單項比賽),RougeL值高達91.39%。并介紹了競賽的任務(wù)、問題實例、數(shù)據(jù)特點以及總體的框架。

其中競賽任務(wù)的問題包括6種類型:1)事實型問題(第X艦隊指揮官是誰?)2)列表型問題(X國艦載機機型?)3)數(shù)值型問題(XX艦的排水量?)4)定義型問題(“XX一體站”的定義?)5)觀點型問題(XX對軍事智能化的指示?)6)篇章型問題(X國與X國領(lǐng)土爭端的進展?)。

數(shù)據(jù)的特點包括:1)文章的長度較長,經(jīng)典的SQUAD數(shù)據(jù)集的最長文章的單詞數(shù)在700以下。但是該數(shù)據(jù)集文章中字符的個數(shù)普遍在幾千甚至上萬,最長的一篇還有10萬多的字符;2)標注的問答可能在文章中出現(xiàn)多次或者不出現(xiàn),訓(xùn)練數(shù)據(jù)標注存在噪音問題;3)一部分問題的答案由文中不相鄰的多句話組成,比如,列表型問題和篇章型問題可能出現(xiàn)答案由文中不相鄰的多句話組成,但是數(shù)目比較少。

模型的總體框架分為兩步:1)利用問題去篩選答案候選集;2)利用模型預(yù)測最終答案??傮w框架的流程:數(shù)據(jù)預(yù)處理→ 答案候選集篩選 → 模型預(yù)測答案 → 后處理 → 最終答案。更多精彩內(nèi)容請關(guān)注微信公眾號中的視頻分享。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1814

    文章

    49957

    瀏覽量

    263619
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5594

    瀏覽量

    124142
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23243
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機器學(xué)習(xí)深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時間,機器學(xué)習(xí)深度學(xué)習(xí)中都存在一些我們需要時刻關(guān)注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關(guān)注
    的頭像 發(fā)表于 01-07 15:37 ?108次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個常見錯誤與局限性

    穿孔機頂頭檢測儀 機器視覺深度學(xué)習(xí)

    LX01Z-DG626穿孔機頂頭檢測儀采用深度學(xué)習(xí)技術(shù),能夠?qū)崿F(xiàn)頂頭狀態(tài)的在線實時檢測,頂頭丟失報警,頂頭異常狀態(tài)報警等功能,響應(yīng)迅速,異常狀態(tài)視頻回溯,檢測頂頭溫度,配備吹掃清潔系統(tǒng),維護周期長
    發(fā)表于 12-22 14:33

    如何深度學(xué)習(xí)機器視覺的應(yīng)用場景

    深度學(xué)習(xí)視覺應(yīng)用場景大全 工業(yè)制造領(lǐng)域 復(fù)雜缺陷檢測:處理傳統(tǒng)算法難以描述的非標準化缺陷模式 非標產(chǎn)品分類:對形狀、顏色、紋理多變的產(chǎn)品進行智能分類 外觀質(zhì)量評估:基于學(xué)習(xí)的外觀質(zhì)量標準判定 精密
    的頭像 發(fā)表于 11-27 10:19 ?162次閱讀

    如何在機器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    人士而言往往難以理解,人們也常常誤以為需要扎實的編程技能才能真正掌握并合理使用這項技術(shù)。事實上,這種印象忽視了該技術(shù)為機器視覺(乃至生產(chǎn)自動化)帶來的潛力,因為深度學(xué)習(xí)并非只屬于計算機科學(xué)家或程序員。 從頭開始:什么
    的頭像 發(fā)表于 09-10 17:38 ?804次閱讀
    如何在<b class='flag-5'>機器</b>視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4037次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎(chǔ)算法的應(yīng)用

    閱讀心得體會:ROS2機器人視覺與地圖構(gòu)建技術(shù) 通過對本書第7章(ROS2視覺應(yīng)用)和第8章(ROS2地圖構(gòu)建)的學(xué)習(xí),我對機器人視覺感知和自主導(dǎo)航的核心技術(shù)有了更深入的理解。以下是我
    發(fā)表于 05-03 19:41

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】機器人入門的引路書

    的限制和調(diào)控) 本書還有很多前沿技術(shù)項目的擴展 比如神經(jīng)網(wǎng)絡(luò)識別例程,機器學(xué)習(xí)圖像識別的原理,yolo圖像追蹤的原理 機器學(xué)習(xí)訓(xùn)練三大點: 先準備一個基本的模型結(jié)構(gòu) 和訓(xùn)練時的反饋函
    發(fā)表于 04-30 01:05

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】+ROS2應(yīng)用案例

    、深度學(xué)習(xí)視覺巡線、相機標定、OpenCV圖像處理等。這些內(nèi)容雖然在本次閱讀體驗中沒有詳細展開,但它們同樣對于機器人的視覺感知和環(huán)境理解具有重要作用。
    發(fā)表于 04-27 11:42

    嵌入式AI技術(shù)之深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過程中使用合適的特征變換對深度學(xué)習(xí)的意義

    ? 作者:蘇勇Andrew 使用神經(jīng)網(wǎng)絡(luò)實現(xiàn)機器學(xué)習(xí),網(wǎng)絡(luò)的每個層都將對輸入的數(shù)據(jù)做一次抽象,多層神經(jīng)網(wǎng)絡(luò)構(gòu)成深度學(xué)習(xí)的框架,可以深度理解數(shù)
    的頭像 發(fā)表于 04-02 18:21 ?1409次閱讀

    如何排除深度學(xué)習(xí)工作臺上量化OpenVINO?的特定層?

    無法確定如何排除要在深度學(xué)習(xí)工作臺上量化OpenVINO?特定層
    發(fā)表于 03-06 07:31

    SLAMTEC Aurora:把深度學(xué)習(xí)“卷”進機器人日常

    在人工智能和機器人技術(shù)飛速發(fā)展的今天,深度學(xué)習(xí)與SLAM(同步定位與地圖構(gòu)建)技術(shù)的結(jié)合,正引領(lǐng)著智能機器人行業(yè)邁向新的高度。最近科技圈頂流DeepSeek簡直殺瘋了!靠著逆天的
    的頭像 發(fā)表于 02-19 15:49 ?816次閱讀

    軍事應(yīng)用中深度學(xué)習(xí)的挑戰(zhàn)與機遇

    人工智能尤其是深度學(xué)習(xí)技術(shù)的最新進展,加速了不同應(yīng)用領(lǐng)域的創(chuàng)新與發(fā)展。深度學(xué)習(xí)技術(shù)的發(fā)展深刻影響了軍事發(fā)展趨勢,導(dǎo)致戰(zhàn)爭形式和模式發(fā)生重大變化。本文將概述
    的頭像 發(fā)表于 02-14 11:15 ?901次閱讀

    機器學(xué)習(xí)模型市場前景如何

    當今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學(xué)習(xí)模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?689次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個或多個隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小化網(wǎng)絡(luò)的輸出誤差。 二、深度學(xué)習(xí)的定義與發(fā)展 深度
    的頭像 發(fā)表于 02-12 15:15 ?1605次閱讀