chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

自監(jiān)督學習與Transformer相關論文

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-11-02 15:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀

國際表示學習大會(TheInternationalConference onLearningRepresentations)是致力于人工智能領域發(fā)展的國際知名學術會議之一。ICLR 2021 將在明年5月4日舉行,目前,本次大會投稿已經(jīng)結束,最后共有3013篇論文提交。ICLR 采用公開評審機制,任何人都可以提前看到這些論文。

為了分析最新研究動向,我們精選了涵蓋自監(jiān)督學習、Transformer、圖神經(jīng)網(wǎng)絡、自然語言處理、模型壓縮等熱點領域,將分多期為大家?guī)硐盗姓撐慕庾x。

本期的關注焦點是自監(jiān)督學習與Transformer。

自監(jiān)督學習

Self-Supervised Variational Auto-Encoders

變分自編碼器(VAE)往往通過假設先驗分布為高斯分布來簡化計算過程,實際上真實數(shù)據(jù)的分布往往較為復雜,該假設會導致模型的過正則化并影響模型對真實分布的擬合能力;本文通過利用多個簡單分布對復雜真實分布進行建模,并采用自監(jiān)督方法對這些分布之間進行約束,進而提升VAE模型最終的效果。

論文鏈接:https://openreview.net/forum?id=zOGdf9K8aC

Self-Supervised Learning from a Multi-View Perspective

即使自監(jiān)督學習已經(jīng)取得了很好的效果,現(xiàn)有的方法依舊并不清楚自監(jiān)督學習帶來增益的主要原因;本文基于信息空間的考慮,認為自監(jiān)督學習通過減少不相關信息來幫助收斂;此外本文還提出將自監(jiān)督任務的兩個經(jīng)典方法——對比學習和預測學習任務進行合并,結合兩者優(yōu)點以增強自監(jiān)督學習的效果。

論文鏈接:https://openreview.net/forum?id=-bdp_8Itjwp

Contrast to Divide: Self-Supervised Pre-Training for Learning with Noisy Labels

現(xiàn)有的噪聲數(shù)據(jù)學習策略往往基于loss的噪聲識別與再過濾的框架,其需要模型在warm-up階段既能學習到足夠好的特征信息,同時不至于過分擬合噪聲數(shù)據(jù)的分布;改目的與對比學習任務非常契合,本文提出在warm-up階段采用對比學習幫助進行特征學習,并基于對比學習策略幫助區(qū)分噪聲數(shù)據(jù)。

論文鏈接:https://openreview.net/forum?id=uB5x7Y2qsFR

Improving Self-Supervised Pre-Training via a Fully-Explored Masked Language Model

現(xiàn)有的BERT等模型往往采用masked language model進行自監(jiān)督學習,但是其往往采用隨機的方法確定mask的word或者span;本文提出不合適的mask會導致梯度方差變大,并影響模型的效果,并分析原因在于同時mask的word之間具有一定的相似度;故本文提出一種特殊的mask機制,其考慮增大被mask的word之間的差異,進而削弱梯度方差大帶來的影響。

論文鏈接:https://openreview.net/forum?id=cYr2OPNyTz7

Bi-Tuning of Pre-Trained Representations

隨著預訓練模型的快速發(fā)展,現(xiàn)有方法主要關注于如何進行pre-train,但是很少關注如何進行fine-tune;本文認為在fine-tune時模型很容易忘記預訓練的信息并過擬合到當前任務,因此提出了一種特殊的Bi-tune策略,即利用對比學習作為正則項約束模型的收斂情況,進而幫助提升模型的效果。

論文鏈接:https://openreview.net/forum?id=3rRgu7OGgBI

Erasure for Advancing: Dynamic Self-Supervised Learning for Commonsense Reasoning

為了解決預訓練模型很難學習到更精準的 question-clue pairs 問題,本文提出DynamIcSelf-sUperviSedErasure (DISUSE)。其中包含 erasure sampler 和 supervisor,分別用于擦出上下文和問題中的多余線索,以及使用 self-supervised manner 進行監(jiān)督。

論文鏈接:https://openreview.net/forum?id=WfY0jNndSn3

Transformer

Addressing Some Limitations of Transformers with Feedback Memory

Transformer結構因其并行計算的特性有很高的計算效率,但是這種特性限制了Transformer發(fā)掘序列信息的能力,這體現(xiàn)在底層表示無法獲得高層表示信息。作者提出一種Feedback Memory結構,將所有歷史的底層和高層表示信息傳遞給未來表示。

論文鏈接:https://openreview.net/forum?id=OCm0rwa1lx1

Not All Memories are Created Equal: Learning to Expire

Attention機制往往需要長期的記憶,但是實際上并不是所有歷史信息都是重要的。因此,作者提出一種Expire-Span機制,動態(tài)地決定每一個時刻信息存活的時間長短,從而減少模型進行Attention操作耗費的空間開銷。

論文鏈接:https://openreview.net/forum?id=ZVBtN6B_6i7

Memformer: The Memory-Augmented Transformer

目前大部分Transformer變體模型在處理長序列時都會存在效率問題。作者提出一種利用Memory機制來編碼和保存歷史信息,使得時間復雜度下降到線性時間,空間復雜度變?yōu)槌?shù)。

論文鏈接:https://openreview.net/forum?id=_adSMszz_g9

Non-iterative Parallel Text Generation via Glancing Transformer

本文提出了一種基于 glancing language model 的 Glancing Transformer,通過 one-iteration 的生成方式提升 NAT 的性能。其中 Glancing language model,可以通過兩次 decoding 來降低學習難度以及加快生成速度。另外這種方法同樣可以應用于其他基于 NAT 的任務。

論文鏈接:https://openreview.net/forum?id=ZaYZfu8pT_N

責任編輯:xj

原文標題:【ICLR2021必讀】 【自監(jiān)督學習】 & 【Transformer】相關論文

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1814

    文章

    49955

    瀏覽量

    263615
  • 深度學習
    +關注

    關注

    73

    文章

    5594

    瀏覽量

    124142
  • Transformer
    +關注

    關注

    0

    文章

    154

    瀏覽量

    6870

原文標題:【ICLR2021必讀】 【自監(jiān)督學習】 & 【Transformer】相關論文

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課(11大系列課程,共5000+分鐘)

    趨勢: 無監(jiān)督學習普及 當前工業(yè)場景中80%的缺陷檢測項目面臨\"OK樣本充足而NG樣本稀缺\"的困境,傳統(tǒng)監(jiān)督學習方案難以落地。課程第11系列(無監(jiān)督缺陷檢測篇)提供無需標注即可
    發(fā)表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課程(11大系列課程,共5000+分鐘)

    趨勢: 無監(jiān)督學習普及 當前工業(yè)場景中80%的缺陷檢測項目面臨\"OK樣本充足而NG樣本稀缺\"的困境,傳統(tǒng)監(jiān)督學習方案難以落地。課程第11系列(無監(jiān)督缺陷檢測篇)提供無需標注即可
    發(fā)表于 12-03 13:50

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經(jīng)網(wǎng)絡結構,最早在自然語言處理里火起來。與卷積神經(jīng)網(wǎng)絡(CNN)或循環(huán)神經(jīng)網(wǎng)絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態(tài)判斷哪些部分更為關鍵,同時可以將這些重要信息有效地關聯(lián)起來。
    的頭像 發(fā)表于 11-19 18:17 ?2143次閱讀

    思必馳與上海交大聯(lián)合實驗室五篇論文入選NeurIPS 2025

    近日,機器學習與計算神經(jīng)科學領域全球頂級學術頂級會議NeurIPS 2025公布論文錄用結果,思必馳-上海交大聯(lián)合實驗室共有5篇論文被收錄。NeurIPS(Conference on Neural
    的頭像 發(fā)表于 10-23 15:24 ?768次閱讀
    思必馳與上海交大聯(lián)合實驗室五篇<b class='flag-5'>論文</b>入選NeurIPS 2025

    自動駕駛中常提的“強化學習”是個啥?

    下,就是一個智能體在環(huán)境里行動,它能觀察到環(huán)境的一些信息,并做出一個動作,然后環(huán)境會給出一個反饋(獎勵或懲罰),智能體的目標是把長期得到的獎勵累積到最大。和監(jiān)督學習不同,強化學習沒有一一對應的“正確答案”給它看,而是靠與環(huán)境交互、自我探索來發(fā)現(xiàn)
    的頭像 發(fā)表于 10-23 09:00 ?527次閱讀
    自動駕駛中常提的“強化<b class='flag-5'>學習</b>”是個啥?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學習AI芯片的創(chuàng)新方法與架構

    徹底改變了自然語義處理的研究和應用。它引入了注意機制和位置編碼,能夠有效的捕捉輸入序列中的關聯(lián)信息,實現(xiàn)更好的上下文理解和建模。 Transformer 模型由一個編碼器和一個解碼器組成,是一種
    發(fā)表于 09-12 17:30

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現(xiàn),“Transformer架構是否正在取代傳統(tǒng)深度學習”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4034次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度<b class='flag-5'>學習</b>嗎?

    任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進來呢?

    的基本理論。了解監(jiān)督學習、無監(jiān)督學習和強化學習的基本原理。例如,在監(jiān)督學習中,理解如何通過標注數(shù)據(jù)來訓練模型進行分類或回歸任務,像通過大量的貓和狗的圖片標注數(shù)據(jù)來訓練一個圖像分類模型,
    發(fā)表于 07-08 17:44

    機器學習異常檢測實戰(zhàn):用Isolation Forest快速構建無標簽異常檢測系統(tǒng)

    本文轉:DeepHubIMBA無監(jiān)督異常檢測作為機器學習領域的重要分支,專門用于在缺乏標記數(shù)據(jù)的環(huán)境中識別異常事件。本文深入探討異常檢測技術的理論基礎與實踐應用,通過IsolationForest
    的頭像 發(fā)表于 06-24 11:40 ?1297次閱讀
    機器<b class='flag-5'>學習</b>異常檢測實戰(zhàn):用Isolation Forest快速構建無標簽異常檢測系統(tǒng)

    Transformer架構中編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?964次閱讀
    <b class='flag-5'>Transformer</b>架構中編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學習領域正在經(jīng)歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1180次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    使用MATLAB進行無監(jiān)督學習

    監(jiān)督學習是一種根據(jù)未標注數(shù)據(jù)進行推斷的機器學習方法。無監(jiān)督學習旨在識別數(shù)據(jù)中隱藏的模式和關系,無需任何監(jiān)督或關于結果的先驗知識。
    的頭像 發(fā)表于 05-16 14:48 ?1320次閱讀
    使用MATLAB進行無<b class='flag-5'>監(jiān)督學習</b>

    老板必修課:如何用NotebookLM 在上下班路上吃透一篇科技論文

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 作為私營企業(yè)主,每天的工作都非常繁忙,真正能學習的時間,可能就是在開車上下班或去拜訪客戶的路上。 作為科技企業(yè)的領航人,堅持學習并深入理解先進技術,是非
    的頭像 發(fā)表于 05-07 16:13 ?646次閱讀
    老板必修課:如何用NotebookLM 在上下班路上吃透一篇科技<b class='flag-5'>論文</b>?

    美報告:中國芯片研究論文全球領先

    據(jù)新華社報道,美國喬治敦大學“新興技術觀察項目(ETO)”3日在其網(wǎng)站發(fā)布一份報告說,2018年至2023年間,在全球發(fā)表的芯片設計和制造相關論文中,中國研究人員的論文數(shù)量遠超其他國家,中國在高被
    的頭像 發(fā)表于 03-05 14:32 ?1813次閱讀

    如何使用MATLAB構建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務,如機器翻譯。Transformer 通過引入注意力機制使得處理長距離依賴關系時變得高效。因此 Vaswani 等人的論文強調(diào)“注意力是所需的一切”。
    的頭像 發(fā)表于 02-06 10:21 ?6110次閱讀
    如何使用MATLAB構建<b class='flag-5'>Transformer</b>模型