chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

南開/南理工/曠視提出CTKD:動態(tài)溫度超參蒸餾新方法

CVer ? 來源:CVer ? 2023-01-04 14:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文題目:Curriculum Temperature for Knowledge Distillation

論文(AAAI 2023):https://arxiv.org/abs/2211.16231

開源代碼(歡迎star):

https://github.com/zhengli97/CTKD

一句話概括:

相對于靜態(tài)溫度超參蒸餾,本文提出了簡單且高效的動態(tài)溫度超參蒸餾新方法。

背景問題:

目前已有的蒸餾方法中,都會采用帶有溫度超參的KL Divergence Loss進行計算,從而在教師模型和學(xué)生模型之間進行蒸餾,公式如下:

b079a2b8-8bf0-11ed-bfe3-dac502259ad0.png

b083b3c0-8bf0-11ed-bfe3-dac502259ad0.png

而現(xiàn)有工作普遍的方式都是采用固定的溫度超參,一般會設(shè)定成4。

方法 FitNet
(ICLR 15')
AT
(ICLR 17')
SP
(ICCV 19')
Snapshot
(CVPR 19')
SSKD
(ECCV 20')
FRSKD
(CVPR 21')
τ的設(shè)定 3 4 4 2 or 3 4 4

那么這就帶來了兩個問題:

1. 不同的教師學(xué)生模型在KD過程中最優(yōu)超參不一定是4。如果要找到這個最佳超參,需要進行暴力搜索,會帶來大量的計算,整個過程非常低效。

2. 一直保持靜態(tài)固定的溫度超參對學(xué)生模型來說不是最優(yōu)的?;谡n程學(xué)習(xí)的思想,人類在學(xué)習(xí)過程中都是由簡單到困難的學(xué)習(xí)知識。那么在蒸餾的過程中,我們也會希望模型一開始蒸餾是讓學(xué)生容易學(xué)習(xí)的,然后難度再增加。難度是一直動態(tài)變化的。

于是一個自然而然的想法就冒了出來:

在蒸餾任務(wù)里,能不能讓網(wǎng)絡(luò)自己學(xué)習(xí)一個適合的動態(tài)溫度超參進行蒸餾,并且參考課程學(xué)習(xí),形成一個蒸餾難度由易到難的情況?

于是我們就提出了CTKD來實現(xiàn)這個想法。

方法:

既然溫度超參τ可以在蒸餾里決定兩個分布之間的KL Divergence,進而影響模型的學(xué)習(xí),那我們就可以通過讓網(wǎng)絡(luò)自動學(xué)習(xí)一個合適的τ來達到以上的目的。

于是以上具體問題就直接可以轉(zhuǎn)化成以下的核心思想:

在蒸餾過程里,學(xué)生網(wǎng)絡(luò)被訓(xùn)練去最小化KL loss的情況下,τ作為一個可學(xué)習(xí)的參數(shù),要被訓(xùn)練去最大化KL loss,從而發(fā)揮對抗(Adversarial)的作用,增加訓(xùn)練的難度。隨著訓(xùn)練的進行,對抗的作用要不斷增加,達到課程學(xué)習(xí)的效果。

以上的實現(xiàn)可以直接利用一個非常簡單的操作:利用梯度反向?qū)覩RL (Gradient Reversal Layer )來去反向可學(xué)習(xí)超參τ的梯度,就可以非常直接達到對抗的效果,同時隨著訓(xùn)練的進行,不斷增加反向梯度的權(quán)重λ,進而增加學(xué)習(xí)的難度。

CTKD的論文的結(jié)構(gòu)圖如下:

b08e0366-8bf0-11ed-bfe3-dac502259ad0.jpg

Fig.1 CTKD網(wǎng)絡(luò)結(jié)構(gòu)圖

CTKD方法可以簡單分為左右兩個部分:

對抗溫度超參τ的學(xué)習(xí)部分。

這里只包含兩個小模塊,一個是梯度反向?qū)覩RL,用于反向經(jīng)過溫度超參τ的梯度,另一個是可學(xué)習(xí)超參溫度τ。

其中對于溫度超參τ,有兩種實現(xiàn)方式,第一種是全局方案 (Global Temperature),只會產(chǎn)生一個τ,代碼實現(xiàn)非常簡單,就一句話:

self.global_T = nn.Parameter(torch.ones(1), requires_grad=True)

第二種是實例級別方案(Instance-wise Temperature),即對每個單獨的樣本都產(chǎn)生一個τ。代碼實現(xiàn)也很簡單,就是兩層conv組成的MLP。

b096e724-8bf0-11ed-bfe3-dac502259ad0.jpg

Fig.2 兩種不同的可學(xué)習(xí)溫度超參實現(xiàn)。

2. 難度逐漸增加的課程學(xué)習(xí)部分。

隨著訓(xùn)練的進行,不斷增加GRL的權(quán)重λ,達到增加學(xué)習(xí)難度的效果。

在論文的實現(xiàn)里,我們直接采用Cos的方式,讓反向權(quán)重λ從0增加到1。

以上就是CTKD的全部實現(xiàn),非常的簡單有效。

CTKD總共包含兩個模塊,GRL和溫度生成模塊,都非常的輕量化,

CTKD方法可以作為即插即用的插件應(yīng)用在現(xiàn)有的SOTA的蒸餾方法中,取得廣泛的提升。

實驗結(jié)果

三個數(shù)據(jù)集:CIFAR-100,ImageNet和MS-COCO。

CIFAR-100上,CTKD的實驗結(jié)果:

b09f4a9a-8bf0-11ed-bfe3-dac502259ad0.jpg

作為一個即插即用的插件,應(yīng)用在已有的SOTA方法上:

b0a90f26-8bf0-11ed-bfe3-dac502259ad0.jpg

在ImageNet上的實驗:

b0b54994-8bf0-11ed-bfe3-dac502259ad0.jpg

在MS-COCO的detection實驗上:

b0bf62ee-8bf0-11ed-bfe3-dac502259ad0.jpg

溫度超參的整體學(xué)習(xí)過程可視化:

b0ca1252-8bf0-11ed-bfe3-dac502259ad0.jpg

由以上圖可以看到,CTKD整體的動態(tài)學(xué)習(xí)τ的過程。

將CTKD應(yīng)用在多種現(xiàn)有的蒸餾方案上,可以取得廣泛的提升效果。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3751

    瀏覽量

    52093
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4967

    瀏覽量

    73944

原文標(biāo)題:AAAI 2023 | 南開/南理工/曠視提出CTKD:動態(tài)溫度超參蒸餾新方法

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    第三屆華南理工大學(xué)“紫光同創(chuàng)杯”FPGA大賽成功舉辦

    1月24日,第三屆華南理工大學(xué)“紫光同創(chuàng)杯”FPGA大賽成功舉辦。本屆“紫光同創(chuàng)杯”由華南理工大學(xué)微電子學(xué)院和深圳市紫光同創(chuàng)電子股份有限公司聯(lián)合舉辦,旨在讓學(xué)生熟練使用國產(chǎn)FPGA開發(fā)平臺,完成工程性高的項目,提升FPGA開發(fā)和實踐技能,并通過賽事活動吸引更多學(xué)生了解參與
    的頭像 發(fā)表于 02-02 14:03 ?525次閱讀

    用于窄帶匹配高速射頻ADC的全新方法

    本期,為大家?guī)淼氖恰队糜谡瓗ヅ涓咚偕漕l ADC 的全新方法》,介紹了一種用于窄帶匹配高速射頻 ADC 的全新方法,以解決高中間頻率系統(tǒng)中 ADC 前端窄帶匹配的設(shè)計難題,可在 ADC 額定帶寬內(nèi)應(yīng)用,能提升 ADC 性能、減少模擬停機時間。
    的頭像 發(fā)表于 01-04 15:56 ?6215次閱讀
    用于窄帶匹配高速射頻ADC的全<b class='flag-5'>新方法</b>

    合眾思壯與河南理工大學(xué)達成戰(zhàn)略合作

    12月18日,北京合眾思壯科技股份有限公司(以下簡稱“合眾思壯”)與河南理工大學(xué)戰(zhàn)略合作簽約儀式圓滿舉行。河南理工大學(xué)學(xué)術(shù)副校長金雙根、測繪與國土信息工程學(xué)院黨委書記張紅霞、院長袁占良,合眾思壯總經(jīng)理朱興旺、首席科學(xué)家沈軍,以及雙方相關(guān)部門負責(zé)人等共同出席了簽約儀式。
    的頭像 發(fā)表于 12-25 17:12 ?1195次閱讀

    奧松電子榮獲2025年中國創(chuàng)新方法大賽全國總決賽二等獎

    2025年11月18日-21日,2025年中國創(chuàng)新方法大賽總決賽在山東省泰安市成功舉辦。國內(nèi)MEMS智能傳感器與半導(dǎo)體關(guān)鍵零部件領(lǐng)域的國家級專精特新“小巨人”企業(yè)——廣州奧松電子股份有限公司,憑借
    的頭像 發(fā)表于 12-05 15:17 ?604次閱讀

    ??低?b class='flag-5'>視榮獲2025年中國創(chuàng)新方法大賽總決賽金獎

    近日,2025年中國創(chuàng)新方法大賽圓滿落幕。海康威憑借《工業(yè)聽診師——超長距離皮帶運輸機托輥聲紋監(jiān)測系統(tǒng)》項目脫穎而出,斬獲全國總決賽唯一金獎。
    的頭像 發(fā)表于 12-04 10:55 ?486次閱讀

    奧松半導(dǎo)體榮獲2025中國創(chuàng)新方法大賽重慶賽區(qū)二等獎

    近日,2025年中國創(chuàng)新方法大賽(重慶賽區(qū))暨第八屆重慶市創(chuàng)新方法大賽圓滿落幕。本屆大賽以“培育創(chuàng)新人才,服務(wù)產(chǎn)業(yè)發(fā)展”為主題,旨在激發(fā)企業(yè)創(chuàng)新活力,推動科技創(chuàng)新與產(chǎn)業(yè)創(chuàng)新深度融合。大賽由重慶市科協(xié)
    的頭像 發(fā)表于 11-19 11:34 ?836次閱讀
    奧松半導(dǎo)體榮獲2025中國創(chuàng)<b class='flag-5'>新方法</b>大賽重慶賽區(qū)二等獎

    國際權(quán)威學(xué)術(shù)刊物刊發(fā)穩(wěn)石氫能與華南理工研究成果,創(chuàng)新螺旋流道設(shè)計提升AEM電解槽性能。

    近日,氫能研究領(lǐng)域國際權(quán)威期刊INTERNATIONAL JOURNAL OF HYDROGEN ENERGY刊發(fā)了穩(wěn)石氫能、華南理工電力學(xué)院與廣東省高效清潔能源利用重點實驗室聯(lián)合研發(fā)的成果。
    的頭像 發(fā)表于 09-26 16:08 ?601次閱讀
    國際權(quán)威學(xué)術(shù)刊物刊發(fā)穩(wěn)石氫能與華<b class='flag-5'>南理工</b>研究成果,創(chuàng)新螺旋流道設(shè)計提升AEM電解槽性能。

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內(nèi)容總覽

    ,其中第一章是概論,主要介紹大模型浪潮下AI芯片的需求與挑戰(zhàn)。第二章和第三章分別介紹實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法和架構(gòu)。以及一些新型的算法和思路。第四章是全面介紹半導(dǎo)體芯產(chǎn)業(yè)的前沿技術(shù),包括新型晶體管
    發(fā)表于 09-05 15:10

    芯片制造中高精度膜厚測量與校準:基于紅外干涉技術(shù)的新方法

    、環(huán)境光干擾及薄膜傾斜等因素限制,測量精度難以滿足高精度工業(yè)需求。為此,本研究提出一種融合紅外干涉與激光校準的薄膜厚度測量新方法,旨在突破傳統(tǒng)技術(shù)瓶頸,實現(xiàn)更精準、
    的頭像 發(fā)表于 07-21 18:17 ?2889次閱讀
    芯片制造中高精度膜厚測量與校準:基于紅外干涉技術(shù)的<b class='flag-5'>新方法</b>

    無刷直流電機滑模觀測器參數(shù)優(yōu)化設(shè)計方法

    摘要:滑模反電勢觀測器的增益參數(shù)會影響觀測器的收斂速度以及動態(tài)響應(yīng)性能,常見的設(shè)計方法是基于觀測器穩(wěn)定性理論進行設(shè)計。提出一種利用遺傳算法在穩(wěn)定域內(nèi)搜索觀測誤差最小的增益參數(shù)的新方法,
    發(fā)表于 06-27 16:48

    無刷直流電機反電勢過零檢測新方法

    的危險。同時,根據(jù)控制信號占空比切換低速區(qū)與高速區(qū)反電勢采樣方式,能有效改善在低速區(qū)時反電勢過零檢測效果。實驗結(jié)果表明,提出的反電勢過零檢測新方法能保證電機工作于更寬的轉(zhuǎn)速范圍內(nèi)。 純分享帖,點擊下方
    發(fā)表于 06-26 13:50

    奧迪威攜手華南理工大學(xué)共建聯(lián)合創(chuàng)新實驗室,校企深度合作助力產(chǎn)業(yè)升級

    2025年5月21日,廣東奧迪威傳感科技股份有限公司與華南理工大學(xué)聯(lián)合設(shè)立的創(chuàng)新實驗室正式揭牌。
    的頭像 發(fā)表于 05-23 08:48 ?1609次閱讀
    奧迪威攜手華<b class='flag-5'>南理工</b>大學(xué)共建聯(lián)合創(chuàng)新實驗室,校企深度合作助力產(chǎn)業(yè)升級

    攜手曙光云與中科天璣合作打造城市智能空間

    近日,北京科技有限公司(以下簡稱“”)、曙光云計算集團股份有限公司(以下簡稱“曙光云”)與中科天璣數(shù)據(jù)科技股份有限公司(以下簡稱“中科天璣”)在北京舉行了合作會談,三方將在互聯(lián)
    的頭像 發(fā)表于 03-20 09:13 ?1245次閱讀

    發(fā)布AIS算法生產(chǎn)平臺V5.0版本

    近日,正式發(fā)布自研的算法生產(chǎn)平臺AIS(AI Service)5.0版!此次升級,包括接入DeepSeek等三大核心能力重磅亮相,助力企業(yè)AI生產(chǎn)力再躍升!
    的頭像 發(fā)表于 03-12 17:18 ?1560次閱讀

    運動猿入選2024年度智能體育典型案例

    2025年3月3日,工業(yè)和信息化部、國家體育總局聯(lián)合公布了“2024年度智能體育典型案例”名單,“運動猿智能體育教育產(chǎn)品方案”成功入選,成為智能青少年體育產(chǎn)品方向的典型案例。此次獲評是對
    的頭像 發(fā)表于 03-10 10:04 ?1021次閱讀