chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

麻省理工學院韓松團隊新突破:直接針對目標硬件平臺訓練專用的卷積神經(jīng)網(wǎng)絡(luò)

電子工程師 ? 來源:lp ? 2019-04-04 10:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

基于讓人工智能可快速大規(guī)模布建的需求,自動機器學習(AutoML)和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS,Neural Architecture Search)成為相當受到關(guān)注的新領(lǐng)域,NAS 旨在利用算法自動設(shè)計出神經(jīng)網(wǎng)絡(luò),優(yōu)點是快速且高效,缺點則是需要大量的運算能力,成本昂貴。

麻省理工學院(MIT)電子工程和計算機科學系助理教授韓松與團隊人員蔡涵和朱力耕設(shè)計出的 NAS 算法—ProxylessNAS,可以直接針對目標硬件平臺訓練專用的卷積神經(jīng)網(wǎng)絡(luò)(CNN),而且在 1000 類 ImageNet 大規(guī)模圖像數(shù)據(jù)集上直接搜索,僅需 200 個 GPU 小時,如此便能讓 NAS 算法能夠更廣泛的被運用。該論文將在 5 月舉辦的 ICLR(International Conference on Learning Representations)大會上發(fā)表。

(來源:Han Lab)

AutoML 是用以模型選擇、或是超參數(shù)優(yōu)化的自動化方法,而 NAS 屬于 AutoML 概念下的一個領(lǐng)域,簡單來說,就是用“神經(jīng)網(wǎng)絡(luò)來設(shè)計神經(jīng)網(wǎng)絡(luò)”,一來好處是可以加速模型開發(fā)的進度,再者,NAS 開發(fā)的神經(jīng)網(wǎng)絡(luò)可望比人類工程師設(shè)計的系統(tǒng)更加準確和高效,因此 AutoML 和 NAS 是達成 AI 普及化遠景的重要方法之一。

DeepTech 采訪了韓松,他表示,AutoML 是個很有前景的方向,架構(gòu)搜索只是 AutoML 的一部分,它能自動化地找到一些過去人類探索不到的結(jié)構(gòu),反過來幫助人們設(shè)計高效的模型。然而,過去 NAS 算法的硬件效率有待提高:搜索過程需要很久的時間、而且搜出的模型的推理速度難以保證。NAS 和硬件結(jié)合,能帶來很多新的設(shè)計策略。

圖|ProxylessNAS為硬件定制專屬的高效神經(jīng)網(wǎng)絡(luò)架構(gòu),不同硬件適合不同的模型。(來源: https://arxiv.org/pdf/1812.00332.pdf)

大幅減少計算成本

舉例來說,谷歌所開發(fā)的 NAS 算法,需要運行在 GPU 上 4.8 萬個小時,才能生成一個用來做圖像分類或檢測任務(wù)的 CNN。當然,谷歌擁有龐大的 GPU 數(shù)量和其他專用硬件的資源,這對許多其他人來說是遙不可及的方法。而這就是 MIT 研究人員希望解決 NAS 計算昂貴的問題。他們提出的 ProxylessNAS 算法,僅需 200 個 GPU 小時,就可以在 1000 類 ImageNet 的大規(guī)模圖像數(shù)據(jù)集上直接進行搜索,換算下來,比谷歌的 48,000 GPU 小時,快了 240 倍。而且,ProxylessNAS 可以針對特定的目標硬件平臺上定制專屬的深度學習模型,使其不僅準而且運行速度快。

“主要目標是實現(xiàn)人工智能在各種硬件平臺上的普及,在特定硬件上提供“一鍵加速”的解決方案,幫助 AI 專家和非 AI 專家、硬件專家和非硬件專家有效率地設(shè)計又準又快的神經(jīng)網(wǎng)絡(luò)架構(gòu),”韓松說。同時,他也強調(diào),NAS 算法永遠不會取代人類工程師,“目的是減輕設(shè)計和改進神經(jīng)網(wǎng)絡(luò)架構(gòu)所帶來的重復(fù)性和繁瑣的工作”。

圖|MIT 電子工程和計算機科學系助理教授韓松(來源:https://songhan.mit.edu/)

路徑級二值化和修剪

在該研究中,他們的做法是刪除非必要性的神經(jīng)網(wǎng)絡(luò)設(shè)計組件,借此縮短計算時間、減少和內(nèi)存開銷來運行 NAS 算法。另一項創(chuàng)新則是讓每個輸出的 CNN 在特定硬件平臺上(CPU、GPU 和移動設(shè)備)的運行效率比使用傳統(tǒng)方法所設(shè)計的模型來得快速。在測試中,研究人員的 CNN 在手機上的測量速度,比相似精度的 MobileNet-V2 快了 1.8 倍。

圖|硬件平臺上架構(gòu)搜索過程 Demo (來源:韓松團隊)

CNN 能連接不同層(layer)的人工神經(jīng)網(wǎng)路,受到大腦處理影像的視覺皮質(zhì)(visual cortex)組織啟發(fā),適合處理視覺方面的任務(wù),是計算機視覺領(lǐng)域十分流行的架構(gòu)。一個 CNN 架構(gòu)是由多個可調(diào)整參數(shù)的計算層(稱為“過濾器”),以及這些過濾器之間可能的連接所組成。

這種連接方式多種多樣,由于可以選擇的架構(gòu)數(shù)量(稱為“搜索空間”search space)非常龐大,所以想應(yīng)用 NAS 在海量圖像數(shù)據(jù)集上創(chuàng)建一個神經(jīng)網(wǎng)絡(luò),計算量總是個很大的問題,所以工程師通常在較小的代理數(shù)據(jù)集上運行 NAS,再把將訓練好的 CNN 遷移到目標任務(wù)上,但是,這種方法降低模型的準確性,此外,把一樣的模型架構(gòu)套用在所有的硬件平臺,也難以發(fā)揮各種硬件的最佳效率。

研究人員直接在 ImageNet 大型數(shù)據(jù)集上訓練和測試他們開發(fā)的新 NAS 算法,首先,他們創(chuàng)建一個搜索空間,包含了所有可能的 CNN“路徑”(路徑是指層和過濾器如何連接來處理數(shù)據(jù)),讓 NAS 算法可以自由尋找出一個最佳架構(gòu)。

這種方法通常把所有可能的路徑存儲在內(nèi)存中,如果用傳統(tǒng)的架構(gòu)搜索辦法直接在千類 ImageNet 搜索,就會超過 GPU 內(nèi)存的限制。為了解決此問題,研究人員利用了一種稱為“路徑級二值化”(path-level binarization)的技術(shù),一次只在內(nèi)存中存放一個采樣路徑,大幅節(jié)省內(nèi)存的消耗。

接著,他們將這種二值化與“路徑級修剪”(path-level pruning)結(jié)合,通常該技術(shù)是用來學習神經(jīng)網(wǎng)絡(luò)中有哪些神經(jīng)元(neuron)可以被刪除,而且不會影響輸出。不過,研究人員 NAS 算法是采用修剪整個路徑以取代丟掉神經(jīng)元,如此能夠完全改變神經(jīng)網(wǎng)絡(luò)的架構(gòu)。

在訓練過程中,所有路徑最初都被給予相同的選擇概率,然后,該算法跟蹤這些路徑,并記下輸出的準確性和損失,進而調(diào)整路徑的概率,借此優(yōu)化準確性和效率。最后,該算法修剪掉所有低概率的路徑,僅保留最高概率的路徑,形成最終版的 CNN 架構(gòu)。

圖|MIT News 報道韓松團隊新的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法(來源:MIT News)

為硬件定制網(wǎng)絡(luò)結(jié)構(gòu)

另一項重要創(chuàng)新就是使 NAS 算法“hardware-aware”,也就是說,它會為一個硬件平臺量身定制專用的網(wǎng)絡(luò)結(jié)構(gòu),使得推理的延遲更低。

韓松解釋,hardware-aware 是指 NAS 搜出來的模型不僅準確率高,而且在硬件實測的速度也要快,使得搜出來的模型容易落地。然而,為了量測移動設(shè)備的模型推理延遲,大公司的作法是利用大量的手機來實測,成本很高;而 ProxylessNAS 則是給延遲建模,這樣可以讓延遲可導(make latency differentiable),便于對延遲進行端到端的優(yōu)化,而且只要使用一臺手機,成本低、精度誤差小于 1 毫秒。

對于網(wǎng)絡(luò)中的每個所選層,算法利用上述的延遲預(yù)測模型來采樣,然后使用這些信息設(shè)計出一個快速運行的架構(gòu),同時實現(xiàn)高精度。在實驗中,研究人員的 CNN 在移動設(shè)備上的運行速度幾乎是現(xiàn)有 MobileNet-V2 模型的 2 倍。

韓松也提到一個有趣的結(jié)果,有些卷積核結(jié)構(gòu)曾被誤以為效率太低,但在研究人員的測試中,這些架構(gòu)在某些硬件上是高效的。

他指出,比如 7x7 這樣的大 卷積核最近幾年被比較少被人使用,因為 3 個 3x3 卷積核和 1 個 7x7 卷積核有同樣的感受野(receptive field),而 3 個 3x3 卷積核有 27 個權(quán)重,1 個 7x7 卷積核有 49 個權(quán)重,仿佛 7x7 不如 3 個 3x3 能讓模型更小。

但實際在 GPU 上 invoke kernel call 的代價很高,執(zhí)行多個小型過濾器不如執(zhí)行單個大型過濾器效率高,大的 kernel call 更適合 GPU 這樣并行度高的硬件?!八栽?GPU 上,ProxylessNAS 在較深的層自動選取了大量 7x7 的卷積核,這是很有意思的,”他說。

GPU 的并行運算特性能夠同時進行多個計算,因此,執(zhí)行單個大型過濾器時,反而比處理多個小型過濾器更高效?!斑@打破了過去的想法”,“搜索空間越大,可以找到的內(nèi)容就越多。你不知道某個東西是否會比過去人類經(jīng)歷表現(xiàn)得更好,那就讓 AI 來探索,”韓松說。

他進一步指出,類似例子在量化中也有體現(xiàn),如他們最近的工作 HAQ: Hardware-aware Automated Quantization (CVPR 19 oral paper) 發(fā)現(xiàn),不同硬件,如邊緣設(shè)備(edge device)和云端設(shè)備(cloud device),對量化策略的偏好是不同的。不同層在不同硬件上所需的比特數(shù)也不一樣,有些層是計算受限,有些層是內(nèi)存受限;在這樣大的設(shè)計空間,人類給每種網(wǎng)絡(luò)、每種硬件訂制專屬的量化策略費時費力,基于學習的策略可以做得更好。

他認為,這也說明研究 specialization 和 domain-specific hardware architecture 的重要性。最近越來越多好的深度學習工作都是算力推動的,比如用于自然語言預(yù)訓練的 Bert。很多場景落地也需要低功耗的硬件支持,比如端上智能和 AIoT。所以未來算法和算力的協(xié)同研究是值得關(guān)注的方向。

幫助人類減輕做瑣事或工作的負擔,一直是大家對 AI 的期望。這也就是為什么 AutoML 和 NAS 受到重視的原因之一,所以如果要讓 NAS 普及,除了克服上述的計算成本高之外,還有哪些需要一步改善的問題?面對這個提問,韓松給了兩個很明確的方向,一是設(shè)計空間(design space)的設(shè)計,目前的 NAS 性能好壞很大程度依賴設(shè)計空間的選取,這部分還有很多人為的經(jīng)驗。二是對速度和資源的優(yōu)化,為了讓 NAS 更容易在工業(yè)界落地,有兩個條件:搜索的過程占用的計算資源要低,搜索出的模型硬件效率要高——最終實現(xiàn)讓硬件效率和算法性能同步提升。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:麻省理工學院韓松團隊新突破:比傳統(tǒng)方法快240倍,讓神經(jīng)網(wǎng)絡(luò)變"輕"、跑更快

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    從講義到學院:錢學森1963年的“星際藍圖”與2026年的現(xiàn)實回響

    歷史的坐標:1961年的講臺與2026年的揭牌1961年秋,中國科學技術(shù)大學近代力學系的教室里,錢學森先生拿起了粉筆。在接下來的幾個月里,他將自己在美國加州理工學院麻省理工學院積累的深厚學識
    的頭像 發(fā)表于 01-29 15:21 ?1282次閱讀
    從講義到<b class='flag-5'>學院</b>:錢學森1963年的“星際藍圖”與2026年的現(xiàn)實回響

    東莞理工學院“小眼睛科技杯”第四屆集成電路設(shè)計與創(chuàng)新應(yīng)用競賽圓滿落幕

    BASEDINNOVATION“小眼睛科技杯”集成電路設(shè)計與創(chuàng)新應(yīng)用競賽2025年11月23日,東莞理工學院第四屆集成電路設(shè)計與創(chuàng)新應(yīng)用競賽于學術(shù)會議中心圓滿落幕。本屆競賽由校團委、學生工作部
    的頭像 發(fā)表于 12-08 08:03 ?411次閱讀
    東莞<b class='flag-5'>理工學院</b>“小眼睛科技杯”第四屆集成電路設(shè)計與創(chuàng)新應(yīng)用競賽圓滿落幕

    自動駕駛中常提的卷積神經(jīng)網(wǎng)絡(luò)是個啥?

    在自動駕駛領(lǐng)域,經(jīng)常會聽到卷積神經(jīng)網(wǎng)絡(luò)技術(shù)。卷積神經(jīng)網(wǎng)絡(luò),簡稱為CNN,是一種專門用來處理網(wǎng)格狀數(shù)據(jù)(比如圖像)的深度學習模型。CNN在圖像處理中尤其常見,因為圖像本身就可以看作是由像
    的頭像 發(fā)表于 11-19 18:15 ?2071次閱讀
    自動駕駛中常提的<b class='flag-5'>卷積</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>是個啥?

    CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計原理及在MCU200T上仿真測試

    CNN算法簡介 我們硬件加速器的模型為Lenet-5的變型,網(wǎng)絡(luò)粗略分共有7層,細分共有13層。包括卷積,最大池化層,激活層,扁平層,全連接層。下面是各層作用介紹: 卷積層:提取
    發(fā)表于 10-29 07:49

    NMSIS神經(jīng)網(wǎng)絡(luò)庫使用介紹

    :   神經(jīng)網(wǎng)絡(luò)卷積函數(shù)   神經(jīng)網(wǎng)絡(luò)激活函數(shù)   全連接層函數(shù)   神經(jīng)網(wǎng)絡(luò)池化函數(shù)   Softmax 函數(shù)   神經(jīng)網(wǎng)絡(luò)支持功能
    發(fā)表于 10-29 06:08

    格羅方德與新加坡理工學院簽署諒解備忘錄

    2025年10月15日,格羅方德新加坡公司(GlobalFoundries Singapore,簡稱GFS)與新加坡理工學院(Singapore Polytechnic,簡稱SP)簽署了一份諒解備忘錄,旨在就新加坡半導體行業(yè)的數(shù)字人才培養(yǎng)展開合作。
    的頭像 發(fā)表于 10-24 15:10 ?721次閱讀

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標
    發(fā)表于 10-22 07:03

    CICC2033神經(jīng)網(wǎng)絡(luò)部署相關(guān)操作

    讀取。接下來需要使用擴展指令,完成神經(jīng)網(wǎng)絡(luò)的部署,此處僅對第一層卷積+池化的部署進行說明,其余層與之類似。 1.使用 Custom_Dtrans 指令,將權(quán)重數(shù)據(jù)、輸入數(shù)據(jù)導入硬件加速器內(nèi)。對于權(quán)重
    發(fā)表于 10-20 08:00

    蘇黎世聯(lián)邦理工學院、西南交通大學:關(guān)于研究MXenes-環(huán)境生化傳感平臺新型材料

    近日, 蘇黎世聯(lián)邦理工學院王京課題組 聯(lián)合 西南交通大學趙志俊課題組 及 四川大學張傳芳課題組 ,在 高起點新刊Electron 發(fā)表了題為“MXenes: Emerging Materials
    的頭像 發(fā)表于 10-10 19:02 ?678次閱讀
    蘇黎世聯(lián)邦<b class='flag-5'>理工學院</b>、西南交通大學:關(guān)于研究MXenes-環(huán)境生化傳感<b class='flag-5'>平臺</b>新型材料

    Wolfspeed與紐約州立大學理工學院加強教育研究合作

    紐約州立大學理工學院(SUNY Poly)在 近日舉行的新聞發(fā)布會上宣布,任命兩名教職人員為 Wolfspeed 捐贈講席教授(Wolfspeed Endowed Chairs),標志著該校研究擴展的重要里程碑。
    的頭像 發(fā)表于 07-04 16:12 ?875次閱讀

    【萬字長文】物聯(lián)網(wǎng)的激蕩二十年

    (InternetofThings)”。雖然業(yè)界一致認為,1999年,麻省理工學院的KevinAshton首次提出”物聯(lián)網(wǎng)”這一術(shù)語,但僅僅只是一個理念,沒有成體系的解釋,也無法形成共識。而I
    的頭像 發(fā)表于 06-27 13:42 ?1596次閱讀
    【萬字長文】物聯(lián)網(wǎng)的激蕩二十年

    偉創(chuàng)力與麻省理工學院 (MIT) 就其全新的“新制造倡議”(INM) 達成戰(zhàn)略合作

    行業(yè)巨擘+全球頂級學府? 近日,偉創(chuàng)力與 麻省理工學院? (MIT) 就其 全新的“新制造倡議”(INM) 達成戰(zhàn)略合作 。作為INM行業(yè)聯(lián)盟的 創(chuàng)始成員 ,偉創(chuàng)力將在這一項目中與MIT的研究人員
    的頭像 發(fā)表于 06-10 09:30 ?1180次閱讀

    麻省理工學院香港校友會代表團到訪華沿機器人

    近日,麻省理工學院香港校友會(MIT Club of Hong Kong)代表團40余人到訪華沿機器人總部,通過展廳參觀、技術(shù)交流與座談研討,深入了解國產(chǎn)機器人產(chǎn)業(yè)發(fā)展現(xiàn)狀,并就“機器人+人工智能”的融合發(fā)展趨勢展開深度對話。華沿機器人CEO王光能及相關(guān)人員出席。
    的頭像 發(fā)表于 05-30 09:26 ?1055次閱讀

    美國加州理工學院:研究量子傳感技術(shù)可實現(xiàn)粒子時空高精度探測

    ? 據(jù)美國加州理工學院官網(wǎng)近日消息,由美國、瑞士、委內(nèi)瑞拉等國組成的聯(lián)合團隊研發(fā)出了基于量子傳感技術(shù)的超導微線單光子探測器(SMSPDs),可實現(xiàn)粒子物理實驗中的時空同步高精度追蹤。目前該成果已在
    的頭像 發(fā)表于 05-11 16:33 ?719次閱讀

    佐治亞理工學院:毛囊級傳感器!研發(fā)可運動無感佩戴的AR控制傳感器

    式植入方案又具有風險。 這種新型微型設(shè)備比頭發(fā)毛囊間隙更小,可以插入毛囊之間和皮膚下面的微小空間,無需笨重設(shè)備或?qū)щ娔z即可高精度捕捉腦信號。 腦機接口在腦電活動和外部設(shè)備之間建立了直接的通信途徑,而佐治亞理工學院的研究
    的頭像 發(fā)表于 04-24 18:28 ?813次閱讀
    佐治亞<b class='flag-5'>理工學院</b>:毛囊級傳感器!研發(fā)可運動無感佩戴的AR控制傳感器