福利看片一区二区,宝贝今晚穿这个给我看

基于讓人工智能可快速大規(guī)模布建的需求，自動機器學習（AutoML）和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索（NAS，Neural Architecture Search）成為相當受到關(guān)注的新領(lǐng)域，NAS 旨在利用算法自動設(shè)計出神經(jīng)網(wǎng)絡(luò)，優(yōu)點是快速且高效，缺點則是需要大量的運算能力，成本昂貴。

麻省理工學院（MIT）電子工程和計算機科學系助理教授韓松與團隊人員蔡涵和朱力耕設(shè)計出的 NAS 算法—ProxylessNAS，可以直接針對目標硬件平臺訓練專用的卷積神經(jīng)網(wǎng)絡(luò)（CNN），而且在 1000 類 ImageNet 大規(guī)模圖像數(shù)據(jù)集上直接搜索，僅需 200 個 GPU 小時，如此便能讓 NAS 算法能夠更廣泛的被運用。該論文將在 5 月舉辦的 ICLR（International Conference on Learning Representations）大會上發(fā)表。

（來源：Han Lab）

AutoML 是用以模型選擇、或是超參數(shù)優(yōu)化的自動化方法，而 NAS 屬于 AutoML 概念下的一個領(lǐng)域，簡單來說，就是用“神經(jīng)網(wǎng)絡(luò)來設(shè)計神經(jīng)網(wǎng)絡(luò)”，一來好處是可以加速模型開發(fā)的進度，再者，NAS 開發(fā)的神經(jīng)網(wǎng)絡(luò)可望比人類工程師設(shè)計的系統(tǒng)更加準確和高效，因此 AutoML 和 NAS 是達成 AI 普及化遠景的重要方法之一。

DeepTech 采訪了韓松，他表示，AutoML 是個很有前景的方向，架構(gòu)搜索只是 AutoML 的一部分，它能自動化地找到一些過去人類探索不到的結(jié)構(gòu)，反過來幫助人們設(shè)計高效的模型。然而，過去 NAS 算法的硬件效率有待提高：搜索過程需要很久的時間、而且搜出的模型的推理速度難以保證。NAS 和硬件結(jié)合，能帶來很多新的設(shè)計策略。

圖｜ProxylessNAS為硬件定制專屬的高效神經(jīng)網(wǎng)絡(luò)架構(gòu)，不同硬件適合不同的模型。（來源: https://arxiv.org/pdf/1812.00332.pdf）

大幅減少計算成本

舉例來說，谷歌所開發(fā)的 NAS 算法，需要運行在 GPU 上 4.8 萬個小時，才能生成一個用來做圖像分類或檢測任務(wù)的 CNN。當然，谷歌擁有龐大的 GPU 數(shù)量和其他專用硬件的資源，這對許多其他人來說是遙不可及的方法。而這就是 MIT 研究人員希望解決 NAS 計算昂貴的問題。他們提出的 ProxylessNAS 算法，僅需 200 個 GPU 小時，就可以在 1000 類 ImageNet 的大規(guī)模圖像數(shù)據(jù)集上直接進行搜索，換算下來，比谷歌的 48,000 GPU 小時，快了 240 倍。而且，ProxylessNAS 可以針對特定的目標硬件平臺上定制專屬的深度學習模型，使其不僅準而且運行速度快。

“主要目標是實現(xiàn)人工智能在各種硬件平臺上的普及，在特定硬件上提供“一鍵加速”的解決方案，幫助 AI 專家和非 AI 專家、硬件專家和非硬件專家有效率地設(shè)計又準又快的神經(jīng)網(wǎng)絡(luò)架構(gòu)，”韓松說。同時，他也強調(diào)，NAS 算法永遠不會取代人類工程師，“目的是減輕設(shè)計和改進神經(jīng)網(wǎng)絡(luò)架構(gòu)所帶來的重復(fù)性和繁瑣的工作”。

圖｜MIT 電子工程和計算機科學系助理教授韓松（來源：https://songhan.mit.edu/）

路徑級二值化和修剪

在該研究中，他們的做法是刪除非必要性的神經(jīng)網(wǎng)絡(luò)設(shè)計組件，借此縮短計算時間、減少和內(nèi)存開銷來運行 NAS 算法。另一項創(chuàng)新則是讓每個輸出的 CNN 在特定硬件平臺上（CPU、GPU 和移動設(shè)備）的運行效率比使用傳統(tǒng)方法所設(shè)計的模型來得快速。在測試中，研究人員的 CNN 在手機上的測量速度，比相似精度的 MobileNet-V2 快了 1.8 倍。

圖|硬件平臺上架構(gòu)搜索過程 Demo （來源：韓松團隊）

CNN 能連接不同層（layer）的人工神經(jīng)網(wǎng)路，受到大腦處理影像的視覺皮質(zhì)（visual cortex）組織啟發(fā)，適合處理視覺方面的任務(wù)，是計算機視覺領(lǐng)域十分流行的架構(gòu)。一個 CNN 架構(gòu)是由多個可調(diào)整參數(shù)的計算層（稱為“過濾器”），以及這些過濾器之間可能的連接所組成。

這種連接方式多種多樣，由于可以選擇的架構(gòu)數(shù)量（稱為“搜索空間”search space）非常龐大，所以想應(yīng)用 NAS 在海量圖像數(shù)據(jù)集上創(chuàng)建一個神經(jīng)網(wǎng)絡(luò)，計算量總是個很大的問題，所以工程師通常在較小的代理數(shù)據(jù)集上運行 NAS，再把將訓練好的 CNN 遷移到目標任務(wù)上，但是，這種方法降低模型的準確性，此外，把一樣的模型架構(gòu)套用在所有的硬件平臺，也難以發(fā)揮各種硬件的最佳效率。

研究人員直接在 ImageNet 大型數(shù)據(jù)集上訓練和測試他們開發(fā)的新 NAS 算法，首先，他們創(chuàng)建一個搜索空間，包含了所有可能的 CNN“路徑”（路徑是指層和過濾器如何連接來處理數(shù)據(jù)），讓 NAS 算法可以自由尋找出一個最佳架構(gòu)。

這種方法通常把所有可能的路徑存儲在內(nèi)存中，如果用傳統(tǒng)的架構(gòu)搜索辦法直接在千類 ImageNet 搜索，就會超過 GPU 內(nèi)存的限制。為了解決此問題，研究人員利用了一種稱為“路徑級二值化”（path-level binarization）的技術(shù)，一次只在內(nèi)存中存放一個采樣路徑，大幅節(jié)省內(nèi)存的消耗。

接著，他們將這種二值化與“路徑級修剪”（path-level pruning）結(jié)合，通常該技術(shù)是用來學習神經(jīng)網(wǎng)絡(luò)中有哪些神經(jīng)元（neuron）可以被刪除，而且不會影響輸出。不過，研究人員 NAS 算法是采用修剪整個路徑以取代丟掉神經(jīng)元，如此能夠完全改變神經(jīng)網(wǎng)絡(luò)的架構(gòu)。

在訓練過程中，所有路徑最初都被給予相同的選擇概率，然后，該算法跟蹤這些路徑，并記下輸出的準確性和損失，進而調(diào)整路徑的概率，借此優(yōu)化準確性和效率。最后，該算法修剪掉所有低概率的路徑，僅保留最高概率的路徑，形成最終版的 CNN 架構(gòu)。

圖｜MIT News 報道韓松團隊新的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法（來源：MIT News）

為硬件定制網(wǎng)絡(luò)結(jié)構(gòu)

另一項重要創(chuàng)新就是使 NAS 算法“hardware-aware”，也就是說，它會為一個硬件平臺量身定制專用的網(wǎng)絡(luò)結(jié)構(gòu)，使得推理的延遲更低。

韓松解釋，hardware-aware 是指 NAS 搜出來的模型不僅準確率高，而且在硬件實測的速度也要快，使得搜出來的模型容易落地。然而，為了量測移動設(shè)備的模型推理延遲，大公司的作法是利用大量的手機來實測，成本很高；而 ProxylessNAS 則是給延遲建模，這樣可以讓延遲可導（make latency differentiable），便于對延遲進行端到端的優(yōu)化，而且只要使用一臺手機，成本低、精度誤差小于 1 毫秒。

對于網(wǎng)絡(luò)中的每個所選層，算法利用上述的延遲預(yù)測模型來采樣，然后使用這些信息設(shè)計出一個快速運行的架構(gòu)，同時實現(xiàn)高精度。在實驗中，研究人員的 CNN 在移動設(shè)備上的運行速度幾乎是現(xiàn)有 MobileNet-V2 模型的 2 倍。

韓松也提到一個有趣的結(jié)果，有些卷積核結(jié)構(gòu)曾被誤以為效率太低，但在研究人員的測試中，這些架構(gòu)在某些硬件上是高效的。

他指出，比如 7x7 這樣的大卷積核最近幾年被比較少被人使用，因為 3 個 3x3 卷積核和 1 個 7x7 卷積核有同樣的感受野（receptive field），而 3 個 3x3 卷積核有 27 個權(quán)重，1 個 7x7 卷積核有 49 個權(quán)重，仿佛 7x7 不如 3 個 3x3 能讓模型更小。

但實際在 GPU 上 invoke kernel call 的代價很高，執(zhí)行多個小型過濾器不如執(zhí)行單個大型過濾器效率高，大的 kernel call 更適合 GPU 這樣并行度高的硬件?！八栽?GPU 上，ProxylessNAS 在較深的層自動選取了大量 7x7 的卷積核，這是很有意思的，”他說。

GPU 的并行運算特性能夠同時進行多個計算，因此，執(zhí)行單個大型過濾器時，反而比處理多個小型過濾器更高效?！斑@打破了過去的想法”，“搜索空間越大，可以找到的內(nèi)容就越多。你不知道某個東西是否會比過去人類經(jīng)歷表現(xiàn)得更好，那就讓 AI 來探索，”韓松說。

他進一步指出，類似例子在量化中也有體現(xiàn)，如他們最近的工作 HAQ: Hardware-aware Automated Quantization (CVPR 19 oral paper) 發(fā)現(xiàn)，不同硬件，如邊緣設(shè)備（edge device）和云端設(shè)備（cloud device），對量化策略的偏好是不同的。不同層在不同硬件上所需的比特數(shù)也不一樣，有些層是計算受限，有些層是內(nèi)存受限；在這樣大的設(shè)計空間，人類給每種網(wǎng)絡(luò)、每種硬件訂制專屬的量化策略費時費力，基于學習的策略可以做得更好。

他認為，這也說明研究 specialization 和 domain-specific hardware architecture 的重要性。最近越來越多好的深度學習工作都是算力推動的，比如用于自然語言預(yù)訓練的 Bert。很多場景落地也需要低功耗的硬件支持，比如端上智能和 AIoT。所以未來算法和算力的協(xié)同研究是值得關(guān)注的方向。

幫助人類減輕做瑣事或工作的負擔，一直是大家對 AI 的期望。這也就是為什么 AutoML 和 NAS 受到重視的原因之一，所以如果要讓 NAS 普及，除了克服上述的計算成本高之外，還有哪些需要一步改善的問題？面對這個提問，韓松給了兩個很明確的方向，一是設(shè)計空間（design space）的設(shè)計，目前的 NAS 性能好壞很大程度依賴設(shè)計空間的選取，這部分還有很多人為的經(jīng)驗。二是對速度和資源的優(yōu)化，為了讓 NAS 更容易在工業(yè)界落地，有兩個條件：搜索的過程占用的計算資源要低，搜索出的模型硬件效率要高——最終實現(xiàn)讓硬件效率和算法性能同步提升。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4838

瀏覽量
107732
機器學習

機器學習

+關(guān)注

關(guān)注
66

文章
8553

瀏覽量
136920
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1236

瀏覽量
26187