在谷歌第一代可擴展分布式訓(xùn)練和推理系統(tǒng)取得成功后,谷歌大腦團隊 DistBelief 與 Alphabet 合作,構(gòu)建了用于大規(guī)模機器學(xué)習(xí)模型實施和部署的第二代系統(tǒng) TensorFlow。
與 DistBelief相比,TensorFlow 的編程模型更加靈活,同時保持其高性能和對訓(xùn)練的支持以及在各種異構(gòu)硬件平臺上使用廣泛的機器學(xué)習(xí)模型。正如谷歌所說,“偉大的軟件最閃耀的是偉大的硬件,”谷歌的幾個團隊探索了用于機器學(xué)習(xí)應(yīng)用程序的定制加速器的設(shè)計。這些努力促成了張量處理單元 (TPU) 的誕生,這是一種用于機器學(xué)習(xí)的定制專用集成電路,專為 TensorFlow 量身定制。
一年多來,谷歌在其數(shù)據(jù)中心驗證了 TPU 的性能和效率,這些 TPU 的每瓦性能優(yōu)化了一個數(shù)量級。TPU 芯片更能容忍降低的計算精度,這意味著每次操作只需要很少的晶體管,從而在相同的硅流片上每秒產(chǎn)生更多的操作。
在定量分析方面,與現(xiàn)代 CPU 和 GPU 相比,TPU 的性能提高了 15-30 倍,每瓦性能提高了 30-80 倍。通過這種方式,谷歌可以以更低的成本大規(guī)模設(shè)計和部署機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型。谷歌 TPU 采用 28nm 工藝技術(shù),運行頻率為 700MHz,運行時功耗為 40W,支持 PCIe Gen3 x16 總線,提供 12.5GB/s 的帶寬用于與其主機平臺連接。
通往谷歌珊瑚之路
Google 推出了 Coral,這是一個用于構(gòu)建 AI 應(yīng)用程序的完整工具包,利用高效、私密、快速和離線的設(shè)備上推理功能。所有這一切都始于 Google Edge TPU 的發(fā)布,這是一種小型專用集成電路,可為低功耗設(shè)備提供高性能 ML 推理。
單個 ASIC 每秒可以執(zhí)行 4 萬億次操作 (4 TOPS),同時需要 2 瓦的功率 (2 TOPS/watt)。Cloud TPU 與 Edge TPU 非常不同,因為它們非常適合訓(xùn)練可能需要數(shù)周時間才能在硬件上訓(xùn)練的大型復(fù)雜機器學(xué)習(xí)模型。邊緣 TPU 專為前面提到的小型和低功耗設(shè)備而設(shè)計,是設(shè)備上 ML 推理的理想選擇。
顧名思義,Google Edge TPU 僅使用第一代 Edge TPU 支持 TensorFlow Lite,該 TPU 能夠執(zhí)行卷積神經(jīng)網(wǎng)絡(luò) (CNN) 等深度前饋神經(jīng)網(wǎng)絡(luò),使其成為基于視覺的 ML 應(yīng)用程序的不錯選擇。此 Edge TPU 可以執(zhí)行加速機器學(xué)習(xí)訓(xùn)練,但僅限于保留最后一層。但是,API 可以通過反向傳播和權(quán)重印記來執(zhí)行加速遷移學(xué)習(xí)。
為了支持 Google TPU,制造商在 Coral 的引擎蓋下設(shè)計了幾個集成邊緣 TPU 的硬件。列表中的一些流行的定制硬件包括開發(fā)板和 USB 加速器——被視為許多以人工智能為中心的應(yīng)用程序?qū)嶒灥囊徊糠帧?/p>
來自澳大利亞聯(lián)邦科學(xué)與工業(yè)研究組織 (CSIRO)、昆士蘭大學(xué)和昆士蘭科技大學(xué)的一組研究人員報告了與廣泛采用的嵌入式處理器 Arm Cortex-A53 相比,Edge TPU 的能效性能研究結(jié)果[2]。結(jié)果表明,對于少于 5400 個輸入節(jié)點和 0.15MB 模型大小的模型,Cortex-A53 比 Edge TPU 更有效。然而,隨著模型大小的增加,Edge TPU 的性能優(yōu)于 Cortex-A53——保持性能直到模型大小超過 8MB。一旦模型大小達到 13.5MB 左右,Cortex-A53 就會超過 Edge TPU,并且輸入節(jié)點數(shù)超過 5400,Cortex-A53 就非常高效。
向前邁出一步
最近,谷歌在沒有任何官方新聞稿或公告的情況下,推出了帶有板載攝像頭、麥克風(fēng)和 Edge TPU 的新型 Coral 開發(fā)板 micro 的登陸頁面。65x30 mm 微型開發(fā)板比著名的羽毛外形稍大,集成了 NXP i.MX RT1176 微控制器,具有 Cortex-A7 和 Cortex-A4 以及 Coral Edge TPU 協(xié)處理器,可提供 4 TOPS。Arm 處理器在單個硅流片中的組合提供了卓越的計算能力和多種媒體功能。
根據(jù)板載組件,內(nèi)置攝像頭和麥克風(fēng)表明了用于原型設(shè)計和部署低功耗嵌入式系統(tǒng)(如對象檢測和圖像分類)的特殊設(shè)計。深度神經(jīng)網(wǎng)絡(luò)優(yōu)化了由 Edge TPU 設(shè)備上機器學(xué)習(xí)推理支持的基于視覺的應(yīng)用程序的實現(xiàn)。除了良好的輸入/輸出連接外,12 針 GPIO 接頭使開發(fā)人員能夠?qū)?I/O 設(shè)備連接到 Coral 微開發(fā)板。
隨著谷歌意識到需要滿足極低功耗邊緣設(shè)備的需求,以實現(xiàn)更快的數(shù)據(jù)處理和低延遲,谷歌發(fā)布了 Coral 開發(fā)板微,專注于微控制器驅(qū)動的 tinyML 項目。谷歌沒有透露該產(chǎn)品定價和可用性的許多細節(jié),這意味著感興趣的開發(fā)者需要無限期地等待更明確的信息。
審核編輯:郭婷
-
處理器
+關(guān)注
關(guān)注
68文章
20082瀏覽量
243644 -
嵌入式
+關(guān)注
關(guān)注
5177文章
20003瀏覽量
325310 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8532瀏覽量
135992
發(fā)布評論請先 登錄
工業(yè)視覺網(wǎng)關(guān):RK3576賦能多路檢測與邊緣AI
HarmonyOS AI輔助編程工具(CodeGenie)概述
PTR54L15系列低功耗無線多協(xié)議模組
Nordic收購 Neuton.AI 關(guān)于產(chǎn)品技術(shù)的分析
能效比達2TOPS/W!解密邊緣AI芯片低功耗設(shè)計之法
Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)
在Google Colab筆記本電腦上導(dǎo)入OpenVINO?工具包2021中的 IEPlugin類出現(xiàn)報錯,怎么解決?
構(gòu)建開源OpenVINO?工具包后,使用MYRIAD插件成功運行演示時報錯怎么解決?
云計算開發(fā)工具包的功能
AI賦能邊緣網(wǎng)關(guān):開啟智能時代的新藍海
最新Simplicity SDK軟件開發(fā)工具包發(fā)布
基于EasyGo Vs工具包和Nl veristand軟件進行的永磁同步電機實時仿真
SEGGER為ADI超低功耗微控制器提供SystemView軟件分析工具
FPGA仿真工具包軟件EasyGo Vs Addon介紹

為低功耗邊緣AI應(yīng)用選擇Google Coral 工具包
評論