由于人眼只能看到 390nm(藍(lán)光)至 700nm(紅光)波長(zhǎng)之間的可見(jiàn)光譜,但成像設(shè)備憑借各種傳感器能捕獲到更寬泛波長(zhǎng)的圖像,包括 X 光、紫外線、紅外線以及可見(jiàn)光譜,因此基于成像傳感器的嵌入式視覺(jué)成為先進(jìn)最熱門(mén)的技術(shù)之一,應(yīng)用包括無(wú)人駕駛、無(wú)人機(jī)、機(jī)器人、醫(yī)療診斷等很多領(lǐng)域,現(xiàn)在,嵌入式視覺(jué)正結(jié)合了機(jī)器學(xué)習(xí)向自主智能視覺(jué)系統(tǒng)發(fā)展,但機(jī)器學(xué)習(xí)需要針對(duì)應(yīng)用場(chǎng)景優(yōu)化,且傳統(tǒng)開(kāi)發(fā)時(shí)間長(zhǎng),現(xiàn)在,FPGA領(lǐng)頭羊賽靈思就放了一個(gè)大招,它推出的一個(gè)產(chǎn)品不但可以大大簡(jiǎn)化視覺(jué)導(dǎo)向機(jī)器學(xué)習(xí),更可以提升視覺(jué)智能系統(tǒng)的響應(yīng)時(shí)間,并實(shí)現(xiàn)軟硬件可重配置。
1、reVISION堆棧橫空出世,它有多牛?
3月13日,賽靈思在全球同步推出Xilinx reVISION? 堆棧,它能夠支持更廣泛的沒(méi)有或者很少硬件設(shè)計(jì)專業(yè)知識(shí)的嵌入式軟件和系統(tǒng)工程師,使其與機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、傳感器融合,從而可以更快速地開(kāi)發(fā)視覺(jué)導(dǎo)向的智能系統(tǒng)。
“reVISION 支持以最快速度打造響應(yīng)最快的視覺(jué)系統(tǒng),相比最具競(jìng)爭(zhēng)力的計(jì)算嵌入式 GPU 和典型 SoC,將機(jī)器學(xué)習(xí)推斷的單位功耗圖像捕獲速度提升了 6 倍,將計(jì)算機(jī)視覺(jué)處理的單位功耗幀速度提升了 42 倍,時(shí)延降低為 1/5?!痹谫愳`思媒體發(fā)布會(huì)上,Xilinx公司戰(zhàn)略與市場(chǎng)營(yíng)銷部高級(jí)副總裁Steve Glaser指出,“即便是沒(méi)有硬件專業(yè)知識(shí)的開(kāi)發(fā)人員也能通過(guò)結(jié)合使用 C/C++/OpenCL 開(kāi)發(fā)流程、業(yè)界標(biāo)準(zhǔn)的框架,以及 Caffe 和 OpenCV 等庫(kù),用單個(gè) Zynq SoC 或 MPSoC 芯片開(kāi)發(fā)出嵌入式視覺(jué)應(yīng)用?!?/p>
以下圖關(guān)于開(kāi)發(fā)易用性和和開(kāi)發(fā)時(shí)間為例,如果采用傳統(tǒng)的RTL流程,如果采用賽靈思FPGA則,賽靈思提供了20%解決方案用戶解決剩下的80%工作,而自從賽靈思推出軟件定義開(kāi)發(fā)環(huán)境以后,開(kāi)發(fā)效率大大提升,例如軟件定義數(shù)據(jù)庫(kù)開(kāi)發(fā)SDSoc,可以把以前需要三周的開(kāi)發(fā)縮短為4天?,F(xiàn)在,如果采用賽靈思 reVISION? 堆棧,則機(jī)器學(xué)習(xí)開(kāi)發(fā)時(shí)間可以大大縮短!
?
“我們有大約1100家SDSoC開(kāi)發(fā)環(huán)境付費(fèi)用戶,其中半數(shù)都是在開(kāi)發(fā)視覺(jué)應(yīng)用。我們了解到,客戶希望能夠應(yīng)用行業(yè)標(biāo)準(zhǔn)的庫(kù)和行業(yè)應(yīng)用框架來(lái)幫助他們進(jìn)一步提高工作效率,所以我們推出了reVISION堆棧,它可以大大減少開(kāi)發(fā)時(shí)間,采用了這個(gè)堆棧,用戶能有80%的高起點(diǎn),他們只需要做剩下20%就能夠完成的應(yīng)用開(kāi)發(fā)?!盨teve Glaser強(qiáng)調(diào),“而且,我們的效率更高,在機(jī)器學(xué)習(xí)方面最主要的一個(gè)指標(biāo)就是圖像/秒/瓦,在這方面賽靈思的產(chǎn)品比業(yè)內(nèi)最佳的其他方案要高出6倍,其他方案包括英偉達(dá)Tegra、高通的So等,在計(jì)算機(jī)視覺(jué)方面,我我們圖像/秒/瓦指數(shù)比競(jìng)爭(zhēng)對(duì)手高出42倍?!?/p>
?
另外,在機(jī)器學(xué)習(xí)領(lǐng)域,很多的應(yīng)用性能不僅僅取決于推斷,還取決于響應(yīng)時(shí)間時(shí)延,在這方面,Steve 表示賽靈思的reVISION堆棧方案只有競(jìng)爭(zhēng)對(duì)手的1/5,就憑這點(diǎn),在很多汽車(chē)應(yīng)用中,就可以拯救更多的生命!
以下圖為例,如果前車(chē)急停,如果用reVISION堆棧,它只需要2.7毫秒就可以讓后車(chē)停止。而如果是英偉達(dá)的GPU,則需要49毫秒甚至320毫秒才能停住,如果汽車(chē)的時(shí)速是65英里,則停車(chē)的距離差可能就會(huì)從1.5米到100米,而這個(gè)差距就是發(fā)生了事故和沒(méi)有發(fā)生事故的差別。
?
2、客戶如何評(píng)價(jià)reVISION? 堆棧?
對(duì)于這個(gè)簡(jiǎn)化機(jī)器學(xué)習(xí)開(kāi)發(fā)的革命性產(chǎn)品,賽靈思客戶如何評(píng)價(jià)呢?
“我們的Dobby 口袋無(wú)人機(jī)-AI版集成了復(fù)雜的計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)技術(shù),通過(guò)手勢(shì)控制和對(duì)象及主題跟蹤為消費(fèi)者提供獨(dú)特的體驗(yàn),”零度智控CEO楊建軍說(shuō),“這些功能,直到最近還只屬于更昂貴的系統(tǒng),而我們借助Zynq All Programmable器件將這些復(fù)雜的算法實(shí)現(xiàn)到了Dobby AI中。我們非常高興看到賽靈思推出reVISION堆棧平臺(tái),它將支持我們的團(tuán)隊(duì)更容易地提升這些關(guān)鍵計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)算法,從而助力我們?yōu)镈obby AI賦予更加獨(dú)特的個(gè)性。擁有像Xilinx這樣不斷深耕技術(shù)的合作伙伴,將確保我們可以在這個(gè)領(lǐng)域持續(xù)開(kāi)發(fā)突破性的解決方案。”
深鑒科技(DeePhi)創(chuàng)始人兼CEO姚頌表示:“深鑒科技致力于為機(jī)器人/無(wú)人機(jī)和安防監(jiān)控等行業(yè)應(yīng)用提供先進(jìn)的嵌入式視覺(jué)解決方案。我們已經(jīng)開(kāi)發(fā)了一個(gè)完整的工作流程,用于在FPGA上部署深度學(xué)習(xí)算法,實(shí)現(xiàn)算法、軟件和硬件的協(xié)同優(yōu)化。reVISION 堆棧中所包含的完整的工具包,可以讓我們的客戶更加輕松容易地利用全可編程FPGA 和SoC —即使是沒(méi)有任何FPGA開(kāi)發(fā)背景的算法工程師也能有效地部署經(jīng)過(guò)訓(xùn)練的模型。這對(duì)于利用FPGA搭建智能解決方案有莫大的好處?!?/p>
“Vrvana enables truly immersive Mixed‐Reality experiences by leveraging Xilinx’s All Programmable technology, which provides the flexibility and throughput capability important for a low‐ latency, high‐resolution, camera‐based Mixed‐Reality solution that is unique on the market,” said Bertrand Nepveu, CEO. The release of the reVISION stack for Xilinx will give us the ability to more rapidly integrate new computer vision and machine learning features into our headsets.”
此外很多從事機(jī)器學(xué)習(xí)的廠商對(duì)reVISION 堆棧表示了歡迎這里不一一列舉了。據(jù)透露目前在無(wú)人駕駛、無(wú)人機(jī)、工業(yè)視覺(jué)、醫(yī)療診斷領(lǐng)域已經(jīng)有大量客戶采用了賽靈思的FPGA嵌入式視覺(jué)方案,因此,賽靈思能洞悉客戶需求,及時(shí)推出加速視覺(jué)導(dǎo)向的機(jī)器學(xué)習(xí)堆棧。
3、為什么reVISION 堆棧性能如此突出?
機(jī)器學(xué)習(xí)從應(yīng)用端走向云端是必然發(fā)展趨勢(shì),賽靈思一直深耕這個(gè)領(lǐng)域,面向云應(yīng)用,賽靈思推出了可重配置加速堆棧(2016年11月推出詳見(jiàn)《FPGA 成超級(jí)數(shù)據(jù)中心主流應(yīng)用,賽靈思5年轉(zhuǎn)型見(jiàn)成效》),目標(biāo)直指包括機(jī)器學(xué)習(xí)推斷在內(nèi)的各種計(jì)算加速應(yīng)用。 而reVISION? 堆棧則是面向端應(yīng)用機(jī)器學(xué)習(xí)加速工具。
?
Steve 表示reVISION? 堆棧性能突出贏在賽靈思FPGA的獨(dú)特工藝和架構(gòu)。例如在響應(yīng)速度快方面,“在嵌入式GPU和典型的SoC中,需要傳輸?shù)臄?shù)據(jù)以及需要用于計(jì)算機(jī)視頻視覺(jué)處理和機(jī)器學(xué)習(xí)的數(shù)據(jù)是需要經(jīng)過(guò)外部存儲(chǔ),但賽靈思SoC經(jīng)過(guò)了優(yōu)化,可以簡(jiǎn)化數(shù)據(jù)流是從傳感器到視覺(jué)處理、機(jī)器學(xué)習(xí)甚至到控制的處理無(wú)需經(jīng)過(guò)外部存儲(chǔ)。所以系統(tǒng)響應(yīng)速度會(huì)快很多。”Steve解釋說(shuō),“另外一方面響應(yīng)還可以預(yù)知,每次都可以知道系統(tǒng)對(duì)于外部事件作出響應(yīng)的時(shí)間,而我們的競(jìng)爭(zhēng)對(duì)手并沒(méi)有辦法去預(yù)知響應(yīng)時(shí)間?!?/p>
另外,他強(qiáng)調(diào)在開(kāi)發(fā)下一代DSP內(nèi)核時(shí),賽靈思定義了一種高效的DSP內(nèi)核,賽靈思的 DSP48E2 設(shè)計(jì)用于在一個(gè)時(shí)鐘周期內(nèi)高效地完成一個(gè)乘法累加算法 , 多達(dá) 18x27 位的乘法和多 達(dá) 48 位的累加,如下圖所示。
使用 MACC 模式的 DSP Slice
?
在運(yùn)行 INT8 深度學(xué)習(xí)時(shí),Altera較寬的 27 位寬自然占有優(yōu)勢(shì)。在傳統(tǒng)應(yīng)用中,預(yù)加法器一般用于高效實(shí)現(xiàn) (A+B) x C 計(jì)算,但這類計(jì)算在深度學(xué)習(xí)應(yīng)用中很少見(jiàn)。將 (A+B) x C 的結(jié)果拆分為 A x C 和 B x C,然后在獨(dú)立的 數(shù)據(jù)流中進(jìn)行累加,使之適用于典型深度學(xué)習(xí)計(jì)算的要求。
對(duì) INT8 深度學(xué)習(xí)運(yùn)算來(lái)說(shuō),擁有 18x27 位乘法器很占優(yōu)勢(shì)。乘法器的輸入中至少有一個(gè)必須為最小 24 位,同時(shí)進(jìn)位累加器必須為 32 位寬,才能在一個(gè) DSP Slice 上同時(shí)進(jìn)行兩個(gè) INT8 MACC 運(yùn)算。27 位輸 入能與 48 位累加器結(jié)合,從而將深度學(xué)習(xí)求解性能提升 1.75 倍(1.75:1 即為 DSP 乘法器與 INT8 深度 學(xué)習(xí) MACC 的比率)。而其他廠商如Altera所提供的 FPGA 在單個(gè) DSP 模塊中只提供 18x19 乘法器,DSP 乘法器與 INT8 MACC 之比僅為 1:1。
“Altera早做下一代DSP開(kāi)發(fā)的時(shí)候,本來(lái)它的DSP定點(diǎn)效率就要低于賽靈思,它后來(lái)做出的決定使得它比原來(lái)落后賽靈思的差距又?jǐn)U大了,比賽靈思的效率低了100%,所以在8位一個(gè)周期里我們可以操作運(yùn)算兩次,而它只能一次,所以在DSP架構(gòu)方面,賽靈思的比它的效率提升兩倍,但實(shí)際上我們最高效率可以比它大6倍,所以除了這個(gè)DSP以外,我們還有其他兩個(gè)優(yōu)勢(shì)?!盨teve 表示,“在我們存儲(chǔ)器層級(jí)上,我們引入一個(gè)XRAM架構(gòu),另外一個(gè)優(yōu)勢(shì)是我們的工藝領(lǐng)先Altera一代?!边@是一個(gè)對(duì)比。
他也表示神經(jīng)網(wǎng)絡(luò)理論是不斷發(fā)展的,過(guò)去兩年里取得的進(jìn)展幾乎要等于之前45年的技術(shù)進(jìn)步 因此賽靈思的方案還可以了重配置性?!巴ㄟ^(guò)這樣可重配置的功能,就可以應(yīng)用最新的關(guān)于視覺(jué)和機(jī)器學(xué)習(xí)方面的最新的技術(shù)和進(jìn)展,而無(wú)需來(lái)改變自己系統(tǒng)的硬件?!彼硎?。
?
另外,在嵌入式視覺(jué)領(lǐng)域,越來(lái)越多的傳感器技術(shù)需要融合進(jìn)來(lái),例如以前是環(huán)境傳感器,而現(xiàn)在則融合了更多化學(xué)、機(jī)械、光學(xué)、成像、雷達(dá)等等,融合的驅(qū)動(dòng)就是人工智能,所以賽靈思的reVISION也考慮到了傳感器的融合發(fā)展?!皞鞲衅魅诤虾苤匾?,例如工業(yè)機(jī)器人在工作時(shí),除了視覺(jué)處理還需要壓力處理,因?yàn)樵?jīng)發(fā)生或工業(yè)機(jī)器人傷害人類的事件,所以需要度傳感器信號(hào)做融合處理?!彼赋觥?/p>
?
它的驅(qū)動(dòng)力量在于人工智能,也就是人工智能在所有AI擴(kuò)展驅(qū)動(dòng)了傳感器融合的渠道。所以我們推出的reVISION,它能夠?qū)崿F(xiàn)非常獨(dú)特的可重配置的功能,不僅僅是能夠支持不同的類型和技術(shù)傳感器,而且還能夠支持這些傳感器的集成和融合。
從響應(yīng)速度和可重配置來(lái)看,賽靈思的reVISION都非常出眾
4、reVISION 堆棧如何使用?
針對(duì)客戶的視覺(jué)應(yīng)用機(jī)器學(xué)習(xí),賽靈思除了提供軟件堆棧以外,還有硬件的平臺(tái)和傳感器,使得客戶可以很快上手。如圖的嵌入式視覺(jué)開(kāi)發(fā)套件,從28nm的Zynq到最新的16nm MPSOC都有覆蓋。
“賽靈思有幾百家客戶在做基于視覺(jué)的系統(tǒng),還有幾十家客戶在做機(jī)器學(xué)習(xí),要把機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺(jué)相結(jié)合??蛻粜枰度胩厥獾拈_(kāi)發(fā)資源,隨著reVISION的推出,能夠消除機(jī)器學(xué)習(xí)廣泛采用所面臨的很多障礙?!盨teve 強(qiáng)調(diào)。
賽靈思 reVISION 堆棧包括用于平臺(tái)、算法和應(yīng)用開(kāi)發(fā)的豐富的開(kāi)發(fā)資源,支持最流行的神經(jīng)網(wǎng)絡(luò)(諸如 AlexNet、GoogLeNet、SqueezeNet、SSD 和 FCN)以及庫(kù)元素(如 CNN 網(wǎng)絡(luò)層的預(yù)定義優(yōu)化型實(shí)現(xiàn)方案,這也是構(gòu)建定制神經(jīng)網(wǎng)絡(luò) DNN/CNN 所需的)。配合豐富的滿足加速要求的 OpenCV 功能,支持機(jī)器視覺(jué)處理。
?
對(duì)應(yīng)用層面的開(kāi)發(fā)來(lái)說(shuō),賽靈思支持流行的框架,包括用于機(jī)器學(xué)習(xí)的 Caffe 和用于計(jì)算機(jī)視覺(jué)的 OpenVX(將于 2017 年下半年推出)。reVISION 堆棧還包括賽靈思和第三方提供的基于 Zynq SoC 和 MPSoC 的開(kāi)發(fā)平臺(tái)。
reVISION 開(kāi)發(fā)流程從 熟悉的C、C++ 和/或 OpenCL 語(yǔ)言及相關(guān)編譯器技術(shù)的基于 eclipse 的開(kāi)發(fā)環(huán)境(即 SDSoC 開(kāi)發(fā)環(huán)境)啟動(dòng)。在 SDSoC 環(huán)境中,軟件工程師和系統(tǒng)工程師能以 reVISION 硬件平臺(tái)為目標(biāo),并采用大量的加速就緒型計(jì)算機(jī)視覺(jué)庫(kù),很快還能采用OpenVX框架,從而快速構(gòu)建應(yīng)用。
對(duì)于機(jī)器學(xué)習(xí),可用 Caffe 等流行的框架來(lái)培訓(xùn)神經(jīng)網(wǎng)絡(luò),用 Caffe 生成的 .prototxt 文件對(duì)基于 ARM 的軟件調(diào)度器進(jìn)行配置,從而驅(qū)動(dòng)專門(mén)為可編程邏輯預(yù)先優(yōu)化的CNN 推斷加速器。
對(duì)計(jì)算機(jī)視覺(jué)和其他專有算法來(lái)說(shuō),用戶可對(duì)軟件代碼進(jìn)行特征分析,發(fā)現(xiàn)瓶頸,并在代碼中標(biāo)出希望加速并進(jìn)行“硬件優(yōu)化”的特定功能。“系統(tǒng)優(yōu)化編譯器”則用來(lái)創(chuàng)建加速的實(shí)現(xiàn)方案,包括處理器/加速器接口(數(shù)據(jù)移動(dòng)器)和軟件驅(qū)動(dòng)器。結(jié)合計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)功能,該編譯器能創(chuàng)建優(yōu)化的融合實(shí)現(xiàn)方案。
實(shí)際開(kāi)發(fā)流程
Steve 介紹了利用reVISION堆棧的開(kāi)發(fā)流程。
reVISION堆棧的開(kāi)發(fā)流程
客戶可以首先獲得我們的reVISION堆棧,然后有一個(gè)帶有Zynq和MPSoC的開(kāi)發(fā)板,開(kāi)發(fā)板有傳感器,且都是經(jīng)過(guò)預(yù)先驗(yàn)證的。在機(jī)器學(xué)習(xí)方面,賽靈思會(huì)預(yù)裝比特流或者配置定制神經(jīng)網(wǎng)絡(luò)層用于應(yīng)用和Zynq器件的快速優(yōu)化。
客戶的應(yīng)用和算法的工程師會(huì)選擇他們非常熟悉的框架,賽靈思首要支持的Caffe框架來(lái)支持他們的開(kāi)發(fā)應(yīng)用。然后客戶可以使用本地的數(shù)據(jù)中心來(lái)進(jìn)行訓(xùn)練,做到合適的網(wǎng)絡(luò)配置,Caffe輸出文件就會(huì)進(jìn)入到解決方案當(dāng)中,然后創(chuàng)建出一個(gè)優(yōu)化的實(shí)施方案用于虛擬技術(shù),然后會(huì)有一個(gè)非常快速的編譯過(guò)程,對(duì)預(yù)優(yōu)化的CNN層進(jìn)行定時(shí),定制的神經(jīng)網(wǎng)絡(luò)層是由ARM處理器來(lái)控制,整個(gè)編譯過(guò)程會(huì)非??欤笳麄€(gè)機(jī)器學(xué)習(xí)的應(yīng)用會(huì)非??斓脑谀繕?biāo)器件上運(yùn)行。
這個(gè)流程是把視覺(jué)類機(jī)器學(xué)習(xí)簡(jiǎn)化了很多
Steve表示未來(lái)的智能視覺(jué)系統(tǒng)不僅要會(huì)思考,而且還能對(duì)情境立即做出“響應(yīng)”。因此機(jī)器學(xué)習(xí)開(kāi)發(fā)方案要適應(yīng)神經(jīng)網(wǎng)絡(luò)理論和算法的不斷演化,要具備軟硬件的可重配置和升級(jí),此外還要支持廣泛的互聯(lián)性,能進(jìn)行云端通信,賽靈思的方案都支持上述需求。通過(guò)高效的推斷和控制,賽靈思實(shí)現(xiàn)了傳感器的最快響應(yīng)時(shí)間,支持最新的神經(jīng)網(wǎng)絡(luò),算法和傳感器的可重構(gòu)性,并支持與傳統(tǒng)或新機(jī)器、網(wǎng)絡(luò)和云的任意連接。
期待機(jī)器學(xué)習(xí)領(lǐng)域賽靈思推出更多有差異化的細(xì)分方案。
針對(duì)reVISION堆棧的福利活動(dòng)
慶祝賽靈思reVISION堆棧推出,本微信號(hào)特別推出福利活動(dòng),凡是轉(zhuǎn)發(fā)本條微信,將轉(zhuǎn)發(fā)截圖發(fā)到我微信號(hào)朋友將可以進(jìn)入“FPGA技術(shù)交流群”參加紅包抽獎(jiǎng),獎(jiǎng)品為賽靈思獨(dú)家制作的reVISION堆棧紀(jì)念款T恤!
評(píng)論