英特爾AI策略全解析(1):延伸四大產(chǎn)品線 - 全文

英特爾決心全力發(fā)展AI，明年現(xiàn)有的Xeon E5、Xeon Phi處理器平臺(tái)都將推出新一代產(chǎn)品，并將以Xeon搭配新開發(fā)的「Lake Crest」芯片，專攻類神經(jīng)網(wǎng)絡(luò)的加速應(yīng)用

【英特爾AI應(yīng)用主打4種服務(wù)器處理器】若要在數(shù)據(jù)中心環(huán)境當(dāng)中建構(gòu)AI系統(tǒng)，英特爾預(yù)計(jì)將提供4種運(yùn)算平臺(tái)：Xeon、Xeon Phi、Xeon搭配FPGA（Arria 10）、Xeon搭配Nervana（Lake Crest），分別主打基本用途、高效能、低延遲與可程序化、類神經(jīng)網(wǎng)絡(luò)加速等不同需求。圖片來源：iThome

這一年來，除了云端服務(wù)、大數(shù)據(jù)、行動(dòng)應(yīng)用持續(xù)走紅以外，人工智能（AI）無疑是下一個(gè)即將起飛的熱門IT技術(shù)，許多人已經(jīng)開始積極投入機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的開發(fā)與應(yīng)用，繪圖處理器大廠Nvidia今年的營收、獲利、股價(jià)持續(xù)上漲，也與此有關(guān)，而同樣是處理器大廠的英特爾，現(xiàn)在也對(duì)AI的發(fā)展寄予厚望，并正式宣布調(diào)整以AI為重的策略，全力發(fā)展軟硬件技術(shù)，以支持相關(guān)的發(fā)展。

在11月18日舉行的「Intel AI Day」活動(dòng)當(dāng)中，英特爾執(zhí)行長Brian Krzanich提出了他們的愿景，并期盼能推動(dòng)AI普及，將AI變得更平民化，進(jìn)而引領(lǐng)AI運(yùn)算時(shí)代的來臨，使英特爾能夠成為加速AI發(fā)展的催化劑。

而就更實(shí)際的產(chǎn)品而言，英特爾在服務(wù)器端處理器平臺(tái)上，也針對(duì)AI有所布局。在2017年，現(xiàn)有的Xeon E5、Xeon Phi處理器平臺(tái)都將推出新一代產(chǎn)品，同時(shí)，除了以Xeon搭配FPGA（Field Programmable Gate Array）芯片Altera Arria 10之外，英特爾也將以Xeon搭配新開發(fā)的「Lake Crest」芯片，專攻類神經(jīng)網(wǎng)絡(luò)的加速應(yīng)用。

值得注意的是，Lake Crest的形式是一張基于硅芯片的獨(dú)立加速卡，技術(shù)源自于英特爾今年8月并購的新創(chuàng)公司Nervana Systems，該產(chǎn)品將于2017年第一季問世。之后，英特爾還將推出Xeon結(jié)合這種新型態(tài)加速AI處理機(jī)制的芯片，研發(fā)代號(hào)稱為「Knights Crest」，屆時(shí)，采用這顆芯片的服務(wù)器直接具有系統(tǒng)開機(jī)的能力，無需搭配Xeon處理器。

英特爾AI服務(wù)器平臺(tái)的發(fā)布時(shí)程

在2016這一年，英特爾已經(jīng)推出了FPGA的系統(tǒng)單芯片解決方案Arria 10，以及Xeon Phi x200系列（Knights Landing）。2017年他們將發(fā)表新的Xeon Phi（Knights Mill），以及深度學(xué)習(xí)專用的運(yùn)算芯片Lake Crest，而在通用服務(wù)器級(jí)處理器Xeon系列，基于Skylake微架構(gòu)的產(chǎn)品也將問世。

強(qiáng)化平行處理與向量處理性能，Xeon與Xeon Phi支持新指令集

英特爾在2017年即將推出的服務(wù)器產(chǎn)品，還包括采用Skylake微架構(gòu)的新一代Xeon處理器，以及Xeon Phi（代號(hào)為Knights Mill）。

以現(xiàn)行的Xeon E5-2600 v4系列處理器而言，根據(jù)英特爾提供的效能測試數(shù)據(jù)，若執(zhí)行大數(shù)據(jù)與AI領(lǐng)域經(jīng)常會(huì)運(yùn)用的Apache Spark軟件環(huán)境，效能提升的幅度，可望達(dá)到18倍之高（以今年推出的Xeon E5-2699 v4搭配MKL 2017 Update 1鏈接庫，對(duì)上Xeon E5-2697 v2搭配F2jBLAS鏈接庫）。

英特爾表示，在初期出貨給特定云端服務(wù)業(yè)者的「Skylake」Xeon處理器版本（preliminary version）當(dāng)中，將會(huì)加入更多整合式加速運(yùn)算的進(jìn)階特色。例如，新的進(jìn)階向量延伸指令集AVX-512，可針對(duì)機(jī)器學(xué)習(xí)類型工作負(fù)載的執(zhí)行，提升相關(guān)的推理論斷能力。至于Xeon新平臺(tái)其他增益的功能與組態(tài)支持，預(yù)計(jì)將會(huì)在2017年中正式發(fā)布時(shí)，才會(huì)揭露。

若單看AVX-512這套指令集，目前只有今年6月推出的Xeon Phi x200系列處理器（Knights Landing）支持，接下來，英特爾的主力通用服務(wù)器平臺(tái)Xeon處理器，會(huì)在下一代采用Skylake微架構(gòu)的產(chǎn)品當(dāng)中支持。

因此，就目前而言，英特爾現(xiàn)有處理器所支持的AVX指令集，總共可分為三代：Sandy Bridge和Ivy Bridge微架構(gòu)處理器，內(nèi)建的是第一代AVX，Haswell和Broadwell微架構(gòu)處理器改為AVX2，而Skylake微架構(gòu)和Knights Landing是采用AVX512?；旧?，前兩代的AVX指令集，都是基于128位SIMD緩存器，可延伸到256位。

至于Xeon Phi的下一代產(chǎn)品「Knights Mill」，英特爾表示，會(huì)把深度學(xué)習(xí)的應(yīng)用效能，提升到現(xiàn)有Xeon Phi處理器（7290）的4倍，并同樣具備直接內(nèi)存訪問（Direct Memory Access）的能力——最高可存取到400GB（Knights Landing是以384GB的DDR4內(nèi)存，搭配16GB的MCDRAM）。

同時(shí)，在橫向擴(kuò)展到32節(jié)點(diǎn)的系統(tǒng)環(huán)境當(dāng)中，目前的Xeon Phi也已經(jīng)能大幅縮短機(jī)器學(xué)習(xí)的訓(xùn)練時(shí)間，成效差距可達(dá)到31倍之大。

基于FPGA可程序化硬件運(yùn)算技術(shù)，推出深度學(xué)習(xí)加速卡DLIA

FPGA則是另一個(gè)英特爾近年來極力發(fā)展的重點(diǎn)，他們?cè)?015年并購了專攻FPGA技術(shù)的Altera公司，并以此成立新的業(yè)務(wù)單位──可程序化解決方案事業(yè)群（Programmable Solutions Group）。

針對(duì)高效能運(yùn)算（HPC）領(lǐng)域當(dāng)中也相當(dāng)熱門的AI應(yīng)用，英特爾在今年11月稍早舉行的Supercomputing 2016大會(huì)期間，也宣布將于2017年初推出基于FPGA的AI加速解決方案，名為Deep Learning Inference Accelerator（DLIA），可用于影像辨識(shí)應(yīng)用，并且具備大量的數(shù)據(jù)吞吐能力與高度的能源效益。

DLIA的硬件是英特爾FPGA 系列產(chǎn)品當(dāng)中的Arria 10的適配卡，芯片之間傳輸率，最高可達(dá)到25.78 Gbps，最大浮點(diǎn)運(yùn)算效能為1，500 GFLOPS，可因應(yīng)卷積神經(jīng)網(wǎng)絡(luò)（CNN）的部署架構(gòu)，提供優(yōu)化效能。而且，Arria 10本身所采用的處理器，是20奈米制程的ARM系統(tǒng)單芯片（SoC）Cortex-A9 MPCore，比起前一代FPGA與SoC芯片，號(hào)稱能節(jié)省4成的電力。

同時(shí)，由于DLIA是基于FPGA技術(shù)而成，所以秉持了可程序化的特性，用戶能從遠(yuǎn)程對(duì)DLIA進(jìn)行韌體更新，以便隨時(shí)因應(yīng)AI技術(shù)的改變，而且也能直接運(yùn)用深度學(xué)習(xí)的軟件開發(fā)框架，例如英特爾自己維護(hù)、發(fā)行的Caffe，以及MKL-DNN（Math Kernel Library for Deep Neural Networks）等鏈接庫。

專為深度學(xué)習(xí)應(yīng)用所設(shè)計(jì)的Crest系列芯片，預(yù)計(jì)將在2017年問世

英特爾2016年并購Nervana公司后，預(yù)計(jì)在2017年推出運(yùn)算芯片Nervana Engine。

這顆代號(hào)為Lake Crest的處理器，是專為深度學(xué)習(xí)的工作負(fù)載所設(shè)計(jì)的，將提供極高的運(yùn)算密度，大幅超越現(xiàn)行GPU的運(yùn)算能力。

在數(shù)據(jù)存取的方式上，Lake Crest本身也配置了新一代的高速帶寬內(nèi)存技術(shù)HBM2，搭配的總?cè)萘繛?2GB，訪問速度高達(dá)8Tb/s。而芯片之間進(jìn)行互相溝通時(shí)，Lake Crest提供12個(gè)雙向的鏈接通道，有助于在彼此互連的架構(gòu)下，進(jìn)行高速數(shù)據(jù)傳輸。

英特爾強(qiáng)調(diào)，Lake Crest能支持真正的數(shù)據(jù)模型平行處理作業(yè)，因?yàn)樵谶@樣的運(yùn)算架構(gòu)當(dāng)中，每一個(gè)運(yùn)算節(jié)點(diǎn)，都會(huì)配置專用的內(nèi)存接口，如此一來，系統(tǒng)能夠存取的數(shù)據(jù)模型大小較不受限，同時(shí)也可以藉此增進(jìn)內(nèi)存I/O效率。

而在Lake Crest之后，英特爾打算師法Xeon Phi x200系列處理器的作法，推出更進(jìn)一步整合Xeon與Nervana加速技術(shù)的芯片，研發(fā)代號(hào)為Knights Crest。展望AI運(yùn)算平臺(tái)的未來目標(biāo)，他們希望將現(xiàn)行AI應(yīng)用耗費(fèi)在深度學(xué)習(xí)訓(xùn)練的時(shí)間，盡可能地縮短，在2020年能做到實(shí)時(shí)訓(xùn)練，達(dá)到節(jié)省幅度100倍的目標(biāo)。

Lake Crest的深度學(xué)習(xí)處理架構(gòu)

Lake Crest是基于多維度數(shù)據(jù)數(shù)組（tensor-based）的處理架構(gòu)，而且，提供Flexpoint的作法，所能支持的平行處理層級(jí)是現(xiàn)行技術(shù)的10倍。這顆芯片內(nèi)建的內(nèi)存也很特別，是HBM（High Bandwidth Memory）的第二代技術(shù)，內(nèi)存帶寬是目前DDR4的12倍。

下篇：英特爾AI策略全解析(2):軟件的優(yōu)化提供強(qiáng)大效能

閱讀全文

上一頁 1 2全文