日前IBM發(fā)布POWER 9處理器是基于14nm工藝制程,并且專為AI、加速計(jì)算設(shè)計(jì) ,相比 X86 系統(tǒng),可縮短在機(jī)器學(xué)習(xí)框架下的訓(xùn)練時(shí)間。IBM表示設(shè)計(jì)之初的理念就是未來(lái)為 AI 服務(wù),且率先使用了PCIe 4.0技術(shù)。
近日 IBM 在紐約發(fā)布了最新設(shè)計(jì)的POWER9處理器,以及裝有 POWER9的新一代Power Systems服務(wù)器—— AC922。2017年下半年以來(lái),針對(duì)大數(shù)據(jù)和云計(jì)算,IBM發(fā)布了多款硬件。值得一提的是,AC922是 IBM 第一款針對(duì)企業(yè)級(jí) AI市場(chǎng)發(fā)布的新品,該系統(tǒng)專門為人工智能、加速計(jì)算而設(shè)計(jì),根據(jù)其內(nèi)部測(cè)試數(shù)據(jù),相比 X86 系統(tǒng),可將深度學(xué)習(xí)框架下將訓(xùn)練時(shí)間縮短至原來(lái)的1/4。
IBM大中華區(qū)科技合作部副總裁Mary Coucher 表示,早四年前IBM 開(kāi)始設(shè)計(jì) POWER9時(shí),就在整個(gè)過(guò)程中都考慮了如何來(lái)為 AI 服務(wù)。
具體到數(shù)據(jù)上,跟x86相比,POWER9的線程增加 2 倍, I/O帶寬增加5倍,CPU和GPU之間的內(nèi)存共享提升至2TB,且率先使用了PCIe 4.0技術(shù)的,速度比基于PCIe Gen3的x86快了2倍多。
基于POWER9 的 AC922,則嵌入了PCI-Express 4.0、新一代NVIDIA的 NVLink及OpenCAPI,在加速數(shù)據(jù)傳送方面,超越了 x86 數(shù)倍,能夠大幅提升Chainer、TensorFlow及Caffe等人工智能框架的性能,并加速Kinetica等數(shù)據(jù)庫(kù)。
記者了解到,正式產(chǎn)品已于本月22日上市。
以下為針對(duì)該新品在人工智能及應(yīng)用方面的采訪,受訪人有IBM副總裁、大中華區(qū)硬件系統(tǒng)部總經(jīng)理侯淼,IBM大中華區(qū)科技合作部副總裁Mary Coucher ,IBM杰出工程師、大中華區(qū)硬件系統(tǒng)部首席技術(shù)官李永輝等,記者在不改變?cè)獾幕A(chǔ)上,做了增刪。
關(guān)于人工智能
提問(wèn):為什么針對(duì) AI ?使用場(chǎng)景有哪些?
侯淼:大家好奇為什么這次發(fā)布針對(duì)AI,機(jī)器對(duì)AI和機(jī)器不對(duì)AI到底有什么差別。
在過(guò)去IBM很多產(chǎn)品都是針對(duì)傳統(tǒng)的工作負(fù)載,像大家在銀行做銀行交易一樣,可能手機(jī)上有一個(gè)消費(fèi),你買了一本書(shū),花了30塊錢,這筆交易會(huì)留到銀行和你的賬戶,會(huì)訪問(wèn)Database,會(huì)從你的銀行的賬戶減掉30塊錢,然后確認(rèn)把這個(gè)錢給商家,這樣的輸入就完成了,整個(gè)過(guò)程是串行的程序來(lái)保證數(shù)據(jù)一致性,不可能并行起來(lái)。對(duì)后臺(tái)機(jī)器的要求在于I/O、內(nèi)存和CPU之間通路的完整性,通過(guò)軟件要使這個(gè)交易完整,我們傳統(tǒng)叫針對(duì)Online Transaction系統(tǒng)。
什么是AI的場(chǎng)景?舉一個(gè)很有意思的例子,比如說(shuō)在一個(gè)視頻上識(shí)別一個(gè)人,有幾個(gè)步驟來(lái)做,第一,要讓一個(gè)機(jī)器知道要找的這個(gè)人的面貌特征,知道的過(guò)程就要用深度學(xué)習(xí)訓(xùn)練。這里有幾個(gè)很關(guān)鍵的點(diǎn),識(shí)別時(shí)間越短越好,越快越好,越準(zhǔn)越好。
IBM這一套技術(shù)在進(jìn)行訓(xùn)練的時(shí)候,有一個(gè)深度學(xué)習(xí)的的一套框架,這里包括我們改進(jìn)了NVLINK GPU-CPU互連加速技術(shù)、CAPI I/O加速及內(nèi)存一致性訪問(wèn)技術(shù)、水平擴(kuò)展等,以前只能在一臺(tái)機(jī)器,可能是十個(gè)小時(shí),如果能夠十臺(tái)機(jī)器一塊兒來(lái)做的,有可能是1個(gè)小時(shí),這是IBM的優(yōu)勢(shì)。
接下來(lái)當(dāng)你進(jìn)行識(shí)別的時(shí)候,發(fā)現(xiàn)如果一個(gè)視頻里有十個(gè)人,這個(gè)識(shí)別不是不需要從左邊找第一個(gè)人到右邊,而是會(huì)同時(shí)去看這些人。如果有一百個(gè)人,也會(huì)同時(shí)看一百個(gè)人到底這里面能看多少人,這取決于GPU的能力,GPU的數(shù)量越多,并發(fā)的密度越高,能力越強(qiáng)。
如果是高清圖像的話要求你的分辨率很高,這就跟GPU和CPU的內(nèi)存相關(guān),內(nèi)存越大,你所得到的數(shù)據(jù)越高,從而這個(gè)比對(duì)的精準(zhǔn)度會(huì)越快。IBM這次發(fā)布的AC922,第一個(gè)特征就是支持在2U的設(shè)備里支持6個(gè)GPU,這使識(shí)別的速度會(huì)大幅度提高。
第二是跟NVIDIA合作,采用了新一代 NVLink,它把CPU和GPU相連接,好處在于,進(jìn)行高清識(shí)別的時(shí)候,當(dāng)GPU內(nèi)存不夠的話可以訪問(wèn)主內(nèi)存,這是非常大的優(yōu)勢(shì)。高清識(shí)別的時(shí)候,很多情況下GPU的內(nèi)存不夠,會(huì)限制訪問(wèn)速率,或者犧牲速度增加質(zhì)量,或者犧牲質(zhì)量增加速度,而在AC922不需要這樣來(lái)做。
提問(wèn):近4倍的超越對(duì)于芯片來(lái)講是一個(gè)什么概念? AI現(xiàn)在的發(fā)展跟軟件有很大關(guān)系,軟件的倍數(shù)會(huì)更多,是否可以介紹一下這一點(diǎn)?
李永輝:人工智能不單單是硬件平臺(tái),還涉及到軟件的堆棧。AC922是為了人工智能而設(shè)計(jì)的,在2個(gè)U的密度里放了最多6個(gè) GPU,可以大大加速很多人工智能框架。
我們采用最新的GPU技術(shù)——V100,業(yè)界最頂級(jí)的,有雙密度、單密度、半密度的算法,有效加速人工智能訓(xùn)練過(guò)程,也可以做一個(gè)性能的提升。在V100 GPU里有Tensor Core的設(shè)計(jì),專門針對(duì)人工智能權(quán)重算法,實(shí)現(xiàn)并行度的加速。
在這個(gè)基礎(chǔ)上做了軟件堆棧,這個(gè)堆棧是去年年底發(fā)布的Power AI,我們隨著業(yè)界出現(xiàn)的主流AI框架,優(yōu)化到IBM Power平臺(tái)上去。今天有很多客戶是不容許在網(wǎng)下載一些開(kāi)源的軟件,怕有病毒,IBM已經(jīng)把這些應(yīng)用編譯到POWER 平臺(tái)上,利用NVLink技術(shù)和POWER9,提供了對(duì)開(kāi)源軟件很好的支持和優(yōu)化。
此外,還做了一些功能性的增強(qiáng),一方面是水平的擴(kuò)展,很多的開(kāi)源應(yīng)用只局限在一臺(tái)機(jī)器跑,我們透過(guò)Spark的技術(shù),在12月初剛發(fā)布了 Deep Learning Impact,利用大數(shù)據(jù)的技術(shù),把人工智能的框架水平擴(kuò)展到多臺(tái)機(jī)器上去跑,同時(shí)也提供一些工具,實(shí)現(xiàn)Hyper-parameter Search超參條選,縮短 AI 應(yīng)用開(kāi)發(fā)的時(shí)間。
提問(wèn):現(xiàn)在國(guó)內(nèi)對(duì)人工智能保持非常激進(jìn)的態(tài)度,政府、企業(yè)界、學(xué)術(shù)界都非常激進(jìn),對(duì)IBM來(lái)說(shuō),是否會(huì)在中國(guó)放更大的精力,投入更多?
李永輝:我們了解到人工智能在中國(guó)是很熱門的課題,包括中國(guó)政府在8月4號(hào)發(fā)布新一代人工智能的規(guī)劃。
其次, IBM看到在全球領(lǐng)域,在AI比較關(guān)注的國(guó)家或者是很多比較創(chuàng)新的跟AI有關(guān)的國(guó)家,中國(guó)絕對(duì)是領(lǐng)先之一。因此,在我們這次發(fā)布的POWER服務(wù)器和相關(guān)配套的解決方案里,IBM中國(guó)的研究院開(kāi)發(fā)團(tuán)隊(duì)都有參與部分人工智能的軟件或者是有關(guān)產(chǎn)品的開(kāi)發(fā)。IBM是非常關(guān)注中國(guó)人工智能的發(fā)展,同時(shí)我們也有一定的投入在這里,把我們對(duì)中國(guó)市場(chǎng)的了解反饋到產(chǎn)品里,更好的支持我們的客戶。
提問(wèn):培訓(xùn)原來(lái)是單機(jī)用得比較多,什么情況下會(huì)用到并行?行業(yè)應(yīng)用好像一臺(tái)就夠了吧?
李永輝:今天的AI剛剛發(fā)展起來(lái),當(dāng)初發(fā)展很快的原因是因?yàn)闃I(yè)界有很多開(kāi)源AI的框架可以供一些人做應(yīng)用實(shí)驗(yàn),這個(gè)框架往往只能放在一臺(tái)物理機(jī)器上跑。很多廠家,不只是IBM,也在摸索怎么樣可以更有效的把AI框架拓展到多臺(tái)機(jī)器上去。這里涉及到Caffe和TensorFlow等人工智能框架能不能水平擴(kuò)展開(kāi),還涉及到底層的互聯(lián)互通,信息的交互等。
學(xué)習(xí)的過(guò)程,當(dāng)你處理的圖像越大,精密度越高,性能要快的話,就需要用到這種水平拓展的技術(shù)。單一臺(tái)機(jī)器跑,如果今天要處理一些比較復(fù)雜的問(wèn)題,可能要跑數(shù)天或者超過(guò)一周的時(shí)間才能訓(xùn)練完一堆數(shù)據(jù)。如果你在神經(jīng)網(wǎng)絡(luò)里選擇了不合適的超參(Hyper-parameter),在人工智能網(wǎng)絡(luò)里,跑了一半或者跑了數(shù)天后才發(fā)現(xiàn)數(shù)據(jù)有問(wèn)題或訓(xùn)練收斂不了,那就需要重新設(shè)定,重新訓(xùn)練,整個(gè)開(kāi)發(fā)應(yīng)用周期就太慢了,IBM提供的工具可以自動(dòng)化幫你做一個(gè)超參的首巡,這也是IBM很出色的能力,同時(shí)間底層做水平的擴(kuò)展,加快訓(xùn)練的時(shí)間,做水平擴(kuò)展的另外一個(gè)好處是多租戶的環(huán)境。
IBM是做平臺(tái)出身,我們做一個(gè)框架幫你打通所有的平臺(tái),將來(lái)對(duì)客戶來(lái)講這是AI的資源池,在上面放Deep Learning Impact解決方案,底層打通,無(wú)論將來(lái)的應(yīng)用提交到多少CPU上去都可以跑起來(lái),如果一個(gè)不夠可以給兩個(gè),兩個(gè)不夠可以給三個(gè),這樣對(duì)用戶來(lái)講是加快速度,另外是多租戶的使用場(chǎng)景。
提問(wèn):POWER9除了HPC和AI方面,還適用于什么市場(chǎng)呢?
李永輝:POWER 有超過(guò)25年的市場(chǎng),今天很多的客戶是跑在核心的關(guān)鍵應(yīng)用,像數(shù)據(jù)庫(kù)的應(yīng)用,像一些企業(yè)資源管理的應(yīng)用,像一些大數(shù)據(jù)分析的應(yīng)用或者是中間件等等,今天很多客戶核心的平臺(tái)都會(huì)用的。
為什么我們強(qiáng)調(diào)AI,原因是我們看到在過(guò)去可能一兩年內(nèi),這個(gè)領(lǐng)域做了很大的改變,我們看到IT正進(jìn)入一個(gè)新時(shí)代,這個(gè)新的時(shí)代,IBM稱之為認(rèn)知時(shí)代。在這個(gè)認(rèn)知時(shí)代里面,新的平臺(tái)是需要有能力做到一些認(rèn)知的能力,這些認(rèn)知的能力包括所謂理解的能力、推理的能力、學(xué)習(xí)的能力、交互的能力,這些能力很多都是需要通過(guò)GPU來(lái)實(shí)現(xiàn)的。比如說(shuō)做圖像識(shí)別、語(yǔ)音識(shí)別等等。
為什么我們看到新一代的機(jī)器需要有一種混合架構(gòu),GPU的能力,不單只是傳統(tǒng)的CPU能力,我們還需要很好的連接GPU的能力, POWER9的第一款服務(wù)器不僅提供了很好的CPU以外,也提供新一代NVLINK 連接CPU 來(lái)加速AI的能力,同時(shí)也做了很多I/O加速的能力。IBM的一個(gè)調(diào)研發(fā)現(xiàn),到2020年網(wǎng)絡(luò)上流動(dòng)的數(shù)據(jù)有超過(guò)一半是視頻,如果今天沒(méi)有一種像CAPI這種加速網(wǎng)絡(luò)的技術(shù),將來(lái)怎么應(yīng)付這么海量的數(shù)據(jù)處理呢?
侯淼:從以前IBM POWER4、5、6、7、8,到現(xiàn)在的POWER9,針對(duì)傳統(tǒng)的工作負(fù)載不斷在增強(qiáng),包括支持更多的核,包括更大的內(nèi)存總線、更大的內(nèi)存、更強(qiáng)的I/O,很正常。新的POWER9? AC922作為第一款的主打產(chǎn)品發(fā)布,實(shí)際上是增加了對(duì)AI市場(chǎng)的支持,換句話說(shuō)增加了GPU,使這個(gè)機(jī)器不單單能夠解決傳統(tǒng)的工作負(fù)載的問(wèn)題,也能夠解決新的有關(guān)分析和人工智能問(wèn)題。
關(guān)于應(yīng)用
提問(wèn): AC922主要是面對(duì)AI,但我們更多的應(yīng)用還是傳統(tǒng)的應(yīng)用,不知道這些用戶從POWER9當(dāng)中能夠獲得什么受益?
Mary Coucher:我們這個(gè)產(chǎn)品的確是針對(duì)AI來(lái)發(fā)布的,在整個(gè)2018年大家會(huì)看到我們會(huì)有更多關(guān)于POWER9的產(chǎn)品一些新的發(fā)布。我們針對(duì)各種類型的,比如說(shuō)針對(duì)scale-out、針對(duì)超算,還有scale-up……傳統(tǒng)可能更注重商業(yè)機(jī)會(huì),對(duì)于傳統(tǒng)商業(yè)客戶和研究機(jī)構(gòu)來(lái)講,他們其實(shí)對(duì)AI非常感興趣,因?yàn)锳I可以幫助促進(jìn)他們的商業(yè)機(jī)會(huì),能夠更好地運(yùn)用他們掌握的數(shù)據(jù),增加更多的機(jī)會(huì),他們可以去更好的理解市場(chǎng),更好的去獲得更大的客戶群。這對(duì)制造業(yè)、零售業(yè)、供應(yīng)鏈、醫(yī)療、銀行業(yè)等等來(lái)講都是這樣的。
提問(wèn):原來(lái)在POWER8上跑的系統(tǒng)對(duì)軟件有沒(méi)有挑戰(zhàn),是可以順利的遷移呢?
李永輝:IBM POWER到今天是第九代,但是一直保留了兼容性,IBM POWER的核是兼容的,今天POWER8的用戶到POWER9都可以跑下去,沒(méi)有問(wèn)題。
我們這次發(fā)布是AC922,是凸顯了IBM對(duì)AI領(lǐng)域的重視,并不是說(shuō)我們只有這一款機(jī)器。這是POWER9的第一個(gè)開(kāi)始。我們?cè)诿髂陼?huì)有針對(duì)商業(yè)化,針對(duì)水平、縱向擴(kuò)展的機(jī)器也會(huì)慢慢陸陸續(xù)續(xù)發(fā)布。
針對(duì)應(yīng)用的部分來(lái)講,POWER8的應(yīng)用可以遷移到POWER9,沒(méi)有問(wèn)題,同時(shí)間POWER9帶來(lái)新類型的能力,像剛才講的GPU采用最新一代的V系列的芯片,它也有一些新的算法上的優(yōu)化,有新一代的NVLink,CAPI和OpenCAPI、PCIe 4.0等等一些標(biāo)準(zhǔn),這肯定是原來(lái)POWER8沒(méi)有的,這是POWER9才有的,如果用戶需要體現(xiàn)一個(gè)新的能力的話,他需要在我們新的平臺(tái)當(dāng)中做一些優(yōu)化,重新編譯等。
評(píng)論