IBM發(fā)布POWER 9處理器,專為AI、加速計算設(shè)計

日前IBM發(fā)布POWER 9處理器是基于14nm工藝制程，并且專為AI、加速計算設(shè)計，相比 X86 系統(tǒng)，可縮短在機器學(xué)習(xí)框架下的訓(xùn)練時間。IBM表示設(shè)計之初的理念就是未來為 AI 服務(wù)，且率先使用了PCIe 4.0技術(shù)。

近日 IBM 在紐約發(fā)布了最新設(shè)計的POWER9處理器，以及裝有 POWER9的新一代Power Systems服務(wù)器—— AC922。2017年下半年以來，針對大數(shù)據(jù)和云計算，IBM發(fā)布了多款硬件。值得一提的是，AC922是 IBM 第一款針對企業(yè)級 AI市場發(fā)布的新品，該系統(tǒng)專門為人工智能、加速計算而設(shè)計，根據(jù)其內(nèi)部測試數(shù)據(jù)，相比 X86 系統(tǒng)，可將深度學(xué)習(xí)框架下將訓(xùn)練時間縮短至原來的1/4。

IBM大中華區(qū)科技合作部副總裁Mary Coucher 表示，早四年前IBM 開始設(shè)計 POWER9時，就在整個過程中都考慮了如何來為 AI 服務(wù)。

具體到數(shù)據(jù)上，跟x86相比，POWER9的線程增加 2 倍， I/O帶寬增加5倍，CPU和GPU之間的內(nèi)存共享提升至2TB，且率先使用了PCIe 4.0技術(shù)的，速度比基于PCIe Gen3的x86快了2倍多。

基于POWER9 的 AC922，則嵌入了PCI-Express 4.0、新一代NVIDIA的 NVLink及OpenCAPI，在加速數(shù)據(jù)傳送方面，超越了 x86 數(shù)倍，能夠大幅提升Chainer、TensorFlow及Caffe等人工智能框架的性能，并加速Kinetica等數(shù)據(jù)庫。

記者了解到，正式產(chǎn)品已于本月22日上市。

以下為針對該新品在人工智能及應(yīng)用方面的采訪，受訪人有IBM副總裁、大中華區(qū)硬件系統(tǒng)部總經(jīng)理侯淼，IBM大中華區(qū)科技合作部副總裁Mary Coucher ，IBM杰出工程師、大中華區(qū)硬件系統(tǒng)部首席技術(shù)官李永輝等，記者在不改變原意的基礎(chǔ)上，做了增刪。

關(guān)于人工智能

提問：為什么針對 AI ？使用場景有哪些？

侯淼：大家好奇為什么這次發(fā)布針對AI，機器對AI和機器不對AI到底有什么差別。

在過去IBM很多產(chǎn)品都是針對傳統(tǒng)的工作負載，像大家在銀行做銀行交易一樣，可能手機上有一個消費，你買了一本書，花了30塊錢，這筆交易會留到銀行和你的賬戶，會訪問Database，會從你的銀行的賬戶減掉30塊錢，然后確認把這個錢給商家，這樣的輸入就完成了，整個過程是串行的程序來保證數(shù)據(jù)一致性，不可能并行起來。對后臺機器的要求在于I/O、內(nèi)存和CPU之間通路的完整性，通過軟件要使這個交易完整，我們傳統(tǒng)叫針對Online Transaction系統(tǒng)。

什么是AI的場景？舉一個很有意思的例子，比如說在一個視頻上識別一個人，有幾個步驟來做，第一，要讓一個機器知道要找的這個人的面貌特征，知道的過程就要用深度學(xué)習(xí)訓(xùn)練。這里有幾個很關(guān)鍵的點，識別時間越短越好，越快越好，越準越好。

IBM這一套技術(shù)在進行訓(xùn)練的時候，有一個深度學(xué)習(xí)的的一套框架，這里包括我們改進了NVLINK GPU-CPU互連加速技術(shù)、CAPI I/O加速及內(nèi)存一致性訪問技術(shù)、水平擴展等，以前只能在一臺機器，可能是十個小時，如果能夠十臺機器一塊兒來做的，有可能是1個小時，這是IBM的優(yōu)勢。

接下來當(dāng)你進行識別的時候，發(fā)現(xiàn)如果一個視頻里有十個人，這個識別不是不需要從左邊找第一個人到右邊，而是會同時去看這些人。如果有一百個人，也會同時看一百個人到底這里面能看多少人，這取決于GPU的能力，GPU的數(shù)量越多，并發(fā)的密度越高，能力越強。

如果是高清圖像的話要求你的分辨率很高，這就跟GPU和CPU的內(nèi)存相關(guān)，內(nèi)存越大，你所得到的數(shù)據(jù)越高，從而這個比對的精準度會越快。IBM這次發(fā)布的AC922，第一個特征就是支持在2U的設(shè)備里支持6個GPU，這使識別的速度會大幅度提高。

第二是跟NVIDIA合作，采用了新一代 NVLink，它把CPU和GPU相連接，好處在于，進行高清識別的時候，當(dāng)GPU內(nèi)存不夠的話可以訪問主內(nèi)存，這是非常大的優(yōu)勢。高清識別的時候，很多情況下GPU的內(nèi)存不夠，會限制訪問速率，或者犧牲速度增加質(zhì)量，或者犧牲質(zhì)量增加速度，而在AC922不需要這樣來做。

提問：近4倍的超越對于芯片來講是一個什么概念？ AI現(xiàn)在的發(fā)展跟軟件有很大關(guān)系，軟件的倍數(shù)會更多，是否可以介紹一下這一點？

李永輝：人工智能不單單是硬件平臺，還涉及到軟件的堆棧。AC922是為了人工智能而設(shè)計的，在2個U的密度里放了最多6個 GPU，可以大大加速很多人工智能框架。

我們采用最新的GPU技術(shù)——V100，業(yè)界最頂級的，有雙密度、單密度、半密度的算法，有效加速人工智能訓(xùn)練過程，也可以做一個性能的提升。在V100 GPU里有Tensor Core的設(shè)計，專門針對人工智能權(quán)重算法，實現(xiàn)并行度的加速。

在這個基礎(chǔ)上做了軟件堆棧，這個堆棧是去年年底發(fā)布的Power AI，我們隨著業(yè)界出現(xiàn)的主流AI框架，優(yōu)化到IBM Power平臺上去。今天有很多客戶是不容許在網(wǎng)下載一些開源的軟件，怕有病毒，IBM已經(jīng)把這些應(yīng)用編譯到POWER 平臺上，利用NVLink技術(shù)和POWER9，提供了對開源軟件很好的支持和優(yōu)化。

此外，還做了一些功能性的增強，一方面是水平的擴展，很多的開源應(yīng)用只局限在一臺機器跑，我們透過Spark的技術(shù)，在12月初剛發(fā)布了 Deep Learning Impact，利用大數(shù)據(jù)的技術(shù)，把人工智能的框架水平擴展到多臺機器上去跑，同時也提供一些工具，實現(xiàn)Hyper-parameter Search超參條選，縮短 AI 應(yīng)用開發(fā)的時間。

提問：現(xiàn)在國內(nèi)對人工智能保持非常激進的態(tài)度，政府、企業(yè)界、學(xué)術(shù)界都非常激進，對IBM來說，是否會在中國放更大的精力，投入更多？

李永輝：我們了解到人工智能在中國是很熱門的課題，包括中國政府在8月4號發(fā)布新一代人工智能的規(guī)劃。

其次， IBM看到在全球領(lǐng)域，在AI比較關(guān)注的國家或者是很多比較創(chuàng)新的跟AI有關(guān)的國家，中國絕對是領(lǐng)先之一。因此，在我們這次發(fā)布的POWER服務(wù)器和相關(guān)配套的解決方案里，IBM中國的研究院開發(fā)團隊都有參與部分人工智能的軟件或者是有關(guān)產(chǎn)品的開發(fā)。IBM是非常關(guān)注中國人工智能的發(fā)展，同時我們也有一定的投入在這里，把我們對中國市場的了解反饋到產(chǎn)品里，更好的支持我們的客戶。

提問：培訓(xùn)原來是單機用得比較多，什么情況下會用到并行？行業(yè)應(yīng)用好像一臺就夠了吧？

李永輝：今天的AI剛剛發(fā)展起來，當(dāng)初發(fā)展很快的原因是因為業(yè)界有很多開源AI的框架可以供一些人做應(yīng)用實驗，這個框架往往只能放在一臺物理機器上跑。很多廠家，不只是IBM，也在摸索怎么樣可以更有效的把AI框架拓展到多臺機器上去。這里涉及到Caffe和TensorFlow等人工智能框架能不能水平擴展開，還涉及到底層的互聯(lián)互通，信息的交互等。

學(xué)習(xí)的過程，當(dāng)你處理的圖像越大，精密度越高，性能要快的話，就需要用到這種水平拓展的技術(shù)。單一臺機器跑，如果今天要處理一些比較復(fù)雜的問題，可能要跑數(shù)天或者超過一周的時間才能訓(xùn)練完一堆數(shù)據(jù)。如果你在神經(jīng)網(wǎng)絡(luò)里選擇了不合適的超參（Hyper-parameter），在人工智能網(wǎng)絡(luò)里，跑了一半或者跑了數(shù)天后才發(fā)現(xiàn)數(shù)據(jù)有問題或訓(xùn)練收斂不了，那就需要重新設(shè)定，重新訓(xùn)練，整個開發(fā)應(yīng)用周期就太慢了，IBM提供的工具可以自動化幫你做一個超參的首巡，這也是IBM很出色的能力，同時間底層做水平的擴展，加快訓(xùn)練的時間，做水平擴展的另外一個好處是多租戶的環(huán)境。

IBM是做平臺出身，我們做一個框架幫你打通所有的平臺，將來對客戶來講這是AI的資源池，在上面放Deep Learning Impact解決方案，底層打通，無論將來的應(yīng)用提交到多少CPU上去都可以跑起來，如果一個不夠可以給兩個，兩個不夠可以給三個，這樣對用戶來講是加快速度，另外是多租戶的使用場景。

提問：POWER9除了HPC和AI方面，還適用于什么市場呢？

李永輝：POWER 有超過25年的市場，今天很多的客戶是跑在核心的關(guān)鍵應(yīng)用，像數(shù)據(jù)庫的應(yīng)用，像一些企業(yè)資源管理的應(yīng)用，像一些大數(shù)據(jù)分析的應(yīng)用或者是中間件等等，今天很多客戶核心的平臺都會用的。

為什么我們強調(diào)AI，原因是我們看到在過去可能一兩年內(nèi)，這個領(lǐng)域做了很大的改變，我們看到IT正進入一個新時代，這個新的時代，IBM稱之為認知時代。在這個認知時代里面，新的平臺是需要有能力做到一些認知的能力，這些認知的能力包括所謂理解的能力、推理的能力、學(xué)習(xí)的能力、交互的能力，這些能力很多都是需要通過GPU來實現(xiàn)的。比如說做圖像識別、語音識別等等。

為什么我們看到新一代的機器需要有一種混合架構(gòu)，GPU的能力，不單只是傳統(tǒng)的CPU能力，我們還需要很好的連接GPU的能力， POWER9的第一款服務(wù)器不僅提供了很好的CPU以外，也提供新一代NVLINK 連接CPU 來加速AI的能力，同時也做了很多I/O加速的能力。IBM的一個調(diào)研發(fā)現(xiàn)，到2020年網(wǎng)絡(luò)上流動的數(shù)據(jù)有超過一半是視頻，如果今天沒有一種像CAPI這種加速網(wǎng)絡(luò)的技術(shù)，將來怎么應(yīng)付這么海量的數(shù)據(jù)處理呢？

侯淼：從以前IBM POWER4、5、6、7、8，到現(xiàn)在的POWER9，針對傳統(tǒng)的工作負載不斷在增強，包括支持更多的核，包括更大的內(nèi)存總線、更大的內(nèi)存、更強的I/O，很正常。新的POWER9？ AC922作為第一款的主打產(chǎn)品發(fā)布，實際上是增加了對AI市場的支持，換句話說增加了GPU，使這個機器不單單能夠解決傳統(tǒng)的工作負載的問題，也能夠解決新的有關(guān)分析和人工智能問題。

關(guān)于應(yīng)用

提問： AC922主要是面對AI，但我們更多的應(yīng)用還是傳統(tǒng)的應(yīng)用，不知道這些用戶從POWER9當(dāng)中能夠獲得什么受益？

Mary Coucher：我們這個產(chǎn)品的確是針對AI來發(fā)布的，在整個2018年大家會看到我們會有更多關(guān)于POWER9的產(chǎn)品一些新的發(fā)布。我們針對各種類型的，比如說針對scale-out、針對超算，還有scale-up……傳統(tǒng)可能更注重商業(yè)機會，對于傳統(tǒng)商業(yè)客戶和研究機構(gòu)來講，他們其實對AI非常感興趣，因為AI可以幫助促進他們的商業(yè)機會，能夠更好地運用他們掌握的數(shù)據(jù)，增加更多的機會，他們可以去更好的理解市場，更好的去獲得更大的客戶群。這對制造業(yè)、零售業(yè)、供應(yīng)鏈、醫(yī)療、銀行業(yè)等等來講都是這樣的。

提問：原來在POWER8上跑的系統(tǒng)對軟件有沒有挑戰(zhàn)，是可以順利的遷移呢？

李永輝：IBM POWER到今天是第九代，但是一直保留了兼容性，IBM POWER的核是兼容的，今天POWER8的用戶到POWER9都可以跑下去，沒有問題。

我們這次發(fā)布是AC922，是凸顯了IBM對AI領(lǐng)域的重視，并不是說我們只有這一款機器。這是POWER9的第一個開始。我們在明年會有針對商業(yè)化，針對水平、縱向擴展的機器也會慢慢陸陸續(xù)續(xù)發(fā)布。

針對應(yīng)用的部分來講，POWER8的應(yīng)用可以遷移到POWER9，沒有問題，同時間POWER9帶來新類型的能力，像剛才講的GPU采用最新一代的V系列的芯片，它也有一些新的算法上的優(yōu)化，有新一代的NVLink，CAPI和OpenCAPI、PCIe 4.0等等一些標準，這肯定是原來POWER8沒有的，這是POWER9才有的，如果用戶需要體現(xiàn)一個新的能力的話，他需要在我們新的平臺當(dāng)中做一些優(yōu)化，重新編譯等。

閱讀全文