chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Graphcore 創(chuàng)業(yè)公司推出了一種專門用于 AI 計算的處理器芯片IPU

lhl545545 ? 來源:腦極體 ? 作者:腦極體 ? 2020-10-11 10:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CPU 芯片領域,延續(xù)至今的“摩爾定律”正在隨著制程工藝逼近物理極限而有了延緩的趨勢,甚至失效的可能。就在摩爾定律的增長放緩腳步的同時,半導體芯片的計算也正在從通用走向專用,其中AI 計算正是其中增長最快的一種專用計算。

現(xiàn)在,AI 計算正在接棒摩爾定律,延續(xù)并超越其倍增神話。2019 年,OpenAI 發(fā)布了 AI 算力的增長情況,結果顯示 AI 算力以 3.4 個月的倍增時間實現(xiàn)了指數(shù)增長,從 2012 年起,該指標已經(jīng)增長了 30 萬倍。

在 AI 算力爆炸式增長的過程中,英偉達GPU 功不可沒。廣為人知的一個故事就是 2012 年,來自多倫多大學的 Alex 和他的團隊設計了 AlexNet 的深度學習算法,并用了 2 個英偉達的 GTX580 GPU 進行訓練后,打敗了其他所有計算機視覺團隊開發(fā)的算法,成為那一屆 ImageNet 的冠軍。

此后,在計算機視覺和自然語言處理領域,GPU 的高并行計算能力得到了充分的發(fā)揮,英偉達的 GPU 也隨著 AI 第三次浪潮的崛起而迎來井噴發(fā)展。與此同時,更多為機器學習而專門定制的專用芯片開始出現(xiàn),比如專用集成電路ASIC)的張量處理單元 TPU、神經(jīng)網(wǎng)絡單元 NPU 以及半定制芯片 FPGA 等等。

英國一家名為 Graphcore 的創(chuàng)業(yè)公司推出了一種專門用于 AI 計算的處理器芯片IPU(Intelligence Processing Unit)。一經(jīng)問世,IPU就受到 AI 界越來越多的關注。

ARM 創(chuàng)始人,被稱為英國半導體之父的赫曼·豪瑟曾為 Graphcore 的IPU給出很高評價,將其譽為“計算機史上三次革命中,繼 CPU 和 GPU 之后的第三次革命”。赫曼在芯片產(chǎn)業(yè)的地位自然不容置疑,但由于 Graphcore 是英國芯片產(chǎn)業(yè)中為數(shù)不多的新生力量,難免赫曼有“護犢子”的打廣告之嫌。

IPU 出道 2 年時間,現(xiàn)已推出了量產(chǎn)第二代型號為 GC2 的 IPU。那么,IPU 的表現(xiàn)如何,與 GPU 相比有哪些優(yōu)勢之處,這是本文要重點探討的問題。

GPU 所開啟的深度學習

一個廣為人們熟知的例子就是,在計算機視覺發(fā)展初期的 2011 年,谷歌大腦想要在 YouTube 的視頻中識別人類和貓,當時這樣一個簡單的任務,谷歌要動用一家大型數(shù)據(jù)中心內的 2,000 顆服務器 CPU,這些 CPU 的運行會產(chǎn)生大量的熱量和能耗,關鍵是代價不菲,很少能有研究人員可以用得起這種規(guī)模的服務器。

不過在當時,研究人員注意到了英偉達的 GPU,斯坦福大學的吳恩達團隊開始和英偉達合作,將 GPU 應用于深度學習。后來證明,只需要 12 顆英偉達 GPU 就可以達到相當于 2000 顆 CPU 提供的深度學習性能。此后越來越多的 AI 研究人員開始在 GPU 上加速其深度神經(jīng)網(wǎng)絡 (DNN)的訓練。

現(xiàn)在我們都知道,GPU 能夠在深度學習的訓練中大顯身手,正是源于 GPU 的計算架構正好適用于深度學習的計算模式。深度學習是一種全新的計算模式,其采用的 DNN 算法包含數(shù)十億個網(wǎng)絡神經(jīng)元和數(shù)萬億個連接來進行并行訓練,并從實例中自己學習規(guī)律。

深度學習算法主要依賴的基本運算方法有矩陣相稱和卷積浮點運算,而 GPU 多核架構在原本圖像渲染中可以大規(guī)模處理矩陣乘法運算和浮點運算,很好地可以處理并行計算任務,使得 DNN 訓練速度大幅提升。

此后,GPU 成為輔助完成深度學習算法的主流計算工具,大放異彩。但 GPU 本身并非是專門為 AI 計算而設計的芯片,其中有大量的邏輯計算對于 AI 算法來說毫無用處,所以行業(yè)自然也需要專門針對 AI 算法的專用 AI 芯片。

近幾年,全球已經(jīng)有上百家公司投入到新型 AI 芯片的研發(fā)和設計當中,當然最終能夠成功流片并推出商用的仍然是幾家巨頭公司和少數(shù)實力雄厚的獨角獸公司。

這其中,2017 年初創(chuàng)成立的 Graphcore 所研發(fā)的 AI 芯片 IPU,則成為這些 AI 芯片當中的另類代表,因其不同于 GPU 架構的創(chuàng)新得到了業(yè)內的關注。而這正是我們要著重介紹的部分。

更適合 AI 計算的 IPU 芯片

近兩年,AI 芯片出現(xiàn)了各種品類的井噴,其中甚至出現(xiàn)一些堪稱瘋狂的另類產(chǎn)品。

比如一家同樣創(chuàng)立四年的 AI 芯片創(chuàng)業(yè)公司 Cerebras Systems 就發(fā)布了史上最大的半導體芯片 Wafer Scale Engine(WSE),號稱“晶圓級發(fā)動機”,擁有 1.2 萬億個晶體管,比英偉達最大的 GPU 要大出 56.7 倍。這塊芯片主要瞄準的是超級計算和和大型云計算中心市場,其創(chuàng)新之處在于一體化的芯片設計大幅提高了內部的數(shù)據(jù)通信數(shù)據(jù),但其架構仍然類似于 GPU 的計算架構。

而 Graphcore 的 IPU 與 GPU 的架構差異非常大,代表的是一種新的技術架構,可以說是專門為解決 CPU 和 GPU 在 AI 計算中難以解決的問題而設計的。

IPU 為 AI 計算提供了全新的技術架構,同時將訓練和推理合二為一,兼具處理二者工作的能力。

我們以目前已經(jīng)量產(chǎn)的 IPU 的 GC2 處理器來看,IPU GC2 采用臺積電的 16nm 工藝,擁有 236 億個晶體管,在 120 瓦的功耗下有 125TFlops 的混合精度,另外有 45TB/s 內存的帶寬、8TB/s 片上多對多交換總線,2.5 TB/s 的片間 IPU-Links。

其中,片內有 1216 個 IPU-Tiles 獨立處理器核心,每個 Tile 中有獨立的 IPU 核,作為計算以及 In-Processor-Memory(處理器內的內存)。對整個 GC2 來說共有 7296 個線程(每個核心最多可以跑 6 個線程),能夠支持 7296 個程序并行運行,處理器內的內存總共可以達到 300MB,其設計思路就是要把所有模型放在片內處理。

首先,IPU 作為一個標準的神經(jīng)網(wǎng)絡處理芯片,可以支持多種神經(jīng)網(wǎng)絡模型,因其具備數(shù)以千計到數(shù)百萬計的頂點數(shù)量,遠遠超過 GPU 的頂點規(guī)模,可以進行更高潛力的并行計算工作。此外,IPU 的頂點的稀疏特性,令其也可以高效處理 GPU 不擅長的稀疏的卷積計算。其次,IPU 也支持了模型參數(shù)的復用,這些復用特性可以獲取數(shù)據(jù)中的空間或時間不變性,對于訓練與推理的性能會有明顯幫助。

其次,為解決芯片內存的寬帶限制,IPU 采用了大規(guī)模并行 MIMD(多指令流多數(shù)據(jù)流)眾核架構,同時,IPU 架構做了大規(guī)模分布式的片上 SRAM。片內 300MB 的 SRAM,相對于 GPU 的 GDDR、HBM 來說,可以做到數(shù)十倍的性能提升,而且與訪問外存相比,SRAM 的片內時延基本可以忽略不計。

第三,IPU 采用了高效的多核通信技術 BSP(Bulk Synchronous Parallel)。IPU 是目前世界上第一款采用 BSP 通信的處理器,支持內部 1216 個核心之間的通信以及跨不同的 IPU 之間的通信。通過硬件支持 BSP 協(xié)議,并通過 BSP 協(xié)議把整個計算邏輯分成了計算、同步、交換,能極大方便工程師們的開發(fā)工作。

基于以上 IPU 的差異化特點,IPU 在某些批量訓練和推理中能夠獲得更好的性能、更低延時和更快網(wǎng)絡收斂。片內的 SRAM 相對于片外存儲,也有高帶寬和低延時的優(yōu)勢。

今年 7 月,Graphcore 發(fā)布了二代的 Colossus MK2 IPU (MK2),以及包含四顆 MK2 芯片系統(tǒng)方案的 IPU-Machine:M2000 (IPU-M2000),其核心數(shù)增加了 20%,達到 1472 個,8832 個可并行執(zhí)行的線程。片內 SRAM 則多出 3 倍,增加到 900MB,互聯(lián)擴展性能是上一代的 16 倍。顯然在計算、數(shù)據(jù)和通信擴展層面,MK2 都算是延續(xù)了第一代 IPU 堆料狂魔的作風。

由 4 個 IPU 芯片構成的 IPU-M2000 系統(tǒng),可以提供大約 1 PetaFLOPs 的算力?;?IPU 的多層級存儲結構,與 IPU Exchange Memory 等技術優(yōu)化,整體與 GPU 的 HBM2 存儲比較,可以提供超過 100 倍的帶寬以及大約 10 倍的容量,可以適用于更復雜的 AI 模型和程序。

計算加上數(shù)據(jù)的突破可以讓 IPU 在原生稀疏計算中展現(xiàn)出領先 GPU 10-50 倍的性能優(yōu)勢,在通信上,Graphcore 專為為 AI 橫向擴展設計了 IPU-Fabric,解決數(shù)據(jù)中心大規(guī)模計算橫向擴展的關鍵問題。Graphcore 將計算、數(shù)據(jù)、通信三者的突破技術結合,構建了大規(guī)模可擴展的 IPU-POD 系統(tǒng),最終可以提供一個 AI 計算和邏輯進行解耦、系統(tǒng)易于部署、超低網(wǎng)絡延時、高可靠的 AI 超算集群。

可以預計,未來 IPU 在各類 AI 應用中將具有更大的優(yōu)勢,而這也必然會引起英偉達的注意。那么,相較于英偉達 GPU 所占據(jù)的 AI 行業(yè)生態(tài)位的霸主地位,IPU 會有哪些前景,也會遭遇哪些困境呢?

走向通用 AI 計算的“另辟蹊徑”

如果回顧下 AI 芯片的發(fā)展經(jīng)歷,我們看到在經(jīng)過這幾年專用 AI 芯片的井噴之后,也開始面臨一個尷尬困境,那就是 ASIC 芯片的靈活性或者說可編程性很差,對應的專用 AI 芯片只能應對一種算法應用,而算法本身則在 3-6 個月的時間就有可能變化一次,或許出現(xiàn)很多 AI 芯片還未上市,算法就已經(jīng)發(fā)生進化的問題,一些 AI 芯片注定無法生產(chǎn)。當然,專用 AI 芯片的優(yōu)勢也很明顯,在性能、功耗和效率上遠勝更加通用的 GPU,對于一些非常具體的 AI 應用場景,這些專用芯片就具有了巨大的收益。

從專注圖像渲染崛起的英偉達的 GPU,走的也是相當于 ASIC 的技術路線,但隨著游戲、視頻渲染以及 AI 加速需要的出現(xiàn),英偉達的 GPU 也在向著 GPGPU(General Purpose GPU)的方向演進。為保持其在 GPU 領域的寡頭地位,使得英偉達必須一直保持先進的制程工藝,保持其通用性,但是要犧牲一定的效能優(yōu)勢。

這給后來者一定的啟發(fā),那就是 AI 芯片既要具備一定的靈活的可編程性(通用性),又要具備專用的高效性能優(yōu)勢。這為 IPU 找到了一個新的細分市場,也就是介入 GPU 不能很好發(fā)揮效能的神經(jīng)網(wǎng)絡模型,比如強化學習等類型,同時又避免的專用 AI 芯片的不可擴展性,能夠部署在更大規(guī)模的云計算中心或超算中心,對新算法模型保持足夠的彈性計算空間。

目前來看,IPU 正在成為僅次于 GPU 和谷歌 TPU 的第三大部署平臺,基于 IPU 的應用已經(jīng)覆蓋包括自然語言處理、圖像 / 視頻處理、時序分析、推薦 / 排名及概率模型等機器學習的各個應用場景。

典型的如通過 IPU 可以訓練胸片,幫助醫(yī)學人員快速進行新冠肺炎的診斷;如在金融領域,對涉及算法交易、投資管理、風險管理及詐騙識別的場景進行更快的分析和判斷;此外在生命科學領域、通信網(wǎng)絡等方面,都可以同 IPU 實現(xiàn)高于 GPU 性能的 AI 加速。

(NLP 模型參數(shù)的指數(shù)增長)

當然,IPU 想要在 AI 計算中擁有挑戰(zhàn) GPU 地位的資格,除了在性能和價格上面證明自己的優(yōu)勢之外,還需要在為機器學習框架提供的軟件棧上提供更多選擇,獲得主流 AI 算法廠商的支持,在標準生態(tài)、操作系統(tǒng)上也需要有廣泛的支持,對于開發(fā)者有更方便的開發(fā)工具和社區(qū)內容的支持,才能從實際應用中壯大 IPU 的開發(fā)生態(tài)。

今年, AI 芯片產(chǎn)業(yè)正在遭遇洗牌期,一些 AI 芯片企業(yè)黯然退場,但這并不意味著 AI 計算遭遇寒冬,反而 AI 算力正在得到大幅提升,以今年數(shù)量級提升 GPT-3 的出場就可以看出這樣的趨勢。

一個 AI 芯片從產(chǎn)出到大規(guī)模應用必須要經(jīng)過一系列的中間環(huán)節(jié),包括像上面提到的支持主流算法框架的軟件庫、工具鏈、用戶生態(tài)等等,打通這樣一條鏈條都會面臨一個巨大挑戰(zhàn)。

現(xiàn)在,GPU 已經(jīng)形成一個非常完整的 AI 算力生態(tài)鏈路,而 IPU 則仍然在路上,是否能真正崛起,還需要整個 AI 產(chǎn)業(yè)和開發(fā)者用實際行動來投票。
責任編輯:pj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4948

    瀏覽量

    131250
  • AI
    AI
    +關注

    關注

    88

    文章

    35164

    瀏覽量

    279983
  • 處理器芯片
    +關注

    關注

    0

    文章

    119

    瀏覽量

    20086
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Cadence推出Tensilica NeuroEdge 130 AI協(xié)處理器

    楷登電子(美國 Cadence 公司,Nasdaq:CDNS)近日宣布推出 Cadence Tensilica NeuroEdge 130 AI 協(xié)處理器(AICP)。這是
    的頭像 發(fā)表于 05-17 09:38 ?689次閱讀

    TPU處理器的特性和工作原理

    張量處理單元(TPU,Tensor Processing Unit)是一種專門為深度學習應用設計的硬件加速。它的開發(fā)源于對人工智能(AI
    的頭像 發(fā)表于 04-22 09:41 ?1472次閱讀
    TPU<b class='flag-5'>處理器</b>的特性和工作原理

    光子 AI 處理器的核心原理及突破性進展

    電子發(fā)燒友網(wǎng)(文 / 李彎彎)光子 AI 處理器,作為一種借助光子執(zhí)行信息處理與人工智能(AI計算
    的頭像 發(fā)表于 04-19 00:40 ?2641次閱讀

    端側 AI 音頻處理器:集成音頻處理AI 計算能力的創(chuàng)新芯片

    對人工智能應用日益增長的需求。 ? 集成音頻處理AI 計算能力 端側 AI 音頻處理器的組成結構通常較為復雜,常采用多核異構架構,將不同
    的頭像 發(fā)表于 02-16 00:13 ?2211次閱讀

    處理器芯片的區(qū)別是什么 處理器是指cpu嗎

    一種特定類型的芯片,專門設計用于執(zhí)行系列指令來處理數(shù)據(jù)或控制其他設備。它是
    的頭像 發(fā)表于 02-01 14:59 ?4467次閱讀

    Ampere?發(fā)布新版AmpereOne?處理器,強化AI與云計算性能

    Ampere?公司近期推出了其旗艦產(chǎn)品AmpereOne?處理器的新版本,這一新版本處理器配備了12個內存通道,進步提升了性能。這
    的頭像 發(fā)表于 01-09 18:09 ?993次閱讀

    盛顯科技:拼接處理器是什么設備類型

    是什么設備類型嗎?下面盛顯科技小編為您介紹: ? 拼接處理器一種專門用于視頻信號處理和顯示控制的硬件設備,它主要
    的頭像 發(fā)表于 11-28 11:32 ?632次閱讀

    ARM技術是什么?國內有哪些ARM廠家呢?起來了解下!

    。 編輯搜圖 請點擊輸入圖片描述(最多18字) 四、全志科技 公司簡介 :全志科技是中國優(yōu)秀的IC設計公司,專注于設計基于ARM架構的應用處理器。 特色 :全志科技的
    發(fā)表于 11-18 16:35

    光耦知識分享 | 探討光耦在微處理器及相關電路中創(chuàng)新應用與實踐

    處理器(MCU)是一種集成電路芯片,用于執(zhí)行計算機程序指令和處理數(shù)據(jù)。它是
    的頭像 發(fā)表于 11-05 09:00 ?569次閱讀
    光耦知識分享 | 探討光耦在微<b class='flag-5'>處理器</b>及相關電路中創(chuàng)新應用與實踐

    BitEnergy AI公司開發(fā)出一種AI處理方法

    BitEnergy AI公司家專注于人工智能(AI)推理技術的企業(yè),其工程師團隊創(chuàng)新性地開發(fā)了一種名為線性復雜度乘法(L-Mul)的
    的頭像 發(fā)表于 10-22 15:15 ?837次閱讀

    對稱多處理器和非對稱多處理器的區(qū)別

    隨著計算需求的日益增長,單處理器系統(tǒng)已經(jīng)無法滿足高性能計算的需求。多處理器系統(tǒng)應運而生,它們通過將多個處理器集成到
    的頭像 發(fā)表于 10-10 15:58 ?2196次閱讀

    杰和科技AI PC N601“殺”瘋啦

    ?Ultra,通過全新的分離式模塊架構,將芯片組功能全面融入到處理器當中,并首次將NPU集成到PC處理器中。*NPU是一種專門為神經(jīng)網(wǎng)絡
    的頭像 發(fā)表于 09-27 10:00 ?398次閱讀
    杰和科技<b class='flag-5'>AI</b> PC N601“殺”瘋啦

    雙DSP音效處理芯片有什么作用

    雙DSP音效處理芯片一種高級的音頻處理技術,它在音頻設備中扮演著至關重要的角色。DSP(Digital Signal Processor)即數(shù)字信號
    的頭像 發(fā)表于 09-24 16:11 ?2228次閱讀

    AMD推出全新銳龍AI 300系列處理器

    配備目前性能超強的神經(jīng)處理單元 (NPU),為未來直接在筆記本電腦上實現(xiàn)全面的沉浸式 AI 計算鋪平了道路。AMD 還推出了代 AMD
    的頭像 發(fā)表于 09-19 10:55 ?1413次閱讀
    AMD<b class='flag-5'>推出</b>全新銳龍<b class='flag-5'>AI</b> 300系列<b class='flag-5'>處理器</b>

    圖像處理器是什么意思

    圖像處理器(Image Processor)是一種專門用于圖像處理計算的硬件設備或
    的頭像 發(fā)表于 08-14 09:28 ?1978次閱讀