chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

下一代深度學習加速器:英特爾Xe

佐思汽車研究 ? 來源:YXQ ? 2019-05-24 10:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在超算領(lǐng)域,中美之間無聲的競爭還在進行中,2018年美國憑借橡樹嶺國家實驗室的Summit超算奪回了失落5年的TOP500冠軍寶座。在HPC超算市場上,關(guān)鍵的還是下一代百億億次超算,也就是Exascale超算,目前中國有三套E級超算,而英特爾、Cray公司在2019年3月17日獲得了美國能源部5億美元的合同。

美國能源部長里克佩里說:“實現(xiàn)百億億次超算是必不可少的,它不僅可以提升科學計算,還要改善美國人的日常生活。”“Aurora及下一代百億億次超算將HPC、AI等技術(shù)應(yīng)用于癌癥研究、氣候模擬、退伍軍人健康治療等領(lǐng)域,基于百億億次超算的創(chuàng)新將會對我們的社會產(chǎn)生極為重要的影響?!泵绹着_百億億次超算將大量應(yīng)用英特爾的最新技術(shù),主處理器是下一代Xeon至強,還有新一代Xe加速卡、OptaneDC內(nèi)存、秘密武器CXL以及英特爾的OneAI軟件,而整個系統(tǒng)則是基于Cray公司的Shasta系統(tǒng),包括至少200個機柜、Slingshot高性能可擴展互聯(lián)架構(gòu)及Shasta軟件堆棧。

該項目計劃在2021年的時間內(nèi)完成,并且每秒能夠進行Quintillion的運算,即400 petaflops。從這個角度來看,這比Million浮點運算高出一百萬倍 - 而平均每個處理器的約為200 GFLOP。這筆交易價值5億美元,其中Cray將獲得1.46億美元的資金,而Intel將獲得剩余的3.54億美元。

圖一:Aurora技術(shù)革新(圖片來源:英特爾

從上圖可以看出Xe 是加速器,但目前還不清楚Quintillionops mark的功率分布。

圖二:英特爾GPU可擴展性(來源:英特爾

英特爾野心勃勃,Xe將從10nm節(jié)點開始,為未來幾代圖形奠定基礎(chǔ),并將遵循Intel的單一堆棧軟件哲學,即希望軟件開發(fā)人員能夠利用CPU、GPU、FPGA和AI,所有這些都使用同一套API,英特爾稱之為One API,One API作為Direct3D層和GPU之間的中介(據(jù)稱他們也有Linux解決方案),并允許用戶無縫擴展多個GPU。這表明Intel也準備打造一個類似CUDA的生態(tài)系統(tǒng)。

圖三:英特爾Xe路線圖(圖片來源:英特爾

不過這些都不是重點,英特爾將第一次在GPU領(lǐng)域使用MCM封裝形式,這正是英偉達夢寐以求的技術(shù),而英特爾即將量產(chǎn),第一批X2 GPU的暫定時間表也已經(jīng)公布:2020年6月31日。隨后是2021年的X4??雌饋鞩ntel計劃每年增加兩個核心,所以到2024年應(yīng)該會到X8。

Xe將是英特爾異構(gòu)計算的關(guān)鍵構(gòu)成,之前英特爾對GPU加速一直持懷疑態(tài)度,但自從有了Xe后,英特爾改變了態(tài)度,英特爾Xe將加強英特爾以數(shù)據(jù)為中心的廣泛產(chǎn)品組合,為最廣泛的計算工作負載提供領(lǐng)先的產(chǎn)品,滿足其對標量、矢量、矩陣和空間計算架構(gòu)的綜合需求。但英特爾并未透露太多細節(jié),不過從Aurora采購Xe即可看出,GPU加速已經(jīng)被英特爾認同。

目前制造高性能 GPU 有一個很嚴重的限制 — 「芯片尺寸的限制」,因為目前現(xiàn)有技術(shù)的***受限于光刻模板、光刻光源,幾乎不可能制造出更大的 GPU 核心,極限是800平方毫米。即使英偉達的技術(shù)如何進步,核心尺寸不能無止境變大已經(jīng)成為英偉達 繼續(xù)提升 GPU 性能的瓶頸。MCM 的封裝方式與 NANDFlash 的做法有點類似,容量不夠就將 Layer堆棧起來,除了制造方式簡單且具成本優(yōu)勢之外,還可以提高產(chǎn)品的性能。

此外隨著CPU核心數(shù)逐漸從個位數(shù)提升到十位數(shù)范圍,monolithic多核心的局限越來越大,除了制造難度大、良率低的問題,也因為它不夠靈活,因為處理器除了核心數(shù)量之外,還要考慮到內(nèi)存信道、PCIe信道等IO核心的搭配,英特爾的Skylake-SP架構(gòu)所示,為了配合不同核心的處理器,英特爾在它上面使用了XCC、LCC、HCC三種不同的內(nèi)部架構(gòu),這樣做無疑是增加了芯片的復雜性。

圖四:英偉達RC-18 GPU陣列(圖片來源:英偉達

英偉達為了應(yīng)付 GPU 核心面積的瓶頸,已計劃開發(fā)一個名為「RC 18」的多矩陣概念,以最優(yōu)化的方式整合多個 GPU 模塊,達至最高流處理器數(shù)、減少通訊層級和鏈路長度,并可以縮小芯片面積。根據(jù)英偉達研究部主管 William J. Dally的說法,「RC-18」是為深度學習執(zhí)行和實現(xiàn)可擴展性的實驗,每個芯片內(nèi)部具有基于TSMC 16nm 工藝及承載 8700 萬個晶體管的 16 個 PE(處理組件),因此可以從非常小的尺寸中擴展。16 個 PE 用于控制 CPU Core,片上全局緩沖儲存器,并安裝了八個 GRS 鏈路。在實際芯片中,GRS 鏈路組占據(jù)相當大的面積,每芯片 GRS 的 I/O 帶寬達到 100 GB/s。

圖五:英偉達RC18內(nèi)部框架圖(圖片來源:英偉達

英偉達的RC18概念設(shè)計。英偉達目前RC18概念產(chǎn)品只做到了8700萬個晶體管,與GPU動輒百億級晶體管相比,差距至少有5年,目前英偉達將精力全部轉(zhuǎn)移到光線追蹤上,靠RT核來做賣點,只字不提曾經(jīng)信誓旦旦的MCM。而英特爾的MCM成功了,畢竟英特爾在芯片封裝領(lǐng)域技術(shù)積累遠比英偉達要深厚的多。

AMD在CPU上大量運用MCM技術(shù),但是在GPU上始終無法突破量產(chǎn)工藝瓶頸,理論上似乎很簡單,但就是良率太低,無法量產(chǎn)。這是因為AMD沒有自己的晶圓廠,從未從事過芯片封裝,芯片封裝都是交給第三方,而英特爾擁有全球最大的晶圓廠,也擁有最優(yōu)秀的芯片封裝工藝,當然這背后是日本廠家新光電氣和Ibiden的鼎力支持,日本在封裝材料和工藝方面擁有絕對優(yōu)勢。同時英特爾還有自己的Flash存儲器晶圓廠。可以借鑒Flash存儲器的MCM封裝經(jīng)驗。

MCM不僅性能一流,同時也成本大幅度降低,AMD透露,如果將32核封裝到一塊芯片中成本是1,那它們的MCM方式只有0.59,換言之,節(jié)省了41%的成本。MCM還允許一個芯片中使用不同工藝的die(裸晶),比如I/O部分不需要那么先進的工藝,28納米足夠,CPU部分就用7納米,不僅降低成本,還復用了以前的I/O設(shè)計,降低先進制程工藝的風險,研發(fā)成果復用率高,縮短研發(fā)周期等。

圖六:單一架構(gòu)和MCM對比(圖片來源:AMD

上圖為AMD MCM與單芯片對比。

英特爾Xe 2 GPU性能見上表。性價比極高。

為配合MCM,英特爾在軟件方面也有所動作,英特爾2019年4月9日舉行了Interconnect Day 2019 ,當中詳細介紹了處理器與處理器之間的Compute Express Link(CXL)超高速互聯(lián)新標準。雖然現(xiàn)階段構(gòu)思僅供數(shù)據(jù)中心的服務(wù)器使用,顯然這也是為GPU準備的。英特爾 CXL 標準的原意——作為 CPU 與 Accelerator 加速器(如 FPGA / GPU 顯示適配器)之間的互聯(lián)通信。

一直以來, CPU 都是透過主板上的 PCIe插槽及 PCIe 協(xié)議與顯示適配器溝通,但當英特爾 聯(lián)合阿里巴巴、 Cisco、 Dell EMC 、 Facebook 、 Google 、 HPE 、華為及微軟組成強大陣容的聯(lián)盟后,就發(fā)表了 CXL 的開放標準,以解決目前 PCIe 協(xié)議于 CPU 與顯示適配器之間的高延遲及帶寬不足的問題。透過 CXL 協(xié)議, CPU 與 GPU 之間就形同連成單一個龐大的堆棧內(nèi)存池( Stacked Memory ), CPU Cache 和 GPU HBM2 內(nèi)存猶如放在一起,有效降低兩者之間的延遲,故此能大幅提升數(shù)據(jù)運算效率,令AI人工智能機器學習、媒體服務(wù)、高效能運算( HPC )及云端服務(wù)變得非??焖?。

MCM沒有理論上的突破,突破的只是制造工藝,MCM在奔騰時代已經(jīng)出現(xiàn)過了,而今monolithic多核已經(jīng)走到了極限,唯有MCM能救場。而在服務(wù)器用CPU領(lǐng)域,MCM將可能是唯一方向,典型的如Cascade Lake-AP 48核處理器,它實際上是兩個24核的Cascade Lake處理器通過MCM方式組合出來的,也不是原生48核。如今的MCM多芯片設(shè)計在技術(shù)水平上也跟當年簡單粗暴的膠水多核不一樣了,主要擔心的延遲問題上,英特爾之前提到他們的EMIB技術(shù)相比單片電路的延遲只增加了10%,而別的技術(shù)方案中延遲甚至會增加50%之多。

monolithic多核的困境實際上是整個人類面臨的瓶頸,近百年來,人類在物理學體系理論上未有任何突破,只是在細枝末節(jié)上做修修補補,所謂人工智能不過是概率論,幾十年甚至近百年前的理論還是根基,所謂提升,不過是算力成指數(shù)倍的堆砌。

另外,供應(yīng)鏈的重要性一再凸顯,那種追求短平快,強調(diào)分工,只做自己擅長的戰(zhàn)略長遠上必然會遇到無法超越的瓶頸,英偉達和AMD無法戰(zhàn)勝英特爾,不再技術(shù)層面,而是供應(yīng)鏈層面。這么多年以來,AMD都是努力追趕英特爾,但AMD將工廠賣掉之后是個純粹的Fabless,需要看Foundry晶圓代工廠的臉色,晶圓代工廠自然要優(yōu)先照顧大客戶,臺積電自然要優(yōu)先照顧蘋果、華為和高通,遇上產(chǎn)能吃緊,AMD的訂單就會往后排。這就意味著AMD的供貨不夠穩(wěn)定,或者說AMD無法掌控產(chǎn)量,對下游整機廠來說,有可能導致旺季缺貨,這是個致命的缺點,特別是淡旺季分明的筆記本電腦CPU領(lǐng)域,英特爾一直擁有絕對優(yōu)勢。英特爾單靠全球最大的12英寸晶圓產(chǎn)能也足以擁有在半導體領(lǐng)域的霸主位置。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10276

    瀏覽量

    179381
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5591

    瀏覽量

    123932

原文標題:下一代深度學習加速器:英特爾Xe

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    18A工藝大單!英特爾將代工微軟AI芯片Maia 2

    電子發(fā)燒友網(wǎng)綜合報道 據(jù)科技媒體SemiAccurate報道,微軟已正式向英特爾晶圓代工(Intel Foundry)下達訂單,委托其使用先進的18A工藝節(jié)點生產(chǎn)下一代AI加速器Maia 2
    的頭像 發(fā)表于 10-21 08:52 ?4707次閱讀

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現(xiàn)已為DeepSeek-V3.1提供深度優(yōu)化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低的投入、更高的效率,實現(xiàn)從模型訓練的
    的頭像 發(fā)表于 08-26 19:18 ?2601次閱讀
    <b class='flag-5'>英特爾</b>Gaudi 2E AI<b class='flag-5'>加速器</b>為DeepSeek-V3.1提供<b class='flag-5'>加速</b>支持

    Andes晶心科技推出新一代深度學習加速器

    高效能、低功耗 32/64 位 RISC-V 處理核與 AI 加速解決方案的領(lǐng)導供貨商—Andes晶心科技(Andes Technology)今日正式發(fā)表最新深度學習
    的頭像 發(fā)表于 08-20 17:43 ?1927次閱讀

    直擊Computex 2025:英特爾重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍

    電子發(fā)燒友原創(chuàng)? 章鷹 5月19日,在Computex 2025上,英特爾發(fā)布了最新全新圖形處理(GPU)和AI加速器產(chǎn)品系列。包括全新英特爾銳炫? Pro B系列GPU——
    的頭像 發(fā)表于 05-21 00:57 ?7010次閱讀
    直擊Computex 2025:<b class='flag-5'>英特爾</b>重磅發(fā)布新<b class='flag-5'>一代</b>GPU,圖形和AI性能躍升3.4倍

    直擊Computex2025:英特爾重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍

    5月19日,在Computex 2025上,英特爾發(fā)布了最新全新圖形處理(GPU)和AI加速器產(chǎn)品系列。包括全新英特爾銳炫? Pro B系列GPU——
    的頭像 發(fā)表于 05-20 12:27 ?5191次閱讀
    直擊Computex2025:<b class='flag-5'>英特爾</b>重磅發(fā)布新<b class='flag-5'>一代</b>GPU,圖形和AI性能躍升3.4倍

    英特爾發(fā)布全新GPU,AI和工作站迎來新選擇

    英特爾推出面向準專業(yè)用戶和AI開發(fā)者的英特爾銳炫Pro GPU系列,發(fā)布英特爾? Gaudi 3 AI加速器機架級和PCIe部署方案 ? 2025 年 5 月 19 日,北京 ——今日
    發(fā)表于 05-20 11:03 ?1681次閱讀

    英特爾與面壁智能宣布建立戰(zhàn)略合作伙伴關(guān)系,共同研發(fā)端側(cè)原生智能座艙,定義下一代車載AI

    今日,英特爾與面壁智能簽署合作備忘錄。雙方宣布達成戰(zhàn)略級合作伙伴關(guān)系,旨在打造端側(cè)原生智能座艙,定義下一代車載AI。目前,雙方已合作推出“英特爾&面壁智能車載大模型GUI智能體”,將端側(cè)AI大模型引入汽車座艙,讓用戶不再受限于網(wǎng)
    的頭像 發(fā)表于 04-23 21:46 ?945次閱讀
    <b class='flag-5'>英特爾</b>與面壁智能宣布建立戰(zhàn)略合作伙伴關(guān)系,共同研發(fā)端側(cè)原生智能座艙,定義<b class='flag-5'>下一代</b>車載AI

    英特爾酷睿Ultra AI PC上部署多種圖像生成模型

    全新英特爾酷睿Ultra 200V系列處理對比上代Meteor Lake,升級了模塊化結(jié)構(gòu)、封裝工藝,采用全新性能核與能效核、英特爾硬件線程調(diào)度、
    的頭像 發(fā)表于 04-02 15:47 ?1165次閱讀
    在<b class='flag-5'>英特爾</b>酷睿Ultra AI PC上部署多種圖像生成模型

    英特爾展示基于至強6處理的基礎(chǔ)網(wǎng)絡(luò)設(shè)施

    ? 集成AI功能的英特爾至強6系統(tǒng)級芯片,與前幾代產(chǎn)品相比,可帶來高達2.4倍的無線接入網(wǎng)(RAN)容量提升1,和70%的每瓦性能提升2; 集成的人工智能加速器將AI RAN性能提升了高達3.2倍3
    的頭像 發(fā)表于 03-08 09:24 ?856次閱讀

    英特爾Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    Pro模型進行了深度優(yōu)化。 這優(yōu)化舉措使得AI開發(fā)者能夠以更低的成本和更高的效率實現(xiàn)復雜任務(wù)的部署與優(yōu)化。英特爾Gaudi 2D AI加速器通過其卓越的計算能力和高度優(yōu)化的軟件棧,
    的頭像 發(fā)表于 02-10 11:10 ?931次閱讀

    DeepSeek發(fā)布Janus Pro模型,英特爾Gaudi 2D AI加速器優(yōu)化支持

    Gaudi 2D AI加速器現(xiàn)已針對該模型進行了全面優(yōu)化。這優(yōu)化舉措使得AI開發(fā)者能夠更輕松地實現(xiàn)復雜任務(wù)的部署與優(yōu)化,從而有效滿足行業(yè)應(yīng)用對于推理算力的迫切需求。 英特爾Gaudi 2D AI
    的頭像 發(fā)表于 02-08 14:35 ?920次閱讀

    英特爾下一代桌面測試處理 Nova Lake 現(xiàn)身

    英特爾下一代桌面測試處理Nova Lake已現(xiàn)身。消息源@x86deadandback于1月21日在X平臺發(fā)布推文,在運輸清單中發(fā)現(xiàn)了Nova Lake CPU。首個芯片在2024年12月就已被
    的頭像 發(fā)表于 01-23 10:09 ?1376次閱讀

    英特爾計劃分拆RealSense深度攝像頭業(yè)務(wù)

    近日,英特爾公司向外界證實了項重要戰(zhàn)略決策:計劃在2025年年中之前,將其RealSense深度攝像頭業(yè)務(wù)分拆為家獨立公司。這舉措標志
    的頭像 發(fā)表于 01-14 13:49 ?780次閱讀

    英特爾發(fā)布新一代Core Ultra芯片,為2025移動計算確立新標準

    客戶端計算事業(yè)部總裁Josh Newman表示:“全新英特爾酷睿Ultra 200HX和200H系列處理專為下一代創(chuàng)作者和游戲玩家打造,其擁有突
    的頭像 發(fā)表于 01-14 00:58 ?5477次閱讀
    <b class='flag-5'>英特爾</b>發(fā)布新<b class='flag-5'>一代</b>Core Ultra芯片,為2025移動計算確立新標準

    英特爾與Stellantis Motorsports攜手推進自適應(yīng)控制技術(shù)

    達成合作,雙方將共同推進自適應(yīng)控制技術(shù)在下一代逆變器中的應(yīng)用。 此次合作的核心在于提高賽車在競技比賽環(huán)境中的性能和效率。通過采用英特爾的自適應(yīng)控制技術(shù),Stellantis Motorsports將能夠更精準地控制逆變器的工作狀態(tài),從而優(yōu)化賽車的動力輸出和能源利用效率。
    的頭像 發(fā)表于 01-09 10:29 ?822次閱讀