上海三对夫妇真实交换视频,国模肉肉肉人体啪啪响,日本亚欧乱色视频小说

在超算領(lǐng)域，中美之間無聲的競爭還在進行中，2018年美國憑借橡樹嶺國家實驗室的Summit超算奪回了失落5年的TOP500冠軍寶座。在HPC超算市場上，關(guān)鍵的還是下一代百億億次超算，也就是Exascale超算，目前中國有三套E級超算，而英特爾、Cray公司在2019年3月17日獲得了美國能源部5億美元的合同。

美國能源部長里克佩里說：“實現(xiàn)百億億次超算是必不可少的，它不僅可以提升科學計算，還要改善美國人的日常生活。”“Aurora及下一代百億億次超算將HPC、AI等技術(shù)應(yīng)用于癌癥研究、氣候模擬、退伍軍人健康治療等領(lǐng)域，基于百億億次超算的創(chuàng)新將會對我們的社會產(chǎn)生極為重要的影響?！泵绹着_百億億次超算將大量應(yīng)用英特爾的最新技術(shù)，主處理器是下一代Xeon至強，還有新一代Xe加速卡、OptaneDC內(nèi)存、秘密武器CXL以及英特爾的OneAI軟件，而整個系統(tǒng)則是基于Cray公司的Shasta系統(tǒng)，包括至少200個機柜、Slingshot高性能可擴展互聯(lián)架構(gòu)及Shasta軟件堆棧。

該項目計劃在2021年的時間內(nèi)完成，并且每秒能夠進行Quintillion的運算，即400 petaflops。從這個角度來看，這比Million浮點運算高出一百萬倍 - 而平均每個處理器的約為200 GFLOP。這筆交易價值5億美元，其中Cray將獲得1.46億美元的資金，而Intel將獲得剩余的3.54億美元。

圖一：Aurora技術(shù)革新（圖片來源：英特爾）

從上圖可以看出Xe 是加速器，但目前還不清楚Quintillionops mark的功率分布。

圖二：英特爾GPU可擴展性（來源：英特爾）

英特爾野心勃勃，Xe將從10nm節(jié)點開始，為未來幾代圖形奠定基礎(chǔ)，并將遵循Intel的單一堆棧軟件哲學，即希望軟件開發(fā)人員能夠利用CPU、GPU、FPGA和AI，所有這些都使用同一套API，英特爾稱之為One API，One API作為Direct3D層和GPU之間的中介（據(jù)稱他們也有Linux解決方案），并允許用戶無縫擴展多個GPU。這表明Intel也準備打造一個類似CUDA的生態(tài)系統(tǒng)。

圖三：英特爾Xe路線圖（圖片來源：英特爾）

不過這些都不是重點，英特爾將第一次在GPU領(lǐng)域使用MCM封裝形式，這正是英偉達夢寐以求的技術(shù)，而英特爾即將量產(chǎn)，第一批X2 GPU的暫定時間表也已經(jīng)公布：2020年6月31日。隨后是2021年的X4?？雌饋鞩ntel計劃每年增加兩個核心，所以到2024年應(yīng)該會到X8。

Xe將是英特爾異構(gòu)計算的關(guān)鍵構(gòu)成，之前英特爾對GPU加速一直持懷疑態(tài)度，但自從有了Xe后，英特爾改變了態(tài)度，英特爾Xe將加強英特爾以數(shù)據(jù)為中心的廣泛產(chǎn)品組合，為最廣泛的計算工作負載提供領(lǐng)先的產(chǎn)品，滿足其對標量、矢量、矩陣和空間計算架構(gòu)的綜合需求。但英特爾并未透露太多細節(jié)，不過從Aurora采購Xe即可看出，GPU加速已經(jīng)被英特爾認同。

目前制造高性能 GPU 有一個很嚴重的限制 — 「芯片尺寸的限制」，因為目前現(xiàn)有技術(shù)的***受限于光刻模板、光刻光源，幾乎不可能制造出更大的 GPU 核心，極限是800平方毫米。即使英偉達的技術(shù)如何進步，核心尺寸不能無止境變大已經(jīng)成為英偉達繼續(xù)提升 GPU 性能的瓶頸。MCM 的封裝方式與 NANDFlash 的做法有點類似，容量不夠就將 Layer堆棧起來，除了制造方式簡單且具成本優(yōu)勢之外，還可以提高產(chǎn)品的性能。

此外隨著CPU核心數(shù)逐漸從個位數(shù)提升到十位數(shù)范圍，monolithic多核心的局限越來越大，除了制造難度大、良率低的問題，也因為它不夠靈活，因為處理器除了核心數(shù)量之外，還要考慮到內(nèi)存信道、PCIe信道等IO核心的搭配，英特爾的Skylake-SP架構(gòu)所示，為了配合不同核心的處理器，英特爾在它上面使用了XCC、LCC、HCC三種不同的內(nèi)部架構(gòu)，這樣做無疑是增加了芯片的復雜性。

圖四：英偉達RC-18 GPU陣列（圖片來源：英偉達）

英偉達為了應(yīng)付 GPU 核心面積的瓶頸，已計劃開發(fā)一個名為「RC 18」的多矩陣概念，以最優(yōu)化的方式整合多個 GPU 模塊，達至最高流處理器數(shù)、減少通訊層級和鏈路長度，并可以縮小芯片面積。根據(jù)英偉達研究部主管 William J. Dally的說法，「RC-18」是為深度學習執(zhí)行和實現(xiàn)可擴展性的實驗，每個芯片內(nèi)部具有基于TSMC 16nm 工藝及承載 8700 萬個晶體管的 16 個 PE（處理組件），因此可以從非常小的尺寸中擴展。16 個 PE 用于控制 CPU Core，片上全局緩沖儲存器，并安裝了八個 GRS 鏈路。在實際芯片中，GRS 鏈路組占據(jù)相當大的面積，每芯片 GRS 的 I/O 帶寬達到 100 GB/s。

圖五：英偉達RC18內(nèi)部框架圖（圖片來源：英偉達）

英偉達的RC18概念設(shè)計。英偉達目前RC18概念產(chǎn)品只做到了8700萬個晶體管，與GPU動輒百億級晶體管相比，差距至少有5年，目前英偉達將精力全部轉(zhuǎn)移到光線追蹤上，靠RT核來做賣點，只字不提曾經(jīng)信誓旦旦的MCM。而英特爾的MCM成功了，畢竟英特爾在芯片封裝領(lǐng)域技術(shù)積累遠比英偉達要深厚的多。

AMD在CPU上大量運用MCM技術(shù)，但是在GPU上始終無法突破量產(chǎn)工藝瓶頸，理論上似乎很簡單，但就是良率太低，無法量產(chǎn)。這是因為AMD沒有自己的晶圓廠，從未從事過芯片封裝，芯片封裝都是交給第三方，而英特爾擁有全球最大的晶圓廠，也擁有最優(yōu)秀的芯片封裝工藝，當然這背后是日本廠家新光電氣和Ibiden的鼎力支持，日本在封裝材料和工藝方面擁有絕對優(yōu)勢。同時英特爾還有自己的Flash存儲器晶圓廠。可以借鑒Flash存儲器的MCM封裝經(jīng)驗。

MCM不僅性能一流，同時也成本大幅度降低，AMD透露，如果將32核封裝到一塊芯片中成本是1，那它們的MCM方式只有0.59，換言之，節(jié)省了41%的成本。MCM還允許一個芯片中使用不同工藝的die（裸晶），比如I/O部分不需要那么先進的工藝，28納米足夠，CPU部分就用7納米，不僅降低成本，還復用了以前的I/O設(shè)計，降低先進制程工藝的風險，研發(fā)成果復用率高，縮短研發(fā)周期等。

圖六:單一架構(gòu)和MCM對比（圖片來源：AMD）

上圖為AMD MCM與單芯片對比。

英特爾Xe 2 GPU性能見上表。性價比極高。

為配合MCM，英特爾在軟件方面也有所動作，英特爾2019年4月9日舉行了Interconnect Day 2019 ，當中詳細介紹了處理器與處理器之間的Compute Express Link（CXL）超高速互聯(lián)新標準。雖然現(xiàn)階段構(gòu)思僅供數(shù)據(jù)中心的服務(wù)器使用，顯然這也是為GPU準備的。英特爾 CXL 標準的原意——作為 CPU 與 Accelerator 加速器（如 FPGA / GPU 顯示適配器）之間的互聯(lián)通信。

一直以來， CPU 都是透過主板上的 PCIe插槽及 PCIe 協(xié)議與顯示適配器溝通，但當英特爾聯(lián)合阿里巴巴、 Cisco、 Dell EMC 、 Facebook 、 Google 、 HPE 、華為及微軟組成強大陣容的聯(lián)盟后，就發(fā)表了 CXL 的開放標準，以解決目前 PCIe 協(xié)議于 CPU 與顯示適配器之間的高延遲及帶寬不足的問題。透過 CXL 協(xié)議， CPU 與 GPU 之間就形同連成單一個龐大的堆棧內(nèi)存池（ Stacked Memory ）， CPU Cache 和 GPU HBM2 內(nèi)存猶如放在一起，有效降低兩者之間的延遲，故此能大幅提升數(shù)據(jù)運算效率，令AI人工智能、機器學習、媒體服務(wù)、高效能運算（ HPC ）及云端服務(wù)變得非?？焖?。

MCM沒有理論上的突破，突破的只是制造工藝，MCM在奔騰時代已經(jīng)出現(xiàn)過了，而今monolithic多核已經(jīng)走到了極限，唯有MCM能救場。而在服務(wù)器用CPU領(lǐng)域，MCM將可能是唯一方向，典型的如Cascade Lake-AP 48核處理器，它實際上是兩個24核的Cascade Lake處理器通過MCM方式組合出來的，也不是原生48核。如今的MCM多芯片設(shè)計在技術(shù)水平上也跟當年簡單粗暴的膠水多核不一樣了，主要擔心的延遲問題上，英特爾之前提到他們的EMIB技術(shù)相比單片電路的延遲只增加了10%，而別的技術(shù)方案中延遲甚至會增加50%之多。

monolithic多核的困境實際上是整個人類面臨的瓶頸，近百年來，人類在物理學體系理論上未有任何突破，只是在細枝末節(jié)上做修修補補，所謂人工智能不過是概率論，幾十年甚至近百年前的理論還是根基，所謂提升，不過是算力成指數(shù)倍的堆砌。

另外，供應(yīng)鏈的重要性一再凸顯，那種追求短平快，強調(diào)分工，只做自己擅長的戰(zhàn)略長遠上必然會遇到無法超越的瓶頸，英偉達和AMD無法戰(zhàn)勝英特爾，不再技術(shù)層面，而是供應(yīng)鏈層面。這么多年以來，AMD都是努力追趕英特爾，但AMD將工廠賣掉之后是個純粹的Fabless，需要看Foundry晶圓代工廠的臉色，晶圓代工廠自然要優(yōu)先照顧大客戶，臺積電自然要優(yōu)先照顧蘋果、華為和高通，遇上產(chǎn)能吃緊，AMD的訂單就會往后排。這就意味著AMD的供貨不夠穩(wěn)定，或者說AMD無法掌控產(chǎn)量，對下游整機廠來說，有可能導致旺季缺貨，這是個致命的缺點，特別是淡旺季分明的筆記本電腦CPU領(lǐng)域，英特爾一直擁有絕對優(yōu)勢。英特爾單靠全球最大的12英寸晶圓產(chǎn)能也足以擁有在半導體領(lǐng)域的霸主位置。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴