欧洲肥臀后进式XX,蜜里肉旧里番在线观看,亚洲 AⅤ 一区二区

2023年8月23日，英偉達(dá)宣布下一代汽車芯片Thor量產(chǎn)時(shí)間略有推遲，正式量產(chǎn)在2026財(cái)年，英偉達(dá)的財(cái)政年度與自然年相差11個(gè)月，也就是說(shuō)正式量產(chǎn)最遲可能是2026年1月。

FY2019-FY2024H1英偉達(dá)自動(dòng)駕駛及AI座艙業(yè)績(jī)情況

圖片來(lái)源：英偉達(dá)

英偉達(dá)通常兩年升級(jí)一次芯片架構(gòu)。在2022年英偉達(dá)透露即將在2024年推出Blackwell架構(gòu)，而Thor也會(huì)采用Blackwell架構(gòu)。

Blackwell是致敬美國(guó)統(tǒng)計(jì)學(xué)家，加利福尼亞大學(xué)伯克利分校統(tǒng)計(jì)學(xué)名譽(yù)教授，拉奧-布萊克韋爾定理的提出者之一David Harold Blackwell。

英偉達(dá)Blackwell架構(gòu)

Blackwell架構(gòu)將采用COPA-GPU設(shè)計(jì)。很多人認(rèn)為COPA-GPU就是Chiplet，不過(guò)COPA-GPU不是嚴(yán)格意義上的Chiplet，眾所周知，英偉達(dá)一直對(duì)Chiplet缺乏興趣。在2017年英偉達(dá)曾提出非常近似Chiplet的MCM設(shè)計(jì)，但在2021年12月，英偉達(dá)發(fā)表了一篇名為《GPU Domain Specialization via Composable On-Package Architecture》的論文，應(yīng)該就是Blackwell架構(gòu)的論文，這篇論文則否定了Chiplet設(shè)計(jì)。

2017年6月英偉達(dá)發(fā)表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設(shè)計(jì)。

MCM-GPU設(shè)計(jì)

圖片來(lái)源：英偉達(dá)

MCM-GPU設(shè)計(jì)基本就是現(xiàn)在比較火爆的Chiplet設(shè)計(jì)，但英偉達(dá)一直未將MCM付諸實(shí)際設(shè)計(jì)中。英偉達(dá)一直堅(jiān)持Monolithic單一光刻設(shè)計(jì)，這是因?yàn)閐ie與die之間通訊帶寬永遠(yuǎn)無(wú)法和monolithic內(nèi)部的通訊帶寬相比，換句話說(shuō)Chiplet不適合高AI算力場(chǎng)合，在純CPU領(lǐng)域是Chiplet的最佳應(yīng)用領(lǐng)域。

MCM-GPU架構(gòu)

圖片來(lái)源：英偉達(dá)

英偉達(dá)2017年論文提及的MCM-GPU架構(gòu)如上圖。英偉達(dá)在MCM-GPU架構(gòu)里主要引入了L1.5緩存，它介于L1緩存和L2緩存之間，XBAR是Crossbar，英偉達(dá)的解釋是The Crossbar (XBAR) is responsible for carrying packets from a given source unit to a specific destination unit，有點(diǎn)像交換或路由。GPM就是GPU模塊。

不同容量L1.5緩存下各種應(yīng)用的速度對(duì)比

圖片來(lái)源：英偉達(dá)

上圖是英偉達(dá)2017年論文仿真不同容量L1.5緩存下各種應(yīng)用的速度對(duì)比，不過(guò)彼時(shí)各種應(yīng)用還是各種浮點(diǎn)數(shù)學(xué)運(yùn)算和存儲(chǔ)密集型算子，而非深度學(xué)習(xí)。

Transformer時(shí)代相對(duì)CNN時(shí)代，存儲(chǔ)密集型算子所占比例大幅增加。

以上是Transformer的計(jì)算過(guò)程，在此計(jì)算過(guò)程中，矩陣乘法是典型的計(jì)算密集型算子，也叫GEMM（通用矩陣乘法）。存儲(chǔ)密集型算子分兩種，一種是矢量或張量的神經(jīng)激活，多非線性運(yùn)算，也叫GEMV （通用矩陣矢量乘法）。另一種是逐點(diǎn)元素型element-wise，典型的如矩陣反轉(zhuǎn)，實(shí)際沒(méi)有任何運(yùn)算，只是存儲(chǔ)行列對(duì)調(diào)。

三星對(duì)GPT大模型workload分析

圖片來(lái)源：三星

上圖中，在運(yùn)算操作數(shù)量上，GEMV所占比例高達(dá)86.53%，在大模型運(yùn)算延遲分析上，82.27%的延遲都來(lái)自GEMV；GEMM占比只有2.12%；非線性運(yùn)算也就是神經(jīng)元激活部分占的比例也遠(yuǎn)高于GEMM。

三星對(duì)GPU利用率的分析

圖片來(lái)源：三星

上圖可以看出在GEMV算子時(shí)，GPU的利用率很低，一般不超過(guò)20%，換句話說(shuō)80%的時(shí)間GPU都是在等待存儲(chǔ)數(shù)據(jù)的搬運(yùn)。GPU的靈活性還是比較高的，如果換做靈活性比較差的AI專用加速器，如谷歌的TPU，那么GEMV的利用率會(huì)更低，不到10%甚至5%。

三星的GPT瓶頸分析

圖片來(lái)源：三星

Roof-line訪存與算力模型

圖片來(lái)源：互聯(lián)網(wǎng)

上圖是鼎鼎大名的roof-line訪存與算力模型。

COPA-GPU架構(gòu)

圖片來(lái)源：英偉達(dá)

上圖是2021年12月英偉達(dá)論文提出的COPA-GPU架構(gòu)，實(shí)際就是把一個(gè)特別大容量的L2緩存die分離出來(lái)。因?yàn)槿绻€是monolithic設(shè)計(jì)，那么整個(gè)die的面積會(huì)超過(guò)1000平方毫米，不過(guò)***決定了芯片的最大die size不超過(guò)880平方毫米，所以必須將L2分離。

注：GPU-N就是英偉達(dá)的COPA-GPU。

圖片來(lái)源：英偉達(dá)

不同容量L2緩存對(duì)應(yīng)的延遲

圖片來(lái)源：英偉達(dá)

上圖是不同容量L2緩存對(duì)應(yīng)的延遲情況，顯然L2緩存越高，延遲越低，不過(guò)在small-batch時(shí)不明顯。

幾種COPA-GPU的封裝分析

圖片來(lái)源：英偉達(dá)

從英偉達(dá)的論文里我們看不到架構(gòu)方面的絲毫改進(jìn)，只有封裝領(lǐng)域的改變。這篇論文實(shí)際應(yīng)該由臺(tái)積電來(lái)寫，因?yàn)橛ミ_(dá)完全無(wú)法掌控芯片的封測(cè)工藝，CoWoS就是為英偉達(dá)這種設(shè)計(jì)而設(shè)計(jì)的，而CoWoS誕生在10年以前。

大模型不斷消耗更多的算力和存儲(chǔ)，這顯然違背了自然界效率至上的原則，或許人類正在錯(cuò)誤的道路上狂奔。

免責(zé)說(shuō)明：本文觀點(diǎn)和數(shù)據(jù)僅供參考，和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議，文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng)，不具有任何指導(dǎo)、投資和決策意見(jiàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴