電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))近日,一家由哈佛輟學(xué)生成立的初創(chuàng)公司Etched,宣布了他們?cè)诖蛟斓囊豢睢皩S谩?a href="http://www.brongaenegriffin.com/tags/ai/" target="_blank">AI芯片Sohu。據(jù)其聲稱該芯片的速度將是英偉達(dá)H100的20倍,但只能跑transformer架構(gòu)的模型。
Sohu,比H100快上20倍
之所以打算Sohu這一自研ASIC AI芯片,是因?yàn)镋tched認(rèn)為GPU在性能升級(jí)上的速度太慢了。如果以H100的單位面積算力和交期作為參考,那么從2022年到2025年,英偉達(dá)的H100迭代至B200,2.5年的時(shí)間內(nèi)性能只有15%的提升。所以要想有效提高性能的方式,只有走特化的ASIC芯片一途。
現(xiàn)在發(fā)布的任何AI芯片,在提到性能時(shí),無(wú)疑都會(huì)把英偉達(dá)的H100作為對(duì)比參照,Etched的Sohu也不例外。根據(jù)Etched提供的數(shù)據(jù),單個(gè)Sohu服務(wù)器運(yùn)行Llama 70B時(shí)可以做到50萬(wàn)Tokens每秒,這一速度是單個(gè)H100服務(wù)器的20倍以上,也是單個(gè)B200服務(wù)器的10倍以上。
在服務(wù)器的配置上,Sohu服務(wù)器和H100服務(wù)器均采用的8卡的配置,所以Etched強(qiáng)調(diào)一個(gè)8xSohu的服務(wù)器就可以替換掉至少160個(gè)H100,大大降低成本的同時(shí),也不會(huì)有性能損失。
由于Sohu僅支持一種算法,所以絕大多數(shù)的控制流模塊都可以被剔除,芯片可以集成更多的數(shù)學(xué)計(jì)算單元,在算力利用率上可以達(dá)到90%以上,而GPU卻只能做到30%。這也是因?yàn)樵贕PU的電路設(shè)計(jì)上,用于矩陣乘法的晶體管數(shù)量甚至沒(méi)有占到10%。不過(guò)Etched對(duì)于英偉達(dá)的設(shè)計(jì)還是相當(dāng)佩服的,指出如果同時(shí)想支持CNN、LSTM、SSM等其他模型,確實(shí)很難做得比英偉達(dá)更好。
當(dāng)然了,這里的測(cè)試條件也必須做一個(gè)說(shuō)明,測(cè)試標(biāo)準(zhǔn)為FP8精度的Llama 70B,無(wú)稀疏,其中H100是基于最新版本的TensorRT-LLM測(cè)試的,而B(niǎo)200由于還未交付,所以其性能是預(yù)估的。
為何專攻Transformer模型
市面上的AI芯片和GPU產(chǎn)品為了覆蓋更靈活的客戶需求,盡管不少都采用了ASIC的設(shè)計(jì)方案,但支持的模型卻不會(huì)局限在一類(lèi)。Etched也在其官網(wǎng)列出了市面上一些競(jìng)品方案,包括英偉達(dá)的GPU、谷歌的TPU、亞馬遜的Trainium、Graphcore的IPU、Tenstorrent的Grayskull和英特爾的Gaudi等等,這些方案無(wú)一不對(duì)廣泛的AI模型提供了支持。
但我們從市面上頭部的模型來(lái)看,幾乎占據(jù)主導(dǎo)地位的都是transformer架構(gòu)的模型,比如GPT、Sora、Gemini和Stable Diffusion。Etched很大方地表示,如果哪一天transformer被SSM、RWKV或其他新的架構(gòu)替代了,他們的芯片將變得一無(wú)是處,對(duì)于千變?nèi)f化的AI市場(chǎng)而言,絕大多數(shù)廠商都不敢沒(méi)法做出這樣的預(yù)測(cè)。
而Etched從2022年底,就賭transformer模型將會(huì)統(tǒng)治整個(gè)市場(chǎng)。這在當(dāng)時(shí)還沒(méi)有ChatGPT的年代,是一個(gè)大膽的預(yù)測(cè),畢竟當(dāng)時(shí)圖像生成還有基于CNN的U-Net,不少自動(dòng)駕駛的視覺(jué)處理也還在廣泛使用CNN。而且對(duì)于一個(gè)規(guī)模不算大的設(shè)計(jì)團(tuán)隊(duì)而言,維護(hù)單一架構(gòu)的軟件棧明顯壓力更小一些,他們只需要為transformer編寫(xiě)驅(qū)動(dòng)、內(nèi)核即可。
寫(xiě)在最后
至于Etched的這場(chǎng)豪賭是否能成功,還得看芯片的成品表現(xiàn)如何。雖然他們嘗試的這條路線沒(méi)人走過(guò),但財(cái)力和研發(fā)能力均在他們之上的廠商也沒(méi)能打造出超過(guò)英偉達(dá)GPU的競(jìng)品,硅谷的VC們能否造出新神,依然不能過(guò)早下定論。
-
Transformer
+關(guān)注
關(guān)注
0文章
153瀏覽量
6716 -
AI芯片
+關(guān)注
關(guān)注
17文章
2030瀏覽量
36357
發(fā)布評(píng)論請(qǐng)先 登錄
愛(ài)芯元智亮相2025全球AI芯片峰會(huì)
酷芯微電子亮相2025全球AI芯片峰會(huì)
Achronix亮相2025全球AI芯片峰會(huì)
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片
墨芯亮相2025全球AI芯片峰會(huì)
云天勵(lì)飛亮相2025全球AI芯片峰會(huì)
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+神經(jīng)形態(tài)計(jì)算、類(lèi)腦芯片
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)
睿海光電800G光模塊助力全球AI基建升級(jí)
2025端側(cè)AI芯片爆發(fā):存算一體、非Transformer架構(gòu)誰(shuí)主浮沉?邊緣計(jì)算如何選型?
【書(shū)籍評(píng)測(cè)活動(dòng)NO.64】AI芯片,從過(guò)去走向未來(lái):《AI芯片:科技探索與AGI愿景》
Transformer架構(gòu)概述

transformer專用ASIC芯片Sohu說(shuō)明

評(píng)論