国产静品久久蜜臀,日本无遮挡吸乳视频在线观看

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）日前，在龍芯中科 2022 年度暨 2023 年第一季度業(yè)績(jī)暨現(xiàn)金分紅說(shuō)明會(huì)上，龍芯中科董事長(zhǎng)胡偉武宣布，集成龍芯自研 GPGPU （通用圖形處理器）的第一款 SoC 芯片預(yù)計(jì)將于 2024 年一季度流片。

胡偉武表示，目前已經(jīng)基本完成相關(guān) IP 研發(fā)，正在開(kāi)展全面驗(yàn)證，在此基礎(chǔ)上，2024 年下半年將完成兼顧顯卡和算力加速功能的專(zhuān)用芯片流片。

大語(yǔ)言模型拉動(dòng)GPGPU需求增長(zhǎng)

GPGPU（通用圖形處理器），脫胎于 GPU（圖形處理器）。GPU最初是為解決 CPU 在圖形處理領(lǐng)域性能不足的問(wèn)題而誕生的，而面對(duì)非圖像顯示領(lǐng)域并涉及大量并行運(yùn)算的領(lǐng)域，比如 AI、加密解密、科學(xué)計(jì)算等，則更需要通用計(jì)算能力，GPGPU應(yīng)運(yùn)而生。

近段時(shí)間，隨著ChatGPT的出圈，全球掀起大語(yǔ)言模型的研究熱潮。而無(wú)論是大模型的訓(xùn)練還是推理，這都離不開(kāi)GPGPU芯片來(lái)提供算力支持。業(yè)界推測(cè)，在未來(lái)幾年內(nèi)，大語(yǔ)言模型的訓(xùn)練和部署將推動(dòng)GPGPU需求增長(zhǎng)。

在訓(xùn)練端，英偉達(dá)可以說(shuō)是這場(chǎng)大模型浪潮中的絕對(duì)受益者，目前全球大模型的訓(xùn)練基本依賴(lài)英偉達(dá)的GPU。英偉達(dá)有兩款強(qiáng)大的GPU產(chǎn)品：A100和H100。

A100 是英偉達(dá)2020年推出的數(shù)據(jù)中心級(jí)云端加速芯片，擁有540億晶體管，采用臺(tái)積電7nm工藝制程，支持FP16、FP32和FP64浮點(diǎn)運(yùn)算，為人工智能、數(shù)據(jù)分析和HPC數(shù)據(jù)中心等提供算力。A100 提供超快速的顯存帶寬，可處理超大型模型和數(shù)據(jù)集。

H100是英偉達(dá)2022年3月發(fā)布的最新一代數(shù)據(jù)中心GPU，集成800億晶體管，采用臺(tái)積電定制的4nm工藝。英偉達(dá)CEO黃仁勛此前表示，這款GPU具有超強(qiáng)的計(jì)算能力，20個(gè)H100 GPU便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量。相比于A100，H100在FP16、FP32和FP64計(jì)算上快三倍，非常適用于當(dāng)下流行且訓(xùn)練難度高的大模型。

由于全球眾多科技企業(yè)加入大語(yǔ)言模型研究大軍，近段時(shí)間，英偉達(dá)的GPU供貨周期拉長(zhǎng)，價(jià)格上漲，其A100 GPU市場(chǎng)單價(jià)兩個(gè)月前還在10萬(wàn)元左右，如今已經(jīng)上漲到15萬(wàn)元。

目前大部分研究都認(rèn)為，AI大模型預(yù)訓(xùn)練是一個(gè)非常耗時(shí)、耗力、耗電的過(guò)程，這部分對(duì)GPU的貢獻(xiàn)最大。然而實(shí)際上，如果真正地去計(jì)算成本，對(duì)于企業(yè)來(lái)說(shuō)，大模型的推理將會(huì)耗費(fèi)巨大的成本，而其中很大部分則是在GPU的購(gòu)買(mǎi)上。

圖：沐曦研究科學(xué)家李兆石演講（電子發(fā)燒友拍攝）

在近日某人工智能論壇上，沐曦研究科學(xué)家李兆石介紹，以谷歌為例，谷歌目前主要的收入來(lái)源是搜索廣告，每次搜索平均能夠給谷歌帶來(lái)約1.6美分。

如果把類(lèi)似ChatGPT插入到谷歌搜索里，在現(xiàn)在主流高性能的英偉達(dá)A100 GPU上，需要八張GPU才能做一次GPT3的推理，把電費(fèi)和GPU的一次性購(gòu)買(mǎi)成本算進(jìn)去，每次推理的平均成本大約是0.36美分，如果谷歌直接在谷歌搜索里用類(lèi)似ChatGPT規(guī)模的大模型，相當(dāng)于很大一部分利潤(rùn)都將耗費(fèi)在大模型的推理成本上。

相當(dāng)于在A100上做GPT3規(guī)模的預(yù)訓(xùn)練，大概需要80萬(wàn)美元。而把剛才0.36美分乘以谷歌每天的搜索次數(shù)，可以發(fā)現(xiàn)，直接在谷歌搜索里用這個(gè)GPT推理，這個(gè)推理成本每天是1億美元，推理成本遠(yuǎn)遠(yuǎn)高于預(yù)訓(xùn)練成本。

將這個(gè)推理成本再進(jìn)一步拆解，會(huì)發(fā)現(xiàn)，以英偉達(dá)A100 GPU的市場(chǎng)價(jià)格12500美元計(jì)算（這是之前的價(jià)格，現(xiàn)在國(guó)內(nèi)價(jià)格基本上已經(jīng)漲到15到20萬(wàn)人民幣），一般GPU的使用年限是五年，把這個(gè)購(gòu)買(mǎi)成本線性平攤到五年時(shí)間，這個(gè)0.36美分的每次推理成本里面，65%是購(gòu)買(mǎi)GPU的成本。也就是說(shuō)GPU的一次性購(gòu)買(mǎi)成本，占大模型訓(xùn)練和推理的絕大部分。

國(guó)內(nèi)AI算力芯片廠商的產(chǎn)品和技術(shù)進(jìn)展

可以看到，雖然目前大語(yǔ)言模型的訓(xùn)練基本依賴(lài)英偉達(dá)的GPU，然而隨著大模型逐漸走向落地應(yīng)用，在推理側(cè)，國(guó)內(nèi)外AI算力芯片廠商將迎來(lái)較大的市場(chǎng)機(jī)會(huì)。

在國(guó)內(nèi)，近些年已經(jīng)有不少?gòu)S商在高性能計(jì)算AI算力芯片領(lǐng)域取得進(jìn)展，包括寒武紀(jì)、海光信息、壁仞科技、摩爾線程、天數(shù)智芯、燧原科技、沐曦集成、芯動(dòng)科技、登臨科技等。

電子發(fā)燒友制表

如今CPU廠商龍芯也加入到了GPGPU大軍中，不過(guò)可以看到龍芯的GPGPU主要還是集成在自家的SOC中。事實(shí)上，龍芯早在2017年就開(kāi)始研究GPU，2021年7月，該公司發(fā)布的龍芯3號(hào)系列處理器的配套橋片“龍芯7A2000”，內(nèi)部就首次集成了龍芯自研的GPU。

如今龍芯又透露了其在GPGPU方面的最新進(jìn)展。據(jù)胡偉武介紹，2024 年龍芯將流片首款大小核協(xié)同芯片。龍芯 3A6000 的下一代將是 3B6000，四大四小八個(gè)核，內(nèi)置自研 GPGPU。大核爭(zhēng)取通過(guò)結(jié)構(gòu)優(yōu)化再提高性能 20% 以上。

寒武紀(jì)是一家專(zhuān)注于人工智能芯片研發(fā)和技術(shù)創(chuàng)新的企業(yè)，能夠?yàn)橐曈X(jué)、語(yǔ)音、自然語(yǔ)言處理、傳統(tǒng)機(jī)器學(xué)習(xí)等人工智能技術(shù)提供基礎(chǔ)計(jì)算平臺(tái)。2021年7月，寒武紀(jì)發(fā)布了其第三代云端 AI 芯片思元 370，以及基于思元 370 的兩款加速卡 MLU370-S4 和 MLU370-X4。

同時(shí)，寒武紀(jì)全新升級(jí)了 Cambricon Neuware 軟件棧，新增推理加速引擎 MagicMind，實(shí)現(xiàn)訓(xùn)推一體，顯著提升了開(kāi)發(fā)部署的效率。而且，有 7nm 先進(jìn)工藝和全新 MLUarch03 架構(gòu)加持，思元 370 芯片算力最高可達(dá) 256TOPS (INT8)，是上一代產(chǎn)品思元 270 算力的 2 倍。

海光信息的產(chǎn)品包括通用處理器（CPU）和協(xié)處理器（DCU），海光DCU屬于GPGPU的一種。海光DCU 8000系列，支持INT4、INT8、FP16、FP32、FP64運(yùn)算精度，支持4個(gè)HBM2內(nèi)存通道，最高內(nèi)存帶寬為1TB/s、最大內(nèi)存容量為32GB。

海光DCU協(xié)處理器全面兼容ROCm GPU計(jì)算生態(tài)，由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性，CUDA用戶可以以較低代價(jià)快速遷移至ROCm平臺(tái)。

壁仞科技去年8月發(fā)布了首款通用GPU BR100，集成770億晶體管，其INT8算力達(dá)2048 TOPS，BF16算力達(dá)1024 TFLOPS，TF32+算力達(dá)512 TFLOPS，F(xiàn)P32算力達(dá)256 TFLOPS。同期，壁仞科技還發(fā)布了自主原創(chuàng)架構(gòu)——壁立仞、創(chuàng)造全球性能紀(jì)錄的OAM服務(wù)器——海玄，以及OAM模組——壁礪100，PCIe板卡產(chǎn)品——壁礪104，以及自主研發(fā)的BIRENSUPA軟件平臺(tái)。

摩爾線程已經(jīng)發(fā)布兩款自主研發(fā)的GPU芯片產(chǎn)品，去年3月發(fā)布GPU產(chǎn)品“蘇堤”，11月又發(fā)布了第二款GPU芯片“春曉”。“春曉”內(nèi)置MUSA架構(gòu)通用計(jì)算核心以及張量計(jì)算核心，可支持FP32、FP16和INT8三種計(jì)算精度；相較于其首款自研的GPU“蘇堤”，“春曉”內(nèi)置的四大計(jì)算引擎都進(jìn)行了全面升級(jí)，性能顯著提升，AI計(jì)算加速平均提升4倍。

天數(shù)智芯于2018年正式啟動(dòng)通用GPU芯片設(shè)計(jì)，在2021年發(fā)布了其通用GPU“天垓100”芯片及天垓100加速卡，2021年10月宣布天垓100正式進(jìn)入量產(chǎn)環(huán)節(jié)。2022年9月，天數(shù)智芯又發(fā)布了首款7nm制程的云端推理通用GPU產(chǎn)品“智鎧100”。

智鎧 100 芯片支持 FP32、FP16、INT8 等多精度混合計(jì)算，實(shí)現(xiàn)了指令集增強(qiáng)、算力密度提升、計(jì)算存儲(chǔ)再平衡，支持多種視頻規(guī)格解碼。

燧原科技已經(jīng)迭代了兩代訓(xùn)練和推理產(chǎn)品，第三代也已經(jīng)在研發(fā)中。燧原科技已經(jīng)在科研領(lǐng)域和智慧城市的應(yīng)用中落地了訓(xùn)練和推理的超千卡算力集群。

該公司創(chuàng)始人兼COO張亞林此前在接受電子發(fā)燒友采訪的時(shí)候表示，類(lèi)似ChatGPT這樣的AIGC生成式模型，對(duì)于燧原科技而言是個(gè)機(jī)遇，公司可以把已經(jīng)積累的系統(tǒng)集群的經(jīng)驗(yàn)推廣到更多的客戶賽道上，幫助客戶使能更多大模型的生成。

沐曦集成產(chǎn)品路線圖

沐曦集成目前有三條產(chǎn)品線規(guī)劃，G系列、C系列和N系列，G系列主要是用于圖形處理領(lǐng)域，C系列主要用于高性能云端的訓(xùn)練和推理，N系列主要是云端的推理芯片?，F(xiàn)在N系列的云端推理芯片已經(jīng)量產(chǎn)出貨，C系列正在做調(diào)試，如果沒(méi)有問(wèn)題的話，也很快就會(huì)量產(chǎn)。

芯動(dòng)科技已經(jīng)發(fā)布兩款GPU芯片——風(fēng)華1號(hào)和風(fēng)華2號(hào)。風(fēng)華1號(hào)于2021年發(fā)布，于去年9月正式量產(chǎn)。風(fēng)華2號(hào)于2022年8月發(fā)布，是一款集超低功耗、強(qiáng)渲染、4K高清三屏顯示、及智能AI計(jì)算于一體的桌面和筆記本GPU。

風(fēng)華2號(hào)在AI計(jì)算能力方面，支持科學(xué)/邊緣計(jì)算，AI性能超過(guò)12.5TOPS，支持人臉識(shí)別、目標(biāo)識(shí)別、語(yǔ)義分割、圖像超分辨率等多種場(chǎng)景實(shí)時(shí)應(yīng)用。

登臨科技是一家專(zhuān)注于高性能通用計(jì)算平臺(tái)的芯片研發(fā)與技術(shù)創(chuàng)新的公司，其自主研發(fā)的GPU+架構(gòu)正式采用了軟件定義的片內(nèi)異構(gòu)體系，目前首款基于GPU+的系列產(chǎn)品—Goldwasser已在云至邊緣的各個(gè)應(yīng)用場(chǎng)景實(shí)現(xiàn)規(guī)?；涞亍?br />
登臨科技聯(lián)合創(chuàng)始人王平此前在接受電子發(fā)燒友采訪的時(shí)候表示，登臨科技希望通過(guò)異構(gòu)，從由點(diǎn)及面在一些足夠大的市場(chǎng)領(lǐng)域，把產(chǎn)品做到比英偉達(dá)同系列產(chǎn)品更具性?xún)r(jià)比優(yōu)勢(shì)，甚至超過(guò)英偉達(dá)。

帶著這樣的出發(fā)點(diǎn)，在大型語(yǔ)言模型方面，登臨科技會(huì)更關(guān)心如何更好的提升產(chǎn)品的能效比。簡(jiǎn)單來(lái)說(shuō)，在同樣功耗下，登臨科技可以提供英偉達(dá)1.5到2倍的算力，在算力一致的情況下，做到單位功耗更低。這樣從計(jì)算的整體性能上，實(shí)現(xiàn)英偉達(dá)同類(lèi)產(chǎn)品的能效比3倍的優(yōu)勢(shì)。如此一來(lái)，可以極大地節(jié)省電費(fèi)及運(yùn)維成本。

小結(jié)

很顯然，隨著ChatGPT的出圈，國(guó)內(nèi)外眾多科技企業(yè)掀起大語(yǔ)言模型的研究熱潮，而無(wú)論是大模型的訓(xùn)練還是部署，都離不開(kāi)GPGPU芯片提供算力支持。目前而言，大模型的訓(xùn)練基本依賴(lài)英偉達(dá)的GPU，然而相比較而言，隨著大模型逐步落地應(yīng)用，在推理部分將同樣需要用到大量GPGPU，而這也是除英偉達(dá)之外，國(guó)內(nèi)外眾多GPGPU廠商的機(jī)會(huì)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴