chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

龍芯中科自研 GPGPU!大語言模型浪潮下,國產(chǎn)廠商如何把握機(jī)會(huì)?

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-05-18 09:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)日前,在龍芯中科 2022 年度暨 2023 年第一季度業(yè)績暨現(xiàn)金分紅說明會(huì)上,龍芯中科董事長胡偉武宣布,集成龍芯自研 GPGPU (通用圖形處理器)的第一款 SoC 芯片預(yù)計(jì)將于 2024 年一季度流片。

胡偉武表示,目前已經(jīng)基本完成相關(guān) IP 研發(fā),正在開展全面驗(yàn)證,在此基礎(chǔ)上,2024 年下半年將完成兼顧顯卡和算力加速功能的專用芯片流片。

大語言模型拉動(dòng)GPGPU需求增長

GPGPU(通用圖形處理器),脫胎于 GPU(圖形處理器)。GPU最初是為解決 CPU 在圖形處理領(lǐng)域性能不足的問題而誕生的,而面對非圖像顯示領(lǐng)域并涉及大量并行運(yùn)算的領(lǐng)域,比如 AI、加密解密、科學(xué)計(jì)算等,則更需要通用計(jì)算能力,GPGPU應(yīng)運(yùn)而生。

近段時(shí)間,隨著ChatGPT的出圈,全球掀起大語言模型的研究熱潮。而無論是大模型的訓(xùn)練還是推理,這都離不開GPGPU芯片來提供算力支持。業(yè)界推測,在未來幾年內(nèi),大語言模型的訓(xùn)練和部署將推動(dòng)GPGPU需求增長。

在訓(xùn)練端,英偉達(dá)可以說是這場大模型浪潮中的絕對受益者,目前全球大模型的訓(xùn)練基本依賴英偉達(dá)的GPU。英偉達(dá)有兩款強(qiáng)大的GPU產(chǎn)品:A100和H100。

A100 是英偉達(dá)2020年推出的數(shù)據(jù)中心級云端加速芯片,擁有540億晶體管,采用臺積電7nm工藝制程,支持FP16、FP32和FP64浮點(diǎn)運(yùn)算,為人工智能、數(shù)據(jù)分析和HPC數(shù)據(jù)中心等提供算力。A100 提供超快速的顯存帶寬,可處理超大型模型和數(shù)據(jù)集。

H100是英偉達(dá)2022年3月發(fā)布的最新一代數(shù)據(jù)中心GPU,集成800億晶體管,采用臺積電定制的4nm工藝。英偉達(dá)CEO黃仁勛此前表示,這款GPU具有超強(qiáng)的計(jì)算能力,20個(gè)H100 GPU便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量。相比于A100,H100在FP16、FP32和FP64計(jì)算上快三倍,非常適用于當(dāng)下流行且訓(xùn)練難度高的大模型。

由于全球眾多科技企業(yè)加入大語言模型研究大軍,近段時(shí)間,英偉達(dá)的GPU供貨周期拉長,價(jià)格上漲,其A100 GPU市場單價(jià)兩個(gè)月前還在10萬元左右,如今已經(jīng)上漲到15萬元。

目前大部分研究都認(rèn)為,AI大模型預(yù)訓(xùn)練是一個(gè)非常耗時(shí)、耗力、耗電的過程,這部分對GPU的貢獻(xiàn)最大。然而實(shí)際上,如果真正地去計(jì)算成本,對于企業(yè)來說,大模型的推理將會(huì)耗費(fèi)巨大的成本,而其中很大部分則是在GPU的購買上。

wKgaomRlemiABWxOAAB1tH63zo4655.jpg
圖:沐曦研究科學(xué)家李兆石演講(電子發(fā)燒友拍攝)


在近日某人工智能論壇上,沐曦研究科學(xué)家李兆石介紹,以谷歌為例,谷歌目前主要的收入來源是搜索廣告,每次搜索平均能夠給谷歌帶來約1.6美分。

如果把類似ChatGPT插入到谷歌搜索里,在現(xiàn)在主流高性能的英偉達(dá)A100 GPU上,需要八張GPU才能做一次GPT3的推理,把電費(fèi)和GPU的一次性購買成本算進(jìn)去,每次推理的平均成本大約是0.36美分,如果谷歌直接在谷歌搜索里用類似ChatGPT規(guī)模的大模型,相當(dāng)于很大一部分利潤都將耗費(fèi)在大模型的推理成本上。

相當(dāng)于在A100上做GPT3規(guī)模的預(yù)訓(xùn)練,大概需要80萬美元。而把剛才0.36美分乘以谷歌每天的搜索次數(shù),可以發(fā)現(xiàn),直接在谷歌搜索里用這個(gè)GPT推理,這個(gè)推理成本每天是1億美元,推理成本遠(yuǎn)遠(yuǎn)高于預(yù)訓(xùn)練成本。

wKgaomRlenWAKtamAABcLQtXWaU857.jpg

將這個(gè)推理成本再進(jìn)一步拆解,會(huì)發(fā)現(xiàn),以英偉達(dá)A100 GPU的市場價(jià)格12500美元計(jì)算(這是之前的價(jià)格,現(xiàn)在國內(nèi)價(jià)格基本上已經(jīng)漲到15到20萬人民幣),一般GPU的使用年限是五年,把這個(gè)購買成本線性平攤到五年時(shí)間,這個(gè)0.36美分的每次推理成本里面,65%是購買GPU的成本。也就是說GPU的一次性購買成本,占大模型訓(xùn)練和推理的絕大部分。

國內(nèi)AI算力芯片廠商的產(chǎn)品和技術(shù)進(jìn)展

可以看到,雖然目前大語言模型的訓(xùn)練基本依賴英偉達(dá)的GPU,然而隨著大模型逐漸走向落地應(yīng)用,在推理側(cè),國內(nèi)外AI算力芯片廠商將迎來較大的市場機(jī)會(huì)。

在國內(nèi),近些年已經(jīng)有不少廠商在高性能計(jì)算AI算力芯片領(lǐng)域取得進(jìn)展,包括寒武紀(jì)、海光信息、壁仞科技、摩爾線程、天數(shù)智芯、燧原科技、沐曦集成、芯動(dòng)科技、登臨科技等。

wKgZomRlen2Ae0syAAC8oIOxjWU774.jpg
電子發(fā)燒友制表


如今CPU廠商龍芯也加入到了GPGPU大軍中,不過可以看到龍芯的GPGPU主要還是集成在自家的SOC中。事實(shí)上,龍芯早在2017年就開始研究GPU,2021年7月,該公司發(fā)布的龍芯3號系列處理器的配套橋片“龍芯7A2000”,內(nèi)部就首次集成了龍芯自研的GPU。

如今龍芯又透露了其在GPGPU方面的最新進(jìn)展。據(jù)胡偉武介紹,2024 年龍芯將流片首款大小核協(xié)同芯片。龍芯 3A6000 的下一代將是 3B6000,四大四小八個(gè)核,內(nèi)置自研 GPGPU。大核爭取通過結(jié)構(gòu)優(yōu)化再提高性能 20% 以上。

寒武紀(jì)是一家專注于人工智能芯片研發(fā)和技術(shù)創(chuàng)新的企業(yè),能夠?yàn)橐曈X、語音、自然語言處理、傳統(tǒng)機(jī)器學(xué)習(xí)等人工智能技術(shù)提供基礎(chǔ)計(jì)算平臺。2021年7月,寒武紀(jì)發(fā)布了其第三代云端 AI 芯片思元 370,以及基于思元 370 的兩款加速卡 MLU370-S4 和 MLU370-X4。

同時(shí),寒武紀(jì)全新升級了 Cambricon Neuware 軟件棧,新增推理加速引擎 MagicMind,實(shí)現(xiàn)訓(xùn)推一體,顯著提升了開發(fā)部署的效率。而且,有 7nm 先進(jìn)工藝和全新 MLUarch03 架構(gòu)加持,思元 370 芯片算力最高可達(dá) 256TOPS (INT8),是上一代產(chǎn)品思元 270 算力的 2 倍。

海光信息的產(chǎn)品包括通用處理器(CPU)和協(xié)處理器(DCU),海光DCU屬于GPGPU的一種。海光DCU 8000系列,支持INT4、INT8、FP16、FP32、FP64運(yùn)算精度,支持4個(gè)HBM2內(nèi)存通道,最高內(nèi)存帶寬為1TB/s、最大內(nèi)存容量為32GB。

海光DCU協(xié)處理器全面兼容ROCm GPU計(jì)算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價(jià)快速遷移至ROCm平臺。

壁仞科技去年8月發(fā)布了首款通用GPU BR100,集成770億晶體管,其INT8算力達(dá)2048 TOPS,BF16算力達(dá)1024 TFLOPS,TF32+算力達(dá)512 TFLOPS,F(xiàn)P32算力達(dá)256 TFLOPS。同期,壁仞科技還發(fā)布了自主原創(chuàng)架構(gòu)——壁立仞、創(chuàng)造全球性能紀(jì)錄的OAM服務(wù)器——海玄,以及OAM模組——壁礪100,PCIe板卡產(chǎn)品——壁礪104,以及自主研發(fā)的BIRENSUPA軟件平臺。

摩爾線程已經(jīng)發(fā)布兩款自主研發(fā)的GPU芯片產(chǎn)品,去年3月發(fā)布GPU產(chǎn)品“蘇堤”,11月又發(fā)布了第二款GPU芯片“春曉”?!按簳浴眱?nèi)置MUSA架構(gòu)通用計(jì)算核心以及張量計(jì)算核心,可支持FP32、FP16和INT8三種計(jì)算精度;相較于其首款自研的GPU“蘇堤”,“春曉”內(nèi)置的四大計(jì)算引擎都進(jìn)行了全面升級,性能顯著提升,AI計(jì)算加速平均提升4倍。

天數(shù)智芯于2018年正式啟動(dòng)通用GPU芯片設(shè)計(jì),在2021年發(fā)布了其通用GPU“天垓100”芯片及天垓100加速卡,2021年10月宣布天垓100正式進(jìn)入量產(chǎn)環(huán)節(jié)。2022年9月,天數(shù)智芯又發(fā)布了首款7nm制程的云端推理通用GPU產(chǎn)品“智鎧100”。

智鎧 100 芯片支持 FP32、FP16、INT8 等多精度混合計(jì)算,實(shí)現(xiàn)了指令集增強(qiáng)、算力密度提升、計(jì)算存儲(chǔ)再平衡,支持多種視頻規(guī)格解碼。

燧原科技已經(jīng)迭代了兩代訓(xùn)練和推理產(chǎn)品,第三代也已經(jīng)在研發(fā)中。燧原科技已經(jīng)在科研領(lǐng)域和智慧城市的應(yīng)用中落地了訓(xùn)練和推理的超千卡算力集群。

該公司創(chuàng)始人兼COO張亞林此前在接受電子發(fā)燒友采訪的時(shí)候表示,類似ChatGPT這樣的AIGC生成式模型,對于燧原科技而言是個(gè)機(jī)遇,公司可以把已經(jīng)積累的系統(tǒng)集群的經(jīng)驗(yàn)推廣到更多的客戶賽道上,幫助客戶使能更多大模型的生成。

wKgaomRleoiARZXRAABXP1zpGes137.jpg
沐曦集成產(chǎn)品路線圖


沐曦集成目前有三條產(chǎn)品線規(guī)劃,G系列、C系列和N系列,G系列主要是用于圖形處理領(lǐng)域,C系列主要用于高性能云端的訓(xùn)練和推理,N系列主要是云端的推理芯片?,F(xiàn)在N系列的云端推理芯片已經(jīng)量產(chǎn)出貨,C系列正在做調(diào)試,如果沒有問題的話,也很快就會(huì)量產(chǎn)。

芯動(dòng)科技已經(jīng)發(fā)布兩款GPU芯片——風(fēng)華1號和風(fēng)華2號。風(fēng)華1號于2021年發(fā)布,于去年9月正式量產(chǎn)。風(fēng)華2號于2022年8月發(fā)布,是一款集超低功耗、強(qiáng)渲染、4K高清三屏顯示、及智能AI計(jì)算于一體的桌面和筆記本GPU。

風(fēng)華2號在AI計(jì)算能力方面,支持科學(xué)/邊緣計(jì)算,AI性能超過12.5TOPS,支持人臉識別、目標(biāo)識別、語義分割、圖像超分辨率等多種場景實(shí)時(shí)應(yīng)用。

登臨科技是一家專注于高性能通用計(jì)算平臺的芯片研發(fā)與技術(shù)創(chuàng)新的公司,其自主研發(fā)的GPU+架構(gòu)正式采用了軟件定義的片內(nèi)異構(gòu)體系,目前首款基于GPU+的系列產(chǎn)品—Goldwasser已在云至邊緣的各個(gè)應(yīng)用場景實(shí)現(xiàn)規(guī)?;涞?。

登臨科技聯(lián)合創(chuàng)始人王平此前在接受電子發(fā)燒友采訪的時(shí)候表示,登臨科技希望通過異構(gòu),從由點(diǎn)及面在一些足夠大的市場領(lǐng)域,把產(chǎn)品做到比英偉達(dá)同系列產(chǎn)品更具性價(jià)比優(yōu)勢,甚至超過英偉達(dá)。

帶著這樣的出發(fā)點(diǎn),在大型語言模型方面,登臨科技會(huì)更關(guān)心如何更好的提升產(chǎn)品的能效比。簡單來說,在同樣功耗下,登臨科技可以提供英偉達(dá)1.5到2倍的算力,在算力一致的情況下,做到單位功耗更低。這樣從計(jì)算的整體性能上,實(shí)現(xiàn)英偉達(dá)同類產(chǎn)品的能效比3倍的優(yōu)勢。如此一來,可以極大地節(jié)省電費(fèi)及運(yùn)維成本。

小結(jié)

很顯然,隨著ChatGPT的出圈,國內(nèi)外眾多科技企業(yè)掀起大語言模型的研究熱潮,而無論是大模型的訓(xùn)練還是部署,都離不開GPGPU芯片提供算力支持。目前而言,大模型的訓(xùn)練基本依賴英偉達(dá)的GPU,然而相比較而言,隨著大模型逐步落地應(yīng)用,在推理部分將同樣需要用到大量GPGPU,而這也是除英偉達(dá)之外,國內(nèi)外眾多GPGPU廠商的機(jī)會(huì)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 龍芯
    +關(guān)注

    關(guān)注

    3

    文章

    404

    瀏覽量

    32535
  • GPGPU
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    5370
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    龍芯中科與中國核建達(dá)成全面戰(zhàn)略合作

    在能源安全上升為國家戰(zhàn)略的背景,核工業(yè)因其對安全的極致要求,正成為國產(chǎn)化替代的關(guān)鍵領(lǐng)域。近日,龍芯中科與中國核建在龍架構(gòu)信息化新質(zhì)發(fā)展論壇達(dá)成全面戰(zhàn)略合作,雙方將攜手探索展開信創(chuàng)全棧
    的頭像 發(fā)表于 08-08 11:32 ?910次閱讀

    龍芯中科與文心系列模型開展深度技術(shù)合作

    ? ? ? ? ? 6月30日,文心4.5系列模型正式開源。龍芯中科在文心大模型開源首日啟動(dòng)技術(shù)合作,雙方將共同推進(jìn)國產(chǎn)算力基礎(chǔ)設(shè)施與大
    的頭像 發(fā)表于 07-02 16:53 ?1112次閱讀

    中科馭數(shù)亮相2025龍芯產(chǎn)品發(fā)布暨用戶大會(huì)

    近日,龍芯中科正式發(fā)布基于國產(chǎn)自主指令集龍架構(gòu)研發(fā)的服務(wù)器處理器龍芯3C6000系列芯片、工控領(lǐng)域及移動(dòng)終端處理器龍芯2K3000/3B60
    的頭像 發(fā)表于 07-02 15:30 ?881次閱讀

    龍芯中科祥智能發(fā)布全新態(tài)勢感知專用設(shè)備

    在數(shù)字產(chǎn)業(yè)蓬勃發(fā)展的浪潮中,保障業(yè)務(wù)系統(tǒng)安全穩(wěn)定運(yùn)行已成為各行業(yè)的首要任務(wù)。為響應(yīng)這一核心需求,龍芯中科與工業(yè)計(jì)算領(lǐng)域?qū)<?b class='flag-5'>研祥智能強(qiáng)強(qiáng)聯(lián)手,深度洞察行業(yè)痛點(diǎn),于近日正式推出基于
    的頭像 發(fā)表于 06-13 16:44 ?767次閱讀

    高端芯片,服務(wù)器芯片傳來好消息!

    的研發(fā)又有了一些動(dòng)向,例如海光信息、龍芯中科等都在加強(qiáng)這一力度。 ? 海光 C86-5G ? 海光CPU從初代基于AMD Zen架構(gòu)開發(fā),再到
    的頭像 發(fā)表于 05-18 09:25 ?7416次閱讀
    高端芯片<b class='flag-5'>自</b><b class='flag-5'>研</b>,服務(wù)器芯片傳來好消息!

    信創(chuàng)浪潮,國產(chǎn)主板有什么新的發(fā)展機(jī)遇?

    在信息技術(shù)應(yīng)用創(chuàng)新浪潮的推動(dòng),國產(chǎn)主板迎來了諸多新的發(fā)展機(jī)遇。信創(chuàng)產(chǎn)業(yè)旨在實(shí)現(xiàn)信息技術(shù)領(lǐng)域的自主可控,這一戰(zhàn)略目標(biāo)為國產(chǎn)主板的發(fā)展提供了廣闊的空間。信創(chuàng)
    的頭像 發(fā)表于 05-09 09:24 ?548次閱讀
    信創(chuàng)<b class='flag-5'>浪潮</b><b class='flag-5'>下</b>,<b class='flag-5'>國產(chǎn)</b>主板有什么新的發(fā)展機(jī)遇?

    麒麟軟件蒞臨龍芯中科交流研討

    近日,麒麟軟件技術(shù)有限公司(以下簡稱“麒麟軟件”)總經(jīng)理孔金珠、終端研發(fā)部總經(jīng)理張鐸、生態(tài)合作部總經(jīng)理姚翎等領(lǐng)導(dǎo)一行蒞臨龍芯中科交流研討。龍芯中科副總裁張戈、高翔等陪同接待。雙方基于2
    的頭像 發(fā)表于 04-10 15:33 ?755次閱讀

    國產(chǎn)新標(biāo)桿:龍芯GM9-3003主板深度解析

    國產(chǎn)新標(biāo)桿:龍芯GM9-3003主板深度解析
    的頭像 發(fā)表于 03-04 13:55 ?841次閱讀

    國產(chǎn)芯片崛起之路:龍芯3A6000與集特GEC-3003筆記本引領(lǐng)自主創(chuàng)新浪潮

    近年來,中國科技產(chǎn)業(yè)在核心技術(shù)領(lǐng)域的突破備受矚目,尤其在半導(dǎo)體和計(jì)算機(jī)領(lǐng)域,國產(chǎn)化替代進(jìn)程加速,逐漸打破國外技術(shù)的長期壟斷。在這場自主創(chuàng)新的浪潮中,龍芯中科憑借其自主研發(fā)的CPU架構(gòu)與
    的頭像 發(fā)表于 02-26 16:43 ?1250次閱讀

    第九屆集創(chuàng)賽“龍芯中科杯”報(bào)名啟動(dòng)

    你是否懷揣著對國產(chǎn)集成電路設(shè)計(jì)的無限熱愛與憧憬?全國大學(xué)生集成電路創(chuàng)新創(chuàng)業(yè)大賽——“龍芯中科杯”,正是為你量身打造的舞臺!在這里,你將有機(jī)會(huì)在挑戰(zhàn)中成長,在創(chuàng)新中突破,與
    的頭像 發(fā)表于 02-19 16:16 ?1801次閱讀

    迅為3A6000開發(fā)板/龍芯3A6000與龍芯3A5000等龍架構(gòu)處理器軟件兼容

    ,也證明了國內(nèi)有能力在 CPU 架構(gòu)上做出一流的產(chǎn)品。 龍芯 3A6000 處理器采用龍芯自主指令系統(tǒng)龍架構(gòu)(LoongArch),是龍芯
    發(fā)表于 02-12 15:06

    龍芯中科助力石化行業(yè)國產(chǎn)化轉(zhuǎn)型

    在全球能源格局重塑與國內(nèi)能源結(jié)構(gòu)調(diào)整的大背景,石油化工行業(yè)的自主創(chuàng)新能力成為國家能源安全的重要支撐。近日,龍芯中科助力某石化央企完成加油站核心業(yè)務(wù)系統(tǒng)國產(chǎn)化替代,作為保障能源產(chǎn)業(yè)供應(yīng)
    的頭像 發(fā)表于 02-10 15:28 ?712次閱讀

    龍芯中科與DeepSeek大模型協(xié)同適配成功

    龍芯中科近日宣布了一項(xiàng)重大進(jìn)展,其自主研發(fā)的龍芯3號CPU已成功運(yùn)行DeepSeek R17B模型,實(shí)現(xiàn)了本地化高效部署。這一成就標(biāo)志著國產(chǎn)
    的頭像 發(fā)表于 02-10 09:14 ?979次閱讀

    龍芯3號CPU成功運(yùn)行DeepSeek R17B模型

    龍芯中科官方近日鄭重宣布,搭載其自主研發(fā)的龍芯3號CPU的設(shè)備已經(jīng)順利啟動(dòng)并成功運(yùn)行了DeepSeek R17B模型。這一里程碑式的成就標(biāo)志著國產(chǎn)
    的頭像 發(fā)表于 02-08 09:15 ?1235次閱讀

    龍芯顯卡來了!性能看齊AMD熱銷顯卡

    。本文將詳細(xì)介紹龍芯9A1000顯卡的性能特點(diǎn)、技術(shù)規(guī)格以及其在國產(chǎn)領(lǐng)域的意義。一、性能對標(biāo)AMDRX550龍芯9A1000顯卡主要面向入門級市場和AI推理加
    的頭像 發(fā)表于 12-05 01:06 ?1625次閱讀
    <b class='flag-5'>龍芯</b><b class='flag-5'>自</b><b class='flag-5'>研</b>顯卡來了!性能看齊AMD熱銷顯卡