chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

萬卡集群解決大模型訓算力需求,建設面臨哪些挑戰(zhàn)

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2024-06-02 06:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群



電子發(fā)燒友網(wǎng)報道(文/李彎彎)萬卡集群是指由一萬張及以上的加速卡(包括GPU、TPU及其他專用AI加速芯片)組成的高性能計算系統(tǒng),主要用于加速人工智能模型的訓練和推理過程。這種集群的構建旨在解決大模型訓練對算力需求的巨大增長問題,尤其是現(xiàn)在模型參數(shù)量從百億級、千億級邁向萬億級。

國內外企業(yè)積極構建萬卡集群

目前,在國際上,包括微軟、Google、Meta等AI領域的巨頭,都已落子超萬卡集群的項目部署。如Meta于2022年推出了擁有16000張算卡的超級集群中心;Google于2023年推出了一個擁有2.6萬張算卡的Compute Engine A3;而持有OpenAI的微軟更是傳出正在進行百萬規(guī)模算卡集群的籌建。

不只是國際廠商,國內廠商也在此前大量采購GPU推進萬卡集群建設。尤其在今年以來,三大運營商也相繼公布了對超萬卡集群的部署。

近日,在中國移動算力網(wǎng)絡大會上,中國移動副總經理高同慶宣布,今年將商用哈爾濱、呼和浩特、貴陽的三個萬卡集群,總規(guī)模近6萬張GPU卡,充分滿足大模型集中訓練的需求。

今年1月,中國電信宣布將在上海規(guī)劃建設1.5萬張卡規(guī)模的算力集群,其總算力超4500P,這也將是國內首個超大規(guī)模國產算力液冷集群。中國聯(lián)通表示,在今年內將在上海臨港國際云數(shù)據(jù)中心,建成中國聯(lián)通首個萬卡集群。

除了運營商之外,2023年,螞蟻集團宣布已建成萬卡異構算力集群。此外,包括字節(jié)跳動、阿里、百度、華為及科大訊飛等在內的互聯(lián)網(wǎng)和AI頭部企業(yè)均在發(fā)力萬卡集群的建設。

另外,今年5月20日,網(wǎng)宿科技與航錦科技正式簽署戰(zhàn)略合作協(xié)議,雙方圍繞NVIDIA最新一代萬卡集群(L20 cluster AIDC)項目建立戰(zhàn)略合作關系,共同開展智算中心建設、相關技術研發(fā)、市場拓展等工作,旨在打造高效、智能、綠色的算力基礎設施,承載千行百業(yè)的大模型訓練及推理需求。

網(wǎng)宿科技是全球領先的信息基礎設施平臺服務提供商,專注于邊緣計算、云分發(fā)、云安全、云計算、云服務及綠色數(shù)據(jù)中心業(yè)務。航錦科技是由武漢市國資委控股的上市企業(yè),控股子公司超擎數(shù)智作為AI算力和網(wǎng)絡整體解決方案提供商,是NVIDIA Compute(GPU)、Networking(網(wǎng)絡)的雙Elite精英級合作伙伴。

構建萬卡集群面臨的挑戰(zhàn)

萬卡集群的建設和維護面臨諸多挑戰(zhàn),首先是GPU的供應,由于全球超萬卡集群的建設都處于起步階段,部署模式都以英偉達GPU及配套設備為主。目前國內在獲得英偉達旗艦高性能GPU方面受限,同時,國產AI芯片相比于英偉達GPU在性能上存在一定差距。

其次,在大模型場景下,算力需要大規(guī)模集中式訓練,單個GPU無法完全容納整個模型訓練,需要采用分布式訓練。這會帶來GPU之間互聯(lián)帶寬受限或AI服務器之間網(wǎng)絡互聯(lián)帶寬有限的問題。此外,卡數(shù)量增多后,過熱、故障也會一定比例出現(xiàn),模型訓練成本會增加。

當然,目前各企業(yè)正在積極解決這些問題。如越來越多國產的AI芯片已經開始在集群的建設中得到使用,包括華為、海光、寒武紀、摩爾線程等公司。

如為了支撐千卡乃至超萬卡的大規(guī)模算力集群,摩爾線程于2023年推出了首個國內產千卡千億模型訓練平臺——夸娥智算集群,該模型深度參與中國移動大模型訓練與推理環(huán)節(jié),可以為大模型訓練提供穩(wěn)定、高效、高兼容的算力支撐。

摩爾線程相關負責人此前談到,百卡或更小規(guī)模都是實驗性的,千卡才是大集群的基本單元,只有千卡及以上才能滿足一些基礎模型的算力需求,這也是推出夸娥智算集群的目標設定。

另外,浪潮信息董事長彭震日前談到,芯片算力并非是AI發(fā)展不起來的直接原因,更多的其實是系統(tǒng)問題。他認為,對于服務器廠商而言,當前已經不能再局限于提供單一硬件產品,而是要綜合性解決方案,這些解決方案可能包括服務器、存儲、網(wǎng)絡、安全等方面。

浪潮信息希望從算力層提供一個平臺,支撐多元算力入駐。對于芯片企業(yè)而言,只需要專注在芯片本身而不需要研究互聯(lián)帶寬問題。

據(jù)了解,目前不少服務器廠商也在學習英偉達的NVlink,NVlink提供一種高效可擴展的芯片通信間協(xié)議,允許所有GPU同時全速實時通信,就好像整個系統(tǒng)是單個GPU一樣。在今年4月的GTC大會上,英偉達還宣布NVlink更新到第五代,包括可擴展至576個GPU,能夠解決萬億參數(shù)混合專家模型通信瓶頸。

新華三集團高級副總裁、云與計算存儲產品線總裁徐潤安此前也談到算力互聯(lián)。在他看來,過去,大家的目標可能是做更強算力的單顆芯片,現(xiàn)在會從另一個角度努力,怎樣將芯片做成更大集群,同時使得集群的通信效果更高,集群的處理能力更強。

新華三希望做更加開放的平臺,做上游GPU廠商合作伙伴的最佳選擇,利用自身網(wǎng)絡優(yōu)勢,對網(wǎng)絡通信的理解,幫助更多GPU廠商,將算力互聯(lián)互通實現(xiàn)得更好。新華三提供的科學計算算力調度平臺傲飛3.0,實現(xiàn)了跨集群統(tǒng)一管理,將訓練任務進行切分,將合適的子任務放在合適的近端或遠端模塊集群實現(xiàn)。

寫在最后

當前,萬卡集群式應對大模型背景下算力需求的重要解決方案之一,對于推動人工智能技術的發(fā)展和應用具有重要意義??梢钥吹剑瑖鴥韧舛荚诜e極推進萬卡集群的建設。然而,在國內,萬卡集群的建設并不容易,首先是AI芯片性能及軟件生態(tài)存在差距,其次是萬卡集群建設存在芯片間、卡之間、集群間的互聯(lián)問題,這些都還需要持續(xù)去解決。











聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算力
    +關注

    關注

    2

    文章

    1380

    瀏覽量

    16552
  • 大模型
    +關注

    關注

    2

    文章

    3435

    瀏覽量

    4955
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華為領銜,三劍客入局!十萬集群落地,國產芯片強勢崛起

    中國移動宣布,將持續(xù)加大對人工智能領域的投入力度,總體投入翻一番,建成國內規(guī)模最大、技術領先的智基礎設施,探索十萬集群建設,全國產智
    的頭像 發(fā)表于 10-14 09:30 ?1.3w次閱讀
    華為領銜,三劍客入局!十萬<b class='flag-5'>卡</b>智<b class='flag-5'>算</b><b class='flag-5'>集群</b>落地,國產<b class='flag-5'>算</b><b class='flag-5'>力</b>芯片強勢崛起

    IP廣域網(wǎng)助力互聯(lián)網(wǎng)建設進入快車道

    人工智能大模型等應用爆發(fā)式發(fā)展帶動了智能需求激增,全國各地紛紛建設大量智中心。在迎來新機遇
    的頭像 發(fā)表于 09-25 10:40 ?470次閱讀

    集群到十萬集群,燧原科技始終踐行普惠

    健康、教育等垂直領域,對設施有著更加廣泛的需求,包括智中心和推一體機等。 ? 在 2025 世界人工智能大會暨人工智能全球治理高級別
    發(fā)表于 07-30 09:54 ?4116次閱讀
    從<b class='flag-5'>萬</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>到十萬<b class='flag-5'>卡</b><b class='flag-5'>集群</b>,燧原科技始終踐行<b class='flag-5'>算</b><b class='flag-5'>力</b>普惠

    一文看懂AI集群

    最近這幾年,AI浪潮席卷全球,成為整個社會的關注焦點。大家在討論AI的時候,經常會提到AI集群。AI的三要素,是、算法和數(shù)據(jù)。而AI
    的頭像 發(fā)表于 07-23 12:18 ?918次閱讀
    一文看懂AI<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>集群</b>

    燧原科技國產集群通過中國信通院權威認證

    近日,中國信息通信研究院(以下簡稱“中國信通院”)成功召開集群服務推進方陣年中總交流會。會議期間,中國信通院重磅發(fā)布了首批《大規(guī)模智
    的頭像 發(fā)表于 07-04 16:50 ?919次閱讀

    弘信電子旗下燧弘華創(chuàng)加入集群服務推進方陣

    近日,中國信息通信研究院在北京召開集群服務推進方陣(ICCPA)年中總結交流會。會上為第二批成員單位辦法證書,發(fā)布一系列產業(yè)研究成果,并通過深度交流研討,凝聚產業(yè)共識,規(guī)范產品
    的頭像 發(fā)表于 07-03 15:43 ?617次閱讀

    熱插拔集群

    能力? 服務器節(jié)點熱插拔?:集群服務器支持在線更換計算節(jié)點(如2U服務器容納12個熱插拔AI節(jié)點,單節(jié)點集成5個)。 GPU/
    的頭像 發(fā)表于 06-26 09:20 ?691次閱讀

    壁仞科技擔任智集群異構混工作組組長

    參與了本次交流,分享智集群異構混的關鍵技術進展、成功落地案例,為突破大模型異構孤島難題指
    的頭像 發(fā)表于 05-27 16:55 ?912次閱讀

    智能最具潛力的行業(yè)領域

    智能最具潛力的行業(yè)領域 一、金融行業(yè) 智能風控與精準服務?:大型銀行通過集群(6.27
    的頭像 發(fā)表于 04-11 08:20 ?1011次閱讀
    智能<b class='flag-5'>算</b><b class='flag-5'>力</b>最具潛力的行業(yè)領域

    DeepSeek推動AI需求:800G光模塊的關鍵作用

    類型和功耗選項,是數(shù)據(jù)中心向800G帶寬擴展的理想選擇。 市場前景廣闊: 隨著AI需求的不斷增長,尤其是在超大規(guī)模數(shù)據(jù)中心和AI集群建設
    發(fā)表于 03-25 12:00

    破局:科通技術以&quot;AI大模型+AI芯片&quot;重構智底座

    “科通技術”)推出的“DeepSeek+AI芯片”全場景方案,在云AI領域取得重大突破。除了GPU的總量,云AI的一大挑戰(zhàn)來源于GPU集群的數(shù)據(jù)互聯(lián)效率。某大型互聯(lián)網(wǎng)集團為解決云A
    的頭像 發(fā)表于 03-17 11:14 ?692次閱讀

    昆侖芯P800集群成功點亮,將進一步點亮3集群

    的。而24年9月升級的百度百舸AI異構計算平臺4.0,圍繞落地大模型全旅程的需求,在集群創(chuàng)建、開發(fā)實驗、
    發(fā)表于 02-05 17:58 ?1088次閱讀
    昆侖芯P800<b class='flag-5'>萬</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>成功點亮,將進一步點亮3<b class='flag-5'>萬</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>

    弘信電子旗下安聯(lián)通加入集群服務推進方陣

    近日,中國信息通信研究院(以下簡稱“信通院”)在北京召開“集群服務推進方陣”首次工作部署會議。弘信電子集團旗下子公司安聯(lián)通受邀出席,展現(xiàn)了其在智
    的頭像 發(fā)表于 01-16 11:18 ?1154次閱讀

    國產智集群黑馬!曦源一號SADA集群綜合評測表現(xiàn)優(yōu)異

    近日,加佳科技曦源一號SADA集群項目一期順利通過工信部中國軟件評測中心權威評測認證。本次測試涵蓋了項目一期已上線的1024張沐曦高性能GPU加速
    的頭像 發(fā)表于 12-25 11:16 ?1172次閱讀
    國產智<b class='flag-5'>算</b><b class='flag-5'>集群</b>黑馬!曦源一號SADA<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>集群</b>綜合評測表現(xiàn)優(yōu)異

    星凡星啟,全面助力集群建設

    ,同時地面建設100個地基推一體化節(jié)點,建成后總算預計將達到80000P?!靶撬阌媱潯贝蛟斓牡孛?b class='flag-5'>
    的頭像 發(fā)表于 12-10 11:36 ?2185次閱讀
    星凡星啟,全面助力<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>集群</b><b class='flag-5'>建設</b>