chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

國產(chǎn)千卡GPU集群完成大模型訓(xùn)練測試,極具高兼容性和穩(wěn)定性

Carol Li ? 來源:電子發(fā)燒友網(wǎng)原創(chuàng) ? 作者:李彎彎 ? 2024-06-11 07:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/李彎彎)隨著人工智能技術(shù)的快速發(fā)展,對于計算能力的需求日益增長。特別是在大模型訓(xùn)練方面,對算力的需求更是呈現(xiàn)指數(shù)級增長。傳統(tǒng)的單卡計算已經(jīng)無法滿足大模型訓(xùn)練的需求,因此,采用多卡集群的方式成為了必然的選擇。

2023年底,摩爾線程推出首個全國產(chǎn)千卡千億模型訓(xùn)練平臺“摩爾線程KUAE智算中心”。摩爾線程相關(guān)負(fù)責(zé)人此前談到,百卡或更小規(guī)模都是實(shí)驗性的,千卡才是大集群的基本單元,只有千卡及以上才能滿足一些基礎(chǔ)模型的算力需求。

國產(chǎn)千卡集群完成大模型訓(xùn)練測試

日前,摩爾線程官方宣布,聯(lián)合羽人科技,已成功實(shí)現(xiàn)了夸娥(KUAE)千卡智算集群與羽人系列模型解決方案的訓(xùn)練兼容適配,高效完成了70億參數(shù)羽人大語言模型YuRen-7b的訓(xùn)練測試。

測試結(jié)果顯示,訓(xùn)練效率達(dá)到預(yù)期,夸娥千卡智算集群展現(xiàn)出了高度的兼容性和穩(wěn)定性。未來,羽人科技的零代碼訓(xùn)練平臺將遷移到摩爾線程夸娥千卡智算集群。

在今年5月27日,摩爾線程聯(lián)合無問芯穹宣布,雙方在近日正式完成基于國產(chǎn)全功能GPU千卡集群的3B規(guī)模大模型實(shí)訓(xùn)。該模型名為“MT-infini-3B”,在摩爾線程夸娥(KUAE)千卡智算集群與無問芯穹AIStudio PaaS平臺上完成了高效穩(wěn)定的訓(xùn)練。

MT-infini-3B模型訓(xùn)練總用時13.2天,經(jīng)過精度調(diào)試,實(shí)現(xiàn)全程穩(wěn)定訓(xùn)練不中斷,集群訓(xùn)練穩(wěn)定性達(dá)到100%,千卡訓(xùn)練和單機(jī)相比擴(kuò)展效率超過90%。

5月29日,摩爾線程又與國內(nèi)領(lǐng)先的數(shù)據(jù)智能服務(wù)商滴普科技共同宣布,摩爾線程“夸娥”(KUAE)千卡智算集群與滴普企業(yè)大模型Deepexi v1.0已完成訓(xùn)練、推理適配,獲得產(chǎn)品兼容互認(rèn)證明。

基于摩爾線程夸娥千卡智算集群,滴普科技成功完成了LLaMA2 700億參數(shù)大語言模型的預(yù)訓(xùn)練測試。訓(xùn)練時長共計77小時,全程無故障連續(xù)運(yùn)行,集群訓(xùn)練穩(wěn)定性達(dá)到100%,訓(xùn)練效率和兼容性均達(dá)到預(yù)期。

可以看到,摩爾線程全國產(chǎn)夸娥千卡智算集群在大模型訓(xùn)練上展現(xiàn)出足夠的實(shí)力。摩爾線程夸娥方案基于全功能MTT S4000 GPU,提供軟硬一體化的全棧解決方案,具備模型覆蓋、推理加速、CUDA兼容、斷點(diǎn)續(xù)訓(xùn)、分布式訓(xùn)練、集群可靠性等8大核心能力。

MTT S4000是摩爾線程推出的大模型智算加速卡,采用第三代MUSA內(nèi)核,單卡支持48GB顯存容量和768GB/s的顯存帶寬,F(xiàn)P16算力為100TFLOPS。借助摩爾線程自研開發(fā)工具,MTT S4000計算卡可以充分利用現(xiàn)有CUDA軟件生態(tài),實(shí)現(xiàn)CUDA代碼零成本遷移到MUSA平臺。

大模型訓(xùn)練用千卡集群搭建需要關(guān)注的重點(diǎn)

可以看到,國產(chǎn)千卡集群已經(jīng)取得實(shí)質(zhì)性突破,在性能上能夠達(dá)到國際先進(jìn)水平,在應(yīng)用上,已經(jīng)有多個大模型實(shí)訓(xùn)案例。同時,國產(chǎn)企業(yè)也在積極構(gòu)建和完善生態(tài)系統(tǒng)。

事實(shí)上,用于大模型訓(xùn)練的千卡集群的搭建并不容易,需要注意多方面的事情。如基礎(chǔ)設(shè)施搭建方面,首先要考慮硬件的選擇,需要選擇高性能的GPU或TPU作為核心計算單元,才能夠提供必要的計算能力和加速訓(xùn)練過程。其次是網(wǎng)絡(luò)互聯(lián),構(gòu)建能夠支持萬卡級別高速互聯(lián)的智算集群,才能確保各個計算單元之間的數(shù)據(jù)傳輸效率和穩(wěn)定性。還有分布式存儲,需要配置分布式存儲系統(tǒng),滿足大模型訓(xùn)練過程中大規(guī)模數(shù)據(jù)的存儲和訪問需求。

除了GPU的選擇,網(wǎng)絡(luò)互聯(lián)也是千卡集群建設(shè)需要關(guān)注的重點(diǎn)。大模型訓(xùn)練千卡集群互聯(lián)要求高,這樣能夠確保集群的高效、穩(wěn)定和可靠運(yùn)行。

具體來看,首先需要高帶寬與與低時延,大規(guī)模GPU集群中,模型訓(xùn)練對卡間互聯(lián)的帶寬和時延提出更高要求,特別是在萬億參數(shù)量模型中,網(wǎng)絡(luò)節(jié)點(diǎn)可能由百卡組建的“超節(jié)點(diǎn)”構(gòu)成,單次通信數(shù)據(jù)量雖小但通信頻繁,因此需要高帶寬支持以實(shí)現(xiàn)快速數(shù)據(jù)傳輸。低時延同樣重要,因為在大模型訓(xùn)練中,任何延遲都可能影響訓(xùn)練效率。

其次需要高效互聯(lián)拓?fù)?,隨著智算中心向千卡萬卡級別的全互聯(lián)方向演進(jìn),傳統(tǒng)的直連拓?fù)浣Y(jié)構(gòu)不再適用。集群需要采用更高效、更先進(jìn)的互聯(lián)拓?fù)浣Y(jié)構(gòu),如全向智感互聯(lián)(OISA)設(shè)計方案,以突破大規(guī)??ㄩg互聯(lián)的技術(shù)瓶頸。

再者還需要支持大規(guī)模擴(kuò)展,千卡集群的互聯(lián)方案需要支持從單機(jī)多卡到多機(jī)多卡、從單卡到千卡集群的無縫擴(kuò)展。這要求互聯(lián)方案具有良好的可擴(kuò)展性,能夠隨著集群規(guī)模的增長而靈活調(diào)整。

另外還要考慮穩(wěn)定性和可靠性、安全性、兼容性等。大模型訓(xùn)練千卡集群的互聯(lián)方案有多種,如RDMA(遠(yuǎn)程直接內(nèi)存訪問)網(wǎng)絡(luò),RDMA允許計算機(jī)之間的內(nèi)存直接訪問,無需操作系統(tǒng)CPU的干預(yù),從而大大降低了通信延遲,提高了數(shù)據(jù)傳輸速率。在千卡集群中,RDMA網(wǎng)絡(luò)可以確保節(jié)點(diǎn)間的高效數(shù)據(jù)傳輸,支持大規(guī)模的分布式訓(xùn)練任務(wù)。

NVLink高速互聯(lián),NVLink是NVIDIA開發(fā)的一種GPU間高速互聯(lián)技術(shù),專為GPU到GPU的通信而設(shè)計。它提供了比PCIe更高的帶寬和更低的延遲,適用于多GPU系統(tǒng)內(nèi)的數(shù)據(jù)共享和通信。在千卡集群中,可以使用NVLink連接GPU服務(wù)器,實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)部GPU間的高效互聯(lián)。

高性能交換機(jī)與網(wǎng)絡(luò)拓?fù)?,使用高性能交換機(jī),如InfiniBand交換機(jī)或以太網(wǎng)交換機(jī),來構(gòu)建集群的網(wǎng)絡(luò)拓?fù)?。網(wǎng)絡(luò)拓?fù)湓O(shè)計需要考慮集群的規(guī)模和通信需求,以確保所有節(jié)點(diǎn)之間的低延遲和高帶寬連接??赡艿木W(wǎng)絡(luò)拓?fù)浒ㄈB接、部分連接或基于交換機(jī)的層次化結(jié)構(gòu)。

還有多路徑數(shù)據(jù)傳輸、全向智感互聯(lián)(OISA)設(shè)計方案等,OISA是一個新興的設(shè)計方案,旨在解決大規(guī)??ㄩg互聯(lián)的技術(shù)瓶頸。OISA通過優(yōu)化網(wǎng)絡(luò)協(xié)議和拓?fù)浣Y(jié)構(gòu),實(shí)現(xiàn)了更高的帶寬、更低的延遲和更好的擴(kuò)展性。該方案適用于需要高效通信的大規(guī)模GPU集群。

寫在最后

千卡集群主要是用于處理大規(guī)模、高復(fù)雜度的計算任務(wù),特別是在人工智能(AI)、深度學(xué)習(xí)、大模型訓(xùn)練等領(lǐng)域。而此前這種集群的建設(shè)都依賴國外的GPU,而如今,可以看到,全國產(chǎn)的千卡集群正在不斷進(jìn)步和完善,在當(dāng)下國際GPU產(chǎn)品對中國限售的背景下,這對于國內(nèi)人工智能,尤其是大模型的長遠(yuǎn)發(fā)展具有深遠(yuǎn)意義。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5283

    瀏覽量

    136094
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41305

    瀏覽量

    302684
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3796

    瀏覽量

    5276
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    國內(nèi)首個國產(chǎn)AI推理千卡集群落地,采用云天勵飛全自研AI推理芯片

    3 月 12 日,云天勵飛中標(biāo)湛江市AI滲透支撐新質(zhì)生產(chǎn)力基礎(chǔ)設(shè)施建設(shè)項目,中標(biāo)金額4.2億元。項目將基于云天勵飛自研的國產(chǎn)AI推理加速,建設(shè)國產(chǎn)AI推理千卡
    發(fā)表于 03-12 11:10 ?1333次閱讀

    低噪穩(wěn)定穩(wěn)定性磁感應(yīng)編碼器芯片設(shè)計

    (寬溫域精度波動≤±0.05°)的核心指標(biāo)。傳統(tǒng)設(shè)計存在磁傳感模塊噪聲大、溫漂補(bǔ)償不足、電磁兼容性弱等問題,制約了其在高端場景的應(yīng)用。本文提出一款低噪聲穩(wěn)定性磁感應(yīng)編碼器芯片設(shè)計方案,通過傳感前端優(yōu)化、信號處理算法創(chuàng)新與可靠
    的頭像 發(fā)表于 03-09 17:30 ?1466次閱讀

    國產(chǎn)算力首證具身大腦模型訓(xùn)練實(shí)力:摩爾線程聯(lián)合智源研究院完成RoboBrain 2.5全流程訓(xùn)練

    智算集群 ,成功完成智源自研具身大腦模型 RoboBrain 2.5 的 全流程訓(xùn)練 。 這是行業(yè)內(nèi)首次驗證國產(chǎn)算力
    的頭像 發(fā)表于 01-14 09:05 ?788次閱讀
    <b class='flag-5'>國產(chǎn)</b>算力首證具身大腦<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>實(shí)力:摩爾線程聯(lián)合智源研究院<b class='flag-5'>完成</b>RoboBrain 2.5全流程<b class='flag-5'>訓(xùn)練</b>

    Neway微波的穩(wěn)定性優(yōu)勢

    儀(VNA)等高精度設(shè)備,這些設(shè)備對信號的幅度穩(wěn)定性要求極高。Neway產(chǎn)品的低幅度波動特性使其能夠與這些高精度設(shè)備無縫對接,確保了測試結(jié)果的準(zhǔn)確和可靠。三、環(huán)境適應(yīng)
    發(fā)表于 01-05 08:48

    IC測試座定制指南:如何設(shè)計兼容性的芯片測試治具?

    IC測試座并非簡單標(biāo)準(zhǔn)化連接件,其設(shè)計優(yōu)劣直接影響測試信號完整、效率與成本。兼容性測試治具設(shè)
    的頭像 發(fā)表于 01-04 13:15 ?346次閱讀
    IC<b class='flag-5'>測試</b>座定制指南:如何設(shè)計<b class='flag-5'>高</b><b class='flag-5'>兼容性</b>的芯片<b class='flag-5'>測試</b>治具?

    IC測試座定制指南:如何設(shè)計兼容性的芯片測試治具?

    IC測試座并非簡單標(biāo)準(zhǔn)化連接件,其設(shè)計優(yōu)劣直接影響測試信號完整、效率與成本。兼容性測試治具設(shè)
    的頭像 發(fā)表于 01-04 13:12 ?381次閱讀

    墨芯人工智能千卡集群正式簽約入駐新疆算力中心

    在“東數(shù)西算”國家工程全面推進(jìn)的大背景下,新疆憑借其豐富的清潔能源和獨(dú)特的區(qū)位優(yōu)勢,正迅速崛起為國家級算力網(wǎng)絡(luò)的關(guān)鍵樞紐。近日,墨芯人工智能(以下簡稱“墨芯”)的千卡集群正式簽約入駐新疆算力中心
    的頭像 發(fā)表于 12-30 17:27 ?954次閱讀

    Neway微波產(chǎn)品的國產(chǎn)化替代方案

    的低損耗、穩(wěn)定性性能。這種自主化生產(chǎn)方式不僅提高了產(chǎn)品的可靠,還降低了生產(chǎn)成本。三、供應(yīng)鏈本地化整合Neway通過整合本地供應(yīng)鏈資源,實(shí)現(xiàn)了微波產(chǎn)品的快速交付和靈活定制。例如,在定制化服務(wù)中
    發(fā)表于 12-18 09:24

    如何評估內(nèi)嵌式模組的穩(wěn)定性?

    運(yùn)行可靠與壽命。 綜合驗證與品牌考量:在決策前,盡可能進(jìn)行模擬工況的壽命測試,這是驗證其長期穩(wěn)定性的最有效方法。同時,選擇行業(yè)內(nèi)有良好口碑和豐富應(yīng)用案例的品牌,通常意味著更可靠的產(chǎn)品質(zhì)量、完善的技術(shù)支持與售后服務(wù),保障生產(chǎn)連續(xù)
    發(fā)表于 12-04 15:27

    國產(chǎn)硬件生態(tài)新突破!集特智能與芯瞳完成產(chǎn)品兼容互認(rèn)

    近日,北京集特智能科技有限公司與國產(chǎn)GPU企業(yè)芯瞳共同宣布,雙方已成功完成集特智能GPC-100計算機(jī)產(chǎn)品與芯瞳“塵起系列C42”顯卡的兼容性互認(rèn)證。經(jīng)過聯(lián)合
    的頭像 發(fā)表于 10-20 17:49 ?1590次閱讀
    <b class='flag-5'>國產(chǎn)</b>硬件生態(tài)新突破!集特智能與芯瞳<b class='flag-5'>完成</b>產(chǎn)品<b class='flag-5'>兼容</b>互認(rèn)

    首款全國產(chǎn)通用GPU芯片發(fā)布 沐曦集成推出曦云C600

    ,并支持MetaXLink超節(jié)點(diǎn)擴(kuò)展技術(shù),在硬件性能和軟件兼容上完全滿足下一代生成式AI的訓(xùn)練和推理需求。 而且,沐曦股份與中國科學(xué)院合作的國產(chǎn)千卡
    的頭像 發(fā)表于 10-19 20:04 ?4.7w次閱讀

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    光電的InfiniBand兼容方案,實(shí)現(xiàn)千卡GPU集群的無損通信,模型訓(xùn)練周期縮短40%。 五、
    發(fā)表于 08-13 19:01

    接口穩(wěn)定性:車載智能終端可靠檢測的關(guān)鍵維度

    接口機(jī)械結(jié)構(gòu)耐久測試對設(shè)備的要求,本質(zhì)是通過 “被測對象合規(guī)、工裝模擬精準(zhǔn)、監(jiān)測數(shù)據(jù)可靠”,實(shí)現(xiàn)對接口真實(shí)使用場景的有效復(fù)現(xiàn)。只有設(shè)備滿足精度、兼容性穩(wěn)定性要求,才能準(zhǔn)確暴露接口在
    的頭像 發(fā)表于 08-01 08:00 ?1816次閱讀
    接口<b class='flag-5'>穩(wěn)定性</b>:車載智能終端可靠<b class='flag-5'>性</b>檢測的關(guān)鍵維度

    PCIe協(xié)議分析儀能測試哪些設(shè)備?

    場景:監(jiān)測GPU與主機(jī)之間的PCIe通信,分析數(shù)據(jù)傳輸效率、延遲和帶寬利用率。 應(yīng)用價值:優(yōu)化大規(guī)模AI訓(xùn)練任務(wù)的數(shù)據(jù)加載和模型參數(shù)同步,例如在多GPU系統(tǒng)中
    發(fā)表于 07-25 14:09

    TOPCon電池穩(wěn)定性提升 | PL/EL檢測改進(jìn)LECO兼容性銀漿

    激光增強(qiáng)接觸優(yōu)化(LECO)是提升TOPCon電池效率的有效技術(shù)。然而,亟需改進(jìn)LECO兼容銀漿以確保TOPCon電池的可靠穩(wěn)定性。本研究通過在導(dǎo)電銀漿的無機(jī)玻璃粉中引入Al/Ga/Fe元素優(yōu)化
    的頭像 發(fā)表于 07-18 09:04 ?1314次閱讀
    TOPCon電池<b class='flag-5'>穩(wěn)定性</b>提升 | PL/EL檢測改進(jìn)LECO<b class='flag-5'>兼容性</b>銀漿