chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

全球GPU缺口超40萬(wàn)張!算力之困,中國(guó)大模型有解了

傳感器技術(shù) ? 來(lái)源:新智元 ? 2023-09-01 15:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】大模型時(shí)代,玩家如何掘金?最近,這套大模型智算軟件棧OGAI,竟吸引了國(guó)內(nèi)幾十家參與「百模大戰(zhàn)」的企業(yè)圍觀。 中國(guó)企業(yè),能否趕超OpenAI? 大模型爆火之后,許多人都在追問(wèn)這樣的問(wèn)題。 然而,這個(gè)領(lǐng)域的中美差異性,決定了這一事實(shí):美國(guó)現(xiàn)在的格局,未必就是中國(guó)未來(lái)的格局。 美國(guó)可能只有少數(shù)的大模型企業(yè),而中國(guó),或許會(huì)呈現(xiàn)百花齊放的新格局,并不會(huì)是只剩下少數(shù)幾個(gè)大模型,其他人在它們的基礎(chǔ)上去做應(yīng)用和開(kāi)發(fā)。 從十年維度來(lái)看,如今的GPT-4還只是一個(gè)baby,而今天的我們,只是剛剛打開(kāi)生成式AI的一扇門(mén)而已。

87e9155a-47bf-11ee-97a6-92fbcf53809c.png

在這個(gè)大模型狂飆的時(shí)代,英偉達(dá)CEO黃仁勛有一句名言,「the more you buy,the more you save!」 「如果你能將一個(gè)價(jià)值50億美元的數(shù)據(jù)中心的訓(xùn)練時(shí)間縮短一半,那么節(jié)省下來(lái)的費(fèi)用就超過(guò)了所有芯片的成本?!?

大模型,怎樣才能玩得起

但問(wèn)題在于,面對(duì)如此高的門(mén)檻,究竟哪些玩家才能玩得起? 目前,大模型研發(fā)已進(jìn)入萬(wàn)卡時(shí)代,一家企業(yè)如果想自己擁有大模型,至少需要幾十億投資。 然而,即便是買(mǎi)下來(lái)之后,緊接著還會(huì)面臨建不了的問(wèn)題。 此前的云計(jì)算是把一臺(tái)機(jī)器拆分成很多容器,而現(xiàn)在的大模型需要多臺(tái)機(jī)器集群的集中力量,在較長(zhǎng)時(shí)間內(nèi)完成海量計(jì)算任務(wù)。 如何保證低時(shí)延海量數(shù)據(jù)交換?如何讓多臺(tái)機(jī)器均衡計(jì)算,避免冷熱不均?如果硬件出現(xiàn)故障,算法需要重新跑一遍,又怎么辦?

瓶頸之下,算力利用率變得尤為重要

不可否認(rèn),對(duì)于大模型的研發(fā)來(lái)說(shuō),最大的挑戰(zhàn)之一,就是對(duì)龐大的算力基礎(chǔ)設(shè)施的需求。 然而,訓(xùn)練大模型的算力平臺(tái)并不是算力的簡(jiǎn)單堆積,隨著模型的規(guī)模越來(lái)越大,單卡算力與模型總算力需求之間存在著巨大的差異。 與此同時(shí),雖然隨著硬件的改進(jìn)FLOPs的成本得到了部分改善,但大模型的持續(xù)升級(jí)使得總成本一直在增加。 目前,GPT-4、PaLM-2的算力當(dāng)量,已經(jīng)達(dá)到了GPT-3的數(shù)十倍,相當(dāng)于上萬(wàn)顆業(yè)界性能領(lǐng)先的NVIDIA Hopper架構(gòu)的GPU芯片組成的AI集群,訓(xùn)練超過(guò)1個(gè)月的時(shí)間。 算力平臺(tái)的構(gòu)建之所以這么難,是因?yàn)樗恢故欠?wù)器、存儲(chǔ)、 網(wǎng)絡(luò)等硬件設(shè)備的集成,也有諸多設(shè)備軟硬件兼容性和性能調(diào)教上的know-how。 而對(duì)于企業(yè)來(lái)說(shuō),由于缺乏工程實(shí)踐的經(jīng)驗(yàn),進(jìn)一步限制了硬件計(jì)算能力的發(fā)揮。這不僅讓本就匱乏的算力資源雪上加霜,更是無(wú)法快速地提升模型質(zhì)量來(lái)應(yīng)對(duì)狂卷的競(jìng)爭(zhēng)。

88b77526-47bf-11ee-97a6-92fbcf53809c.png

從數(shù)據(jù)到算法再到RLHF,過(guò)程冗長(zhǎng)

在算法開(kāi)發(fā)層面,PB級(jí)數(shù)據(jù)的爬取、清洗、過(guò)濾和質(zhì)檢,大規(guī)模預(yù)訓(xùn)練的算法設(shè)計(jì)、性能優(yōu)化和失效管理,都面臨著重重難題。 DeepMind的研究表明,想要把一個(gè)大模型訓(xùn)練充分,每個(gè)參數(shù)的訓(xùn)練量要達(dá)到20個(gè)token。因此,當(dāng)前的很多千億規(guī)模的大模型還需要多用10倍的數(shù)據(jù)進(jìn)行訓(xùn)練,模型性能才能達(dá)到比較好的水平。 目前,國(guó)內(nèi)大模型產(chǎn)業(yè)數(shù)據(jù)集主要還是簡(jiǎn)體中文加上少量英文為主,數(shù)據(jù)集的單詞量在100億級(jí)。相比之下,訓(xùn)練GPT模型的單詞量級(jí)為5700億。也就是說(shuō),單從規(guī)模上來(lái)看就是1:57的差距。 不僅如此,從設(shè)計(jì)指令微調(diào)數(shù)據(jù)集,到優(yōu)化RLHF,整個(gè)開(kāi)發(fā)鏈?zhǔn)秩唛L(zhǎng),這更需要背后有諸多工程化工具。

88db48d4-47bf-11ee-97a6-92fbcf53809c.png

模型訓(xùn)練:周期長(zhǎng)、效率低,斷點(diǎn)問(wèn)題嚴(yán)峻

另外,大模型的訓(xùn)練過(guò)程,也比傳統(tǒng)的分布式訓(xùn)練復(fù)雜,訓(xùn)練周期長(zhǎng)達(dá)數(shù)月。 而集群計(jì)算效率低、故障頻發(fā)且處理復(fù)雜,會(huì)導(dǎo)致訓(xùn)練中斷后不能及時(shí)恢復(fù),從而會(huì)降低成功率,也會(huì)使訓(xùn)練成本 居高不下。 從工程角度來(lái)看,這是一個(gè)非常復(fù)雜的流程,其中的硬件、系統(tǒng)、軟件、驅(qū)動(dòng)等等都必須相互適配,才能起跑。 期間,各個(gè)部分都需要能穩(wěn)定持續(xù)運(yùn)轉(zhuǎn),才能保障模型訓(xùn)練的效率。一旦出現(xiàn)問(wèn)題,都會(huì)讓整個(gè)訓(xùn)練過(guò)程停擺。 比如,Meta就曾在訓(xùn)練OPT-175B模型的日志中提到,幾乎整個(gè)訓(xùn)練過(guò)程都要面對(duì)不停地重啟和中斷。

890ad9d2-47bf-11ee-97a6-92fbcf53809c.png

在訓(xùn)練完成到30%左右處,Meta的訓(xùn)練日志顯示,在兩個(gè)星期的時(shí)間段內(nèi)因?yàn)橛布?、基礎(chǔ)設(shè)施或?qū)嶒?yàn)穩(wěn)定性問(wèn)題而重新啟動(dòng)了40多次! 絕大多數(shù)重新啟動(dòng)都是由于硬件故障以及缺乏提供足夠數(shù)量的「緩沖」節(jié)點(diǎn)來(lái)替換壞節(jié)點(diǎn)的能力。通過(guò)云接口更換一臺(tái)機(jī)器可能需要幾個(gè)小時(shí)。

89197a1e-47bf-11ee-97a6-92fbcf53809c.png

在維護(hù)日志中,Meta的訓(xùn)練人員記錄到:

總而言之,解決基礎(chǔ)設(shè)施問(wèn)題占據(jù)了團(tuán)隊(duì)最后兩周的大部分時(shí)間,因?yàn)檫@些硬件問(wèn)題可能會(huì)在一天中的任何時(shí)間導(dǎo)致訓(xùn)練中斷幾個(gè)小時(shí)。

雖然我們充分意識(shí)到這些問(wèn)題會(huì)在這種規(guī)模的訓(xùn)練過(guò)程中反復(fù)出現(xiàn),但考慮到在2021年底之前完成一個(gè)175B模型訓(xùn)練全部工作時(shí)間非常緊迫,我們別無(wú)選擇,只能通過(guò)不停重啟的方式,看看如果沒(méi)有額外的訓(xùn)練工具的幫助我們能走多遠(yuǎn)。?

在找到一個(gè)加速重啟的方案并安排了更多的人手24小時(shí)輪值維護(hù)之后,Meta依然還是要面對(duì)硬件層面的各種問(wèn)題。 內(nèi)部訓(xùn)練進(jìn)度的圖表顯示,接下來(lái)的兩周之內(nèi),最長(zhǎng)的3次連續(xù)訓(xùn)練時(shí)間長(zhǎng)度只有2.8天,2天,1.5天。

89ebed32-47bf-11ee-97a6-92fbcf53809c.png

不難看出,就連強(qiáng)如Meta這樣的團(tuán)隊(duì),都會(huì)或多或少地受到上述挑戰(zhàn)的困擾。 因此,對(duì)于還處在探索階段的國(guó)內(nèi)大模型產(chǎn)業(yè)來(lái)說(shuō),就更加需要一套能夠保障其生產(chǎn)力的AI基礎(chǔ)設(shè)施。 正如浪潮信息人工智能與高性能應(yīng)用軟件部AI架構(gòu)師Owen ZHU所說(shuō):「以前都認(rèn)為,買(mǎi)服務(wù)器就像買(mǎi)手機(jī)、買(mǎi)電腦一樣,只要開(kāi)機(jī)就能用了;但實(shí)際上隨著算力需求持續(xù)變大,事情變得越來(lái)越復(fù)雜,實(shí)際上買(mǎi)回去也不一定能用得起來(lái)。」

OGAI:你可能要踩的坑,他們都替你踩過(guò)了

為了切實(shí)地解決這些問(wèn)題,近日,浪潮信息正式發(fā)布發(fā)布了大模型智算軟件棧OGAI(Open GenAI Infra)——「元腦生智」。 面對(duì)各種以大模型為核心的生成式AI開(kāi)發(fā)與應(yīng)用場(chǎng)景,OGAI都提供了全棧全流程的軟件,包括集群系統(tǒng)環(huán)境部署、算力調(diào)度保障、大模型開(kāi)發(fā)管理等。 為了充分釋放智算集群的能力,OGAI在每個(gè)層次上都對(duì)性能和穩(wěn)定性進(jìn)行了相應(yīng)的優(yōu)化,包括服務(wù)器BIOS的調(diào)教、大規(guī)模集群組網(wǎng)性能、算力調(diào)度策略等。 同時(shí),也融合了浪潮信息在MLPerf性能評(píng)測(cè)、服務(wù)客戶實(shí)際需求、開(kāi)發(fā)源大模型的實(shí)踐經(jīng)驗(yàn)。 如此一來(lái),就可以大幅降低大模型算力系統(tǒng)的使用門(mén)檻、優(yōu)化大模型的研發(fā)效率。無(wú)論是生產(chǎn),還是應(yīng)用,都得到了保障。 總之,你可能會(huì)踩的坑,浪潮信息都提前幫你踩過(guò)了。

89f32764-47bf-11ee-97a6-92fbcf53809c.png

具體而言,OGAI由5層架構(gòu)組成,從L0到L4分別對(duì)應(yīng)基礎(chǔ)設(shè)施層的智算中心OS、系統(tǒng)環(huán)境層的PODsys、調(diào)度平臺(tái)層的AIStation、模型工具層的YLink和多模納管層的MModel。 值得注意的是,OGAI軟件棧的使用非常靈活。從L0到L4層的設(shè)計(jì)和實(shí)現(xiàn),都是分層的。也就是說(shuō),你并不一定要用到L0到L4整體的方案去開(kāi)發(fā)大模型。 因?yàn)槊恳粚佣际欠謱咏怦畹?,需要哪一層的?shí)現(xiàn)或?qū)?yīng)的功能,就只用那一層就可以了。

8a0eb27c-47bf-11ee-97a6-92fbcf53809c.png

L0層智算中心OS:面向大模型算力服務(wù)的智能算力運(yùn)管平臺(tái),滿足多租戶以裸金屬為主的彈性AI算力運(yùn)管需求。

其中,高效的裸金屬服務(wù)可以在幾分鐘內(nèi)部署規(guī)模達(dá)上千的裸金屬節(jié)點(diǎn),并按照需求進(jìn)行擴(kuò)容,能夠一鍵獲取異構(gòu)計(jì)算芯片、IB、RoCE高速網(wǎng)絡(luò)、高性能存儲(chǔ)等環(huán)境,同時(shí)實(shí)現(xiàn)計(jì)算、網(wǎng)絡(luò)和數(shù)據(jù)的隔離,確保業(yè)務(wù)的安全性。

8a402a0a-47bf-11ee-97a6-92fbcf53809c.png

L1層PODsys:開(kāi)源、高效、兼容、易用的智算集群系統(tǒng)環(huán)境部署方案。

這一層可以全面覆蓋AI集群的部署場(chǎng)景,包括系統(tǒng)環(huán)境,從OS、驅(qū)動(dòng)到系統(tǒng)監(jiān)控可視化、資源調(diào)度等。值得一提的是,這是浪潮信息首創(chuàng)的一個(gè)開(kāi)源項(xiàng)目。

8a59a26e-47bf-11ee-97a6-92fbcf53809c.png

下載地址:https://podsys.ai/ PODsys集成了數(shù)十個(gè)智算集群部署所需的驅(qū)動(dòng)程序、軟件和其他安裝包,并提供了一系列腳本工具來(lái)簡(jiǎn)化部署過(guò)程,而用戶只需執(zhí)行兩個(gè)簡(jiǎn)單的命令就能完成整個(gè)集群的部署。 就拿模型整套流程中的一環(huán)「驅(qū)動(dòng)」來(lái)說(shuō),不管是上層調(diào)優(yōu),還是底層調(diào)優(yōu)。 在過(guò)去就像是開(kāi)盲盒一樣,對(duì)于客戶來(lái)說(shuō)A可能適用,而對(duì)B并非適用,由此所帶來(lái)的成本是巨大的。

8a6984cc-47bf-11ee-97a6-92fbcf53809c.png

舉個(gè)栗子,某互聯(lián)網(wǎng)客戶A在使用AI集群,在對(duì)面向推薦場(chǎng)景的AI大模型進(jìn)行訓(xùn)練時(shí),卻發(fā)現(xiàn)服務(wù)器中的CPU到GPU之間的通信帶寬和存儲(chǔ)到服務(wù)器之間的通信帶寬沒(méi)法同時(shí)跑滿。 帶來(lái)的結(jié)果就是,模型數(shù)據(jù)不能及時(shí)從存儲(chǔ)讀取,進(jìn)而導(dǎo)致GPU空閑和訓(xùn)練性能低下。 面對(duì)這一難題,客戶A的算法團(tuán)隊(duì)用了幾個(gè)月的時(shí)間也沒(méi)有攻克。 浪潮信息的AI團(tuán)隊(duì)介入后,發(fā)現(xiàn)客戶的場(chǎng)景中,大模型對(duì)數(shù)據(jù)讀取IO的需求遠(yuǎn)超一般的AI模型訓(xùn)練情況,從而導(dǎo)致針對(duì)普通模型訓(xùn)練的服務(wù)器配置在推薦場(chǎng)景中出現(xiàn)了不適配的情況。 針對(duì)這一特殊的需求,基于自身經(jīng)驗(yàn),浪潮信息團(tuán)隊(duì)對(duì)CPU BIOS中的mps等多個(gè)選項(xiàng)配置進(jìn)行了針對(duì)性的的修改優(yōu)化,很好的解決了這一問(wèn)題。 再比如在環(huán)境配置中,也會(huì)遇到一些意想不到問(wèn)題。 為了滿足大模型算力需求,某互聯(lián)網(wǎng)客戶B購(gòu)買(mǎi)多臺(tái)高端的AI服務(wù)器,并沿用之前的使用習(xí)慣進(jìn)行了操作系統(tǒng)和環(huán)境的部署。 然而,在運(yùn)行大模型訓(xùn)練任務(wù)時(shí)發(fā)現(xiàn),GPU掉卡,OOM等錯(cuò)誤頻頻出現(xiàn),導(dǎo)致開(kāi)發(fā)人無(wú)法正常使用設(shè)備。 觸發(fā)這一故障警報(bào)的主要原因就是,客戶B操作系統(tǒng)配置中的部分pcie相關(guān)參數(shù)和當(dāng)前GPU設(shè)備的需求不兼容。 對(duì)此,浪潮信息向客戶提供了正確的配置參數(shù)之后,很快解決了這個(gè)問(wèn)題。 可以看出,大模型算力平臺(tái)并非是簡(jiǎn)單算力堆積,還需要解決訓(xùn)練推理效率,系統(tǒng)穩(wěn)定性等一系列工程問(wèn)題。 就像Owen ZHU談到的一樣,當(dāng)智算中心的規(guī)模從十幾臺(tái)服務(wù)器擴(kuò)展到幾百臺(tái),使用難度便會(huì)呈指數(shù)級(jí)上升。 L1層PODsys就像初始化操作系統(tǒng)預(yù)裝的驅(qū)動(dòng)程序,能夠高效部署AI系統(tǒng),而不用重新開(kāi)發(fā)組件。 它恰恰為AI集群部署提供一個(gè)完美的解決方案,即「將工程經(jīng)驗(yàn)總結(jié)成一套工具鏈?zhǔn)降幕卮??!?

L2層AIStation:面向大模型開(kāi)發(fā)的商業(yè)化人工智能算力調(diào)度平臺(tái)。

這一層主要針對(duì)大模型訓(xùn)練中常見(jiàn)的「訓(xùn)練中斷」難題,能夠訓(xùn)練異??焖俣ㄎ?,斷點(diǎn)自動(dòng)續(xù)訓(xùn)。 AIStation的核心能力,可以歸結(jié)為以下3個(gè)方面:1. 在開(kāi)發(fā)環(huán)境和作業(yè)管理方面AIStation實(shí)現(xiàn)了計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等訓(xùn)練環(huán)境的自動(dòng)化配置,同時(shí)允許用戶自定義基本的超參數(shù),只需簡(jiǎn)單幾步,就能完成大模型分布式訓(xùn)練。 并且,AIStation還集成了主流的大模型訓(xùn)練框架,包括Megatron-LM、DeepSpeed、HunggingFace上的諸多開(kāi)源解決方案,實(shí)現(xiàn)了秒級(jí)構(gòu)建運(yùn)行環(huán)境。 這樣的優(yōu)勢(shì)在于,能夠幫助開(kāi)發(fā)者在大規(guī)模集群環(huán)境下便捷地提交分布式任務(wù)。 然后,調(diào)度系統(tǒng)根據(jù)分布式任務(wù)對(duì)GPU算力的需求,通過(guò)多種親和性調(diào)度策略,大大降低構(gòu)建分布式訓(xùn)練任務(wù)技術(shù)門(mén)檻。 比如,英偉達(dá)開(kāi)發(fā)的基于PyTorch框架Megatron-LM能夠在AIStation上實(shí)現(xiàn)快速部署,訓(xùn)練全程都有保障。

8b37d7aa-47bf-11ee-97a6-92fbcf53809c.png

2. 在大規(guī)模算力調(diào)度方面能夠制定合理的作業(yè)執(zhí)行計(jì)劃,以最大限度地利用資源,滿足訓(xùn)練任務(wù)的時(shí)延和吞吐需求。 AIStation優(yōu)化調(diào)度系統(tǒng)性能,實(shí)現(xiàn)了上千POD極速啟動(dòng)和環(huán)境就緒。 另外,針對(duì)大模型訓(xùn)練通信要求高的場(chǎng)景,AIStation提供集群拓?fù)涓兄芰?。通過(guò)聯(lián)合優(yōu)化,AIStation在千卡集群中能實(shí)現(xiàn)90%以上的分布式計(jì)算擴(kuò)展。 比如,就拿GPT-4來(lái)說(shuō),在大約25000個(gè)A100GPU上訓(xùn)練90-100天,算力利用率為32%至36%。 而浪潮信息所打造的「源1.0」訓(xùn)練算力效率則達(dá)到了44.8%。

8b79e686-47bf-11ee-97a6-92fbcf53809c.png

3. 在訓(xùn)練穩(wěn)定保障方面健壯性與穩(wěn)定性是高效完成大模型訓(xùn)練的必要條件。 利用AIStation內(nèi)置的監(jiān)控全面的監(jiān)控系統(tǒng)和智能運(yùn)維模塊,可以快速定位芯片、網(wǎng)卡、通訊設(shè)備異?;蚬收稀?進(jìn)一步,通過(guò)對(duì)訓(xùn)練任務(wù)進(jìn)行暫停保持,然后從熱備算力中進(jìn)行自動(dòng)彈性替換異常節(jié)點(diǎn),最后利用健康節(jié)點(diǎn)進(jìn)行快速checkpoint讀取,讓大模型斷點(diǎn)自動(dòng)續(xù)訓(xùn)成為可能。 比如,之前提到Meta在訓(xùn)練OPT-175B模型時(shí)反復(fù)遇到的訓(xùn)練中斷問(wèn)題。 AIStation就能提供一整套的解決方案,避免類似情況的發(fā)生,或者將訓(xùn)練中斷造成的影響控制到最小。

8b8adc52-47bf-11ee-97a6-92fbcf53809c.png

L3層YLink:面向大模型數(shù)據(jù)治理、預(yù)訓(xùn)練、微調(diào)的高效工具鏈。

針對(duì)大模型開(kāi)發(fā)的2個(gè)核心環(huán)節(jié)——數(shù)據(jù)處理和模型訓(xùn)練。浪潮信息在YLink中集成了大模型研發(fā)中所需的自研工具和開(kāi)源工具,如數(shù)據(jù)處理工具包(Y-DataKit)、大模型訓(xùn)練工具包(Y-TrainKit)和大模型微調(diào)工具包(Y-FTKit)。 這些多樣且完善的工程化、自動(dòng)化工具,大大加速了大模型的訓(xùn)練和開(kāi)發(fā)效率。

8b945142-47bf-11ee-97a6-92fbcf53809c.png

首先是數(shù)據(jù)的處理。 在LLM出現(xiàn)以前,鮮少有人能預(yù)見(jiàn)它背后巨大的想象力。它被視為大模型落地的入場(chǎng)券,軍備競(jìng)賽中的護(hù)城河,AI界的戰(zhàn)略資源。 GPT-3.5的文本語(yǔ)料多達(dá)45TB,而GPT-4在GPT-3和GPT-3.5訓(xùn)練數(shù)據(jù)集的基礎(chǔ)上,又增加了多模態(tài)數(shù)據(jù)。 想訓(xùn)練出強(qiáng)大的大語(yǔ)言模型,就需要依托充足的高質(zhì)量數(shù)據(jù)。數(shù)據(jù)的數(shù)量、質(zhì)量、多樣性乃至清洗能力,都是影響大模型性能的關(guān)鍵要素。 在YLink工具鏈中,數(shù)據(jù)生成工具DataGen、數(shù)據(jù)抽取工具FileQA、數(shù)據(jù)采集工具Gather、格式轉(zhuǎn)換工具Transform、數(shù)據(jù)清洗工具Purify,大大方便了開(kāi)發(fā)者的數(shù)據(jù)處理過(guò)程。 這樣,數(shù)據(jù)源和元數(shù)據(jù)被采集、處理后,就被轉(zhuǎn)換成模型訓(xùn)練所需的數(shù)據(jù),也就是得到了「煉丹」的原材料。 在有了「足夠高質(zhì)量」的標(biāo)注數(shù)據(jù)之后,就可以進(jìn)一步為「足夠穩(wěn)定」的模型邏輯推理能力提供支撐了。 接下來(lái),針對(duì)大模型的預(yù)訓(xùn)練過(guò)程,YLink提供了數(shù)據(jù)處理工具Gather、Transform和Purity以及基于業(yè)界主流大模型分布式訓(xùn)練框架NVIDIA Megatron和MS DeepSpeed的大規(guī)模分布式預(yù)訓(xùn)練參考流程。

8bc50652-47bf-11ee-97a6-92fbcf53809c.png

ChatGPT能火爆全球,關(guān)鍵的原因之一,是「它能像人一樣思考。這背后的原因,就是基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)」。 在微調(diào)類ChatGPT模型過(guò)程中,主要會(huì)涉及三個(gè)階段:有監(jiān)督微調(diào)(SFT)、獎(jiǎng)勵(lì)模型(RM)訓(xùn)練和獎(jiǎng)勵(lì)模型上的近端策略優(yōu)化(PPO)。 在SFT階段,模型通過(guò)模仿人類標(biāo)注的對(duì)話示例來(lái)學(xué)習(xí)通用的類人對(duì)話;在獎(jiǎng)勵(lì)模型訓(xùn)練過(guò)程中,模型會(huì)根據(jù)人類反饋來(lái)比較不同回復(fù)的偏好;在PPO階段,根據(jù)獎(jiǎng)勵(lì)模型的反饋更新模型,通過(guò)探索(exploration)和利用(exploitation)發(fā)現(xiàn)最優(yōu)策略。 同樣的,對(duì)于模型微調(diào)這個(gè)階段來(lái)說(shuō),數(shù)據(jù)質(zhì)量也至關(guān)重要。 現(xiàn)在,有了YLink在數(shù)據(jù)和訓(xùn)練上提供的全方位支持,我們就可以輕松煉丹了。

8bcb4094-47bf-11ee-97a6-92fbcf53809c.png

L4層MModel:提供多模型接入、服務(wù)、評(píng)測(cè)等功能的納管平臺(tái)。

對(duì)于客戶來(lái)說(shuō),不論是開(kāi)發(fā)大模型,還是調(diào)用第三方模型再用數(shù)據(jù)微調(diào)訓(xùn)練,都會(huì)遇到一個(gè)問(wèn)題,即不會(huì)只用到一個(gè)模型。 鑒于當(dāng)前AI領(lǐng)域各種模型的豐富度,他們會(huì)選擇把多家模型進(jìn)行比對(duì),以找到更適合自己的最優(yōu)解。 而這當(dāng)中需要經(jīng)歷一個(gè)必不可少的過(guò)程,涉及到如何管理多模型,如何下載,如何根據(jù)自身場(chǎng)景對(duì)模型進(jìn)行自動(dòng)化評(píng)測(cè)。 對(duì)此,浪潮信息提供了多模型納管方案,其核心組件包括數(shù)據(jù)集管理、模型納管和評(píng)測(cè),可以方便開(kāi)發(fā)者和研究人員更好地管理多版本、多類型的基礎(chǔ)大模型與任務(wù)模型。 并且,通過(guò)多樣化的評(píng)測(cè)數(shù)據(jù)集與評(píng)測(cè)任務(wù),它可以對(duì)多個(gè)模型進(jìn)行生成準(zhǔn)確率、推理延遲、推理穩(wěn)定性等指標(biāo)的全面評(píng)估。 這樣,開(kāi)發(fā)者就可以快速部署和應(yīng)用模型,并且,多模型的納管可以讓我們?cè)诒WC模型權(quán)重、數(shù)據(jù)集安全的前提下,對(duì)外提供API服務(wù)。

大模型掘金的「秘密武器」

不難看出,OGAI不僅可以保障大模型訓(xùn)練時(shí)算力供應(yīng)的可持續(xù)性,而且還充分考慮到了硬件、軟件、算法、框架層面引發(fā)的訓(xùn)練中斷、失效的問(wèn)題,進(jìn)而幫助企業(yè)順利跨越大模型研發(fā)應(yīng)用門(mén)檻。 這些能力和基礎(chǔ)的背后,是來(lái)自浪潮信息在30余年深耕硬件行業(yè)的積累之上,在AI服務(wù)器產(chǎn)品,算力系統(tǒng)優(yōu)化方面的先發(fā)優(yōu)勢(shì)。 一方面,率先布局AIGC領(lǐng)域的浪潮信息,是國(guó)內(nèi)為數(shù)不多具備了千億大模型工程實(shí)踐經(jīng)驗(yàn)的企業(yè)。這使得浪潮信息對(duì)于開(kāi)發(fā)大模型的整套流程了如指掌。 未來(lái)客戶在AIGC工程領(lǐng)域中要踩的坑,浪潮信息已經(jīng)提前替客戶踩了;必須要面對(duì)的技術(shù)難題,浪潮信息已經(jīng)提前解決了。客戶借助浪潮信息推出的OGAI解決方案,讓自己能站在巨人的肩膀上,落地產(chǎn)品和服務(wù)。

8c148812-47bf-11ee-97a6-92fbcf53809c.png

基于千億級(jí)大模型的工程實(shí)踐,浪潮信息對(duì)于如何高效調(diào)度千卡規(guī)模的算力,以及保障訓(xùn)練任務(wù)的長(zhǎng)期穩(wěn)定運(yùn)行已經(jīng)有了豐富的經(jīng)驗(yàn)。 具體來(lái)說(shuō),在訓(xùn)練數(shù)據(jù)層面,浪潮信息的AI團(tuán)隊(duì)逐步建立了完整的從公開(kāi)數(shù)據(jù)爬取到數(shù)據(jù)清洗、格式轉(zhuǎn)化、數(shù)據(jù)質(zhì)量評(píng)估的完整流程和工具鏈。 通過(guò)自研海量數(shù)據(jù)過(guò)濾系統(tǒng)(MDFS),建立從數(shù)據(jù)采集、粗濾、質(zhì)量分類、精濾的全自動(dòng)化的端到端數(shù)據(jù)工作流程,通過(guò)清洗866TB海量數(shù)據(jù),獲得5TB高質(zhì)量中文數(shù)據(jù)集。 在模型訓(xùn)練層面,浪潮信息通過(guò)對(duì)云原生的調(diào)度系統(tǒng)進(jìn)行了改造,大幅加速其啟動(dòng)速度,并重點(diǎn)解決了RDMA網(wǎng)絡(luò)在容器中的接入和適配優(yōu)化,較好地構(gòu)建了一套能夠滿足大模型需求的算力調(diào)度系統(tǒng)。 另一方面,除了親自搭建和研發(fā)的經(jīng)驗(yàn)之外,浪潮信息還在服務(wù)客戶的過(guò)程中,解決了各種不同體量、不同賽道的企業(yè)在實(shí)踐中遇到的問(wèn)題。 在集群架構(gòu)及軟硬件層面,解決了諸多如CUDA初始化失敗、GPU掉卡、 p2p Bandwidth Latency延遲過(guò)高、NCCL通信性能低,GPU direct RDMA未使能等問(wèn)題。

8c326134-47bf-11ee-97a6-92fbcf53809c.png

2022年以來(lái),浪潮信息的AI團(tuán)隊(duì)協(xié)助多個(gè)客戶把大模型訓(xùn)練的GPU峰值效率從30%左右提升到50%。從而大幅加速了模型訓(xùn)練過(guò)程。 比如,將系統(tǒng)工程經(jīng)驗(yàn),應(yīng)用于智算中心算力系統(tǒng),全面優(yōu)化了集群架構(gòu)、高速互聯(lián)網(wǎng)絡(luò)和算力調(diào)度等等?!竿ㄟ^(guò)合理設(shè)計(jì)張量并行、流水并行和數(shù)據(jù)并行,精準(zhǔn)調(diào)整模型結(jié)構(gòu)和訓(xùn)練過(guò)程的超參數(shù),千億參數(shù)規(guī)模的大模型訓(xùn)練算力效率可達(dá)至53.5%」。 此外,網(wǎng)易伏羲中文預(yù)訓(xùn)練大模型「玉言」,也在浪潮信息的助力下登頂中文語(yǔ)言理解權(quán)威測(cè)評(píng)基準(zhǔn)CLUE分類任務(wù)榜單,并在多項(xiàng)任務(wù)上超過(guò)人類水平。 基于豐富的經(jīng)驗(yàn)積累,浪潮信息能夠快速挖掘出客戶的痛點(diǎn),并將需求與現(xiàn)有技術(shù)進(jìn)行有效整合。 最大程度地解決未來(lái)客戶會(huì)的遇到的問(wèn)題,滿足各個(gè)賽道不同客戶在AI工程領(lǐng)域的不同需求。而這,便是OGAI解決方案正在實(shí)現(xiàn)的。 大模型的發(fā)展,猶如黑暗森林里的一束光,讓整個(gè)產(chǎn)業(yè)高效邁入AGI。 站在未來(lái)10年看如今百模爭(zhēng)霸的時(shí)代,加快產(chǎn)業(yè)進(jìn)度,就是核心關(guān)鍵。 浪潮信息高級(jí)副總裁劉軍表示,浪潮信息的初心即是「探索前沿技術(shù),讓算力充分賦能大模型訓(xùn)練,以及背后的產(chǎn)業(yè)落地化」。 今時(shí)火熱的AIGC產(chǎn)業(yè)機(jī)遇中,浪潮信息必然會(huì)留下濃墨重彩的一筆。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5100

    瀏覽量

    134473
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1386

    瀏覽量

    16566
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3446

    瀏覽量

    4970

原文標(biāo)題:全球GPU缺口超40萬(wàn)張!算力之困,中國(guó)大模型有解了

文章出處:【微信號(hào):WW_CGQJS,微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    中國(guó)智能規(guī)模增長(zhǎng)將40%

    表示預(yù)計(jì)在2025年,中國(guó)智能規(guī)模增長(zhǎng)將超過(guò)40%。 據(jù)中國(guó)信息通信研究院副院長(zhǎng) 魏亮表示:目前,
    的頭像 發(fā)表于 08-25 19:28 ?807次閱讀

    商湯大裝置躋身中國(guó)大模型推理算廠商第一梯隊(duì)

    近日,IDC發(fā)布首個(gè)《2025中國(guó)大模型推理算市場(chǎng)分析報(bào)告》。
    的頭像 發(fā)表于 08-14 09:29 ?4756次閱讀

    中科曙光智融合方案助力國(guó)產(chǎn)中心建設(shè)

    近期,位于魯中南地區(qū)的某大型中心正式啟動(dòng)建設(shè),標(biāo)志著國(guó)產(chǎn)技術(shù)在該區(qū)域數(shù)字經(jīng)濟(jì)中的重要突破。該中心采用中科曙光“智融合”方案,實(shí)現(xiàn)
    的頭像 發(fā)表于 07-31 17:13 ?1321次閱讀

    科技上線赤兔推理引擎服務(wù),創(chuàng)新解鎖FP8大模型

    模型輕量化部署方案。用戶通過(guò)遠(yuǎn)程平臺(tái)預(yù)置的模型鏡像與AI工具,僅需50%的GPU
    的頭像 發(fā)表于 07-30 21:44 ?726次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理

    。。) 原理學(xué)習(xí) 在「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」書(shū)中,作者詳解了從帕斯卡架構(gòu)到40系的Hopper架構(gòu)的技術(shù)
    發(fā)表于 06-18 19:31

    搭建中心,從了解的GPU 特性開(kāi)始

    ABSTRACT摘要本文介紹如何搭建,并介紹A100、H100、H200和B200這些GPU的特性。JAEALOT2025年4月23日隨著人工智能、大數(shù)據(jù)和高性能計(jì)算(HPC)的快速發(fā)展,市場(chǎng)上
    的頭像 發(fā)表于 04-24 11:08 ?2996次閱讀
    搭建<b class='flag-5'>算</b><b class='flag-5'>力</b>中心,從了解的<b class='flag-5'>GPU</b> 特性開(kāi)始

    芯片的生態(tài)突圍與革命

    據(jù)的爆發(fā)式增長(zhǎng),大芯片已成為科技競(jìng)爭(zhēng)的核心領(lǐng)域之一。 ? 大芯片的核心應(yīng)用場(chǎng)景豐富多樣。在人工智能訓(xùn)練與推理方面,大模型(如 GPT
    的頭像 發(fā)表于 04-13 00:02 ?2612次閱讀

    智能最具潛力的行業(yè)領(lǐng)域

    ?; 數(shù)據(jù)治理與聯(lián)合創(chuàng)新?:民生銀行與華為、阿里云等共建AI實(shí)驗(yàn)室,通過(guò)“數(shù)據(jù)湖+模型體系”提升服務(wù)精準(zhǔn)度?; 需求驅(qū)動(dòng)?:金融大模型推理對(duì)GP
    的頭像 發(fā)表于 04-11 08:20 ?1034次閱讀
    智能<b class='flag-5'>算</b><b class='flag-5'>力</b>最具潛力的行業(yè)領(lǐng)域

    阿里最新消息:國(guó)家互聯(lián)網(wǎng)平臺(tái)、廣州中心、多所高校接入通義千問(wèn)大模型

    ? 國(guó)家互聯(lián)網(wǎng)平臺(tái) 接入阿里通義千問(wèn)大模型 ? 3月10日,國(guó)家互聯(lián)網(wǎng)平臺(tái)接入阿里巴巴通義千問(wèn)大
    的頭像 發(fā)表于 03-14 11:54 ?1134次閱讀

    模型遭遇墻,探索超級(jí)應(yīng)用的發(fā)展路徑

    最近,開(kāi)源中國(guó) OSCHINA、Gitee 與 Gitee AI? 全文如下: 大模型撞上 “墻”,超級(jí)應(yīng)用的探尋之路 文 / 傅聰 近日,大
    的頭像 發(fā)表于 02-10 17:24 ?1477次閱讀
    大<b class='flag-5'>模型</b>遭遇<b class='flag-5'>算</b><b class='flag-5'>力</b>墻,探索超級(jí)應(yīng)用的發(fā)展路徑

    GPU租用平臺(tái)有什么好處

    當(dāng)今,GPU租用平臺(tái)為科研機(jī)構(gòu)、企業(yè)乃至個(gè)人開(kāi)發(fā)者提供了靈活高效的解決方案。下面,AI部落小編帶您深入探討
    的頭像 發(fā)表于 02-07 10:39 ?724次閱讀

    中心的如何衡量?

    作為當(dāng)下科技發(fā)展的重要基礎(chǔ)設(shè)施,其的衡量關(guān)乎其能否高效支撐人工智能、大數(shù)據(jù)分析等智能應(yīng)用的運(yùn)行。以下是對(duì)智中心算衡量的詳細(xì)闡述:一、
    的頭像 發(fā)表于 01-16 14:03 ?4225次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    科技云報(bào)到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?

    科技云報(bào)到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?
    的頭像 發(fā)表于 01-16 10:24 ?801次閱讀