何金池
IBM 大中華區(qū)科技事業(yè)部資深架構(gòu)師
現(xiàn)在搞大模型,GPU 芯片就是命根子,沒(méi)有高性能的 GPU 芯片,大模型跑不動(dòng),大模型的應(yīng)用也玩不轉(zhuǎn)。所以高性能芯片的研發(fā)就變得非常關(guān)鍵,就拿一個(gè) 7nm 芯片的仿真來(lái)說(shuō),每分鐘能噴涌出,幾千個(gè)甚至上萬(wàn)個(gè)作業(yè),可能會(huì)瞬間擠爆計(jì)算資源。那如何把成千上萬(wàn)個(gè)作業(yè)有序的調(diào)度到大規(guī)模的集群中呢?這時(shí)候,就得請(qǐng)出 HPC(高性能計(jì)算)調(diào)度界的“大宗師”—— IBM Spectrum LSF!
在大模型時(shí)代,電子半導(dǎo)體是當(dāng)前技術(shù)攻堅(jiān)的關(guān)鍵領(lǐng)域,IBM Spectrum LSF 如何助力半導(dǎo)體企業(yè)應(yīng)對(duì) AI 時(shí)代的高性能芯片需求?
作為 HPC 調(diào)度領(lǐng)域的扛把子,LSF 經(jīng)過(guò)三十年的發(fā)展,但凡你想到調(diào)度的這種需求,基本都能滿足。LSF 有一系列的智能調(diào)度策略,可以讓作業(yè)在最合適的資源,以最快的速度來(lái)完成。比如說(shuō)對(duì)一些關(guān)鍵的作業(yè),LSF 會(huì)開(kāi)綠燈,保證高優(yōu)先級(jí)的作業(yè)插隊(duì)完成,低優(yōu)先級(jí)的作業(yè)先靠邊站。也可以根據(jù)作業(yè)的一些依賴關(guān)系編排工作流。同時(shí),LSF 還會(huì)實(shí)時(shí)的掃描整個(gè)集群的狀態(tài),然后發(fā)現(xiàn)哪個(gè)服務(wù)器在偷水摸魚(yú)就會(huì)立刻抓出來(lái),給他安排上合適的作業(yè)。
這里我分享一個(gè)半導(dǎo)體客戶的案例。他在芯片仿真過(guò)程中,遇到了作業(yè)不能及時(shí)完成、資源利用率低的情況,導(dǎo)致產(chǎn)品的上市周期非常長(zhǎng)。用了 LSF 之后,他的資源利用率暴增 40%,芯片仿真的驗(yàn)證周期幾乎縮短到了原來(lái)的一半。原來(lái)一個(gè)作業(yè)要等很長(zhǎng)時(shí)間才能出結(jié)果,現(xiàn)在可以說(shuō),溫酒斬華雄,工程師泡的咖啡還沒(méi)涼,作業(yè)已經(jīng)算完了。
LSF 如何助力企業(yè)降本增效?
LSF 不光可以幫企業(yè)增效,也可以降本。比如說(shuō),在EDA(Electronic Design Automation,電子設(shè)計(jì)自動(dòng)化)軟件里,有一些商業(yè)的許可證非常昂貴,貴到讓人懷疑人生。曾經(jīng)有一個(gè)半導(dǎo)體客戶,他每年購(gòu)買 EDA 的軟件的商業(yè)許可證,要花費(fèi)幾千萬(wàn)的美金。對(duì)于普通的調(diào)度器來(lái)說(shuō),它只管硬件資源,不管像許可證這樣的一些其他資源的調(diào)度。而 LSF 作為調(diào)度界的“瑞士軍刀”,它有一個(gè)功能模塊叫做License Scheduler,是業(yè)界唯一具備的功能,可以幫助企業(yè)去調(diào)度商業(yè)許可證,按需分配,不用的時(shí)候及時(shí)收回,還可以跨項(xiàng)目的去調(diào)度這個(gè)許可證。就拿剛才的案例來(lái)說(shuō),這個(gè)半導(dǎo)體企業(yè)利用LSF License Scheduler功能模塊,它的許可證利用率暴漲了 38%,還避免了因?yàn)闆](méi)有License的時(shí)候,經(jīng)常導(dǎo)致作業(yè)失敗的情況。所以 LSF 幫助企業(yè)省錢的同時(shí),還提高了工作效率,真正做到了一舉兩得。
IBM Spectrum LSF的獨(dú)特優(yōu)勢(shì)有哪些?
首先,LSF 被稱為“瑞士軍刀”,就是因?yàn)樗鼜?qiáng)悍的性能和豐富的功能。LSF同時(shí)可以支持幾千個(gè)用戶向它提交作業(yè),可以同時(shí)管理幾百萬(wàn)個(gè)作業(yè)。LSF 的功能也非常齊全,基本上我們看到在 HPC 這種場(chǎng)景下看到的需求,不管是作業(yè)管理、作業(yè)編排、作業(yè)調(diào)度、作業(yè)監(jiān)控,LSF 都可以滿足。其他這種調(diào)度軟件,它可能只滿足一些基本的調(diào)度需求,對(duì)于一些高性能的策略,更智能的策略,它是沒(méi)有的。還有一些,比如說(shuō)商業(yè)許可證調(diào)度功能,其他調(diào)度軟件也是沒(méi)有的。
另一方面,IBM 具有全世界范圍內(nèi) 7x24小時(shí)的專業(yè)支持團(tuán)隊(duì)。如果您在使用 LSF 過(guò)程中遇到問(wèn)題,您隨時(shí)可以登錄我們的系統(tǒng)或撥打電話去尋求解決方案。這種貼身的專業(yè)支持,一些開(kāi)源軟件也是不具備的。
IBM Spectrum LSF的應(yīng)用場(chǎng)景有哪些?
LSF 的應(yīng)用場(chǎng)景非常廣泛。比較常見(jiàn)的,比如剛提到的芯片 EDA 的仿真,還有生命科學(xué)和生物制藥,一些高端制造的 CIE 的場(chǎng)景,還有石油、天然氣、天氣預(yù)報(bào)、人工智能,以及一些超級(jí)的計(jì)算中心。
目前在芯片電子半導(dǎo)體企業(yè),不管是大型的企業(yè)還是微創(chuàng)的企業(yè),基本上我們看到百分之七八十已經(jīng)在用了。還有一些醫(yī)療行業(yè),因?yàn)槲覀兏恍┽t(yī)療的軟件可以無(wú)縫的集合起來(lái),能做這種基因的檢測(cè),或者蛋白質(zhì)的仿真。
在新冠期間,LSF 是幕后英雄。它在新冠疫苗研發(fā)里起了非常大的作用。國(guó)外某家新冠疫苗研發(fā)企業(yè),它使用了 LSF 來(lái)做它的作業(yè)調(diào)度,使得它的疫苗盡快的推上市場(chǎng)。
我們每天看精準(zhǔn)的天氣預(yù)報(bào),比如說(shuō)要刮大風(fēng),要下雨了,也是離不開(kāi) LSF 在幕后幫我們做的高性能的資源編排、作業(yè)的調(diào)度。
最后,我用 14個(gè)字來(lái)總結(jié) IBM Spectrum LSF:智能調(diào)度快如風(fēng),資源管理準(zhǔn)又精。如果您遇到“作業(yè)算不過(guò)來(lái)” “資源管不過(guò)來(lái)”等問(wèn)題,歡迎聯(lián)系我們,IBM Spectrum LSF 讓您的超級(jí)計(jì)算不再“超級(jí)難”。
于 IBM
IBM 是全球領(lǐng)先的混合云、人工智能及企業(yè)服務(wù)提供商,幫助超過(guò) 175個(gè)國(guó)家和地區(qū)的客戶,從其擁有的數(shù)據(jù)中獲取商業(yè)洞察,簡(jiǎn)化業(yè)務(wù)流程,降低成本,并獲得行業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)。金融服務(wù)、電信和醫(yī)療健康等關(guān)鍵基礎(chǔ)設(shè)施領(lǐng)域的超過(guò) 4000家政府和企業(yè)實(shí)體依靠 IBM 混合云平臺(tái)和紅帽 OpenShift 快速、高效、安全地實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。IBM 在人工智能、量子計(jì)算、行業(yè)云解決方案和企業(yè)服務(wù)方面的突破性創(chuàng)新為我們的客戶提供了開(kāi)放和靈活的選擇。對(duì)企業(yè)誠(chéng)信、透明治理、社會(huì)責(zé)任、包容文化和服務(wù)精神的長(zhǎng)期承諾是 IBM 業(yè)務(wù)發(fā)展的基石。
-
芯片
+關(guān)注
關(guān)注
462文章
53193瀏覽量
454097 -
IBM
+關(guān)注
關(guān)注
3文章
1848瀏覽量
76560 -
AI
+關(guān)注
關(guān)注
88文章
37066瀏覽量
290485 -
超級(jí)計(jì)算
+關(guān)注
關(guān)注
1文章
42瀏覽量
11499
原文標(biāo)題:IBM Spectrum LSF:讓超級(jí)計(jì)算不再“超級(jí)難”
文章出處:【微信號(hào):IBMGCG,微信公眾號(hào):IBM中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA Spectrum-X 以太網(wǎng)交換機(jī)助力 Meta 和 Oracle 加速網(wǎng)絡(luò)性能

【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+半導(dǎo)體芯片產(chǎn)業(yè)的前沿技術(shù)
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)
睿海光電800G光模塊助力全球AI基建升級(jí)
深愛(ài)半導(dǎo)體 代理 SIC213XBER / SIC214XBER 高性能單相IPM模塊
蘇州芯矽科技:半導(dǎo)體清洗機(jī)的堅(jiān)實(shí)力量
先楫半導(dǎo)體MCU具有哪些優(yōu)勢(shì)?
Nordic nRF54 系列芯片:開(kāi)啟 AI 與物聯(lián)網(wǎng)新時(shí)代?
漢高亮相SEMICON China 2025 助力半導(dǎo)體產(chǎn)業(yè)在AI時(shí)代打造新質(zhì)生產(chǎn)力

適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開(kāi)發(fā)
砥礪創(chuàng)新 芯耀未來(lái)——武漢芯源半導(dǎo)體榮膺21ic電子網(wǎng)2024年度“創(chuàng)新驅(qū)動(dòng)獎(jiǎng)”
北京市最值得去的十家半導(dǎo)體芯片公司
Cadence如何應(yīng)對(duì)AI芯片設(shè)計(jì)挑戰(zhàn)
人工智能半導(dǎo)體及先進(jìn)封裝技術(shù)發(fā)展趨勢(shì)

評(píng)論