隨著 NVIDIA 推出 Aether 項(xiàng)目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動(dòng)加速其數(shù)據(jù)中心規(guī)模的分析工作負(fù)載,從而節(jié)省數(shù)百萬美元。
全球數(shù)萬家企業(yè)依靠 Apache Spark 來處理海量數(shù)據(jù),以支持關(guān)鍵業(yè)務(wù)的運(yùn)營,同時(shí)預(yù)測趨勢、客戶行為、業(yè)務(wù)表現(xiàn)等。企業(yè)處理和理解數(shù)據(jù)的速度越快,盈利和節(jié)省的成本就越多。
這就是為什么擁有海量數(shù)據(jù)集的公司紛紛采用適用于 Apache Spark 的 RAPIDS 加速器,其中包括全球各地的大型零售商和銀行。這個(gè)開源軟件運(yùn)行在 NVIDIA 加速計(jì)算平臺(tái)上,它能夠顯著加速端到端數(shù)據(jù)科學(xué)和分析流程的處理,而無需更改任何代碼。
為了讓企業(yè)能更輕松地從 NVIDIA 加速的 Spark 中獲取價(jià)值,NVIDIA 于近日發(fā)布了 Aether 項(xiàng)目。該項(xiàng)目包含了一系列工具和流程,可自動(dòng)地評估、測試、配置和優(yōu)化 Spark 工作負(fù)載,從而實(shí)現(xiàn)大規(guī)模的 GPU 加速。
Aether 項(xiàng)目可在一周內(nèi)完成一年的工作量
對于在生產(chǎn)環(huán)境中使用 Spark 的客戶來說,他們通常需要管理數(shù)以萬計(jì)甚至更多的復(fù)雜作業(yè)。從純 CPU 計(jì)算遷移到 GPU 驅(qū)動(dòng)的計(jì)算具有諸多顯著優(yōu)勢,但這一過程可能需要手動(dòng)操作,耗時(shí)且費(fèi)力。
此前,企業(yè)需要手動(dòng)完成大量步驟,而 Aether 項(xiàng)目實(shí)現(xiàn)了這些步驟的自動(dòng)化處理,包括分析所有 Spark 作業(yè)以找出最適合 GPU 加速的作業(yè),以及每個(gè)作業(yè)的準(zhǔn)備和試運(yùn)行。它利用 AI 對每個(gè)作業(yè)的配置進(jìn)行調(diào)優(yōu),以實(shí)現(xiàn)最優(yōu)性能。
為了理解 Aether 項(xiàng)目的影響力,這里假設(shè)有一家企業(yè)需要完成 100 個(gè) Spark 作業(yè)。借助 Aether 項(xiàng)目,每個(gè)作業(yè)最快僅需 4 天就能完成配置并針對 NVIDIA GPU 加速進(jìn)行優(yōu)化。而如果由一名數(shù)據(jù)工程師手動(dòng)完成相同的工作量,可能需要長達(dá)一年的時(shí)間。

澳大利亞聯(lián)邦銀行借助 NVIDIA 加速的 Apache Spark 來推動(dòng) AI 轉(zhuǎn)型
與僅使用 CPU 相比,在 NVIDIA 加速計(jì)算平臺(tái)上運(yùn)行 Apache Spark 能夠幫助全球各地的企業(yè)更快地完成作業(yè),且所需硬件更少,從而節(jié)省時(shí)間、空間、電力和散熱成本,同時(shí)降低本地基礎(chǔ)設(shè)施的資本成本以及使用云計(jì)算的運(yùn)營成本。
作為澳大利亞最大的金融機(jī)構(gòu),澳大利亞聯(lián)邦銀行處理該國 60% 的金融交易。在運(yùn)行 Spark 工作負(fù)載時(shí),該銀行面臨著延遲和成本方面的挑戰(zhàn)。據(jù)估算,如果僅使用 CPU計(jì)算集群,這家銀行除了要處理繁重的日常數(shù)據(jù)需求外,還需要近 9 年時(shí)間才能處理完積壓的訓(xùn)練任務(wù)。
澳大利亞聯(lián)邦銀行首席數(shù)據(jù)和分析官 Andrew McMullan 表示:“我們每天要處理 4000 萬次推理交易,因此能夠及時(shí)、可靠地處理這些交易至關(guān)重要?!?/p>
通過在 GPU 驅(qū)動(dòng)的基礎(chǔ)設(shè)施上運(yùn)行適用于 Apache Spark 的 RAPIDS 加速器,澳大利亞聯(lián)邦銀行把系統(tǒng)性能提升了 640 倍,僅用 5 天時(shí)間就完成了 63 億筆交易的訓(xùn)練。此外,在處理每天 4000 萬筆交易時(shí),澳大利亞聯(lián)邦銀行目前能在 46 分鐘內(nèi)完成推理,成本比基于 CPU 的解決方案降低了 80% 以上。
McMullan 表示,NVIDIA 加速的 Apache Spark 還有另外一個(gè)重大優(yōu)勢。它在計(jì)算時(shí)間上極為高效,使其團(tuán)隊(duì)能夠經(jīng)濟(jì)地構(gòu)建模型,從而幫助澳大利亞聯(lián)邦銀行提供更好的客戶服務(wù)、預(yù)測客戶可能何時(shí)需要住房貸款方面的幫助,以及更快地檢測欺詐交易。
澳大利亞聯(lián)邦銀行還計(jì)劃使用 NVIDIA 加速的 Apache Spark 更好地確定客戶通常在何處結(jié)束其數(shù)字旅程,從而能夠在必要時(shí)采取補(bǔ)救措施,以降低放棄申請的比例。
全球生態(tài)系統(tǒng)
適用于 Apache Spark 的 RAPIDS 加速器通過全球合作伙伴網(wǎng)絡(luò)提供。目前已經(jīng)在亞馬遜云科技、Cloudera、Databricks、Dataiku、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 平臺(tái)上線。
Dell Technologies 同日也宣布,將適用于 Apache Spark 的 RAPIDS 加速器集成到 Dell Data Lakehouse 中。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5489瀏覽量
109016 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5502瀏覽量
74620
原文標(biāo)題:GTC25 | NVIDIA 加速的 Apache Spark 助力企業(yè)節(jié)省大量成本
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA DGX Spark系統(tǒng)恢復(fù)過程與步驟
NVIDIA DGX Spark助力構(gòu)建自己的AI模型
在NVIDIA DGX Spark平臺(tái)上對NVIDIA ConnectX-7 200G網(wǎng)卡配置教程
NVIDIA DGX Spark快速入門指南
NVIDIA宣布開源Aerial軟件
MediaTek攜手NVIDIA開啟個(gè)人AI算力新紀(jì)元
NVIDIA DGX Spark桌面AI計(jì)算機(jī)開啟預(yù)訂
使用NVIDIA GPU加速Apache Spark中Parquet數(shù)據(jù)掃描
NVIDIA技術(shù)助力企業(yè)創(chuàng)建主權(quán)AI智能體
NVIDIA助力解決量子計(jì)算領(lǐng)域重大挑戰(zhàn)
英偉達(dá)GTC2025亮點(diǎn):NVIDIA認(rèn)證計(jì)劃擴(kuò)展至企業(yè)存儲(chǔ)領(lǐng)域,加速AI工廠部署
英偉達(dá)GTC2025亮點(diǎn):Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理
NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個(gè)人AI計(jì)算機(jī)
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理
NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)

NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本
評論