隨著 AI 正幫助各行各業(yè)推動創(chuàng)新和提高效率,基于海量的高質(zhì)量數(shù)據(jù)來訓(xùn)練各種模型是充分發(fā)揮 AI 應(yīng)用潛力的必經(jīng)之路,正因如此,數(shù)據(jù)科學(xué)家們面臨著日益增長的工作負(fù)載需求,迫切需求尋找高效趁手的工具以應(yīng)對挑戰(zhàn)。
Pandas 是一個靈活而強大的 Python 數(shù)據(jù)分析和處理庫,由于其是一款非常易于使用的 API,成為了數(shù)據(jù)科學(xué)家的首選。然而,隨著數(shù)據(jù)集大小的增長,Pandas 在純 CPU 系統(tǒng)中的處理速度和效率方面就會遇到困難。
對于面向數(shù)據(jù)分析工作的 DataFrame 軟件庫,除了 Pandas,目前還有一顆冉冉上升的開源新星——Polars。相比于主要依賴單線程執(zhí)行的 Pandas,Polars 在處理大數(shù)據(jù)集時的速度通常比其快 5 到 10 倍。
盡管 Pandas 和 Polars 在數(shù)據(jù)處理領(lǐng)域各有所長,但是處理超大數(shù)據(jù)集不僅需要極致發(fā)揮 CPU 的能力,也需要 GPU 發(fā)揮作用。在這一背景下,NVIDIA 發(fā)布了 RAPIDS cuDF 庫,用于加載、連接、聚合、過濾和以其他方式操作數(shù)據(jù),充分利用了 GPU 大規(guī)模并行處理能力的優(yōu)勢。
RAPIDS 是一套開源的 GPU 加速 Python 程序庫,旨在改進(jìn)數(shù)據(jù)科學(xué)和分析工作流。RAPIDS cuDF 是一個 GPU DataFrame 程序庫,其提供了一個類似 Pandas 的 API,用于加載、過濾和操作數(shù)據(jù)。cuDF 的早期版本只適用于 GPU 開發(fā)工作流程。而 NVIDIA 也在持續(xù)對這一應(yīng)用進(jìn)行更新。
現(xiàn)在 RAPIDS cuDF 可以為 950 萬 Pandas 用戶帶來 GPU 加速,而無需他們更改代碼,根據(jù)數(shù)據(jù)集大小為 5 GB 的分析基準(zhǔn)測試結(jié)果,處理時間縮短到原來的 1/150。而由 RAPIDS cuDF 驅(qū)動的全新 GPU 引擎已經(jīng)可將 NVIDIA GPU 上的 Polars 工作流速度最高提速 13 倍,這意味著僅在一臺機器上數(shù)據(jù)科學(xué)家就能實現(xiàn)在數(shù)秒內(nèi)處理數(shù)億行數(shù)據(jù)。
借助 RAPIDS cuDF,數(shù)據(jù)科學(xué)家現(xiàn)在可以在他們首選的代碼庫上全速運行數(shù)據(jù)處理。此外,隨著數(shù)據(jù)集規(guī)模不斷增長,處理工作占用更多內(nèi)存,在 NVIDIA RTX 加持的 AI 工作站和 PC 上的運行也實現(xiàn)了顯著的速度提升。相比于基于傳統(tǒng) CPU 的解決方案,在工作站中配合使用 cuDF 和 NVIDIA RTX 5880 Ada 架構(gòu) GPU,可以將性能提升多達(dá) 100 倍。
通過以下博客了解更多關(guān)于 RAPIDS cuDF 的最新信息,解鎖在 AI 應(yīng)用與解決方案中加速數(shù)據(jù)分析探索的創(chuàng)新靈感。
無需更改代碼即可將 Pandas 提速近 150 倍
Pandas 是 Python 生態(tài)系統(tǒng)中最流行的 DataFrame 程序庫,但它的速度會隨著 CPU 上數(shù)據(jù)量的增加而變慢?,F(xiàn)在只需一條命令,用戶就可以在無需更改代碼的情況下,使用 cuDF 將加速計算引入到其 Pandas 工作流中。根據(jù)數(shù)據(jù)集大小為 5 GB 的分析基準(zhǔn)測試結(jié)果,處理時間縮短到原來的 150 分之一。
點擊閱讀《無需更改代碼,RAPIDS cuDF 將 Pandas 提速近 150 倍》了解更多 cuDF 將統(tǒng)一的 CPU/GPU 體驗引入 Pandas 工作流并為其帶來頂尖性能的詳細(xì)信息。
RAPIDS cuDF 驅(qū)動的 Polars GPU 引擎
最高提速 13 倍
RAPIDS cuDF 驅(qū)動的 Polars GPU 引擎現(xiàn)已發(fā)布公測版,為各行各業(yè)的數(shù)據(jù)科學(xué)家和工程師提供了一種適用于中等規(guī)模數(shù)據(jù)處理的強大工具。該引擎最高能夠?qū)?NVIDIA GPU 上的 Polars 工作流速度提速 13 倍,可以在不產(chǎn)生分布式系統(tǒng)開銷的情況下,高效處理數(shù)億行規(guī)模的數(shù)據(jù)集。Polars GPU 引擎直接內(nèi)置在 Polars API 中,使所有用戶都能輕松訪問。
點擊閱讀《RAPIDS cuDF 驅(qū)動的 Polars GPU 引擎發(fā)布公測版》了解更多將 NVIDIA 加速計算引入 Polars 顯著提升加速性能的詳細(xì)介紹。
使用 RAPIDS cuDF 加速預(yù)處理工作流
突破數(shù)據(jù)科學(xué)的瓶頸
隨著 AI 和數(shù)據(jù)科學(xué)的不斷發(fā)展,快速處理和分析大量數(shù)據(jù)集的能力將成為各行業(yè)實現(xiàn)突破的關(guān)鍵差異化因素。無論是開發(fā)復(fù)雜的機器學(xué)習(xí)模型、執(zhí)行復(fù)雜的統(tǒng)計分析還是探索生成式 AI,RAPIDS cuDF 都可為新一代數(shù)據(jù)處理奠定基礎(chǔ)。
點擊閱讀《解密 AI 如何加速數(shù)據(jù)科學(xué)工作流》了解更多相關(guān)信息,預(yù)見 RTX AI 將如何為未來的工程師創(chuàng)造無限可能。
GTC 2025 將于2025 年 3 月 17 至 21 日在美國加州圣何塞及線上同步舉行。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5494瀏覽量
109016 -
gpu
+關(guān)注
關(guān)注
28文章
5090瀏覽量
134388 -
AI
+關(guān)注
關(guān)注
89文章
38003瀏覽量
295921 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
168瀏覽量
10741
原文標(biāo)題:合集詳解 RAPIDS cuDF 如何賦能 AI 加速數(shù)據(jù)科學(xué)
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學(xué)應(yīng)用
NVIDIA RAPIDS 25.06版本新增多項功能
NVIDIA AI助力科學(xué)研究領(lǐng)域持續(xù)突破
NVIDIA全棧加速代理式AI應(yīng)用落地
NVIDIA AI技術(shù)助力歐洲醫(yī)療健康行業(yè)發(fā)展
NVIDIA攜手微軟加速代理式AI發(fā)展
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
Cadence 利用 NVIDIA Grace Blackwell 加速AI驅(qū)動的工程設(shè)計和科學(xué)應(yīng)用
英偉達(dá)GTC2025亮點:NVIDIA認(rèn)證計劃擴展至企業(yè)存儲領(lǐng)域,加速AI工廠部署
英偉達(dá)GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理
NVIDIA RTX賦能AI工作站加速數(shù)據(jù)科學(xué)工作流程

NVIDIA RAPIDS cuDF如何賦能AI加速數(shù)據(jù)科學(xué)
評論