曰本美女∴一区二区特级A级黄色大片, 国产亚洲精品美女久久久久久2025, 页岩实心砖-高密市宏伟建材有限公司, 午夜小视频在线观看欧美日韩手机在线,国产人妻奶水一区二区,国产玉足,妺妺窝人体色WWW网站孕妇,色综合天天综合网中文伊,成人在线麻豆网观看

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

高效地擴展Polars GPU Parquet讀取器

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2025-04-21 17:12 ? 次閱讀

51b13412-1c3a-11f0-9310-92fbcf53809c.png

在處理大型數據集時,數據處理工具的性能至關重要。Polars 作為一個以速度和效率著稱的開源數據處理庫,它提供了由 cuDF 驅動的 GPU 加速后端,能夠顯著提升性能。

然而,要想充分發(fā)揮 Polars GPU 后端的優(yōu)勢,優(yōu)化數據加載過程并有效地管理工作流所需的內存至關重要。隨著 GPU 后端開發(fā)的持續(xù)進展,在使用 GPU Parquet 讀取器處理不斷增大的數據集時,可以使用一些其他技術來保持高性能?,F有的 Polars GPU Parquet 讀取器(包括至 24.10 版本)無法針對更大的數據集進行擴展。

本文探討了分塊 Parquet 讀取器與統一虛擬內存(UVM)相結合,如何能夠超越非分塊讀取器和基于 CPU 的方法。

標度因數和非分塊讀取器帶來的挑戰(zhàn)

隨著標度因數(SF)的增加,非分塊 GPU Polars 讀取器(24.10 版)常常會遇到困難。當標度因數超過 200 時,性能會顯著下降。在 Query 9 等特定場景下,非分塊 GPU 讀取器甚至在標度因數達到 50 之前就會出問題。這種限制源于將大型 Parquet 文件加載到 GPU 內存時的內存限制。非分塊 Parquet 讀取器圖表會缺失數據,這凸顯了在標度因數較高時遇到的內存溢出(OOM)錯誤。

51bbc968-1c3a-11f0-9310-92fbcf53809c.png

圖 1. Query 13 執(zhí)行的可靠性,對比 24.10 版和 24.1 2版 Parquet 讀取器

通過分塊 Parquet 讀取提升 I/O 和峰值內存性能

為了突破這些內存限制,分塊 Parquet 讀取器就變得至關重要。通過將 Parquet 文件切分為較小數據塊進行讀取,可以減少內存占用,使 Polars GPU 能夠處理更大的數據集。對于任何給定的查詢,與非分塊讀取器相比,使用單次讀取限制為 16GB 的分塊 Parquet 讀取器能夠執(zhí)行更多的標度因數。對于 Query 9,必須使用 16GB 或 32GB 的分塊 Parquet 讀取方式才能執(zhí)行并實現更高的吞吐量。

51c87fbe-1c3a-11f0-9310-92fbcf53809c.png

圖 2. 針對 Query 9,通過改變標度因數不同分塊大小(pass_read_limit)進行吞吐量對比

借助統一虛擬內存讀取更大的數據集

雖然分塊讀取優(yōu)化了內存管理,但統一虛擬內存將性能提升到了新的高度。統一虛擬內存使 GPU 能夠直接訪問系統內存,進一步緩解了內存限制并提高了數據傳輸效率。

相比之下,未配備統一虛擬內存的分塊讀取器在標度因數達到 100 之前就會觸發(fā)內存溢出錯誤。分塊讀取器與統一虛擬內存相結合,可以在更高的標度因數下成功地執(zhí)行查詢,不過吞吐量會受到影響。

圖 3 顯示了這一顯著優(yōu)勢。與非分塊 Parquet 讀取器相比,配備統一虛擬內存的分塊 Parquet 讀取器能夠成功地執(zhí)行標度因數更高的查詢。

51d51c60-1c3a-11f0-9310-92fbcf53809c.png

圖 3. 配備統一虛擬內存的分塊讀取器、CPU 以及未配備統一虛擬內存時的 Query 13 吞吐量(數值越高性能表現越好)

穩(wěn)定性和吞吐量

在選擇最佳的pass_read_limit時,需要重點考慮穩(wěn)定性和吞吐量之間的平衡。圖 1-圖 3 表明,16GB 或 32GB 的pass_read_limit實現了兩者最優(yōu)的平衡。

32GBpass_read_limit:除了 Query 9 和 Query 19 因內存溢出異常遭遇失敗外,所有其他查詢均成功完成。

16GBpass_read_limit:所有查詢均成功完成。

分塊 GPU 與 CPU 的比較

觀察結果顯示,每次查詢的吞吐量通常高于 CPU Polars,這使得許多在未分塊時無法完成的查詢得以完成。建議將pass_read_limit參數設置為 16GB 或 32GB,該閾值設定具有合理性。與非分塊 Parquet 讀取器相比,16GB 或 32GB 的pass_read_limit能夠在更高的標度因數下成功地執(zhí)行查詢。

結論

對于 Polars GPU 而言,配備統一虛擬內存的分塊 Parquet 讀取器通常優(yōu)于 Polars CPU 和非分塊Parquet 讀取器,尤其是在處理大規(guī)模數據集和高標度因數場景時。通過優(yōu)化數據加載過程,可以充分發(fā)揮 Polars GPU 的潛力,顯著提升性能。作為最新的cudf-polars(24.12 版及更高版本)的一部分,分塊 Parquet 讀取器和統一虛擬內存是讀取 Parquet 文件的默認方式。這使得所有查詢和標度因數都實現了像上述的性能提升。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4889

    瀏覽量

    130473
  • 讀取器
    +關注

    關注

    0

    文章

    51

    瀏覽量

    5387
  • 虛擬內存
    +關注

    關注

    0

    文章

    78

    瀏覽量

    8195

原文標題:高效地擴展 Polars GPU Parquet 讀取器

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    什么是可編程讀取器?

    無線頻率識別(RFID)是一種自動 ID 技術,其可識別任何含有編碼卷標的物體。 UHFRFID 系統由一個讀取器 (或詢問) 組成,該讀取器調變一個 860MHz 至 960MHz 頻率范圍內
    發(fā)表于 09-30 06:46

    Impinj發(fā)布Speedway Revolution讀取器

    Impinj 發(fā)布Speedway Revolution 讀取器 領先的 UHF Gen 2 RFID 技術供應商 Impinj 公司宣布推出 Speedway Revolution 讀取器,綜合有公司的創(chuàng)新性 Autopi
    發(fā)表于 11-13 17:34 ?1261次閱讀

    指紋讀取器的掃描范圍/分辨率/接口

    指紋讀取器的掃描范圍/分辨率/接口 掃描范圍      
    發(fā)表于 12-28 14:27 ?674次閱讀

    指紋讀取器

    指紋讀取器              指紋讀取器是一
    發(fā)表于 12-28 14:29 ?1067次閱讀

    指紋讀取器的電力規(guī)格/支持的操作系統

    指紋讀取器的電力規(guī)格/支持的操作系統 電力規(guī)格    &nb
    發(fā)表于 12-28 14:31 ?694次閱讀

    指紋讀取器的認證/傳感元件

    指紋讀取器的認證/傳感元件  認證              認證指的是一種產品是不是經過了一些權威部門
    發(fā)表于 12-28 14:37 ?748次閱讀

    單一處理簡化RFID讀取器設計及RFID系統范例分析

    目前大多數RFID讀取器必須使用一個以上的處理才能符合應用裝置需求,透過使用匯聚型(Convergent)處理,以單一處理即可滿足。本文將聚焦于RFID
    發(fā)表于 12-11 18:50 ?1354次閱讀
    單一處理<b class='flag-5'>器</b>簡化RFID<b class='flag-5'>讀取器</b>設計及RFID系統范例分析

    訊寶科技推出第2代移動型RFID讀取器RD5000

    近日美國訊寶科技公司宣布推出緊湊式第2代移動型RFID讀取器RD5000。該讀取器可集成在叉車、平板式起重機、拉伸式包裝機和其它原材料處理設備上,以便在不同的空間受限的環(huán)境中使用。RD5000移動型RFID讀取器將RFID的使用
    發(fā)表于 12-13 13:03 ?1094次閱讀

    如何使用處理區(qū)來簡化rfid讀取器

    本文聚焦于RFID讀取器的功能,探索必須在RFID讀取器上執(zhí)行的基本軟件元件以及伺服連結,并提供利用單一處理完成相關設計的系統設定建議。
    發(fā)表于 01-07 16:46 ?888次閱讀
    如何使用處理區(qū)來簡化rfid<b class='flag-5'>讀取器</b>

    近距離讀取器天線的設計示例詳細說明

    本文檔的主要內容詳細介紹的是近距離讀取器天線的設計示例詳細說明。
    發(fā)表于 05-13 17:30 ?16次下載
    近距離<b class='flag-5'>讀取器</b>天線的設計示例詳細說明

    讓Arduino充當玻璃容器中的控制和傳感讀取器

    電子發(fā)燒友網站提供《讓Arduino充當玻璃容器中的控制和傳感讀取器.zip》資料免費下載
    發(fā)表于 11-22 14:27 ?0次下載
    讓Arduino充當玻璃容器中的控制<b class='flag-5'>器</b>和傳感<b class='flag-5'>器</b><b class='flag-5'>讀取器</b>

    帶RC522 RFID讀取器套件的BUONO UNO R3

    電子發(fā)燒友網站提供《帶RC522 RFID讀取器套件的BUONO UNO R3.zip》資料免費下載
    發(fā)表于 12-27 09:20 ?3次下載
    帶RC522 RFID<b class='flag-5'>讀取器</b>套件的BUONO UNO R3

    指紋讀取器上進行掃描什么意思

    指紋讀取器是一種生物識別技術,它通過掃描和分析個人的指紋來識別身份。指紋是人體手指皮膚上的獨特紋理,每個人的指紋都是獨一無二的,即使是同卵雙胞胎的指紋也會有所不同。這種技術已經被廣泛應用于安全
    的頭像 發(fā)表于 10-14 10:57 ?677次閱讀

    二維碼讀取器讀取DPM金屬零件激光雕刻碼

    二維碼讀取器,作為現代自動識別技術的重要組成部分,其在各行各業(yè)的應用日益廣泛。特別是在工業(yè)制造領域,二維碼讀取器讀取DPM(DirectPartMark)金屬零件激光雕刻碼的技術,更是展現了其高精度
    的頭像 發(fā)表于 01-02 16:21 ?433次閱讀
    二維碼<b class='flag-5'>讀取器</b><b class='flag-5'>讀取</b>DPM金屬零件激光雕刻碼

    二維碼讀取器是干嘛的

    二維碼讀取器(用于二維碼讀取的機器),作為一種現代化的自動識別技術設備,正日益滲透到我們生活的方方面面。從商場購物到物流配送,從醫(yī)療管理到工業(yè)生產線,二維碼讀取器憑借其高效、準確的
    的頭像 發(fā)表于 03-17 15:57 ?238次閱讀
    二維碼<b class='flag-5'>讀取器</b>是干嘛的