chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

能夠0.052秒打開100GB數(shù)據(jù)的一個(gè)高性能Python庫

人工智能與大數(shù)據(jù)技術(shù) ? 來源:開源最前線 ? 作者:開源最前線 ? 2021-05-20 11:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)今的數(shù)據(jù)集越來越大,臺(tái)式機(jī)的內(nèi)存甚至都裝不下,更不用說你的筆記本電腦了,盡管如此,在大數(shù)據(jù)時(shí)代,我們總是避免不了要使用大數(shù)據(jù)集,于是Vaex誕生了。

什么是Vaex?

Vaex是一個(gè)高性能Python庫,可以可視化和探索大型表格數(shù)據(jù)集,它可以在 N 維網(wǎng)格上計(jì)算每秒超過十億(10^9)個(gè)對(duì)象 / 行的統(tǒng)計(jì)信息,例如均值、總和、計(jì)數(shù)、標(biāo)準(zhǔn)差等, 磁盤上大小超過100GB的數(shù)據(jù),用Vaex只需要0.052秒就可以打開。

使用直方圖、密度圖和三維體繪制完成可視化,從而可以交互式探索大數(shù)據(jù)。Vaex 使用內(nèi)存映射、零內(nèi)存復(fù)制策略獲得最佳性能(不浪費(fèi)內(nèi)存)。

Vaex具有以下功能特性:

基于Python數(shù)據(jù)科學(xué)站(例如Panda、Scikit-Learn、arrow、xgboost、lightgbm),標(biāo)準(zhǔn)API易于采用。為Jupyter環(huán)境量身定制。

電腦運(yùn)算,結(jié)合了內(nèi)存映射,復(fù)雜的表達(dá)系統(tǒng)和快速核外算法。有效地可視化和探索大型數(shù)據(jù)集,并在一臺(tái)機(jī)器上構(gòu)建機(jī)器學(xué)習(xí)模型。

基準(zhǔn)測(cè)試,每秒可視化10億個(gè)樣本。與標(biāo)準(zhǔn)實(shí)現(xiàn)相比,PCA轉(zhuǎn)換速度提高了10倍,可在2分鐘內(nèi)處理10億個(gè)樣本。完全超出核心。

高效

Vaex不僅僅是Panda的替代品。盡管在執(zhí)行諸如的表達(dá)式時(shí),它具有類似于panda的API用于列訪問np.sqrt(ds.x**2 + ds.y**2),但不會(huì)進(jìn)行任何計(jì)算。而是創(chuàng)建一個(gè)vaex表達(dá)式對(duì)象,并在打印輸出時(shí)顯示一些預(yù)覽值。

058df76e-b48d-11eb-bf61-12bb97331649.png

使用表達(dá)式系統(tǒng),vaex僅在需要時(shí)執(zhí)行計(jì)算。同樣,數(shù)據(jù)也不必是本地的:表達(dá)式可以通過發(fā)送的方式,統(tǒng)計(jì)信息可以遠(yuǎn)程計(jì)算,這是vaex-server程序包提供的。

虛擬列

我們還可以將表達(dá)式添加到DataFrame中,從而生成虛擬列。虛擬列的行為類似于常規(guī)列,但不占用任何內(nèi)存。Vaex在實(shí)列和虛列之間沒有區(qū)別,

059f9dca-b48d-11eb-bf61-12bb97331649.png

如果表達(dá)式在運(yùn)行時(shí)真的很復(fù)雜怎么辦?通過使用Pythran或Numba,我們可以使用手動(dòng)實(shí)時(shí)(JIT)編譯來優(yōu)化計(jì)算。

05d81e48-b48d-11eb-bf61-12bb97331649.png

遠(yuǎn)程數(shù)據(jù)幀甚至支持JIT版本的表達(dá)式,擔(dān)心RAM不夠?你還可以選擇以RAM為代價(jià)擠出額外的性能。

05e23234-b48d-11eb-bf61-12bb97331649.png

可視化

進(jìn)行有意義的繪圖和可視化是了解數(shù)據(jù)的最佳方法。。但是,當(dāng)你的DataFrame包含10億行時(shí),制作標(biāo)準(zhǔn)散點(diǎn)圖不僅會(huì)花費(fèi)很長(zhǎng)時(shí)間,而且會(huì)導(dǎo)致毫無意義且難以理解的可視化。

讓我們看看這些想法的一些實(shí)際例子。我們可以使用直方圖可視化單個(gè)列的內(nèi)容。

05ede08e-b48d-11eb-bf61-12bb97331649.png

可以將其擴(kuò)展為兩個(gè)維度,從而生成熱圖。我們可以像典型的熱圖那樣簡(jiǎn)單地計(jì)算落入每個(gè)樣本中,而不是計(jì)算平均值,取總和的對(duì)數(shù)或幾乎任何自定義統(tǒng)計(jì)量。

我們甚至可以使用ipyvolume進(jìn)行3維體積渲染。

原文標(biāo)題:0.052秒打開100GB數(shù)據(jù)!這個(gè)Python開源庫牛X了

文章出處:【微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4848

    瀏覽量

    89016
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8997

    瀏覽量

    142525

原文標(biāo)題:0.052秒打開100GB數(shù)據(jù)!這個(gè)Python開源庫牛X了

文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華納云為游戲數(shù)據(jù)庫選擇高性能NVMe SSD存儲(chǔ)

    游戲數(shù)據(jù)庫對(duì)速度、可靠性和可擴(kuò)展性有極高要求。隨著在線游戲的發(fā)展,開發(fā)者越來越依賴NVMe SSD存儲(chǔ)來提供服務(wù)器租用和服務(wù)器托管解決方案。本文將指導(dǎo)您了解為游戲數(shù)據(jù)庫選擇高性能NVMe SSD存儲(chǔ)
    的頭像 發(fā)表于 09-30 16:03 ?708次閱讀

    RT-Thread Studio v2.2.9打開時(shí)無法選擇工作空間怎么解決?

    重新打開,依舊進(jìn)入了軟件安裝目錄下的工作空間。 我在網(wǎng)絡(luò)上尋求這個(gè)問題的解決辦法,但是與當(dāng)前版本的可配置選項(xiàng)完全不致,如果致則配置不生效,如修改文件內(nèi)容的配置項(xiàng)。 需求總結(jié) 需要能夠
    發(fā)表于 09-29 07:46

    快手上線鴻蒙應(yīng)用高性能解決方案:數(shù)據(jù)反序列化性能提升90%

    了其數(shù)據(jù)反序列化性能,在典型場(chǎng)景下能夠降低約90%的數(shù)據(jù)轉(zhuǎn)換耗時(shí),為鴻蒙應(yīng)用帶來了更流暢的用戶體驗(yàn)和更敏捷的交互響應(yīng)。 在鴻蒙應(yīng)用開發(fā)過程中,“class-transformer”三方
    發(fā)表于 05-15 10:01

    移動(dòng)工作站是什么?為什么工程師說它能省40%成本?

    你見過在沙漠里處理100GB地形數(shù)據(jù)的工程師嗎?或者在飛機(jī)上實(shí)時(shí)渲染4K視頻的設(shè)計(jì)師?普通筆記本遇到這些場(chǎng)景,要么卡成“磚頭”,要么扛不住沙塵、高溫直接“罷工”。而移動(dòng)工作站,就像給專業(yè)人士配了個(gè)“超能
    的頭像 發(fā)表于 04-07 15:11 ?1564次閱讀
    移動(dòng)工作站是什么?為什么工程師說它能省40%成本?

    適用于MySQL和MariaDB的Python連接器:可靠的MySQL數(shù)據(jù)連接器和數(shù)據(jù)庫

    和 Linux 的 wheel 包分發(fā)。 直接連接 該解決方案使您能夠通過 TCP/IP 建立與 MySQL 或者 MariaDB 數(shù)據(jù)庫服務(wù)器的直接連接,而無需數(shù)據(jù)庫客戶端。另外
    的頭像 發(fā)表于 01-17 12:18 ?733次閱讀
    適用于MySQL和MariaDB的<b class='flag-5'>Python</b>連接器:可靠的MySQL<b class='flag-5'>數(shù)據(jù)</b>連接器和<b class='flag-5'>數(shù)據(jù)庫</b>

    適用于Oracle的Python連接器:可訪問托管以及非托管的數(shù)據(jù)庫

    適用于 Oracle 的 Python 連接器 適用于 Oracle 的 Python 連接器是種可靠的連接解決方案,用于從 Python 應(yīng)用程序訪問 Oracle
    的頭像 發(fā)表于 01-14 10:30 ?652次閱讀

    基于 400Gbps 100G-PAM4 OSFP 和 QSFP112 的線纜和光模塊之IB網(wǎng)絡(luò)連接

    ?NVIDIA LinkX?是指英偉達(dá)提供的系列網(wǎng)絡(luò)連接解決方案,主要用于高性能計(jì)算(HPC)和數(shù)據(jù)中心環(huán)境。LinkX涵蓋了多種產(chǎn)品,包括連接交換機(jī)、網(wǎng)卡等設(shè)備的線纜和光模塊,支持從100
    的頭像 發(fā)表于 01-13 17:45 ?1300次閱讀
    基于 400Gbps <b class='flag-5'>100</b>G-PAM4 OSFP 和 QSFP112 的線纜和光模塊之IB網(wǎng)絡(luò)連接

    鴻蒙原生頁面高性能解決方案上線OpenHarmony社區(qū) 助力打造高性能原生應(yīng)用

    隨著HarmonyOS NEXT的正式推出,鴻蒙原生應(yīng)用開發(fā)熱度高漲,數(shù)量激增。但在三方應(yīng)用鴻蒙化進(jìn)程中,性能問題頻出。為此,HarmonyOS NEXT推出了整套原生頁面高性能解決方案,包括
    發(fā)表于 01-02 18:00

    pga900用GPIO輸出測(cè)試,一打開中斷程序就飛了,為什么?

    一打開中斷(現(xiàn)在也只允許PADC和TADC)程序就飛了, 提示 HardFault exception. Exception occured at PC = 0x0, LR
    發(fā)表于 12-11 06:37

    XD08M3232紅外感應(yīng)單片機(jī)擁有哪些配置實(shí)現(xiàn)高性能處理能力

    需要12個(gè)時(shí)鐘周期,而1T8051內(nèi)核則將這個(gè)時(shí)間縮短為1個(gè)時(shí)鐘周期,這極大地提高了指令執(zhí)行速度,從而在處理數(shù)據(jù)和執(zhí)行程序時(shí)能夠更快地響應(yīng),整體提升了單片機(jī)的處理
    發(fā)表于 11-23 15:08

    使用Python進(jìn)行串口通信的案例

    當(dāng)然!以下是個(gè)使用Python進(jìn)行串口通信的簡(jiǎn)單示例。這個(gè)示例展示了如何配置串口、發(fā)送數(shù)據(jù)以及接收數(shù)據(jù)。我們將使用 pyserial
    的頭像 發(fā)表于 11-22 09:11 ?2183次閱讀

    使用DAC8771EVM的過程中,一打開軟件,點(diǎn)擊HW_RESET之后Alarm指示燈就亮起了是怎么回事?

    DAC8771EVM基本工作問題 尊敬的TI工程師,在使用DAC8771EVM的過程中,一打開軟件,點(diǎn)擊HW_RESET之后,Alarm指示燈就亮起,但是我在論壇中找到的帖子中的截圖的Alarm
    發(fā)表于 11-22 07:14

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—通過拼接數(shù)據(jù)庫碎片恢復(fù)SQLserver數(shù)據(jù)庫

    個(gè)運(yùn)行在存儲(chǔ)上的SQLServer數(shù)據(jù)庫,有1000多個(gè)文件,大小幾十TB。數(shù)據(jù)庫每10天生成個(gè)
    的頭像 發(fā)表于 10-31 13:21 ?907次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—通過拼接<b class='flag-5'>數(shù)據(jù)庫</b>碎片恢復(fù)SQLserver<b class='flag-5'>數(shù)據(jù)庫</b>

    Python解析:通過實(shí)現(xiàn)代理請(qǐng)求與數(shù)據(jù)抓取

    Python中,有多個(gè)可以幫助你實(shí)現(xiàn)代理請(qǐng)求和數(shù)據(jù)抓取。這些提供了豐富的功能和靈活的API,使得你可以輕松地發(fā)送HTTP請(qǐng)求、處理響應(yīng)、解析HTML/XML/JSON
    的頭像 發(fā)表于 10-24 07:54 ?665次閱讀

    華為云 RDS for MySQL 數(shù)據(jù)庫助力音數(shù)智化轉(zhuǎn)型,引領(lǐng)社交電商新風(fēng)尚

    for MySQL 數(shù)據(jù)庫提供的高性能、高可用性數(shù)據(jù)庫解決方案,音科技不僅實(shí)現(xiàn)了運(yùn)營效率的顯著提升,更在用戶的社交分享流暢度與直播購物體驗(yàn)的深度優(yōu)化上取得了突破,引領(lǐng)整個(gè)行業(yè)向更加
    的頭像 發(fā)表于 10-22 20:24 ?1428次閱讀