chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Apache Spark 3.2有哪些新特性

數(shù)據(jù)分析與開發(fā) ? 來源:過往記憶大數(shù)據(jù) ? 作者:過往記憶大數(shù)據(jù) ? 2021-11-17 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

經(jīng)過七輪投票, Apache Spark 3.2 終于正式發(fā)布了。Apache Spark 3.2 已經(jīng)是 Databricks Runtime 10.0 的一部分,感興趣的同學(xué)可以去試用一下。按照慣例,這個版本應(yīng)該不是穩(wěn)定版,所以建議大家不要在生產(chǎn)環(huán)境中使用。

Spark 的每月 Maven 下載數(shù)量迅速增長到 2000 萬,與去年同期相比,Spark 的月下載量翻了一番。Spark 已成為在單節(jié)點(diǎn)機(jī)器或集群上執(zhí)行數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的最廣泛使用的引擎。

Spark 3.2 繼續(xù)以使 Spark 更加統(tǒng)一、簡單、快速和可擴(kuò)展為目標(biāo),通過以下特性擴(kuò)展其范圍:

?在 Apache Spark 上引入 panda API,統(tǒng)一小數(shù)據(jù)API和大數(shù)據(jù)API。

?完成 ANSI SQL 兼容模式,簡化 SQL 工作負(fù)載的遷移。

?自適應(yīng)查詢執(zhí)行產(chǎn)品化完成,以在運(yùn)行時加速 Spark SQL。

?引入 RocksDB 狀態(tài)存儲以使?fàn)顟B(tài)處理更具可擴(kuò)展性。

在這篇博文中,我們總結(jié)了一些更高層次的特性和改進(jìn)。請關(guān)注即將發(fā)布的深入研究這些特性的文章。有關(guān)所有 Spark 組件的主要功能和已解決的 JIRA 的完整列表,請參閱 Apache Spark 3.2.0 release notes

統(tǒng)一小數(shù)據(jù) API 和大數(shù)據(jù) API

Python 是 Spark 上使用最廣泛的語言。為了使 Spark 更具 Python 風(fēng)格,Pandas API 被引入到 Spark,作為 Project Zen 的一部分(另請參閱 Data + AI Summit 2021 會議中的 Project Zen: Making Data Science Easier in PySpark 議題)?,F(xiàn)在 pandas 的現(xiàn)有用戶可以通過一行更改來擴(kuò)展他們的 pandas 應(yīng)用程序。如下圖所示,得益于 Spark 引擎中的復(fù)雜優(yōu)化,單節(jié)點(diǎn)機(jī)器 [左] 和多節(jié)點(diǎn) Spark 集群 [右] 的性能都可以得到極大提升。

同時,Python 用戶還可以無縫利用 Spark 提供的統(tǒng)一分析功能,包括通過 SQL 查詢數(shù)據(jù)、流處理和可擴(kuò)展機(jī)器學(xué)習(xí) (ML)。新的 Pandas API 還提供了由 plotly 后端支持的交互式數(shù)據(jù)可視化。

簡化 SQL 遷移

添加了更多 ANSI SQL 功能(例如,支持 lateral join)。經(jīng)過一年多的發(fā)展,本次發(fā)布的 ANSI SQL 兼容處于 GA 狀態(tài)。為了避免大量破壞行為的更改,默認(rèn)情況下 spark.sql.ansi.enabled 依然是未啟用的。ANSI 模式包括以下主要行為更改:

?當(dāng) SQL 運(yùn)算符/函數(shù)的輸入無效時,會拋出運(yùn)行時錯誤,而不是返回為 null (SPARK-33275)。例如,算術(shù)運(yùn)算中的整數(shù)值溢出錯誤,或?qū)⒆址D(zhuǎn)換為數(shù)字/時間戳類型時的解析錯誤。

?標(biāo)準(zhǔn)化類型強(qiáng)制語法規(guī)則 (SPARK-34246)。新規(guī)則定義了給定數(shù)據(jù)類型的值是否可以基于數(shù)據(jù)類型優(yōu)先級列表隱式提升為另一種數(shù)據(jù)類型,這比默認(rèn)的非 ANSI 模式更直接。

?新的顯式轉(zhuǎn)換語法規(guī)則 (SPARK-33354)。當(dāng) Spark 查詢包含非法類型轉(zhuǎn)換(例如,日期/時間戳類型轉(zhuǎn)換為數(shù)字類型)時,會拋出編譯時錯誤,告知用戶轉(zhuǎn)換無效。

此版本還包括一些尚未完全完成的新計(jì)劃。例如,標(biāo)準(zhǔn)化 Spark 中的異常消息(SPARK-33539);引入 ANSI interval type (SPARK-27790) 并提高相關(guān)子查詢的覆蓋范圍 (SPARK-35553)。

在運(yùn)行時加速 Spark SQL

此版本 (SPARK-33679) 中默認(rèn)啟用自適應(yīng)查詢執(zhí)行 (AQE)。為了提高性能,AQE 可以根據(jù)在運(yùn)行時收集的準(zhǔn)確統(tǒng)計(jì)信息重新優(yōu)化查詢執(zhí)行計(jì)劃。在大數(shù)據(jù)中,維護(hù)和預(yù)先收集統(tǒng)計(jì)數(shù)據(jù)的成本很高。無論優(yōu)化器有多先進(jìn),缺乏準(zhǔn)確的統(tǒng)計(jì)信息通常會導(dǎo)致計(jì)劃效率低下。在這個版本中,AQE 與所有現(xiàn)有的查詢優(yōu)化技術(shù)(例如,動態(tài)分區(qū)修剪,Dynamic Partition Pruning)完全兼容,以重新優(yōu)化 JOIN 策略、傾斜 JOIN 和 shuffle分區(qū)合并。

小數(shù)據(jù)和大數(shù)據(jù)都應(yīng)該在統(tǒng)一的數(shù)據(jù)分析系統(tǒng)中以高效的方式處理。短查詢性能也變得至關(guān)重要。當(dāng)處理的數(shù)據(jù)量相當(dāng)小時,在復(fù)雜查詢中編譯 Spark 查詢的開銷非常大。為了進(jìn)一步降低查詢編譯延遲,Spark 3.2.0刪除了分析器/優(yōu)化器規(guī)則(SPARK-35042、SPARK-35103) 中不必要的查詢計(jì)劃遍歷,并加快了新查詢計(jì)劃的構(gòu)建 (SPARK-34989)。因此,與 Spark 3.1.2 相比,TPC-DS 查詢的編譯時間減少了 61%。

更可擴(kuò)展的狀態(tài)處理流

Structured Streaming 中狀態(tài)存儲的默認(rèn)實(shí)現(xiàn)是不可伸縮的,因?yàn)榭梢跃S護(hù)的狀態(tài)數(shù)量受執(zhí)行器堆大小的限制。在此版本中,Databricks 為 Spark 社區(qū)基于 RocksDB 的狀態(tài)存儲實(shí)現(xiàn)做出了貢獻(xiàn),該實(shí)現(xiàn)已在 Databricks 生產(chǎn)中使用了四年多。這種狀態(tài)存儲可以通過對鍵進(jìn)行排序來避免完全掃描,并在不依賴于執(zhí)行器堆大小的情況下從磁盤提供數(shù)據(jù)。

此外,狀態(tài)存儲 API 還包含用于前綴匹配掃描 (SPARK-35861) 的 API,以有效支持基于事件時間的會話 (SPARK-10816),允許用戶在 eventTime 上對會話窗口進(jìn)行聚合。更多細(xì)節(jié),請閱讀 Native support of session window in Apache Spark’s Structured Streaming 博文。

Spark 3.2 的其他更新

除了上面這些新功能外,這個版本還關(guān)注可用性、穩(wěn)定性和功能加強(qiáng),解決了大約 1700 個 JIRA tickets。這是 200 多名貢獻(xiàn)者貢獻(xiàn)的結(jié)果,包括個人和公司,如 Databricks,蘋果,Linkedin, Facebook,微軟,英特爾,阿里巴巴,英偉達(dá),Netflix, Adobe 等。我們在這篇博文中重點(diǎn)介紹了 Spark 中的許多關(guān)鍵 SQL、Python 和流數(shù)據(jù)改進(jìn),但 3.2 里程碑中還有許多其他功能,包括代碼生成覆蓋率的改進(jìn)和連接器的增強(qiáng),您可以在版本中了解更多信息。

開始使用 Spark 3.2

如果您想在 Databricks Runtime 10.0 中試用 Apache Spark 3.2,請注冊 Databricks 社區(qū)版或 Databricks 試用版,這兩者都是免費(fèi)的,并在幾分鐘內(nèi)就可以使用。如果你想自己搭建的話,可以到 這里 下載。

本文翻譯自 《Introducing Apache Spark 3.2》:https://databricks.com/blog/2021/10/19/introducing-apache-spark-3-2.html

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7349

    瀏覽量

    95053
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    2481

    瀏覽量

    67056

原文標(biāo)題:Apache Spark 3.2 正式發(fā)布,新特性詳解

文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    首屆中國NVIDIA DGX Spark黑客松大賽開啟報名

    倒計(jì)時啟動!首屆中國 NVIDIA DGX Spark 黑客松(Hackathon)將于 3 月 13 日 - 3 月 28 日正式開啟報名!本屆賽事以“算力破局、AI 落地”為核心導(dǎo)向,依托
    的頭像 發(fā)表于 03-14 16:39 ?2741次閱讀

    NVIDIA DGX Spark助力高等教育領(lǐng)域重大項(xiàng)目

    在全球各地的頂尖高校,NVIDIA DGX Spark 桌面超級計(jì)算機(jī)正將數(shù)據(jù)中心級的 AI 能力帶到實(shí)驗(yàn)室臺前、教師辦公室里和學(xué)生的終端設(shè)備上。在地球最南端的南極,也有一臺 DGX Spark 正在威斯康星大學(xué)麥迪遜分校運(yùn)營的 IceCube 中微子天文臺中高速運(yùn)轉(zhuǎn)。
    的頭像 發(fā)表于 03-09 16:33 ?701次閱讀

    NVIDIA DGX Spark桌面級AI超級計(jì)算機(jī)助力開發(fā)者構(gòu)建AI模型

    開源 AI 正在加速各行各業(yè)的創(chuàng)新,NVIDIA DGX Spark 將幫助開發(fā)者將創(chuàng)新轉(zhuǎn)化為影響力。
    的頭像 發(fā)表于 01-09 09:49 ?751次閱讀

    TUSB8044A四端口USB 3.2第1代集線器:特性、應(yīng)用與設(shè)計(jì)要點(diǎn)

    TUSB8044A四端口USB 3.2第1代集線器:特性、應(yīng)用與設(shè)計(jì)要點(diǎn) 在電子設(shè)備不斷發(fā)展的今天,USB接口的應(yīng)用越來越廣泛,對USB集線器的性能和功能要求也越來越高。TUSB8044A作為一款
    的頭像 發(fā)表于 12-18 10:00 ?611次閱讀

    TUSB8042A四端口USB 3.2 x1 Gen1集線器:特性、應(yīng)用與設(shè)計(jì)要點(diǎn)

    TUSB8042A四端口USB 3.2 x1 Gen1集線器:特性、應(yīng)用與設(shè)計(jì)要點(diǎn) 引言 在當(dāng)今數(shù)字化時代,USB接口的應(yīng)用無處不在,而USB集線器作為擴(kuò)展USB端口數(shù)量的重要設(shè)備,其性能和功能
    的頭像 發(fā)表于 12-17 17:55 ?1607次閱讀

    如何在DGX Spark上運(yùn)行NVIDIA Omniverse

    首先感謝 Vigor 同學(xué)第一時間的分享,以下是具體如何在 DGX Spark 上運(yùn)行 Omniverse 的方法。
    的頭像 發(fā)表于 12-17 10:13 ?961次閱讀
    如何在DGX <b class='flag-5'>Spark</b>上運(yùn)行NVIDIA Omniverse

    TUSB1142:USB 3.2 轉(zhuǎn)接驅(qū)動器的卓越之選

    USB - C 應(yīng)用設(shè)計(jì)的 10Gbps USB 3.2 線性轉(zhuǎn)接驅(qū)動器,無疑是解決信號傳輸問題的得力助手。今天,我們就來深入了解一下 TUSB1142 的特性、應(yīng)用以及設(shè)計(jì)要點(diǎn)。 文件下載
    的頭像 發(fā)表于 12-16 14:50 ?745次閱讀

    正面對決GPT-5和Germini-3,DeepSeek-V3.2震撼發(fā)布

    12月1日,中國 AI創(chuàng)新企業(yè) DeepSeek 再度加速技術(shù)迭代,今日宣布推出 DeepSeek-V3.2 與 V3.2-Speciale 兩款模型。公司在官網(wǎng)上指出,DeepSeek-V3.2
    的頭像 發(fā)表于 12-02 14:10 ?9847次閱讀
    正面對決GPT-5和Germini-3,DeepSeek-V<b class='flag-5'>3.2</b>震撼發(fā)布

    NVIDIA DGX Spark系統(tǒng)恢復(fù)過程與步驟

    在使用 NVIDIA DGX Spark 的過程中,可能會出現(xiàn)配置故障,而導(dǎo)致開發(fā)中斷的問題,本篇教程將帶大家了解如何一步步完成系統(tǒng)恢復(fù)。
    的頭像 發(fā)表于 11-28 09:46 ?5990次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>系統(tǒng)恢復(fù)過程與步驟

    NVIDIA DGX Spark助力構(gòu)建自己的AI模型

    2025 年 1 月 6 日,NVIDIA 正式宣布其 Project DIGITS 項(xiàng)目,并于 3 月 18 日更名為 NVIDIA DGX Spark,進(jìn)一步公布了產(chǎn)品細(xì)節(jié)。DGX Spark
    的頭像 發(fā)表于 11-21 09:25 ?1585次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>助力構(gòu)建自己的AI模型

    NVIDIA DGX Spark快速入門指南

    NVIDIA DGX Spark 已正式向 AI 開發(fā)者交付,對于剛?cè)胧值娜?DGX Spark,該如何進(jìn)行初始化設(shè)置?本篇文章將引導(dǎo)您完成 DGX Spark 首次設(shè)置。在初始設(shè)置的過程中,您
    的頭像 發(fā)表于 11-17 14:11 ?7158次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>快速入門指南

    NVIDIA DGX Spark新一代AI超級計(jì)算機(jī)正式交付

    NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛在 SpaceX 向埃隆·馬斯克交付 DGX Spark
    的頭像 發(fā)表于 10-21 10:41 ?1546次閱讀

    NVIDIA DGX Spark桌面AI計(jì)算機(jī)開啟預(yù)訂

    DGX Spark 現(xiàn)已開啟預(yù)訂!麗臺科技作為 NVIDIA 授權(quán)分銷商,提供從產(chǎn)品到服務(wù)的一站式解決方案,助力輕松部署桌面 AI 計(jì)算機(jī)。
    的頭像 發(fā)表于 09-23 17:20 ?1571次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>桌面AI計(jì)算機(jī)開啟預(yù)訂

    使用NVIDIA GPU加速Apache Spark中Parquet數(shù)據(jù)掃描

    的方式組織數(shù)據(jù),這使得 Parquet 在查詢時僅讀取所需的列,而無需掃描整行數(shù)據(jù),即可實(shí)現(xiàn)高性能的查詢和分析。高效的數(shù)據(jù)布局使 Parquet 在現(xiàn)代分析生態(tài)系統(tǒng)中成為了受歡迎的選擇,尤其是在 Apache Spark 工作負(fù)載中。
    的頭像 發(fā)表于 07-23 10:52 ?1244次閱讀
    使用NVIDIA GPU加速<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中Parquet數(shù)據(jù)掃描

    FVT-3SVCTCXO 3.2×2.5mm:GPS/IoT/移動設(shè)備應(yīng)用規(guī)格與特性概述

    內(nèi)容概要:本文檔詳細(xì)介紹了FVT-3S系列SMD VCTCXO(電壓控制溫度補(bǔ)償晶體振蕩器)的技術(shù)規(guī)格和應(yīng)用特性。該產(chǎn)品具有緊湊的3.2×2.5×0.9毫米陶瓷封裝,適用于低功耗、小型化和輕量化要求
    發(fā)表于 06-25 13:50 ?0次下載