chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Apache Spark 3.2有哪些新特性

數(shù)據(jù)分析與開發(fā) ? 來(lái)源:過(guò)往記憶大數(shù)據(jù) ? 作者:過(guò)往記憶大數(shù)據(jù) ? 2021-11-17 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

經(jīng)過(guò)七輪投票, Apache Spark 3.2 終于正式發(fā)布了。Apache Spark 3.2 已經(jīng)是 Databricks Runtime 10.0 的一部分,感興趣的同學(xué)可以去試用一下。按照慣例,這個(gè)版本應(yīng)該不是穩(wěn)定版,所以建議大家不要在生產(chǎn)環(huán)境中使用。

Spark 的每月 Maven 下載數(shù)量迅速增長(zhǎng)到 2000 萬(wàn),與去年同期相比,Spark 的月下載量翻了一番。Spark 已成為在單節(jié)點(diǎn)機(jī)器或集群上執(zhí)行數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的最廣泛使用的引擎。

Spark 3.2 繼續(xù)以使 Spark 更加統(tǒng)一、簡(jiǎn)單、快速和可擴(kuò)展為目標(biāo),通過(guò)以下特性擴(kuò)展其范圍:

?在 Apache Spark 上引入 panda API,統(tǒng)一小數(shù)據(jù)API和大數(shù)據(jù)API。

?完成 ANSI SQL 兼容模式,簡(jiǎn)化 SQL 工作負(fù)載的遷移。

?自適應(yīng)查詢執(zhí)行產(chǎn)品化完成,以在運(yùn)行時(shí)加速 Spark SQL。

?引入 RocksDB 狀態(tài)存儲(chǔ)以使?fàn)顟B(tài)處理更具可擴(kuò)展性。

在這篇博文中,我們總結(jié)了一些更高層次的特性和改進(jìn)。請(qǐng)關(guān)注即將發(fā)布的深入研究這些特性的文章。有關(guān)所有 Spark 組件的主要功能和已解決的 JIRA 的完整列表,請(qǐng)參閱 Apache Spark 3.2.0 release notes

統(tǒng)一小數(shù)據(jù) API 和大數(shù)據(jù) API

Python 是 Spark 上使用最廣泛的語(yǔ)言。為了使 Spark 更具 Python 風(fēng)格,Pandas API 被引入到 Spark,作為 Project Zen 的一部分(另請(qǐng)參閱 Data + AI Summit 2021 會(huì)議中的 Project Zen: Making Data Science Easier in PySpark 議題)?,F(xiàn)在 pandas 的現(xiàn)有用戶可以通過(guò)一行更改來(lái)擴(kuò)展他們的 pandas 應(yīng)用程序。如下圖所示,得益于 Spark 引擎中的復(fù)雜優(yōu)化,單節(jié)點(diǎn)機(jī)器 [左] 和多節(jié)點(diǎn) Spark 集群 [右] 的性能都可以得到極大提升。

同時(shí),Python 用戶還可以無(wú)縫利用 Spark 提供的統(tǒng)一分析功能,包括通過(guò) SQL 查詢數(shù)據(jù)、流處理和可擴(kuò)展機(jī)器學(xué)習(xí) (ML)。新的 Pandas API 還提供了由 plotly 后端支持的交互式數(shù)據(jù)可視化。

簡(jiǎn)化 SQL 遷移

添加了更多 ANSI SQL 功能(例如,支持 lateral join)。經(jīng)過(guò)一年多的發(fā)展,本次發(fā)布的 ANSI SQL 兼容處于 GA 狀態(tài)。為了避免大量破壞行為的更改,默認(rèn)情況下 spark.sql.ansi.enabled 依然是未啟用的。ANSI 模式包括以下主要行為更改:

?當(dāng) SQL 運(yùn)算符/函數(shù)的輸入無(wú)效時(shí),會(huì)拋出運(yùn)行時(shí)錯(cuò)誤,而不是返回為 null (SPARK-33275)。例如,算術(shù)運(yùn)算中的整數(shù)值溢出錯(cuò)誤,或?qū)⒆址D(zhuǎn)換為數(shù)字/時(shí)間戳類型時(shí)的解析錯(cuò)誤。

?標(biāo)準(zhǔn)化類型強(qiáng)制語(yǔ)法規(guī)則 (SPARK-34246)。新規(guī)則定義了給定數(shù)據(jù)類型的值是否可以基于數(shù)據(jù)類型優(yōu)先級(jí)列表隱式提升為另一種數(shù)據(jù)類型,這比默認(rèn)的非 ANSI 模式更直接。

?新的顯式轉(zhuǎn)換語(yǔ)法規(guī)則 (SPARK-33354)。當(dāng) Spark 查詢包含非法類型轉(zhuǎn)換(例如,日期/時(shí)間戳類型轉(zhuǎn)換為數(shù)字類型)時(shí),會(huì)拋出編譯時(shí)錯(cuò)誤,告知用戶轉(zhuǎn)換無(wú)效。

此版本還包括一些尚未完全完成的新計(jì)劃。例如,標(biāo)準(zhǔn)化 Spark 中的異常消息(SPARK-33539);引入 ANSI interval type (SPARK-27790) 并提高相關(guān)子查詢的覆蓋范圍 (SPARK-35553)。

在運(yùn)行時(shí)加速 Spark SQL

此版本 (SPARK-33679) 中默認(rèn)啟用自適應(yīng)查詢執(zhí)行 (AQE)。為了提高性能,AQE 可以根據(jù)在運(yùn)行時(shí)收集的準(zhǔn)確統(tǒng)計(jì)信息重新優(yōu)化查詢執(zhí)行計(jì)劃。在大數(shù)據(jù)中,維護(hù)和預(yù)先收集統(tǒng)計(jì)數(shù)據(jù)的成本很高。無(wú)論優(yōu)化器有多先進(jìn),缺乏準(zhǔn)確的統(tǒng)計(jì)信息通常會(huì)導(dǎo)致計(jì)劃效率低下。在這個(gè)版本中,AQE 與所有現(xiàn)有的查詢優(yōu)化技術(shù)(例如,動(dòng)態(tài)分區(qū)修剪,Dynamic Partition Pruning)完全兼容,以重新優(yōu)化 JOIN 策略、傾斜 JOIN 和 shuffle分區(qū)合并。

小數(shù)據(jù)和大數(shù)據(jù)都應(yīng)該在統(tǒng)一的數(shù)據(jù)分析系統(tǒng)中以高效的方式處理。短查詢性能也變得至關(guān)重要。當(dāng)處理的數(shù)據(jù)量相當(dāng)小時(shí),在復(fù)雜查詢中編譯 Spark 查詢的開銷非常大。為了進(jìn)一步降低查詢編譯延遲,Spark 3.2.0刪除了分析器/優(yōu)化器規(guī)則(SPARK-35042、SPARK-35103) 中不必要的查詢計(jì)劃遍歷,并加快了新查詢計(jì)劃的構(gòu)建 (SPARK-34989)。因此,與 Spark 3.1.2 相比,TPC-DS 查詢的編譯時(shí)間減少了 61%。

更可擴(kuò)展的狀態(tài)處理流

Structured Streaming 中狀態(tài)存儲(chǔ)的默認(rèn)實(shí)現(xiàn)是不可伸縮的,因?yàn)榭梢跃S護(hù)的狀態(tài)數(shù)量受執(zhí)行器堆大小的限制。在此版本中,Databricks 為 Spark 社區(qū)基于 RocksDB 的狀態(tài)存儲(chǔ)實(shí)現(xiàn)做出了貢獻(xiàn),該實(shí)現(xiàn)已在 Databricks 生產(chǎn)中使用了四年多。這種狀態(tài)存儲(chǔ)可以通過(guò)對(duì)鍵進(jìn)行排序來(lái)避免完全掃描,并在不依賴于執(zhí)行器堆大小的情況下從磁盤提供數(shù)據(jù)。

此外,狀態(tài)存儲(chǔ) API 還包含用于前綴匹配掃描 (SPARK-35861) 的 API,以有效支持基于事件時(shí)間的會(huì)話 (SPARK-10816),允許用戶在 eventTime 上對(duì)會(huì)話窗口進(jìn)行聚合。更多細(xì)節(jié),請(qǐng)閱讀 Native support of session window in Apache Spark’s Structured Streaming 博文。

Spark 3.2 的其他更新

除了上面這些新功能外,這個(gè)版本還關(guān)注可用性、穩(wěn)定性和功能加強(qiáng),解決了大約 1700 個(gè) JIRA tickets。這是 200 多名貢獻(xiàn)者貢獻(xiàn)的結(jié)果,包括個(gè)人和公司,如 Databricks,蘋果,Linkedin, Facebook,微軟,英特爾,阿里巴巴,英偉達(dá),Netflix, Adobe 等。我們?cè)谶@篇博文中重點(diǎn)介紹了 Spark 中的許多關(guān)鍵 SQL、Python 和流數(shù)據(jù)改進(jìn),但 3.2 里程碑中還有許多其他功能,包括代碼生成覆蓋率的改進(jìn)和連接器的增強(qiáng),您可以在版本中了解更多信息。

開始使用 Spark 3.2

如果您想在 Databricks Runtime 10.0 中試用 Apache Spark 3.2,請(qǐng)注冊(cè) Databricks 社區(qū)版或 Databricks 試用版,這兩者都是免費(fèi)的,并在幾分鐘內(nèi)就可以使用。如果你想自己搭建的話,可以到 這里 下載。

本文翻譯自 《Introducing Apache Spark 3.2》:https://databricks.com/blog/2021/10/19/introducing-apache-spark-3-2.html

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7324

    瀏覽量

    94289
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    2283

    瀏覽量

    66536

原文標(biāo)題:Apache Spark 3.2 正式發(fā)布,新特性詳解

文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA DGX Spark桌面級(jí)AI超級(jí)計(jì)算機(jī)助力開發(fā)者構(gòu)建AI模型

    開源 AI 正在加速各行各業(yè)的創(chuàng)新,NVIDIA DGX Spark 將幫助開發(fā)者將創(chuàng)新轉(zhuǎn)化為影響力。
    的頭像 發(fā)表于 01-09 09:49 ?231次閱讀

    TUSB8044A四端口USB 3.2第1代集線器:特性、應(yīng)用與設(shè)計(jì)要點(diǎn)

    TUSB8044A四端口USB 3.2第1代集線器:特性、應(yīng)用與設(shè)計(jì)要點(diǎn) 在電子設(shè)備不斷發(fā)展的今天,USB接口的應(yīng)用越來(lái)越廣泛,對(duì)USB集線器的性能和功能要求也越來(lái)越高。TUSB8044A作為一款
    的頭像 發(fā)表于 12-18 10:00 ?224次閱讀

    TUSB8042A四端口USB 3.2 x1 Gen1集線器:特性、應(yīng)用與設(shè)計(jì)要點(diǎn)

    TUSB8042A四端口USB 3.2 x1 Gen1集線器:特性、應(yīng)用與設(shè)計(jì)要點(diǎn) 引言 在當(dāng)今數(shù)字化時(shí)代,USB接口的應(yīng)用無(wú)處不在,而USB集線器作為擴(kuò)展USB端口數(shù)量的重要設(shè)備,其性能和功能
    的頭像 發(fā)表于 12-17 17:55 ?1144次閱讀

    如何在DGX Spark上運(yùn)行NVIDIA Omniverse

    首先感謝 Vigor 同學(xué)第一時(shí)間的分享,以下是具體如何在 DGX Spark 上運(yùn)行 Omniverse 的方法。
    的頭像 發(fā)表于 12-17 10:13 ?407次閱讀
    如何在DGX <b class='flag-5'>Spark</b>上運(yùn)行NVIDIA Omniverse

    TUSB1142:USB 3.2 轉(zhuǎn)接驅(qū)動(dòng)器的卓越之選

    USB - C 應(yīng)用設(shè)計(jì)的 10Gbps USB 3.2 線性轉(zhuǎn)接驅(qū)動(dòng)器,無(wú)疑是解決信號(hào)傳輸問(wèn)題的得力助手。今天,我們就來(lái)深入了解一下 TUSB1142 的特性、應(yīng)用以及設(shè)計(jì)要點(diǎn)。 文件下載
    的頭像 發(fā)表于 12-16 14:50 ?297次閱讀

    NVIDIA DGX Spark系統(tǒng)恢復(fù)過(guò)程與步驟

    在使用 NVIDIA DGX Spark 的過(guò)程中,可能會(huì)出現(xiàn)配置故障,而導(dǎo)致開發(fā)中斷的問(wèn)題,本篇教程將帶大家了解如何一步步完成系統(tǒng)恢復(fù)。
    的頭像 發(fā)表于 11-28 09:46 ?4773次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>系統(tǒng)恢復(fù)過(guò)程與步驟

    NVIDIA DGX Spark助力構(gòu)建自己的AI模型

    2025 年 1 月 6 日,NVIDIA 正式宣布其 Project DIGITS 項(xiàng)目,并于 3 月 18 日更名為 NVIDIA DGX Spark,進(jìn)一步公布了產(chǎn)品細(xì)節(jié)。DGX Spark
    的頭像 發(fā)表于 11-21 09:25 ?987次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>助力構(gòu)建自己的AI模型

    NVIDIA DGX Spark快速入門指南

    NVIDIA DGX Spark 已正式向 AI 開發(fā)者交付,對(duì)于剛?cè)胧值娜?DGX Spark,該如何進(jìn)行初始化設(shè)置?本篇文章將引導(dǎo)您完成 DGX Spark 首次設(shè)置。在初始設(shè)置的過(guò)程中,您
    的頭像 發(fā)表于 11-17 14:11 ?5530次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>快速入門指南

    NVIDIA DGX Spark新一代AI超級(jí)計(jì)算機(jī)正式交付

    NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛在 SpaceX 向埃隆·馬斯克交付 DGX Spark。
    的頭像 發(fā)表于 10-21 10:41 ?899次閱讀

    NVIDIA DGX Spark桌面AI計(jì)算機(jī)開啟預(yù)訂

    DGX Spark 現(xiàn)已開啟預(yù)訂!麗臺(tái)科技作為 NVIDIA 授權(quán)分銷商,提供從產(chǎn)品到服務(wù)的一站式解決方案,助力輕松部署桌面 AI 計(jì)算機(jī)。
    的頭像 發(fā)表于 09-23 17:20 ?1123次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>桌面AI計(jì)算機(jī)開啟預(yù)訂

    使用NVIDIA GPU加速Apache Spark中Parquet數(shù)據(jù)掃描

    的方式組織數(shù)據(jù),這使得 Parquet 在查詢時(shí)僅讀取所需的列,而無(wú)需掃描整行數(shù)據(jù),即可實(shí)現(xiàn)高性能的查詢和分析。高效的數(shù)據(jù)布局使 Parquet 在現(xiàn)代分析生態(tài)系統(tǒng)中成為了受歡迎的選擇,尤其是在 Apache Spark 工作負(fù)載中。
    的頭像 發(fā)表于 07-23 10:52 ?899次閱讀
    使用NVIDIA GPU加速<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中Parquet數(shù)據(jù)掃描

    FVT-3SVCTCXO 3.2×2.5mm:GPS/IoT/移動(dòng)設(shè)備應(yīng)用規(guī)格與特性概述

    內(nèi)容概要:本文檔詳細(xì)介紹了FVT-3S系列SMD VCTCXO(電壓控制溫度補(bǔ)償晶體振蕩器)的技術(shù)規(guī)格和應(yīng)用特性。該產(chǎn)品具有緊湊的3.2×2.5×0.9毫米陶瓷封裝,適用于低功耗、小型化和輕量化要求
    發(fā)表于 06-25 13:50 ?0次下載

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項(xiàng)目,通過(guò)采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動(dòng)加速其數(shù)據(jù)中心規(guī)模的分析工作負(fù)載,從而節(jié)省數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 03-25 15:09 ?1036次閱讀
    NVIDIA加速的<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>助力企業(yè)節(jié)省大量成本

    IBM發(fā)布全新Granite 3.2 AI模型

    Granite 3.2 是小型的 AI 模型,通過(guò)對(duì)開發(fā)人員友好的授權(quán)條款,提供推理、視覺(jué)和護(hù)欄功能。
    的頭像 發(fā)表于 03-06 16:47 ?964次閱讀

    什么是 USB 3.2?

    什么是USB3.2?USB3.2是一種USB(通用串行總線)標(biāo)準(zhǔn),它建立在之前的USB3.0和USB3.1標(biāo)準(zhǔn)之上。它的開發(fā)是為了提供更快的數(shù)據(jù)傳輸速度和更高的整體性能。提高數(shù)據(jù)傳輸速度
    的頭像 發(fā)表于 01-24 11:39 ?1.3w次閱讀
    什么是 USB <b class='flag-5'>3.2</b>?