大声呻吟yin荡对白,澳门日韩欧美高清在线

開源社區(qū)通過對NVIDIA GPU的原生支持加速Spark 3.0；

實現(xiàn)數(shù)百TB數(shù)據(jù)的飛速ETL和SQL處理；

Adobe在Databricks上使用Spark 3.0將模型訓練速度提高7倍

加利福尼亞州圣克拉拉市 - GTC 2020大會 - 2020年5月14日 – NVIDIA于今日宣布其正在與開源社區(qū)合作，為Apache Spark 3.0帶來端到端的GPU加速。Apache Spark 3.0是一個熱門的分析引擎，被全球范圍內(nèi)超過50萬名數(shù)據(jù)科學家用于大數(shù)據(jù)處理。

隨著Spark 3.0預計將于春季晚些時候發(fā)布，數(shù)據(jù)科學家和機器學習工程師將首次能夠把革命性的GPU加速應用于普遍使用SQL數(shù)據(jù)庫操作進行的ETL（提取、轉(zhuǎn)換和加載）數(shù)據(jù)處理工作負載中。

此外，他們還將首次能夠在同一Spark集群上處理AI模型訓練任務(wù)，而無需將工作負載作為單獨流程在單獨的基礎(chǔ)架構(gòu)上運行。這樣就可以對整個數(shù)據(jù)科學的處理流程進行高性能數(shù)據(jù)分析，對從數(shù)據(jù)湖到模型訓練所涉及的數(shù)十、乃至數(shù)千TB的數(shù)據(jù)進行加速，而且無需對已被應用于本地和云端Spark應用程序的現(xiàn)有代碼進行修改。

NVIDIA企業(yè)計算主管Manuvir Das表示：“數(shù)據(jù)分析是當今企業(yè)和研究者所面臨最大的高性能計算挑戰(zhàn)。從ETL到訓練再到推理，整個Spark 3.0 方案的原生GPU加速為用戶提供了最終將大數(shù)據(jù)潛力與AI性能相連所需的性能和規(guī)模?！?/p>

作為NVIDIA的戰(zhàn)略AI合作伙伴，Adobe是最早在Databricks上運行Spark 3.0預覽版的公司之一。Adobe已在Adobe Experience Cloud中使用GPU加速數(shù)據(jù)分析技術(shù)進行產(chǎn)品開發(fā)，并為各項推進數(shù)字化業(yè)務(wù)進程的功能提供支持。在初步測試中其已將性能提高了7倍，并節(jié)省了90％的成本。

性能提升后的Spark 3.0讓科學家能夠訓練包含有更大數(shù)據(jù)集的模型，并增加反復訓練模型的頻率，從而提高模型的精度。現(xiàn)在，數(shù)據(jù)科學家每天可以處理數(shù)TB的新數(shù)據(jù)，這對于需要為在線推薦系統(tǒng)提供支持或分析新研究數(shù)據(jù)的數(shù)據(jù)科學家們而言至關(guān)重要。此外，處理速度的加快，減少了交付結(jié)果所需的硬件資源，從而節(jié)省了大量成本。

Adob機器學習高級總監(jiān)William Yan表示：“相比于在CPU上運行Spark，NVIDIA加速的Spark 3.0性能速度得到了大幅提高。伴隨著GPU性能的飛躍性提升，也將為我們?nèi)譇dobe Experience Cloud應用中AI功能的提升帶來新的可能性?！?/p>

Databricks和NVIDIA為Spark提速

Apache Spark最初是由Databricks的創(chuàng)始人創(chuàng)建。Databricks的云端統(tǒng)一數(shù)據(jù)分析平臺每天在一百多萬臺虛擬機上運行。NVIDIA與Databricks已開展合作，使用專為Databricks開發(fā)的RAPIDSTM軟件套件優(yōu)化Spark，將GPU加速應用于在Databricks上運行的醫(yī)療、金融、零售等眾多行業(yè)的數(shù)據(jù)科學和機器學習工作負載中。

Apache Spark最初的創(chuàng)建者兼Databricks首席技術(shù)員Matei Zaharia表示：“我們與NVIDIA開展了長期合作，用專為Apache Spark 3.0和Databricks開發(fā)的RAPIDS相關(guān)優(yōu)化來提高性能，使得像Adobe這樣的我們兩家公司共同的客戶能夠得以受益。我們所作出的這些努力加快了數(shù)據(jù)處理流程、模型訓練和評分的速度，直接為我們的數(shù)據(jù)工程師和數(shù)據(jù)科學家社區(qū)帶來更多的突破和洞見?！?/p>

NVIDIA GPU加速Spark中的ETL和數(shù)據(jù)傳輸

NVIDIA正在提供一種用于Apache Spark的全新開源RAPIDS加速器，幫助數(shù)據(jù)科學家提高其數(shù)據(jù)流程的端到端性能。該加速器能夠?qū)⒅靶枰贑PU上運行的功能，轉(zhuǎn)到GPU上運行，以發(fā)揮GPU的性能：

·在無需更改任何代碼的情況下顯著提高Spark SQL和DataFrame的運行性能，從而加速Spark中的ETL數(shù)據(jù)流程。

·無需獨立的機器學習和深度學習集群，即可在相同的基礎(chǔ)架構(gòu)上加速數(shù)據(jù)準備和模型訓練。

·加速Spark分布式集群中各節(jié)點之間的數(shù)據(jù)傳輸性能。這些資源庫使用UCF Consortium 的開源UCX（Unified Communication X）框架，并通過使數(shù)據(jù)直接在GPU內(nèi)存之間移動來最大程度地減少延遲。

Apache Software Foundation 上現(xiàn)已提供Spark 3.0的預覽版。該產(chǎn)品預計將在未來幾個月內(nèi)全面上市。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴