阿里巴巴將于12月開源其內(nèi)部深度學習框架 X-DeepLearning,面向廣告、推薦、搜索等高維稀疏數(shù)據(jù)場景,以填補TensorFlow、PyTorch等現(xiàn)有開源深度學習框架主要面向圖像、語音等低維稠密數(shù)據(jù)的不足。
阿里巴巴內(nèi)部透露將開源內(nèi)部深度學習框架 X-DeepLearning的計劃,這是業(yè)界首個面向廣告、推薦、搜索等高維稀疏數(shù)據(jù)場景的深度學習開源框架,可以與TensorFlow、PyTorch 和 MXNet 等現(xiàn)有框架形成互補。
X-Deep Learning(下文簡稱XDL)由阿里巴巴旗下大數(shù)據(jù)營銷平臺阿里媽媽基于自身廣告業(yè)務自主研發(fā),已經(jīng)大規(guī)模部署應用在核心生產(chǎn)場景,在這次的“雙11”中也發(fā)揮了重要作用。
阿里媽媽研究人員介紹,XDL整體上跟TensorFlow和PyTorch是同級的,它們很好地解決了目前已有開源深度學習框架分布式運行能力不足,以及大規(guī)模稀疏特征表征學習能力不足的問題。
XDL 采用了“橋接”的架構設計理念。這種架構使得 XDL 跟業(yè)界的開源社區(qū)無縫對接。例如,用戶可以非常方便地在XDL框架上應用基于TensorFlow或者PyTorch編寫的最先進開源深度學習算法。此外,對于已經(jīng)在使用其他開源框架的企業(yè)或者個人用戶,也可以在原有系統(tǒng)基礎上輕松進行擴展,享受XDL帶來的高維稀疏數(shù)據(jù)場景下極致的分布式能力。
數(shù)據(jù)的高維稀疏性是廣告、推薦、搜索等互聯(lián)網(wǎng)眾多核心應用場景的特征,覆蓋了大多數(shù)互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)應用模式。
對于難以與BAT研發(fā)能力比肩的眾多互聯(lián)網(wǎng)公司而言,工業(yè)級深度學習框架XDL及內(nèi)置算法方案的開源,將助力各大公司的技術升級,大大提升廣告/推薦/搜索場景的精準性,縮短技術迭代周期。
面向廣告、推薦、搜索場景的工業(yè)級分布式開源DL框架
2016年左右,阿里媽媽團隊在研發(fā)基于深度學習的廣告點擊率預估算法時發(fā)現(xiàn),當時已有的TensorFlow、MXNet等開源框架,用來實驗算法原型可以,但真正面臨互聯(lián)網(wǎng)尺度的規(guī)模化數(shù)據(jù)時,運行效率面臨巨大的挑戰(zhàn)。
“我們第一次基于TensorFlow訓練我們實際生產(chǎn)系統(tǒng)的深度點擊率預估模型時,一天的數(shù)據(jù)量需要運行超過3天的時間模型才能收斂,”阿里媽媽研發(fā)人員告訴新智元:“典型的生產(chǎn)模型需要用到的訓練樣本往往都是歷史幾個月的數(shù)據(jù),顯然直接使用TensorFlow是不現(xiàn)實的?!?/p>
隨后,阿里媽媽團隊也試圖對TensorFlow做一些簡單優(yōu)化,但發(fā)現(xiàn)改動成本巨大。進一步剖析框架后,他們發(fā)現(xiàn)本質(zhì)的原因是TensorFlow、MXNet、PyTorch等框架大都是面向圖像、語音等領域的稠密數(shù)據(jù)設計,對廣告、推薦等場景的高維稀疏數(shù)據(jù)上的深度學習計算考慮不足。
為此,阿里媽媽啟動了XDL框架的研發(fā),希望能夠在復用已有開源框架對稠密數(shù)據(jù)的計算能力基礎上,重點打造面向工業(yè)級應用的分布式規(guī)模能力,單機能夠處理的計算則引用現(xiàn)有開源框架。
經(jīng)過2年的研發(fā)與打磨,XDL目前已經(jīng)在阿里媽媽成功部署到內(nèi)部的生產(chǎn)系統(tǒng)。以阿里媽媽定向廣告為例,2017年,以 XDL 為基礎的深度學習算法升級帶來的廣告收入提升超過百億。
“我們注意到今天業(yè)界的很多團隊還在類似的重復性工作。開源XDL,是希望把阿里巴巴的能力賦能給大家,推高全行業(yè)的整體技術水位,同時也希望能夠吸引業(yè)界的伙伴們一起來建設高維稀疏數(shù)據(jù)場景上的深度學習技術,一起成長與獲益。 ”
“在現(xiàn)有的版本中,我們在單節(jié)點稠密深度網(wǎng)絡計算上采用橋接技術,復用了 TensorFlow、MxNet 的能力,也是最大程度上復用了已有開源深度學習框架的能力?!?/p>
研究人員表示,后續(xù) XDL 也會考慮加入ONNX?!癘NNX針對稀疏計算的表征能力目前是不完善的,我們也在考慮對ONNX的協(xié)議標準進行擴充。”
研究人員表示,他們預計12月在Github公開 XDL的源代碼和使用文檔。除了核心的X-DeepLearning訓練框架,阿里還將開源面向高維稀疏數(shù)據(jù)場景的系統(tǒng)化解決方案,計劃分批次對外發(fā)布,包括面向在線實時服務的高性能深度學習預估引擎、面向全庫實時檢索的全新深度學習匹配引擎;同時還內(nèi)置阿里媽媽自主研發(fā)的一系列創(chuàng)新算法,涉及CTR預估模型、CVR預估模型、匹配召回模型、模型壓縮訓練算法等等。
不管是以廣告、推薦、搜索為代表業(yè)務的企業(yè)級用戶,還是對此感興趣的個人用戶,都可以加入到開源計劃當中。
一圖看懂阿里巴巴首次公開深度學習框架
-
阿里巴巴
+關注
關注
7文章
1643瀏覽量
48824 -
大數(shù)據(jù)
+關注
關注
64文章
8998瀏覽量
142588 -
深度學習
+關注
關注
73文章
5587瀏覽量
123726
原文標題:阿里深度學習框架開源了!無縫對接TensorFlow、PyTorch
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
博世與阿里巴巴集團深化戰(zhàn)略合作
普華基礎軟件蒞臨阿里巴巴達摩院調(diào)研交流
Arm與阿里巴巴合作加速端側多模態(tài)AI體驗
靈汐科技開源類腦深度學習應用開發(fā)平臺BIDL

評論