真正的革命并不在于分析數(shù)據(jù)的機器,而在于數(shù)據(jù)本身和我們?nèi)绾芜\用數(shù)據(jù)。
——《大數(shù)據(jù)時代》維克托·邁爾 - 舍恩伯格
二十年,是一個什么概念?
對于大數(shù)據(jù)領(lǐng)域來說,過去二十年經(jīng)歷了從新興到炒作巔峰再到實質(zhì)生產(chǎn)高峰期的過程,并開啟了一次重大的時代轉(zhuǎn)型。被業(yè)界廣泛認(rèn)可的“大數(shù)據(jù)”定義由著名咨詢公司 Gartner 的高級分析師道格拉斯·蘭尼 (Douglas Laney)在 2001 年提出;大數(shù)據(jù)經(jīng)典框架 Hadoop 則誕生于 2006 年;如今,大數(shù)據(jù)技術(shù)已經(jīng)從 Hadoop 推動的第一代向更智能、更實時、面向交互的技術(shù)方向轉(zhuǎn)變。
而數(shù)據(jù)挖掘的歷史比大數(shù)據(jù)要長得多,在數(shù)據(jù)量還遠(yuǎn)遠(yuǎn)沒有今天如此龐大的時候,人們就已經(jīng)想方設(shè)法從中挖掘價值。對索信達(dá)首席科學(xué)家張磊博士來說,過去二十年是見證數(shù)據(jù)挖掘和分析技術(shù)與應(yīng)用高速發(fā)展的二十年。
張磊從讀研開始進入數(shù)據(jù)挖掘和分析領(lǐng)域,博士畢業(yè)后一直在提供企業(yè)級大數(shù)據(jù)解決方案的知名廠商工作,從 Teradata 到 IBM、SAS,他參與了橫跨運營商到金融行業(yè)的數(shù)十個項目,有著豐富的從業(yè)經(jīng)歷。今年年初,張磊選擇加入專注金融數(shù)字化服務(wù)的索信達(dá),擔(dān)任首席科學(xué)家,希望推動國內(nèi)金融大數(shù)據(jù)行業(yè)朝著“擁抱開源、自主可控、信息融合、智能化”的方向前行。經(jīng)過大量項目實踐的磨練,他對于 To B 大數(shù)據(jù)業(yè)務(wù)和技術(shù)方案有哪些經(jīng)驗和獨到的思考?他怎樣看待金融大數(shù)據(jù)的過去和未來?做企業(yè)級大數(shù)據(jù)面臨哪些難點和挑戰(zhàn)?大數(shù)據(jù)人才團隊該如何搭建?帶著這些問題,InfoQ 對張磊博士進行了獨家專訪,一探這位 20 年資深數(shù)據(jù)人對 To B 大數(shù)據(jù)的思考。
數(shù)據(jù)分析的變與不變
翻看張磊的履歷,可以看到他接近一半的人生都在跟數(shù)據(jù)打交道。唯有一段,本科畢業(yè)后在中科院等離子體物理研究所擔(dān)任研究實習(xí)員的經(jīng)歷看似與數(shù)據(jù)無關(guān)。其實,正是這段經(jīng)歷讓張磊有了跟數(shù)據(jù)挖掘的“第一次親密接觸”,這比他接觸到數(shù)據(jù)挖掘這個專業(yè)術(shù)語還早了四年。
1993 年大學(xué)畢業(yè)后,張磊去了中國科學(xué)院等離子體物理研究所,在理論室工作,工作內(nèi)容是數(shù)值計算,也就是協(xié)助理論室的老師們完成計算機上的各種數(shù)值分析和模擬工作。當(dāng)時研究室的朱思錚老師找到他,希望能用神經(jīng)網(wǎng)絡(luò)來建模分析托卡馬克裝置中等離子體的位置和形狀,于是張磊就一頭扎進了 BP 神經(jīng)網(wǎng)絡(luò)算法之中。他清晰地記得,當(dāng)時在圖書館里唯一能找到的一本教科書是焦李成老師編寫的《神經(jīng)網(wǎng)絡(luò)系統(tǒng)理論》,在這本書的幫助下,他理解了 BPNN 算法,實現(xiàn)了 C 語言編寫的程序,還嘗試解決了 BPNN 算法中的一些問題(陷入局部最優(yōu)、隱層神經(jīng)元數(shù)量等),最終和朱思錚老師一起把研究結(jié)果寫了篇文章發(fā)表在 1996 年的《計算物理》雜志上。
1997 年讀研的時候,張磊選擇了數(shù)據(jù)挖掘方向,后來又在中科院計算技術(shù)研究所攻讀數(shù)據(jù)挖掘與信息檢索方向的工學(xué)博士,師從國內(nèi)數(shù)據(jù)庫權(quán)威王珊教授和杜小勇教授。
從初次“觸電”到現(xiàn)在,二十多年過去了,幸運的是,對張磊而言數(shù)據(jù)挖掘一直是件很有意思的事情。其中 1999~2002 年的讀博時期和之后在外企工作的十多年對他尤為重要:前者讓他更體系化、更有針對性地博覽數(shù)據(jù)挖掘領(lǐng)域的科研成果,后者則讓他在大量項目實踐中不斷去驗證和思考什么才是真正合理有效的挖掘方式。
數(shù)據(jù)挖掘的本質(zhì)即從數(shù)據(jù)里找規(guī)律,張磊認(rèn)為這個本質(zhì)從未改變,改變的是找規(guī)律的方法。
回顧數(shù)據(jù)分析的發(fā)展史,從十九世紀(jì)下半葉高爾頓、皮爾森開創(chuàng)描述統(tǒng)計學(xué),到 1956 年人工智能和機器學(xué)習(xí)的誕生與發(fā)展,再到 2006 年深度學(xué)習(xí)的異軍突起,人們一直在嘗試各種方法努力從數(shù)據(jù)中發(fā)現(xiàn)隱藏的規(guī)律。而近些年計算能力的飛速提升和大數(shù)據(jù)的崛起,推動數(shù)據(jù)挖掘方法和分析算法不斷進化。
以業(yè)界常用的一些算法來說,二十年前傳統(tǒng)簡單的 BP 神經(jīng)網(wǎng)絡(luò)似乎已經(jīng)走到盡頭開始沒落,二十年后 AlexNet、VGG16、Inception、RNN、LSTM、GAN 等深層神經(jīng)網(wǎng)絡(luò)模型層出不窮讓人眼花繚亂;二十年前業(yè)界還在為決策樹在行業(yè)應(yīng)用中的簡潔有效而歡欣鼓舞,二十年后隨機森林、GBDT、XGBoost、LightGBM 已經(jīng)實現(xiàn)了全面超越;二十年前大家還在使用向量空間模型、樸素貝葉斯、SVM 來分析文本,二十年后 BERT、XLNet 已經(jīng)大行其道。
雖然數(shù)據(jù)、算力、算法三個因素對于人工智能新一輪浪潮的推動同樣功不可沒,但張磊認(rèn)為,以深層神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)算法并未超越傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的基本框架,算法的發(fā)展還是落后于數(shù)據(jù)發(fā)展的速度,當(dāng)然終究還是會水到渠成實現(xiàn)同步。
金融大數(shù)據(jù)演進的四個階段
每一朵浪花,都有可能變成泡沫,也有可能形成大潮,大數(shù)據(jù)屬于后者。經(jīng)過二十年的演進,大數(shù)據(jù)已經(jīng)脫離技術(shù)炒作巔峰,進入實質(zhì)生產(chǎn)的高峰期,并進一步成為其他技術(shù)(如人工智能)的底層支撐。
據(jù)工信部、賽迪網(wǎng)等相關(guān)數(shù)據(jù),2020 年國內(nèi)大數(shù)據(jù)市場總體預(yù)計達(dá)到萬億元規(guī)模,硬件、軟件和服務(wù)是其中的三大部分,而對分析人才和分析服務(wù)的需求最為迫切。
除了互聯(lián)網(wǎng)行業(yè),金融業(yè)可以說是跟進和采用大數(shù)據(jù)、人工智能等前沿技術(shù)最快的行業(yè)。無論是國外還是國內(nèi),金融行業(yè)的數(shù)據(jù)分析成熟度都位居前列。從銀行、保險到證券業(yè),大數(shù)據(jù)平臺已經(jīng)成為企業(yè)越來越倚重的系統(tǒng),數(shù)據(jù)中臺的呼聲讓它不斷拉近與核心系統(tǒng)的距離。從數(shù)據(jù)大集中、數(shù)據(jù)倉庫、云平臺、數(shù)據(jù)湖,到商業(yè)智能、數(shù)據(jù)挖掘、人工智能,再到個人金融、公司金融、風(fēng)險部、客服中心,大數(shù)據(jù)的架構(gòu)、技術(shù)和應(yīng)用已經(jīng)逐步在金融業(yè)特別是銀行得到普及。
對于過去十年金融業(yè)大數(shù)據(jù)的發(fā)展和演進,張磊認(rèn)為可以借鑒托馬斯·H·達(dá)文波特教授對數(shù)據(jù)分析成熟度的劃分方式將其劃分為四個階段,他用自己的話對其做了翻譯,分別是星星之火(Localized Analytics)、開始燎原(Analytics Aspirations)、江山一統(tǒng)(Analytic Companies)、傲視群雄(Analytic Competitors)。這四個階段形象地展示了企業(yè)或行業(yè)在數(shù)據(jù)分析應(yīng)用上的發(fā)展階段,從早期少量人員開始使用數(shù)據(jù)分析的星星之火,到部門級搭建一些分析系統(tǒng),再到整個企業(yè)形成全面統(tǒng)一的分析體系,最終的目標(biāo)是將分析作為核心競爭力的傲視群雄。而目前國內(nèi)的金融企業(yè)大多處于第二階段向第三階段轉(zhuǎn)變的 2.5 階段。
To B 大數(shù)據(jù)的經(jīng)驗和思考
在很多人看來,To B 大數(shù)據(jù)都是臟活苦活累活,入行以來與眾多金融企業(yè)、銀行打過交道的張磊卻有不同看法。
從技術(shù)視角出發(fā),張磊覺得 To B 的大數(shù)據(jù)分析其實比 To C 的好做。首先數(shù)據(jù)量要小得多,不會因為性能壓力而放棄必要的分析嘗試;另外,數(shù)據(jù)質(zhì)量也比較可控,很少會懷疑數(shù)據(jù)的來源是否可信,這些都讓 To B 的大數(shù)據(jù)分析相對簡單。在他看來,做 To B 大數(shù)據(jù)最大的障礙還是在企業(yè)文化形成的壁壘上,有些企業(yè)多年來已經(jīng)養(yǎng)成了依賴人的經(jīng)驗而不相信數(shù)據(jù)的習(xí)慣,部分崗位人浮于事提不出對企業(yè)真正有價值的業(yè)務(wù)問題,這些都會給數(shù)據(jù)分析項目蒙上陰影。
正處于新時代的轉(zhuǎn)型中場,金融業(yè)數(shù)據(jù)分析難免遇到新問題,比如引入了更多外部數(shù)據(jù)不知道怎么利用,看到互聯(lián)網(wǎng)企業(yè)的業(yè)務(wù)創(chuàng)新卻不知道如何應(yīng)對。To B 大數(shù)據(jù)到底該如何做?基于在大量數(shù)據(jù)分析項目中的實踐,張磊分享了一些自己的經(jīng)驗與思考。
數(shù)據(jù)應(yīng)用方法論
沒有方法論就像“盲人騎瞎馬,夜半臨深池”,越努力反而結(jié)果越差,因為可能走在與目標(biāo)相反的方向而不自知。
金融業(yè)經(jīng)過最近二十年在數(shù)據(jù)應(yīng)用上的豐富實踐,已經(jīng)形成了很成熟的大數(shù)據(jù)應(yīng)用方法論,無論是系統(tǒng)架構(gòu)、應(yīng)用框架,還是分析平臺和團隊建設(shè)等方面,都有成熟的體系化經(jīng)驗可供借鑒。張磊將其總結(jié)為如下幾條:
堅定的心:時刻堅持業(yè)務(wù)導(dǎo)向,業(yè)務(wù)目標(biāo)永遠(yuǎn)是大數(shù)據(jù)應(yīng)用的終極方向;
融入血液:形成“從數(shù)據(jù)中挖掘價值,數(shù)據(jù)驅(qū)動業(yè)務(wù)”的企業(yè)文化,只有從管理層到一線員工形成數(shù)據(jù)價值的統(tǒng)一認(rèn)知,才能真正把數(shù)據(jù)用起來;
鍛煉肌肉:通過培訓(xùn)競賽知識分享,提升員工的數(shù)據(jù)分析能力,只有為分析人員賦能之后,才可以利用數(shù)據(jù)為企業(yè)賦能;
數(shù)據(jù)質(zhì)量:一方面要強化數(shù)據(jù)質(zhì)量管理,好的數(shù)據(jù)才能分析出有用的結(jié)論;另一方面要對企業(yè)的數(shù)據(jù)有信心,有人總擔(dān)心自己的數(shù)據(jù)太差分析不出結(jié)果,大量的實踐證明金融業(yè)的數(shù)據(jù)可以開花結(jié)果;
穩(wěn)中有進:金融業(yè)缺乏互聯(lián)網(wǎng)企業(yè)允許試錯的基因,注定了系統(tǒng)架構(gòu)和業(yè)務(wù)應(yīng)用等規(guī)劃都要一步一個腳印去走,以成熟技術(shù)為基礎(chǔ)來建設(shè),同時適度進行創(chuàng)新;
思辨精神:不盲從于算法的神奇,不拒絕實用的查詢統(tǒng)計,沒有包打天下的終極算法,但是可以找到最適合企業(yè)自身的分析套路,注重分析所帶來的效果以及分析思路的合理性;
大道至簡:最準(zhǔn)確的模型未必就是最好的模型,它常常是曇花一現(xiàn)的過度擬合,真正能長期穩(wěn)定有效的模型總是簡單易懂的,堅持奧卡姆剃刀原則,堅持?jǐn)?shù)據(jù)分析的極簡主義。
問題和數(shù)據(jù)比算法更重要
百貨商店之父約翰·沃納梅克(John Wanamaker)曾說過一句在數(shù)字化營銷領(lǐng)域赫赫有名的話:“我知道花費在廣告上的投入有一半是無用的,但問題是我不知道是哪一半。”
數(shù)據(jù)分析包含三個要素:問題、數(shù)據(jù)、算法。其中,業(yè)務(wù)問題和業(yè)務(wù)目標(biāo)是數(shù)據(jù)分析的起點和終點,數(shù)據(jù)是分析的基礎(chǔ)和原料,算法是用于加工這些數(shù)據(jù)原料的工具。大部分項目的成功,這三個要素缺一不可,而前兩者更是重中之重。在張磊以往參與建設(shè)的那些項目實施中,給他留下深刻印象的并非一個個神奇的模型,而是一些大家耳熟能詳?shù)拿~:業(yè)務(wù)問題、數(shù)據(jù)加工、模型評估、應(yīng)用策略。
找到真正對企業(yè)有價值的業(yè)務(wù)問題,制定合理可行的具體目標(biāo),及時提供真正可用的高質(zhì)量數(shù)據(jù),加工出更具業(yè)務(wù)含義的數(shù)據(jù)特征,這些工作都依賴于業(yè)務(wù)崗、數(shù)據(jù)崗和分析崗的緊密合作來完成。
數(shù)據(jù)團隊角色分工
張磊曾經(jīng)與咨詢公司一起幫國有大型銀行規(guī)劃其分析團隊,國外領(lǐng)先實踐中也把這個團隊稱為“業(yè)務(wù)分析能力中心”(BACC)。這個團隊的理想組成是分三類崗位:業(yè)務(wù)崗、數(shù)據(jù)崗和分析崗,人員配比通常是 2:3:5,而分析建模的工作量占比通常不超過項目總工作量的 10%。業(yè)務(wù)崗是分析團隊和業(yè)務(wù)部門溝通的橋梁,通常是從業(yè)務(wù)部門或分行抽調(diào)的業(yè)務(wù)骨干,他們熟悉業(yè)務(wù)流程和業(yè)務(wù)問題,能夠把分析團隊的成果與業(yè)務(wù)應(yīng)用結(jié)合起來;數(shù)據(jù)崗是傳統(tǒng)的數(shù)據(jù)庫管理和 ETL 崗位,要求熟悉數(shù)據(jù)庫理論與技術(shù)、SQL 語言玩得滾瓜爛熟、ETL 腳本穩(wěn)定高效;分析崗的人力配比最高,但并非每個人都是建模高手,實際上這部分人更像是萬金油的角色,除了熟悉常用的算法,還要同時能承擔(dān)業(yè)務(wù)崗和數(shù)據(jù)崗的部分工作,換句話說,一旦需要他們就可能變成數(shù)據(jù)崗或業(yè)務(wù)崗。
張磊強調(diào),有太多分析建模人員把自己視為高端人才,只愿意做算法建模的工作,不愿意做數(shù)據(jù)整理這些體力活,不愿意深入了解業(yè)務(wù)知識,就如同一位廚師既不愿意了解食材的特性,又不愿意了解顧客的口味,怎么能指望他做出一道美味佳肴呢?數(shù)據(jù)科學(xué)家這個頭銜很光鮮,但全棧工程師才是它的本質(zhì)。因此,從職業(yè)發(fā)展的角度來說,崗位輪換是一項很好的制度,一方面能讓員工掌握更多更全面的技能,另一方面也有利于團隊的穩(wěn)定。
開源的挑戰(zhàn)
開源正在吞噬軟件,對金融行業(yè)也不例外。聚焦金融數(shù)字化轉(zhuǎn)型這些年,張磊見證了技術(shù)的變遷,在他看來,如今企業(yè)級大數(shù)據(jù)解決方案所采用的核心技術(shù)和架構(gòu),和過去相比已經(jīng)有很大的不同。其中最為突出的一點是開源的吸引力越來越大,企業(yè)在技術(shù)選擇上逐漸向開源傾斜。
十年前:金融行業(yè)還是數(shù)據(jù)倉庫的天下,屈指可數(shù)的幾家國外知名廠商牢牢占據(jù)了這部分市場份額,十大數(shù)據(jù)主題 /ETL/ 報表查詢和 OLAP 是數(shù)據(jù)分析平臺建設(shè)的核心,以 MPP 架構(gòu)為主流,分析軟件采用 C/S 架構(gòu);
十年后:數(shù)據(jù)倉庫的地位日趨微弱,Hadoop 集群(Spark、Flink 可視作 Hadoop 生態(tài)圈的一部分)成為數(shù)據(jù)管理平臺的核心,以 Python 為代表的開源軟件引領(lǐng)分析工具的潮流,技術(shù)的選擇強調(diào)生態(tài)圈,分析結(jié)果的應(yīng)用更多基于 Web 服務(wù)調(diào)用。
從 2006 年 Doug Cutting 開源大數(shù)據(jù)經(jīng)典框架 Hadoop 到現(xiàn)在,大數(shù)據(jù)領(lǐng)域已經(jīng)形成了一整套相當(dāng)活躍的開源生態(tài),有非常多成熟的開源工具。張磊坦言,開源給商用解決方案帶來了很大的挑戰(zhàn),這種挑戰(zhàn)態(tài)勢已經(jīng)從十多年前的“小荷才露尖尖角”變成了現(xiàn)在的“楚漢相爭”。
十年前張磊與大部分銀行客戶交流,偶爾能碰到一兩個用戶使用開源的 R、MySQL 等工具來做數(shù)據(jù)分析;最近一兩年在國有大型銀行的分析團隊里,使用 Python、Spark 等開源工具來做數(shù)據(jù)分析的甚至占到了一半。
張磊認(rèn)為開源日益強大最主要的原因還是在于“生態(tài)圈”。正如喬布斯借助 iPhone 讓蘋果公司再次輝煌一樣,全球億萬用戶成為 iPhone 忠實粉絲的關(guān)鍵原因并非手機外形酷炫和性能強大,AppStore 所打造的生態(tài)圈才是真正能圈住用戶的那個圈子。如果你想到和沒想到的功能,都有人給你開發(fā)出來,而且還有越來越多的人加入開發(fā)的行列,就像擁有數(shù)百萬人為你提供支持,這是每位用戶夢寐以求的情景。對于數(shù)據(jù)分析人員來說,開源社區(qū)帶來的也是這種效應(yīng)。當(dāng)你碰到一個業(yè)務(wù)問題不知如何下手時,當(dāng)你遇到一個程序 Bug 不知如何解決時,當(dāng)程序運行太慢不知道如何提高性能時,當(dāng)你碰到中文亂碼如讀天書時,當(dāng)你需要一個新的軟件功能時……你都能很輕松地通過搜索引擎、GitHub、Kaggle 等網(wǎng)站快速得到解答。解決問題變得格外快捷和方便,這是使用商用解決方案無法比擬的。
生態(tài)圈一旦打造起來,就會出現(xiàn)強者愈強弱者愈弱的場面,而且通常很難扭轉(zhuǎn)。眾人拾柴火焰高,好漢架不住群狼,僅靠一兩家商業(yè)公司是無法和龐大的開源社區(qū)力量抗衡的。
那提供企業(yè)級數(shù)據(jù)解決方案的公司要怎么去應(yīng)對開源帶來的挑戰(zhàn)呢?人們面對挑戰(zhàn)常常會采取兩種對策:要么打,要么逃。在張磊看來,還有第三條路,就是化敵為友。為什么不可以考慮將商用解決方案與開源平臺相融合呢?接受開源發(fā)展的潮流,取長補短,商業(yè)公司依然會有自己的容身之地。
張磊目前任職的索信達(dá)就一直緊跟開源技術(shù)的發(fā)展,無論是 MySQL、Hadoop 等開源數(shù)據(jù)平臺,還是 TensorFlow、PyTorch 等開源分析框架,都融入到其對外提供的一系列解決方案之中,覆蓋精準(zhǔn)營銷、規(guī)則引擎、場景庫、模型工廠、客戶微細(xì)分、可解釋機器學(xué)習(xí)等多個領(lǐng)域。此外,今年索信達(dá)積極投身國產(chǎn)數(shù)字化生態(tài),與華為積極展開合作,在華為云 ModelArts 平臺上發(fā)布了首個金融營銷模型——客戶微細(xì)分,樹立行業(yè)標(biāo)桿并得到了華為和頭部金融客戶的認(rèn)可。
未來展望
二十年間,大數(shù)據(jù)已經(jīng)從星星之火變成燎原之勢,而“新基建”會讓大數(shù)據(jù)的火越燒越旺。
張磊表示,“新基建”和大數(shù)據(jù)行業(yè)密不可分,要實現(xiàn)信息融合,大數(shù)據(jù)基礎(chǔ)設(shè)施和數(shù)據(jù)生產(chǎn)必不可少,要實現(xiàn)智能化,也需要基于大數(shù)據(jù)的深入分析。因此,隨著“新基建”等國家戰(zhàn)略的推行,大數(shù)據(jù)行業(yè)會越來越重要,發(fā)展也會越來越快,高速度和高加速度都是可預(yù)期的。
他強調(diào)道,大數(shù)據(jù)技術(shù)未來還有很大的發(fā)展?jié)摿?,現(xiàn)在的一些技術(shù)過于強調(diào)應(yīng)用層的表現(xiàn),模型算法變得越來越復(fù)雜脆弱,根源在于底層理論體系需要新的突破。“歐幾里得的《幾何原本》在上千年內(nèi)未有發(fā)展,似乎已經(jīng)足夠成熟,笛卡爾把代數(shù)和幾何相結(jié)合,立刻為世界打開另一扇窗。底層理論的突破才是真的突破,才能帶來真正革命性的變革。”
對于這些年大數(shù)據(jù)領(lǐng)域涌現(xiàn)的各種新概念,張磊認(rèn)為很多只是一種發(fā)展趨勢,并不意味著實現(xiàn)了質(zhì)變。比如這兩年格外火爆的中臺,其實是運營端和分析端發(fā)展到一定階段的彼此融合,并不會帶來翻天覆地的變化,也不是包治百病的靈丹妙藥。對于符合發(fā)展趨勢的新概念,當(dāng)然要了解熟悉和探索,但真的要在金融行業(yè)變成現(xiàn)實完成華麗的轉(zhuǎn)身,還有很長的一段路要走。
? ? ? ?責(zé)任編輯:pj
電子發(fā)燒友App












評論