chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MarkLogic數(shù)據(jù)架構(gòu)師Kurt Cagle分享了他的洞見

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-06-30 08:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:MarkLogic數(shù)據(jù)架構(gòu)師Kurt Cagle分享了他的洞見,缺乏良好的數(shù)據(jù)收集、整理、儲存過程,數(shù)據(jù)分析的結(jié)果只能是垃圾。

大約四年前,興起了數(shù)據(jù)科學(xué)家這一不可或缺的行當(dāng)。搞技術(shù)的紛紛扔掉讀大學(xué)時老舊的統(tǒng)計學(xué)課本,花了很多時間重新學(xué)習(xí)Python Pandas和R,還有最新的機器學(xué)習(xí)理論,添置了新款的白大褂。我知道我就是這么做的。

如果你曾經(jīng)是個Hadoop開發(fā)者,那數(shù)據(jù)科學(xué)也是一個好去處。畢竟所有人都以為不會map/reduce的數(shù)據(jù)科學(xué)家不是一個好數(shù)據(jù)科學(xué)家。這甚至可能延緩即將到來的Hadoop企業(yè)的崩潰到幾年之后,伴隨著印度程序員作坊大量炮制數(shù)以千計的新Hadoop程序員和數(shù)據(jù)科學(xué)“專家”,以趕上下一個大趨勢。

公司以最高的價格為此買單。Nasdaq上的每家公司都給數(shù)據(jù)科學(xué)家開出高薪,以免因為后知后覺而受到競爭對手的沖擊。同時銷售經(jīng)理和C開頭的那些執(zhí)行官也可以指望早上啟動iPad后可以實時看到公司運轉(zhuǎn)得有多好??刂泼姘逶?jīng)變成一大社會地位象征——資深的執(zhí)行官享有超級奢侈的執(zhí)行面板,基于3D可視化技術(shù)和實時動畫散點圖,而相對初級的同事得到的是2D平面版本,只有最少的總結(jié)。

然而,到目前為止,并沒有什么真正的改變。數(shù)據(jù)科學(xué)家(大多數(shù)是高學(xué)歷人士,在制藥分析和高級材料工程這樣的領(lǐng)域具有多年經(jīng)驗)將逐漸意識到,他們需要處理的數(shù)據(jù)的質(zhì)量……好吧,不帶任何貶低地說,糟透了。人們被引導(dǎo)了,相信因為他們有遍布各處的成千個數(shù)據(jù)庫,因此他們的組織有海量的數(shù)據(jù),并且大部分——如果不是全部的話——數(shù)據(jù)是有價值的。

那些數(shù)據(jù)科學(xué)家將發(fā)現(xiàn),情況與此相反,大部分?jǐn)?shù)據(jù)都是過時的,格式不對,數(shù)據(jù)模型適用于創(chuàng)建數(shù)據(jù)的程序員當(dāng)時需要的應(yīng)用。大量數(shù)據(jù)是在電子表格中,在缺乏任何流程、控制和遠(yuǎn)見的情況下,被反復(fù)修改。這些記錄離真相很遠(yuǎn),有太多數(shù)據(jù)是缺乏文檔的一次性數(shù)據(jù),列名會是MFGRTL3QREVPRJ之類的,鍵也絕對是不一致的。

換句話說,他們擁有的數(shù)據(jù)基本上對任何分析而言都毫無用處,離那些擅長制藥試驗日常測試結(jié)果分析的人心目中的分析更是差了十萬八千里。

現(xiàn)在你拿著15萬美元的年薪為業(yè)務(wù)代表提供控制面板,這些業(yè)務(wù)代表對統(tǒng)計學(xué)一無所知,但對需要百萬美元和授權(quán)才能玩轉(zhuǎn)的事情無能為力。你的數(shù)據(jù)雜亂不堪,還有相當(dāng)多的數(shù)據(jù)完全無用,但是說服業(yè)務(wù)代表重建數(shù)據(jù)庫會嚇哭他們的,因為這需要幾百萬美元,而且看起來并不必要。你當(dāng)然可以直接向他們?nèi)鲋e,草草裝配一個隨機數(shù)生成器,說不定提供給他們的數(shù)據(jù)還比他們知道得要準(zhǔn)確一點。但和數(shù)據(jù)打交道的人可不習(xí)慣撒謊,因為這和他們的基本目標(biāo)——盡可能地精確背道而馳。那么你會怎么做?

現(xiàn)在我得戴上我語義布道師的帽子,告訴你應(yīng)該開發(fā)一個語義數(shù)據(jù)倉庫。你真的應(yīng)該這么干,它并不沒有那么難,卻能提供一些實實在在的收益。不過我也會說它不是一個魔法般的解決方案。它讓你更容易以易于處理的格式獲取數(shù)據(jù)(或者有助于查明哪些數(shù)據(jù)是垃圾,可以直接刪除)。然而,現(xiàn)實是,這并不是一個數(shù)據(jù)科學(xué)問題——這是一個數(shù)據(jù)品質(zhì)和本體工程問題。

所以,讓我說得更清楚一點,讓那些穿著執(zhí)行官的衣服的人也可以理解。你有數(shù)據(jù)問題。你的數(shù)據(jù)科學(xué)家具備各種有用的工具可以呈上數(shù)據(jù)分析的結(jié)果,然而沒有優(yōu)質(zhì)的數(shù)據(jù),他們產(chǎn)出的東西完全是無意義的。這不是他們的錯。這是你的錯,你期望酷炫的控制面板能為你贏得一千萬美元的合同的每一天,都是在浪費時間,都是看著錢從你那里流走的一天。

你的工作可不簡單。你需要做的是首先確定你實際需要追蹤的信息,接著花時間和你的數(shù)據(jù)科學(xué)家以及數(shù)據(jù)本體學(xué)家(data ontologist)討論下需要哪些數(shù)據(jù)。別指望指著一個數(shù)據(jù)庫,然后數(shù)據(jù)會魔法般地出現(xiàn)在那里。

數(shù)據(jù)庫總的來說是讓程序員用來編寫應(yīng)用的,而不是提供公司內(nèi)部的深層測度的。坐下來查看下你現(xiàn)在具備的資源,你需要理解那些依賴這些數(shù)據(jù)庫完成他們的工作的人會非常不情愿給你訪問權(quán)限,特別是這些權(quán)限可能導(dǎo)致他們擔(dān)責(zé)的時候。此外,你還需理解大多數(shù)數(shù)據(jù)庫的文檔都很糟糕(這已經(jīng)算好的了,其實大多數(shù)數(shù)據(jù)庫根本沒有文檔),因此需要基于隱晦的參考進(jìn)行偵破。這稱為病理計算,大多數(shù)程序員都討厭干這個,因為這意味著猜測其他程序員的大腦,這些程序員很可能已經(jīng)離職了,水平不明,忘記了十年寫的東西是什么意思。

關(guān)系數(shù)據(jù)湖(relational data lake)并沒有解決這個問題。數(shù)據(jù)湖解決的問題是讓同一個主機可以訪問所有數(shù)據(jù)。對于病理計算而言,這是必要的部分,但它既不是最難的部分,也不是最昂貴的部分。最昂貴的部分是搞明白數(shù)據(jù)到底意味著什么,甚至僅僅是識別出分散的數(shù)據(jù)集談?wù)摰耐患?。這一問題沒有現(xiàn)成的解決方案,如果任何人告訴你有,那他們在忽悠你。

我要再一次植入語義方案的廣告——graph triple store、RDF、ontology management等等。這些不是開箱即用的解決方案,卻是使病理分析得以實行的工具,并能將管理這些過程的手段交到程序員手中。

然而,你需要理解,這一切經(jīng)常需要你重新思考數(shù)據(jù)流的整個流程,理解在一開始如何捕獲信息并及早傳入合適的管道。它需要你的程序員和數(shù)據(jù)庫管理員放棄部分自治,基于一個中央化的聯(lián)合存儲工作。它也意味著你作為執(zhí)行官需要更熟悉數(shù)據(jù)管理和數(shù)據(jù)來源。

對大多數(shù)商業(yè)人員而言,這都是一個相當(dāng)激進(jìn)的轉(zhuǎn)變,比讓部分商業(yè)人員做一些IT工作要激進(jìn)得多。然而,今天的商業(yè)正在轉(zhuǎn)變(大部分已經(jīng)轉(zhuǎn)變)為碰巧銷售貨物或服務(wù)的數(shù)據(jù)管理公司。比起管理銷售,今天的CEO的角色需要更多地關(guān)注所在組織的數(shù)據(jù)輸入和輸出,確保數(shù)據(jù)的品質(zhì)盡可能好。這并不僅僅是為了應(yīng)對合規(guī)性要求,而是因為數(shù)據(jù)的完整性對這些公司在市場上的成功至關(guān)重要。

這意味著你需要和你的執(zhí)行數(shù)據(jù)團(tuán)隊確定你需要知道和想要知道的信息的范圍,以及哪些信息是無關(guān)的,然后確立必要的流程收集和商業(yè)需求相關(guān)的數(shù)據(jù)。直接指向數(shù)據(jù)庫的一個接口,提取它的內(nèi)容,除了增加磁盤存儲開銷外毫無影響,雇傭數(shù)據(jù)科學(xué)家分析垃圾數(shù)據(jù)只會產(chǎn)生垃圾分析。如果你在意的話,它可能很美觀,充斥著梯度和3D特效,但毫無作用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:為什么你不需要數(shù)據(jù)科學(xué)家

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    kintex產(chǎn)品架構(gòu)設(shè)計文檔(成為架構(gòu)師也是電子人不錯的選...

    kintex產(chǎn)品架構(gòu)設(shè)計文檔(成為架構(gòu)師也是電子人不錯的選擇) ROCE(儒仕),用心為每一位電子人!Xilinx7系列普及講座,架構(gòu)師設(shè)計方案模板,交流學(xué)習(xí) 內(nèi)容請下載附件pdf,更多內(nèi)容請登錄ww..rocetech..co
    發(fā)表于 04-30 16:41

    后臺架構(gòu)師-JAVA

    高薪聘北京的后臺架構(gòu)師-JAVA工作職責(zé);1.提升系統(tǒng)架構(gòu)的穩(wěn)定性,可靠性 2.用docker容器技術(shù)改造現(xiàn)有架構(gòu)任職資格;1. 3-5年以上互聯(lián)網(wǎng)公司開發(fā)工作經(jīng)驗,代碼編寫規(guī)范,編程基礎(chǔ)扎實
    發(fā)表于 06-20 17:24

    關(guān)于架構(gòu)師的詳細(xì)介紹

    溝通能力被排在架構(gòu)師能力的第一位,它既是架構(gòu)師入門能力,也是最難用量化標(biāo)準(zhǔn)來的能力。本文將為大家介紹架構(gòu)師——能說會道的程序員。
    發(fā)表于 07-11 07:20

    架構(gòu)師的能力鍛煉

    架構(gòu)師每天都需要做選擇題。什么選擇?怎么做選擇?架構(gòu)師需要進(jìn)行怎樣的學(xué)習(xí)、培訓(xùn)和鍛煉來進(jìn)行正確的選擇?讀了本篇文章,你會對架構(gòu)師為什么會需要權(quán)衡取舍以及妥協(xié)的能力有一個更加深刻的印象,并對于如何鍛煉這個能力有一個初步的認(rèn)識。
    發(fā)表于 07-11 08:29

    架構(gòu)師最重要的是什么

    軟件架構(gòu)師的定義乃至所需要的特質(zhì)歷來眾說紛紜。下面從一些另類的角度來做點分析。
    發(fā)表于 07-15 08:12

    好的架構(gòu)師為什么是出色的程序員

    一個優(yōu)秀的軟件架構(gòu)師,首先一定是一個出色的程序員,這是本篇文章的議題。從本文我們可以了解到一個架構(gòu)師的工作是什么,容易遇到的問題是什么,因此為什么必須是一個出色的程序員。
    發(fā)表于 07-17 07:03

    女性會更適合做架構(gòu)師?

    人們往往發(fā)現(xiàn)優(yōu)秀的數(shù)學(xué)家、物理學(xué)家以及軟件架構(gòu)師有著很多相似的素質(zhì),甚至往往能夠一人精通這好幾個領(lǐng)域,其中很重要的原因就是這個抽象思維的能力。架構(gòu)師們潛意識中會覺得女性更適合做架構(gòu)師?讓我們看看這是為什么。
    發(fā)表于 07-17 06:15

    怎樣成為軟件架構(gòu)師

    Leader也并無二致,也就是一個軟件團(tuán)隊的核心設(shè)計者和決策人。作為一個軟件團(tuán)隊的領(lǐng)頭人,架構(gòu)師應(yīng)該具備哪些能力、素質(zhì)和經(jīng)驗?zāi)兀?/div>
    的頭像 發(fā)表于 10-19 09:55 ?3157次閱讀

    怎樣成為一名資深Java架構(gòu)師

    要想往架構(gòu)師的方向發(fā)展首先要知道架構(gòu)師是什么?
    的頭像 發(fā)表于 10-17 09:03 ?3395次閱讀

    數(shù)據(jù)架構(gòu)師的職責(zé)有哪些

    架構(gòu)師按照專注領(lǐng)域不同,可分為企業(yè)架構(gòu)師、基礎(chǔ)結(jié)構(gòu)架構(gòu)師、特定技術(shù)架構(gòu)和解決方案架構(gòu)師等,專職架構(gòu)師
    的頭像 發(fā)表于 04-04 16:24 ?4101次閱讀

    開發(fā)工程架構(gòu)師的區(qū)別

    架構(gòu)師是程序員的職業(yè)生涯發(fā)展的一個方向,很多架構(gòu)師都是從開發(fā)人員逐步過渡來的,程序員想要成為架構(gòu)師,平時就應(yīng)該身負(fù)“架構(gòu)師”職責(zé),用架構(gòu)師
    的頭像 發(fā)表于 04-04 16:35 ?1.4w次閱讀

    什么是 SoC 設(shè)計中的系統(tǒng)架構(gòu)師?

    您知道系統(tǒng)架構(gòu)師在片上系統(tǒng) (SoC) 設(shè)計中的具體工作嗎?如果您已經(jīng)認(rèn)識或經(jīng)驗豐富的系統(tǒng)架構(gòu)師,那么可能無需進(jìn)一步閱讀。但是,如果您是我們眾多正在探索該行業(yè)機會的年輕讀者之一,請繼續(xù)閱讀,看看這是
    的頭像 發(fā)表于 07-18 16:26 ?2349次閱讀
    什么是 SoC 設(shè)計中的系統(tǒng)<b class='flag-5'>架構(gòu)師</b>?

    阿里專家:架構(gòu)師是一個什么樣的角色

    架構(gòu)其實是每個業(yè)務(wù)線都有,有些技術(shù)同學(xué)本身也是架構(gòu)師的角色。阿里很早以前是專門有架構(gòu)師崗位,專門的去做架構(gòu),但是做著做著架構(gòu)師就做沒了。
    的頭像 發(fā)表于 03-14 09:25 ?1030次閱讀

    初級自動駕駛架構(gòu)師應(yīng)該學(xué)習(xí)哪些知識

    隨著自動駕駛技術(shù)的成熟,對系統(tǒng)架構(gòu)師的需求逐漸增加。自動駕駛系統(tǒng)架構(gòu)師負(fù)責(zé)設(shè)計整個系統(tǒng)的結(jié)構(gòu)、組件、接口和數(shù)據(jù)流;需要協(xié)調(diào)不同領(lǐng)域的專業(yè)知識,確保系統(tǒng)的可靠性、安全性和性能??傊?,自動駕駛系統(tǒng)
    的頭像 發(fā)表于 06-20 21:45 ?623次閱讀

    中級自動駕駛架構(gòu)師應(yīng)該學(xué)習(xí)哪些知識

    隨著自動駕駛技術(shù)的成熟,對系統(tǒng)架構(gòu)師的需求逐漸增加。自動駕駛系統(tǒng)架構(gòu)師負(fù)責(zé)設(shè)計整個系統(tǒng)的結(jié)構(gòu)、組件、接口和數(shù)據(jù)流;需要協(xié)調(diào)不同領(lǐng)域的專業(yè)知識,確保系統(tǒng)的可靠性、安全性和性能??傊?,自動駕駛系統(tǒng)
    的頭像 發(fā)表于 06-20 21:47 ?547次閱讀