chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用MaxCompute阿里大數(shù)據(jù)計算方法詳解

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:互聯(lián)網(wǎng) ? 作者:佚名 ? 2018-03-19 09:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

給大家分享一下基于MaxCompute搭建社交好友推薦系統(tǒng),使用MaxCompute阿里的大數(shù)據(jù)計算的方法可以做哪些事情,如果說是以社交好友的推薦,來給大家去演示一下。好友推薦系統(tǒng)它的一個場景介紹,現(xiàn)在大家都在講大數(shù)據(jù),如果想去使用這些數(shù)據(jù),我們認為它需要具備三個要素,第一個要素是海量的數(shù)據(jù),數(shù)據(jù)量越多越好,只有數(shù)據(jù)量達到了足夠大,我們才能夠成為一個數(shù)據(jù)里面潛在去挖掘出來。第二個是處理數(shù)據(jù)的能力,有了這樣很高的快速處理數(shù)據(jù)的能力,可以讓我們更快的去把數(shù)據(jù)里面的信息挖掘出來。第三個是商業(yè)變現(xiàn)的一個場景,我們采集大數(shù)據(jù)的時候,并不是數(shù)據(jù)越多越好,一定要有一個具體的場景。以推薦系統(tǒng)為例來看一下大數(shù)據(jù)的一個應(yīng)用。

左邊是支付寶,在支付寶一打開的時候,下面會有一欄推薦可能是你的好友,一般的話下面的那些人都是你認識的,可能還沒加他們?yōu)楹糜?。右?cè)是Linkin,它是一個求職社交網(wǎng)站,Linkin也會給你這樣的一個推薦,會告訴你哪一些用戶是你潛在的好友,而且Linkin會告訴你這個好友跟你是一度的關(guān)系的還是兩度的關(guān)系或者是三度的關(guān)系。潛在關(guān)聯(lián)性高的,會在前面直接顯示出來,潛在關(guān)聯(lián)性沒有那么高的也會在后面顯示出來,這兩個都是典型的一個好友推薦。

進行好友推薦的時候,怎么給用戶進行推薦,首先這兩個人是非好友的關(guān)系,接著我們?nèi)タ匆幌滤麄儌z潛在共同好友的處理,通過這種方式去給用戶推送,比方說潛在好友數(shù)量多,我就認為這兩個人是好友關(guān)系,就是通過這種方式來實現(xiàn)的。

上圖的右側(cè)是人與人之間的一個社交關(guān)系的服務(wù),比如說A跟B是一個好友,我們可以通過這五個方式畫出來,讓機器去分析這些數(shù)據(jù),需要把右邊這種社交的關(guān)系,轉(zhuǎn)換成機器可以識別的數(shù)據(jù),轉(zhuǎn)換成左側(cè)這樣的二維表的數(shù)據(jù),比如說A跟B、C、D他們之間是好友,我們左側(cè)是A跟B、C、D是好友關(guān)系,剩下這些也是類似的,這樣就可以把這個表傳到機器里面進行分析,比方說通過分析之后,發(fā)現(xiàn)A跟E有一個共同好友,B跟D有兩個共同好友,然后C跟E有一個共同好友。這個時候就可以推薦B跟D他兩個是一個潛在的好友,而排在前面,A跟E或者C跟E排在概率往下,稍微低一些,潛在好友多的排在前面,潛在好友少的排在后面,通過這種方式來進行排列,這個是我們期望的結(jié)果。

好友推薦系統(tǒng)的分析模型

我們怎么來去計算呢?我們一般使用方式是什么呢?使用的是MapReduce這樣的一個計算模型,MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算,它由三部分組成分別是Map、Combine、Reduce。

以好友推薦這樣的一個場景為例。

首先輸入左側(cè)機器可以識別的數(shù)據(jù),輸入之后,在Map端先把數(shù)據(jù)做一個拆分,拆分成兩份不同的數(shù)據(jù),在拆分的同時把它轉(zhuǎn)換成key、value的類型,比方說A、B、D、E這幾行數(shù)據(jù)轉(zhuǎn)換成什么呢?A跟B,然后value是零,零代表他們兩個已經(jīng)是好友。如果兩個不是好友的話,自定義這一行數(shù)據(jù),B跟D不是好友,就把他的值視為1。下面的B、E,還有D跟E也是1。把原來一行數(shù)據(jù)轉(zhuǎn)換成Key、Value這個形式的數(shù)據(jù),類似于右邊這樣的數(shù)據(jù),上面是key、value的一個類型,下面也是類似的。這個是在Map做的事情,把這個數(shù)據(jù)通過兩個key、value進行一個拆分,轉(zhuǎn)化成key、value這樣的一個類型。

Combine是對數(shù)據(jù)先做一個本地的匯總,先看到有一些數(shù)據(jù)是重復(fù)的,比如說A跟B是零,A跟B是零,出現(xiàn)了兩次,這個時候就存一個就可以。其他類似的,這樣我把這些數(shù)據(jù)在本地做完匯總,類似于這張表,這兩個數(shù)據(jù)。

接著是第三步是Reduce階段,Reduce是對這些數(shù)據(jù)進行一個匯總,把兩邊數(shù)據(jù)匯總到一起,然后對每一個Key值對應(yīng)唯一的一個value值做一個匯總,這個就是它最終計算的一個結(jié)果。如果兩個用戶已經(jīng)是好友了,Value值是零的話,不需要再給他推薦。所以說A、B如果是零的話就剔掉,只需要知道它的value值是大于零的,有潛在好友,同時這兩個人目前還是非好友的關(guān)系,這個就達到了想要的效果。

好友推薦系統(tǒng)在阿里云上的實現(xiàn)方式

好友推薦阿里云實現(xiàn)整個的架構(gòu)是怎么樣的呢?比方現(xiàn)在有一個社交軟件是一個業(yè)務(wù)系統(tǒng),前端使用阿里云的云服務(wù)器ECS去部署整個的社交的軟件的應(yīng)用,入庫的一些數(shù)據(jù)存到阿里的RDS,這個就是當(dāng)前的一個社交應(yīng)用系統(tǒng)。業(yè)務(wù)系統(tǒng)里面產(chǎn)生了一個數(shù)據(jù),怎么來對數(shù)據(jù)進行分析,首先需要在數(shù)據(jù)庫里邊把這個數(shù)據(jù)提取出來,提取到阿里云的大計算服務(wù)MaxCompute里面,很類似于我們傳統(tǒng)做數(shù)倉的時候ETL的一個過程,會利用阿里云的大數(shù)據(jù)開發(fā)平臺對數(shù)據(jù)進行分析和處理。

使用它可以快速便捷的去開發(fā)我們數(shù)據(jù)植入或者數(shù)據(jù)這樣的一個流程,這個就是會使用大數(shù)據(jù)開發(fā)平臺和大數(shù)據(jù)制造,結(jié)果是一個數(shù)據(jù)分析結(jié)果,還需要前端的應(yīng)用數(shù)據(jù)對分析出來的結(jié)果展示出來。

MaxCompute的技術(shù)特點

對于MaxCompute的一些技術(shù)特點主要有一下幾點:

  1. 分布式:分布式集群、跨集群技術(shù)、可靈活擴展。

  2. 安全性:從安全性來講具有自動存儲糾錯、沙箱機制、多分備份。

  3. 易用:具有標(biāo)準(zhǔn)API、全面支持SQL、上傳下載工具。

  4. 權(quán)限控制:多租戶管理、用戶權(quán)限策略、數(shù)據(jù)訪問策略。

MaxCompute的使用場景

對于MaxCompute的使用的場景,可以使用MaxCompute搭建自己的一個數(shù)據(jù)倉庫,同時,MaxCompute還可以提供一種分布式的應(yīng)用系統(tǒng),比方說可以通過圖計算,或者通過有效的寬幅的方式,可以搭建一個工作流;比方說數(shù)據(jù)分析并不是說只分析一天就不分析了,其實是周期性的。如果數(shù)據(jù)每天要分析一次,可以在MaxCompute里面生成那樣的任務(wù)工作流,設(shè)置一個周期性的調(diào)度,每天要讓它調(diào)度一次,MaxCompute可以按照設(shè)計好的工作流,調(diào)動周期,然后去運行;MaxCompute在機器學(xué)習(xí)里面也是有用的,因為機器學(xué)習(xí)會用到MaxCompute分析出來的數(shù)據(jù),其他相類似的服務(wù)對數(shù)據(jù)進行分析處理,分析出來的結(jié)果數(shù)據(jù)放到機器學(xué)習(xí)平臺里面,讓機器通過一些算法一些模型,去學(xué)習(xí)這里邊的數(shù)據(jù),生成一個希望達到的一個模型。

大數(shù)據(jù)開發(fā)套件DataIDE

另外一個除了MaxCompute之外還有一個會用到一個大數(shù)據(jù)開發(fā)操作DateIDE,大數(shù)據(jù)開發(fā)套件DataIDE(現(xiàn)名:數(shù)據(jù)工場DataWorks)提供一個高效、安全的離線數(shù)據(jù)開發(fā)環(huán)境。為什么介紹它呢?是因為DateIDE只是對數(shù)據(jù)任務(wù)工作流的一個開發(fā),其實底層的數(shù)據(jù)處理,數(shù)據(jù)分析,都是在MaxCompute上完成,可以簡單理解為DateIDE就是一個圖象化的數(shù)據(jù)開發(fā)的服務(wù),它是為了幫助我們更好去使用MaxCompute。也可以看到,這我們可以在DateIDE進行一個開發(fā),不需要直接在MaxCompute里面進行開發(fā)了,在MaxCompute開發(fā)的一個效果,跟在DateIDE里面開發(fā)的效果對比。

這個是DateIDE整個應(yīng)用的一個場景,我們在進行數(shù)據(jù)分析的時候,需要對里面的原數(shù)據(jù)進行整合統(tǒng)一保存,這個時候可以在DateIDE上實現(xiàn),把所有的原數(shù)據(jù)的信息統(tǒng)一匯總到MaxCompute里面進行一個保存,同時還可以DateIDE進行數(shù)據(jù)的加工,存儲等操作都可以在DateIDE上完成。DateIDE在整個數(shù)據(jù)分析的過程中可以對數(shù)據(jù)存儲、分析、處理、集群等處理。

MaxCompute的應(yīng)用開發(fā)流程

MaxCompute的應(yīng)用開發(fā)流程一共需要六步分別是:

  1. 安裝配置環(huán)境

  2. 開發(fā)MR程序

  3. 本地模式測試腳本

  4. 導(dǎo)處jar包

  5. 上傳到MaxCompute項目空間

  6. 在MaxCompute中使用MR

下面我們以一個好友推薦的事例來詳細講解一下這個過程。首先需要去安裝MaxCompute客戶端,使用它的好處是可以在本地通過命令的方式去遠程使用阿里云的MaxCompute,在本地只需要配置MaxCompute信息就可以。另外還需要去配置自己的一個開發(fā)環(huán)境,因為現(xiàn)在阿里云的MaxCompute主要是兩種語言,一種是Java一種是Eclipse。然后新建項目,在開發(fā)新建項目的時候,大家可以看到這個紅包,這個紅包就是需要配置本地的客戶端的信息。在進入到寫代碼的過程。

接下來就是簡單的測試,開發(fā)之后要測試,這個代碼是不是按照設(shè)想的方式去工作的。接著這邊輸入的是一個測試數(shù)據(jù),這個輸出的數(shù)據(jù)類別,就是輸出的這樣的一個表格,表格有三列,第一類是用戶A,第二類是用戶B,第三類是兩個潛在的共同好友的數(shù)量,只需要關(guān)注這三個數(shù)據(jù)就可以,然后就可以測試。接著第三個本地運行的數(shù)據(jù)的代碼,運行的結(jié)果就是通過本地的開發(fā)測試,在本地測試的時候這邊有一個數(shù)據(jù),你第一步需要選擇是使用哪一個的一個項目處理。第二個要選擇輸入表和輸出表,要告訴他輸出表是哪個,輸出表的目的是什么,告訴這個程序,你輸出的結(jié)果保存在表里面,配置好點擊運行這個結(jié)果就出來了。

本地開發(fā)測試成功之后,接著要把它打成一個Jar包,然后上傳到阿里云上,就是上傳到MaxCompute的集群里邊。第二個打完Jar包以后添加資源,下面就把剛剛輸出的Jar包,通過資源的管理,把剛剛輸入的Jar包上傳上來。本地開發(fā)測試好的一個MR的Jar包已經(jīng)上傳到MaxCompute集群里邊。

上傳好了之后就可以使用它,去新建一個任務(wù),然后這個任務(wù)去起個名字,這個任務(wù)跟哪一個Jar包相關(guān)聯(lián),接著是OPENBMR,我們選的是MR的程序,所以里面選的是OPENMR模塊,生成這樣的一個任務(wù),進入到編輯頁面,在編輯頁面里面首先告訴它,這個OPENMR這樣的一個任務(wù),使用的是上傳的好友推薦的一個Jar包,最下面告訴它Jar包里面的程序的邏輯是什么,在這個里面制定好之后點擊運行結(jié)果就會出來。這個就是我們在本地開發(fā)測試,把資源上傳到MaxCompute的集群里面,接著在集群里面去使用我在本地開發(fā)好的Jar包,這個就是整個的一個開發(fā)和部署的一個流程。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 嵌入式
    +關(guān)注

    關(guān)注

    5209

    文章

    20679

    瀏覽量

    337296
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9099

    瀏覽量

    144079

原文標(biāo)題:基于大數(shù)據(jù)搭建社交好友推薦系統(tǒng)

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    UPS電源后備時間怎么選配?計算方法一文讀懂

    后設(shè)備的持續(xù)運行時長,選配不合理會導(dǎo)致資源浪費或無法滿足應(yīng)急需求。很多用戶在選購UPS電源時,都會陷入“后備時間越長越好”的誤區(qū),也不清楚具體的計算方法,本文結(jié)合實際
    的頭像 發(fā)表于 04-14 10:34 ?209次閱讀
    UPS電源后備時間怎么選配?<b class='flag-5'>計算方法</b>一文讀懂

    黑M-狂野大數(shù)據(jù)5期|網(wǎng)盤無密Mp4+大數(shù)據(jù)直播課-狂野大數(shù)據(jù)

    科技重構(gòu)數(shù)據(jù)生產(chǎn)力:狂野大數(shù)據(jù)直播實戰(zhàn)全解析 隨著數(shù)字化時代的快速發(fā)展,大數(shù)據(jù)已經(jīng)滲透到我們生活的方方面面。無論是商業(yè)、教育,還是醫(yī)療、政府服務(wù),大數(shù)據(jù)的應(yīng)用都在不斷創(chuàng)造新的價值。而在
    的頭像 發(fā)表于 04-06 11:13 ?216次閱讀

    工業(yè)級UPS電源后備時間精確計算方法與工程應(yīng)用指南

    ,是電氣工程師和運維人員必須掌握的核心技能。本文將從基礎(chǔ)概念入手,系統(tǒng)講解UPS后備時間的計算方法,幫助讀者建立完整的計算邏輯。一、理解UPS后備時間計算的基本原理
    的頭像 發(fā)表于 03-24 09:43 ?462次閱讀
    工業(yè)級UPS電源后備時間精確<b class='flag-5'>計算方法</b>與工程應(yīng)用指南

    大數(shù)據(jù)平臺運營的基礎(chǔ)是什么

    在數(shù)聚股份看來,越來越多的企業(yè)開始搭建自己的大數(shù)據(jù)平臺體系,并傾注大量資源用于平臺的迭代和運營。那么大數(shù)據(jù)平臺作為越來越被關(guān)注的企業(yè)新興價值點,它應(yīng)該以何種方式看待,并且以什么樣的方式去建設(shè)和運營
    的頭像 發(fā)表于 12-23 16:07 ?361次閱讀

    工業(yè)鏡頭的最大兼容CCD尺寸詳解

    失真或邊緣暗角。本文將從基礎(chǔ)概念入手,詳細解釋這一參數(shù)的原理、計算方法及實際應(yīng)用,旨在為相關(guān)從業(yè)者提供清晰的指導(dǎo)。CCD尺寸的基本概念CCD(Charge-Coup
    的頭像 發(fā)表于 12-08 17:24 ?1350次閱讀
    工業(yè)鏡頭的最大兼容CCD尺寸<b class='flag-5'>詳解</b>

    詳解FPGA定點數(shù)計算方法

    FPGA定點數(shù)計算在高效資源利用、運算速度優(yōu)勢、硬件可預(yù)測性和成本效益等方面發(fā)揮著重要作用。它能節(jié)省邏輯和存儲資源,實現(xiàn)更快速的運算和更高的時鐘頻率,保證行為可預(yù)測且易于硬件實現(xiàn)和驗證,同時降低硬件和開發(fā)成本,廣泛應(yīng)用于數(shù)字信號處理、工業(yè)控制、通信系統(tǒng)等領(lǐng)域。
    的頭像 發(fā)表于 12-02 10:09 ?707次閱讀
    <b class='flag-5'>詳解</b>FPGA定點數(shù)<b class='flag-5'>計算方法</b>

    硬件消抖方案元件參數(shù)的計算方法

    硬件消抖是通過電路設(shè)計消除機械開關(guān)(如按鍵、繼電器等)在閉合或斷開時產(chǎn)生的抖動信號。以下是常見硬件消抖方案及其元件參數(shù)計算方法: 1. RC濾波消抖(低通濾波) 原理:利用電容的充放電特性,延緩
    發(fā)表于 11-19 06:31

    厚聲電阻功率額定值匹配計算方法

    厚聲電阻功率額定值的匹配需綜合考慮封裝尺寸、實際功率計算、環(huán)境溫度降額及電壓校驗,具體匹配計算方法如下: 一、封裝尺寸與額定功率的對應(yīng)關(guān)系 厚聲電阻的額定功率由封裝尺寸決定,常見封裝與功率對應(yīng)關(guān)系
    的頭像 發(fā)表于 10-24 14:28 ?953次閱讀
    厚聲電阻功率額定值匹配<b class='flag-5'>計算方法</b>?

    負載開關(guān)IC數(shù)據(jù)表中相關(guān)術(shù)語和功率損耗計算方法

    在前面的內(nèi)容中,我們了解了負載開關(guān)IC的基本定義、獨特優(yōu)點、實用功能及其操作,今天作為【負載開關(guān)IC】系列的最后一篇內(nèi)容,芝子將帶著大家了解一下負載開關(guān)IC數(shù)據(jù)表中相關(guān)術(shù)語和功率損耗計算方法。
    的頭像 發(fā)表于 10-15 16:54 ?1815次閱讀
    負載開關(guān)IC<b class='flag-5'>數(shù)據(jù)</b>表中相關(guān)術(shù)語和功率損耗<b class='flag-5'>計算方法</b>

    測斜儀數(shù)據(jù)計算方法解析:從公式理解到智能應(yīng)用

    測斜儀作為工程安全監(jiān)測的重要設(shè)備,其測量數(shù)據(jù)的準(zhǔn)確計算直接關(guān)系到結(jié)構(gòu)物安全狀態(tài)的判斷。南京峟思將系統(tǒng)為大家介紹測斜儀數(shù)據(jù)計算原理與方法,幫
    的頭像 發(fā)表于 09-28 13:30 ?865次閱讀
    測斜儀<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>計算方法</b>解析:從公式理解到智能應(yīng)用

    御控工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)解決方案:排水設(shè)備遠程監(jiān)控與大數(shù)據(jù)統(tǒng)計系統(tǒng)

    御控工業(yè)物聯(lián)網(wǎng)推出排水設(shè)備遠程監(jiān)控與大數(shù)據(jù)統(tǒng)計系統(tǒng),通過物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等技術(shù)構(gòu)建“感知-傳輸-分析-決策”閉環(huán)管理體系,助力排水行業(yè)數(shù)字化轉(zhuǎn)型。
    的頭像 發(fā)表于 09-12 10:04 ?816次閱讀

    功率分析儀電壓、電流及功率采集計算原理詳解

    功率分析儀作為電力電子、電機驅(qū)動、新能源等領(lǐng)域的關(guān)鍵測試設(shè)備,其核心功能是精確測量電壓、電流信號并計算各種功率參數(shù)。我們將深入探討功率分析儀的電壓采集、電流采集原理以及功率計算方法,揭示現(xiàn)代功率測量技術(shù)的核心工作機制。
    的頭像 發(fā)表于 07-31 17:16 ?1433次閱讀

    SiC MOSFET模塊的損耗計算

    為了安全使用SiC模塊,需要計算工作條件下的功率損耗和結(jié)溫,并在額定值范圍內(nèi)使用。MOSFET損耗計算與IGBT既有相似之處,也有不同。相對IGBT,MOSFET可以反向?qū)?,即工作在同步整流模式。本文簡要介紹其損耗計算方法。
    的頭像 發(fā)表于 06-18 17:44 ?5154次閱讀
    SiC MOSFET模塊的損耗<b class='flag-5'>計算</b>

    ADC靜態(tài)參數(shù)全解析:從偏移誤差到未調(diào)整總誤差,一文掌握核心計算

    ADC性能評估的關(guān)鍵指標(biāo)如何計算?本文用ADC實例,詳解偏移/增益/INL/DNL/TUE六大參數(shù)的計算方法,帶您掌握從跳變點提取到誤差分析的全流程。通過典型ADC數(shù)據(jù)和交互式圖表,直
    的頭像 發(fā)表于 06-05 14:50 ?1223次閱讀
    ADC靜態(tài)參數(shù)全解析:從偏移誤差到未調(diào)整總誤差,一文掌握核心<b class='flag-5'>計算</b>!

    接地電阻柜與云計算大數(shù)據(jù)關(guān)系緊密

    為配合實現(xiàn)大數(shù)據(jù),必須籌建更多的云計算數(shù)據(jù)中心,用到很多的發(fā)電機組,如何更好的保護這些發(fā)電機組,是急需解決的一大難題。國際上廣泛采用中性點經(jīng)電阻接地,即在中性點和接地相中間安裝接地電阻柜
    的頭像 發(fā)表于 05-07 06:30 ?671次閱讀
    接地電阻柜與云<b class='flag-5'>計算</b>、<b class='flag-5'>大數(shù)據(jù)</b>關(guān)系緊密