- 詳解MapReduce的模式、算法和用例

#e#

值去重（對唯一項(xiàng)計數(shù)）

問題陳述：記錄包含值域F和值域 G，要分別統(tǒng)計相同G值的記錄中不同的F值的數(shù)目（相當(dāng)于按照 G分組）。

這個問題可以推而廣之應(yīng)用于分面搜索（某些電子商務(wù)網(wǎng)站稱之為Narrow Search）

Record 1： F=1， G={a， b}

Record 2： F=2， G={a， d， e}

Record 3： F=1， G=

Record 4： F=3， G={a， b}

Result：

a -》 3 // F=1， F=2， F=3

b -》 2 // F=1， F=3

d -》 1 // F=2

e -》 1 // F=2

解決方案 I：

第一種方法是分兩個階段來解決這個問題。第一階段在Mapper中使用F和G組成一個復(fù)合值對，然后在Reducer中輸出每個值對，目的是為了保證F值的唯一性。在第二階段，再將值對按照G值來分組計算每組中的條目數(shù)。

第一階段：

class Mapper

method Map（null， record ［value f， categories ［g1， g2，。..］］）

for all category g in ［g1， g2，。..］

Emit（record ［g， f］， count 1）

class Reducer

method Reduce（record ［g， f］， counts ［n1， n2，。..］）

Emit（record ［g， f］， null ）

第二階段：

class Mapper

method Map（record ［f， g］， null）

Emit（value g， count 1）

class Reducer

method Reduce（value g， counts ［n1， n2，。..］）

Emit（value g， sum（［n1， n2，。..］））

解決方案 II：

第二種方法只需要一次MapReduce 即可實(shí)現(xiàn)，但擴(kuò)展性不強(qiáng)。算法很簡單-Mapper 輸出值和分類，在Reducer里為每個值對應(yīng)的分類去重然后給每個所屬的分類計數(shù)加1，最后再在Reducer結(jié)束后將所有計數(shù)加和。這種方法適用于只有有限個分類，而且擁有相同F(xiàn)值的記錄不是很多的情況。例如網(wǎng)絡(luò)日志處理和用戶分類，用戶的總數(shù)很多，但是每個用戶的事件是有限的，以此分類得到的類別也是有限的。值得一提的是在這種模式下可以在數(shù)據(jù)傳輸?shù)絉educer之前使用Combiner來去除分類的重復(fù)值。

class Mapper

method Map（null， record ［value f， categories ［g1， g2，。..］）

for all category g in ［g1， g2，。..］

Emit（value f， category g）

class Reducer

method Initialize

H = new AssociativeArray ： category -》 count

method Reduce（value f， categories ［g1， g2，。..］）

［g1‘， g2’，。.］ = ExcludeDuplicates（［g1， g2，。.］）

for all category g in ［g1‘， g2’，。..］

H{g} = H{g} + 1

method Close

for all category g in H do

Emit（category g， count H{g}）

應(yīng)用：

日志分析，用戶計數(shù)

互相關(guān)

問題陳述：有多個各由若干項(xiàng)構(gòu)成的組，計算項(xiàng)兩兩共同出現(xiàn)于一個組中的次數(shù)。假如項(xiàng)數(shù)是N，那么應(yīng)該計算N*N。

這種情況常見于文本分析（條目是單詞而元組是句子），市場分析（購買了此物的客戶還可能購買什么）。如果N*N小到可以容納于一臺機(jī)器的內(nèi)存，實(shí)現(xiàn)起來就比較簡單了。

配對法

第一種方法是在Mapper中給所有條目配對，然后在Reducer中將同一條目對的計數(shù)加和。但這種做法也有缺點(diǎn)：

· 使用 combiners 帶來的的好處有限，因?yàn)楹芸赡芩许?xiàng)對都是唯一的

· 不能有效利用內(nèi)存

class Mapper

method Map（null， items ［i1， i2，。..］）

for all item i in ［i1， i2，。..］

for all item j in ［i1， i2，。..］

Emit（pair ［i j］， count 1）

class Reducer

method Reduce（pair ［i j］， counts ［c1， c2，。..］）

s = sum（［c1， c2，。..］）

Emit（pair［i j］， count s）

Stripes Approach（條方法？不知道這個名字怎么理解）

第二種方法是將數(shù)據(jù)按照pair中的第一項(xiàng)來分組，并維護(hù)一個關(guān)聯(lián)數(shù)組，數(shù)組中存儲的是所有關(guān)聯(lián)項(xiàng)的計數(shù)。The second approach is to group data by the first item in pair and maintain an associative array （“stripe”） where counters for all adjacent items are accumulated. Reducer receives all stripes for leading item i， merges them， and emits the same result as in the Pairs approach.

· 中間結(jié)果的鍵數(shù)量相對較少，因此減少了排序消耗。

· 可以有效利用 combiners。

· 可在內(nèi)存中執(zhí)行，不過如果沒有正確執(zhí)行的話也會帶來問題。

· 實(shí)現(xiàn)起來比較復(fù)雜。

· 一般來說， “stripes” 比 “pairs” 更快

class Mapper

method Map（null， items ［i1， i2，。..］）

for all item i in ［i1， i2，。..］

H = new AssociativeArray ： item -》 counter

for all item j in ［i1， i2，。..］

H{j} = H{j} + 1

Emit（item i， stripe H）

class Reducer

method Reduce（item i， stripes ［H1， H2，。..］）

H = new AssociativeArray ： item -》 counter

H = merge-sum（［H1， H2，。..］）

for all item j in H.keys（）

Emit（pair ［i j］， H{j}）

應(yīng)用：

文本分析，市場分析

References：

1. Lin J. Dyer C. Hirst G. Data Intensive Processing MapReduce

用MapReduce 表達(dá)關(guān)系模式

在這部分我們會討論一下怎么使用MapReduce來進(jìn)行主要的關(guān)系操作。

篩選（Selection）

class Mapper

method Map（rowkey key， tuple t）

if t satisfies the predicate

Emit（tuple t， null）

投影（Projection）

投影只比篩選稍微復(fù)雜一點(diǎn)，在這種情況下我們可以用Reducer來消除可能的重復(fù)值

class Mapper

method Map（rowkey key， tuple t）

tuple g = project（t） // extract required fields to tuple g

Emit（tuple g， null）

class Reducer

method Reduce（tuple t， array n） // n is an array of nulls

Emit（tuple t， null）

合并（Union）

兩個數(shù)據(jù)集中的所有記錄都送入Mapper，在Reducer里消重。

class Mapper

method Map（rowkey key， tuple t）

Emit（tuple t， null）

class Reducer

method Reduce（tuple t， array n） // n is an array of one or two nulls

Emit（tuple t， null）

交集（Intersection）

將兩個數(shù)據(jù)集中需要做交叉的記錄輸入Mapper，Reducer 輸出出現(xiàn)了兩次的記錄。因?yàn)槊織l記錄都有一個主鍵，在每個數(shù)據(jù)集中只會出現(xiàn)一次，所以這樣做是可行的。

差異（Difference）

假設(shè)有兩個數(shù)據(jù)集R和S，我們要找出R與S的差異。Mapper將所有的元組做上標(biāo)記，表明他們來自于R還是S，Reducer只輸出那些存在于R中而不在S中的記錄。

class Mapper

method Map（rowkey key， tuple t）

Emit（tuple t， string t.SetName） // t.SetName is either ‘R’ or ‘S’

class Reducer

method Reduce（tuple t， array n） // array n can be ［‘R’］，［‘S’］，［‘R’ ‘S’］， or ［‘S’， ‘R’］

if n.size（） = 1 and n［1］ = ‘R’

Emit（tuple t， null）

分組聚合（GroupBy and Aggregation）

分組聚合可以在如下的一個MapReduce中完成。Mapper抽取數(shù)據(jù)并將之分組聚合，Reducer 中對收到的數(shù)據(jù)再次聚合。典型的聚合應(yīng)用比如求和與最值可以以流的方式進(jìn)行計算，因而不需要同時保有所有的值。但是另外一些情景就必須要兩階段MapReduce，前面提到過的惟一值模式就是一個這種類型的例子。

連接（Joining）

MapperReduce框架可以很好地處理連接，不過在面對不同的數(shù)據(jù)量和處理效率要求的時候還是有一些技巧。在這部分我們會介紹一些基本方法，在后面的參考文檔中還列出了一些關(guān)于這方面的專題文章。

分配后連接（Reduce端連接，排序-合并連接）

這個算法按照鍵K來連接數(shù)據(jù)集R和L。Mapper 遍歷R和L中的所有元組，以K為鍵輸出每一個標(biāo)記了來自于R還是L的元組，Reducer把同一個K的數(shù)據(jù)分裝入兩個容器（R和L），然后嵌套循環(huán)遍歷兩個容器中的數(shù)據(jù)以得到交集，最后輸出的每一條結(jié)果都包含了R中的數(shù)據(jù)、L中的數(shù)據(jù)和K。這種方法有以下缺點(diǎn)：

· Mapper要輸出所有的數(shù)據(jù)，即使一些key只會在一個集合中出現(xiàn)。

· Reducer 要在內(nèi)存中保有一個key的所有數(shù)據(jù)，如果數(shù)據(jù)量打過了內(nèi)存，那么就要緩存到硬盤上，這就增加了硬盤IO的消耗。

盡管如此，再分配連接方式仍然是最通用的方法，特別是其他優(yōu)化技術(shù)都不適用的時候。

class Mapper

method Map（null， tuple ［join_key k， value v1， value v2，。..］）

Emit（join_key k， tagged_tuple ［set_name tag， values ［v1， v2，。..］］）

class Reducer

method Reduce（join_key k， tagged_tuples ［t1， t2，。..］）

H = new AssociativeArray ： set_name -》 values

for all tagged_tuple t in ［t1， t2，。..］ // separate values into 2 arrays

H{t.tag}.add（t.values）

for all values r in H{‘R’} // produce a cross-join of the two arrays

for all values l in H{‘L’}

Emit（null，［k r l］）

復(fù)制鏈接Replicated Join （Mapper端連接， Hash 連接）

在實(shí)際應(yīng)用中，將一個小數(shù)據(jù)集和一個大數(shù)據(jù)集連接是很常見的（如用戶與日志記錄）。假定要連接兩個集合R和L，其中R相對較小，這樣，可以把R分發(fā)給所有的Mapper，每個Mapper都可以載入它并以連接鍵來索引其中的數(shù)據(jù)，最常用和有效的索引技術(shù)就是哈希表。之后，Mapper遍歷L，并將其與存儲在哈希表中的R中的相應(yīng)記錄連接，。這種方法非常高效，因?yàn)椴恍枰獙中的數(shù)據(jù)排序，也不需要通過網(wǎng)絡(luò)傳送L中的數(shù)據(jù)，但是R必須足夠小到能夠分發(fā)給所有的Mapper。

class Mapper

method Initialize

H = new AssociativeArray ： join_key -》 tuple from R

R = loadR（）

for all ［ join_key k， tuple ［r1， r2，。..］］ in R

H{k} = H{k}.append（［r1， r2，。..］）

method Map（join_key k， tuple l）

for all tuple r in H{k}

Emit（null， tuple ［k r l］）

閱讀全文

上一頁 1 23全文

MapReduce框架(1000) MapReduce框架(1000)

MapReduce實(shí)例開發(fā)指南

MapReduce實(shí)例——wordcount（單詞統(tǒng)計）

2019-10-08 07:15:48

MapReduce數(shù)據(jù)壓縮的基本原則

黑猴子的家：MapReduce數(shù)據(jù)壓縮

2019-05-24 12:45:46

MapReduce框架音樂排行榜案例

Hadoop綜合實(shí)戰(zhàn)之MapReduce運(yùn)算優(yōu)化——音樂排行榜

2019-10-16 12:20:15

MapReduce的三種運(yùn)行模式

第二章關(guān)于MapReduce

2019-03-26 06:32:50

MapReduce的操作案例分析

一、MapReduce概述1、基本概念Hadoop核心組件之一：分布式計算的方案MapReduce，是一種編程模型，用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算，其中Map（映射）和Reduce（歸約

2021-01-05 17:01:44

MapReduce綜述

MapReduce是由Google公司發(fā)明，近些年新興的分布式計算模型。作為Google公司的核心技術(shù)，MapReduce在處理T級別以上巨量數(shù)據(jù)的業(yè)務(wù)上有著明顯的優(yōu)勢。本文從分布式計算的歷史背景

2010-09-18 08:31:59

模式識別算法的資料

從現(xiàn)在開始，給一些模式識別算法的資料給大家！后面會給一些其它算法設(shè)計給大家！如果大家在學(xué)習(xí)中、研發(fā)中有什么問題，可以找http://item.taobao.com/item.htm?spm

2013-07-15 22:31:52

算法篇（PID詳解)

2020-05-19 10:30:59

詳解三電平傳統(tǒng)SVPWM調(diào)制算法原理

??各位同學(xué)你們好呀，上期我們講了中性點(diǎn)鉗位型的三電平逆變器原理，相信大家都有印象了。那么這一期我們要詳解三電平傳統(tǒng)SVPWM調(diào)制算法原理。通過學(xué)習(xí)后，希望能給初學(xué)者提供捷徑明白算法原理，將來做仿真

2021-08-27 07:25:20

詳解快速傅里葉變換FFT算法

本帖最后由 richthoffen 于 2019-7-19 16:41 編輯詳解快速傅里葉變換FFT算法

2019-07-18 08:07:33

詳解快速傅里葉變換FFT算法

2020-03-28 11:48:16

詳解快速傅里葉變換FFT算法

2020-05-25 09:31:30

詳解快速傅里葉變換FFT算法

2021-03-05 11:07:32

C語言經(jīng)典算法100例

2013-11-01 13:51:29

C語言經(jīng)典算法100例分享

C語言經(jīng)典算法，要的拿去！ C語言經(jīng)典算法100例.pdf

2018-07-19 01:47:51

HFSS 仿真算法及其應(yīng)用場景詳解：有限元算法、積分方程算法、PO算法

明了各種算法應(yīng)用的場景，很多時候碰到的工程問題既包括復(fù)雜結(jié)構(gòu)物理也包括超大尺寸物理，如新能源汽車上的天線布局問題，對仿真而言，最好的精度是用全波算法求解，最快的速度是采用近似算求解，針對該

2019-09-20 17:15:45

MaxCompute MapReduce

摘要：大數(shù)據(jù)計算服務(wù)(MaxCompute)的功能詳解和使用心得點(diǎn)此查看原文：http://click.aliyun.com/m/41384/前言MapReduce已經(jīng)有文檔，用戶可以參考文檔

2018-01-31 17:08:45

OpenHarmony——內(nèi)核對象隊(duì)列之算法詳解（下）

OpenHarmony——內(nèi)核對象隊(duì)列之算法詳解（下）前言O(shè)penAtom OpenHarmony（以下簡稱“OpenHarmony”） LiteOS-M 內(nèi)核是面向 IoT 領(lǐng)域構(gòu)建的輕量級物聯(lián)網(wǎng)

2022-08-09 16:16:20

SM1算法的EBC、CBC、OFB模式是分別是什么意思？

2021-10-22 09:24:13

SVPWM的原理推導(dǎo)和控制算法詳解

SVPWM的原理推導(dǎo)和控制算法詳解，不錯的資料，值得一看

2016-01-28 15:09:44

VHDL語言100例詳解

本帖最后由 eehome 于 2013-1-5 09:51 編輯 VHDL語言100例詳解

2012-08-20 20:45:49

VHDL語言100例詳解.pdf 僅供學(xué)習(xí)

本帖最后由田家二好于 2015-3-20 11:52 編輯 VHDL語言100例詳解.pdf僅供學(xué)習(xí)

2015-03-17 21:54:30

VHDL語言100例詳解.pdf 僅供學(xué)習(xí)

2015-03-20 11:52:07

Verilog HDL語言100例詳解

Verilog HDL語言100例詳解希望對大家有所幫助

2016-09-01 15:58:09

Yarn的偽分布部署步驟及MapReduce簡單使用

偽分布式部署yarn和MapReduce案例

2019-03-05 16:01:15

stm32F1的GPIO詳解

嵌入式工程師成長之路（一）stm32F1GPIO詳解想要學(xué)習(xí)嵌入式知識，可以從單片機(jī)入手，下面以stm32f103zet6以及51單片機(jī)為例，講解單片機(jī)最基本部分IO口第一部分：stm32STM32

2022-01-20 06:48:54

從MapReduce的執(zhí)行來看如何優(yōu)化MaxCompute（原ODPS） SQL

任務(wù)的拖累。,v>,v>能產(chǎn)生reduce數(shù)據(jù)分布不均勻的操作，最長出現(xiàn)的有兩分類：join 這里推薦本書《[url=]mapreduce設(shè)計模式[/url]》，其中的連接模式篇章把各種

2018-01-31 15:42:58

從零開始學(xué)習(xí)hadoop？hadoop快速入門

介紹及hdfs、mapreduce體系結(jié)構(gòu)6. Hadoop獨(dú)立模式安裝和測試7. Hadoop的集群結(jié)構(gòu)8. Hadoop偽分布的詳細(xì)安裝步驟9. 通過命令行和瀏覽器觀察Hadoop10.

2018-03-13 15:21:18

以小車控制為例做PID算法詳解

控制系統(tǒng)是閉環(huán)，才能滿足整個系統(tǒng)的穩(wěn)定要求，必竟速度是系統(tǒng)參數(shù)之一，這是其三. 小車調(diào)速肯定不是線性的，外界因素那么多，沒人能證明是線性的。如果是線性的，直接用P就可以了。比如在PWM=60%時，速度

2019-05-30 09:06:06

值得一看的MapReduce編程實(shí)例

MapReduce編程實(shí)例

2019-03-05 16:55:22

偏微分方程式數(shù)值解之計算機(jī)Fortran算法詳解附圖（續(xù)ii）

偏微分方程式數(shù)值解之計算機(jī)Fortran算法詳解附圖（續(xù)ii）內(nèi)容與附圖頁碼一致，續(xù)如下： ******************************粵港澳大灣區(qū)2020-08-29

2020-08-29 21:14:26

偏微分方程式數(shù)值解之計算機(jī)Fortran算法詳解附圖（續(xù)i）

偏微分方程式數(shù)值解之計算機(jī)Fortran算法詳解附圖（續(xù)i）內(nèi)容與附圖頁碼一致，續(xù)如下：*********************** 粵港澳大灣區(qū) 2020-8-29

2020-08-29 20:44:14

好友推薦算法的實(shí)現(xiàn)

MapReduce實(shí)例——好友推薦

2019-10-11 08:31:19

嵌入式AES算法CBC模式

2012-08-18 07:28:13

板球系統(tǒng)的算法用什么？

經(jīng)典控制類題目板球系統(tǒng)用什么算法比較好？PID還是模糊算法

2017-08-04 10:25:40

每日推薦 | 鴻蒙IPC開發(fā)板免費(fèi)試用，OpenHarmony內(nèi)核對象隊(duì)列算法詳解

貼評論區(qū)進(jìn)行申請就能獲得試用機(jī)會，大家沖鴨~3、OpenHarmony：內(nèi)核對象隊(duì)列之算法詳解（上）推薦理由：本文希望通過分享 OpenHarmony 的 LiteOS-M 內(nèi)核對象隊(duì)列的算法詳解，讓

2022-08-10 10:26:29

請問UML用例圖的創(chuàng)建方法是什么？

UML用例圖的創(chuàng)建方法及其用例的描述

2020-11-06 07:10:08

請問如何實(shí)現(xiàn)協(xié)同過濾算法？

協(xié)同過濾算法的原理及實(shí)現(xiàn)基于物品的協(xié)同過濾算法詳解協(xié)同過濾算法的原理及實(shí)現(xiàn)

2020-11-05 06:51:34

遺傳算法的模式理論

導(dǎo)遺傳算法的基本理論，是J.H.Holland教授創(chuàng)立的模式理論。該理論揭示了遺傳算法的基本機(jī)理。 3.1 基本概念 3.1.1 問題的引出 &nb

2008-12-20 02:39:39

基于最大模式的關(guān)聯(lián)規(guī)則挖掘算法研究

提出了一種基于最大模式的關(guān)聯(lián)規(guī)則挖掘算法，探討了它的實(shí)現(xiàn)步驟，最后通過實(shí)例說明它是數(shù)據(jù)挖掘中一種有效的關(guān)聯(lián)規(guī)則挖掘算法。

2009-09-16 10:44:31

入侵檢測系統(tǒng)中模式匹配算法的研究

入侵檢測是網(wǎng)絡(luò)安全的最后一道防線，模式匹配算法是基于特征匹配的入侵檢測系統(tǒng)中的核心算法，模式匹配的效率決定這類入侵檢測系統(tǒng)的性能。本文對入侵檢測系統(tǒng)中的模式

2009-09-18 10:47:48

模式匹配算法的深入研究

模式匹配算法的深入研究:模式匹配算法的應(yīng)用較為廣泛, KMP算法是一種性能較高的算法,所以對KMP算法的深入研究能夠使模式匹配問題得到較大的改善. 在匹配的過程中,從模式匹配算

2009-10-25 12:21:25

模板方法模式在回溯算法中的應(yīng)用

描述了模板方法模式及回溯算法的模板方法模式的Java 語言實(shí)現(xiàn)，該實(shí)現(xiàn)使得回溯算法的實(shí)現(xiàn)達(dá)到了可擴(kuò)展性、靈活性和可插入性三個目標(biāo)，提高了算法的可維護(hù)性和可復(fù)用性。

2010-01-15 16:48:10

模板方法模式在回溯算法中的應(yīng)用

2010-01-15 16:51:52

多模式匹配算法的性能分析

多模式匹配算法效率直接影響入侵檢測系統(tǒng)的性能和效率。在分析研究經(jīng)典的AC算法、WM算法和ExB算法的基礎(chǔ)上,通過上機(jī)實(shí)驗(yàn)測試這些算法的模式匹配時間,為改進(jìn)多模式匹配算法提

2010-12-31 17:20:04

詳解九章算法作者:楊輝

1261年,中國宋朝的楊輝著《詳解九章算法》楊輝，中國南宋時期杰出的數(shù)學(xué)家和數(shù)學(xué)教育家。在13世紀(jì)中葉活動于蘇杭一帶，其著作

2007-11-07 13:35:52

17014

路由算法詳解

路由算法詳解引言如果您已經(jīng)閱讀過博聞網(wǎng)中的路由器工作原理一文，您會了解到路由器的作用是管理網(wǎng)絡(luò)流量和找到發(fā)送分組數(shù)據(jù)包的最佳路由。但是您是否想過

2009-08-03 09:00:20

6462

路由算法詳解

路由算法詳解1. 引言 2. 路由器基礎(chǔ)知識 3. LS算法 4. 示例：Dijkstra算法 5. DV算法 6. 分級路由

2009-08-06 09:36:09

5286

遞歸算法的設(shè)計模式與調(diào)試

文中提出一種通用遞歸算法的設(shè)計模式,并結(jié)合實(shí)例說明該模式的應(yīng)用方法和有效性,為研究遞歸算法提供了有效的解決方案,可推廣性強(qiáng)。同時給出了遞歸程序在調(diào)試過程中的一些方法和

2011-11-03 15:04:48

BM模式匹配算法的研究和改進(jìn)

模式匹配算法在數(shù)字通信、入侵檢測等多種領(lǐng)域都有著廣泛的應(yīng)用，BM算法以其高效的匹配過程成為模式匹配算法中應(yīng)用最為廣泛的算法之一。盡管如此，BM算法的效率還是可以再提高的

2012-10-17 11:23:56

SVPWM的原理及法則推導(dǎo)和控制算法詳解

2016-04-13 15:42:35

SVPWM的原理及法則推導(dǎo)和控制算法詳解

空間矢量控制原理及法則推導(dǎo)和控制算法詳解

2016-05-09 10:59:26

PID算法詳解

2016-12-17 20:48:18

基于MapReduce和矩陣的頻繁項(xiàng)集挖掘算法

基于MapReduce和矩陣的頻繁項(xiàng)集挖掘算法_周國軍

2017-01-07 18:39:17

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學(xué)森

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學(xué)森

2017-03-19 11:41:51

Mapreduce下改進(jìn)Skyline的高效算法_劉建邦

Mapreduce下改進(jìn)Skyline的高效算法_劉建邦

2017-03-19 18:58:18

基于Bagging決策樹優(yōu)化算法

針對經(jīng)典C4.5決策樹算法存在過度擬合和伸縮性差的問題，提出了一種基于Bagging的決策樹改進(jìn)算法，并基于MapReduce模型對改進(jìn)算法進(jìn)行了并行化。首先，基于Bagging技術(shù)對C4.5算法

2017-11-21 11:57:08

面向并行迭代的MapReduce模型

機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的多數(shù)模型均需要通過迭代計算以求解其最優(yōu)參數(shù)，而MapReduce模型在迭代計算中的缺陷不足導(dǎo)致其在迭代計算中無法得到廣泛應(yīng)用。為解決上述矛盾，基于MapReduce模型提出并實(shí)現(xiàn)

2017-11-23 15:04:35

基于差分隱私的軌跡模式挖掘算法

針對現(xiàn)有基于差分隱私的頻繁軌跡模式挖掘算法全局敏感度過高、挖掘結(jié)果可用性較低的問題，提出一種基于前綴序列格和軌跡截斷的差分隱私下頻繁軌跡模式挖掘算法LTPM。該算法首先利用自適應(yīng)的方法獲得最優(yōu)截斷

2017-11-25 11:38:37

基于Spark的ItemBased推薦算法性能優(yōu)化

MapReduce計算場景下，復(fù)雜的大數(shù)據(jù)挖掘類算法通常需要多個MapReduce作業(yè)協(xié)作完成，但多個作業(yè)之間嚴(yán)重的冗余磁盤讀寫及重復(fù)的資源申請操作，使得算法的性能嚴(yán)重降低。為提高ItemBased

2017-11-30 11:42:02

基于MapReduce的新會話識別方法

會話識別結(jié)果的準(zhǔn)確率，在分析會話識別算法研究現(xiàn)狀的基礎(chǔ)上，提出一種基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和動態(tài)閡值相結(jié)合的新會話識別方法并討論其優(yōu)勢所在，接著用MapReduce模型實(shí)現(xiàn)新方法的分布式處理，最后通過對比實(shí)驗(yàn)分析驗(yàn)證MapReduce模型實(shí)現(xiàn)新算法的高效性和高精確度

2017-12-04 15:13:23

一種高效的基于MapReduce分布式蜂群模式挖掘算法

針對時空軌跡大數(shù)據(jù)的蜂群模式挖掘需求，提出了一種高效的基于MapReduce的分布式蜂群模式挖掘算法。首先，提出了基于最大移動目標(biāo)集的對象集閉合蜂群模式概念，并利用最小時間支集優(yōu)化了串行挖掘算法

2017-12-05 19:09:46

[目標(biāo)檢測]Faster RCNN算法詳解

%；復(fù)雜網(wǎng)絡(luò)達(dá)到5fps，準(zhǔn)確率78.8%。作者在github上給出了基于matlab和python的源碼。對Region CNN算法不了解的同學(xué)，請先參看前兩篇文章：《RCNN算法詳解

2017-12-06 02:30:04

557

基于MapReduce數(shù)據(jù)流相似性搜索并行算法

成多個子矩陣，采取并行迭代計算每條反對角線上子矩陣的方法，基于MapReduce編程模型，實(shí)現(xiàn)高效并行計算時間序列動態(tài)彎曲距離，通過改進(jìn)剪裁冗余計算方法，設(shè)計實(shí)現(xiàn)一種數(shù)據(jù)流多模式相似性搜索并行算法。中國雪深長時間序列數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，當(dāng)每條時間序列的長度達(dá)

2017-12-07 11:06:47

一種基于MapReduce的圖結(jié)構(gòu)聚類算法

為O（tril5）（m為圖中邊的條數(shù)），因此很難處理大規(guī)模的圖數(shù)據(jù)。為了解決SCAN算法的可擴(kuò)展性問題，提出了一種新穎的基于MapReduce的海量圖結(jié)構(gòu)聚類算法MRSCAN。具體地，提出了一種計算核心節(jié)點(diǎn)，以及兩種合并聚類的MapReduce算法。最后，在多個真實(shí)的大規(guī)模圖數(shù)

2017-12-19 11:05:34

基于MapReduce的Coteries軌跡模式挖掘及個性化旅游路線推薦

Coterie是一種異步的組模式，要求在不等時間間隔約束下找出具有相似軌跡行為的組模式，而傳統(tǒng)的軌跡組模式挖掘算法往往處理具有固定時間間隔采樣約束的GPS數(shù)據(jù)。因此無法直接用于Coterie模式挖掘

2017-12-19 15:14:10

MapReduce的誤差反向傳播算法

針對誤差反向傳播（BP）算法計算迭代的特點(diǎn)，給出了迭代式MapReduce框架實(shí)現(xiàn)BP算法的方法。迭代式MapReduce框架在傳統(tǒng)MapReduce框架上添加了傳送模塊，避免了傳統(tǒng)框架運(yùn)用在迭代

2017-12-20 16:39:37

基于MapReduce的SVM態(tài)勢評估算法

支持向量機(jī)（SVM）可以解決傳統(tǒng)態(tài)勢評估算法無法兼顧的維數(shù)災(zāi)難過學(xué)習(xí)及非線性等難題，卻無法應(yīng)對大規(guī)模樣本的問題。為了有效應(yīng)對態(tài)勢評估中的大數(shù)據(jù)處理挑戰(zhàn)，提出了一種基于MapReduce的SVM

2017-12-26 17:52:11

多階段劃分的MapReduce模型

針對已有的MapReduce模型階段劃分粒度不合理導(dǎo)致模型精度和復(fù)雜度存在的問題，提出了階段劃分粒度為5的多階段MapReduce模型（MR-Model）。首先綜述了MapReduce模型的研究現(xiàn)狀

2017-12-27 11:48:35

基于MapReduce計算框架的并行同態(tài)加密方案

根據(jù)云計算分布式的特點(diǎn)，并結(jié)合同態(tài)加密和Hadoop環(huán)境下MapReduce并行框架，提出了一種基于MapReduce計算框架的并行同態(tài)加密方案。實(shí)現(xiàn)了具體的并行同態(tài)加密算法，并對該方案的安全性

2017-12-27 15:52:29

什么是mapreduce_mapreduce工作原理_mapreduce_mapreduce邏輯模型圖

Mapreduce概況 MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算。概念Map（映射）和Reduce（歸約），是它們的主要思想，都是從函數(shù)式編程語言里借來的，還有

2018-01-02 10:39:34

24973

mapreduce編程實(shí)例

Mapreduce是一個計算框架，既然是做計算的框架，那么表現(xiàn)形式就是有個輸入（input），mapreduce操作這個輸入（input），通過本身定義好的計算模型，得到一個輸出（output），這個輸出就是我們所需要的結(jié)果。mapreduce編程實(shí)例如下所述

2018-01-02 10:54:27

10988

mapreduce的應(yīng)用開發(fā)步驟

MapReduce極大地方便了編程人員在不會分布式并行編程的情況下，將自己的程序運(yùn)行在分布式系統(tǒng)上。當(dāng)前的軟件實(shí)現(xiàn)是指定一個Map（映射）函數(shù)，用來把一組鍵值對映射成一組新的鍵值對，指定并發(fā)

2018-01-02 14:14:59

4663

mapreduce工作原理圖文詳解_Map、Reduce任務(wù)中Shuffle和排序

本文主要分析以下兩點(diǎn)內(nèi)容：1.MapReduce作業(yè)運(yùn)行流程原理2.Map、Reduce任務(wù)中Shuffle和排序的過程。分析如下文

2018-01-02 14:39:09

7954

mapreduce二次排序_ mapreduce二次排序原理

在mapreduce操作時，shuffle階段會多次根據(jù)key值排序。但是在shuffle分組后，相同key值的values序列的順序是不確定的（如下圖）。如果想要此時value值也是排序好的，這種

2018-01-02 15:16:14

6066

基于異常檢測模型的MapReduce性能優(yōu)化

針對落伍者的選擇問題，提出利用故障診斷領(lǐng)域內(nèi)通常使用的異常檢測模型來選擇落伍者的方法。首先，利用異常檢測算法來發(fā)現(xiàn)集群中的慢節(jié)點(diǎn)；然后改進(jìn)MapReduce任務(wù)分配算法和推測執(zhí)行算法，不再給慢節(jié)點(diǎn)

2018-01-03 14:14:55

一種面向模式圖變化的增量圖模式匹配算法

在大數(shù)據(jù)時代，數(shù)據(jù)圖的規(guī)模急劇增長，增量圖模式匹配算法能夠在數(shù)據(jù)圖或模式圖發(fā)生變化時避免重新在整個數(shù)據(jù)圖上進(jìn)行匹配、減少響應(yīng)時間，因此成為了研究的熱點(diǎn)．針對實(shí)際應(yīng)用中數(shù)據(jù)圖不變而模式圖發(fā)生變化的情況

2018-01-21 10:06:39

MapReduce的數(shù)據(jù)放置策略

MapReduce是一種適用于大規(guī)模數(shù)據(jù)密集型應(yīng)用的有效編程模型，具有編程簡單、易于擴(kuò)展、容錯性好等特點(diǎn)，已在并行和分布式計算領(lǐng)域得到了廣泛且成功的應(yīng)用．由于MapReduce將計算擴(kuò)展到大規(guī)模

2018-01-26 11:15:09

MapReduce連接查詢的IO代價研究

優(yōu)化，有著學(xué)術(shù)意義和應(yīng)用價值．MapReduce連接查詢算法的性能主要取決于I/O代價（包括本地和網(wǎng)絡(luò)I/O），而I/O代價與數(shù)據(jù)集以及連接運(yùn)算的特征參數(shù)相關(guān)，通過對二元連接的I/O代價評估可以優(yōu)化多元連接執(zhí)行計劃．基于此，首先提出了二元連接查詢的I/O代價模型

2018-01-31 16:29:05

蟻群算法即相關(guān)代碼實(shí)現(xiàn)詳解—matlab之智能算法

本微博主要闡述了蟻群算法即相關(guān)代碼實(shí)現(xiàn)詳解。蟻群算法是近年來剛剛誕生的隨機(jī)優(yōu)化方法，它是一種源于大自然的新的仿生類算法.由意大利學(xué)者Dorigo最早提出，螞蟻算法主要是通過螞蟻群體之間的信息傳遞而達(dá)到尋優(yōu)的目的。

2018-02-02 11:03:53

10662

Apriori算法詳解

本文主要是對Apriori算法的詳解，包括了Apriori算法詳細(xì)介紹概括和步驟和Apriori算法偽代碼和例子。Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法，其核心思想是通過候選集生成和情節(jié)

2018-02-02 16:35:10

20726

一種基于MapReduce模型的并行化k-medoids聚類算法

本文針對k-medoids算法具有初始點(diǎn)選取復(fù)雜、聚類迭代時間久、中心點(diǎn)選取消耗資源過多等缺點(diǎn)，使用Hadoop平臺下的MapReduce編程框架對算法進(jìn)行初始點(diǎn)的點(diǎn)密度計算選取并行化、非中心點(diǎn)分配并行化和中心點(diǎn)更新并行化等方面的改進(jìn)。

2018-05-18 09:06:39

4850

如何使用MapReduce進(jìn)行大數(shù)據(jù)的主動學(xué)習(xí)

針對傳統(tǒng)的主動學(xué)習(xí)算法只能處理中小型數(shù)據(jù)集的問題，提出一種基于MapReduce的大數(shù)據(jù)主動學(xué)習(xí)算法。首先，在有類別標(biāo)簽的初始訓(xùn)練集上，用極限學(xué)習(xí)機(jī)（ ELM）算法訓(xùn)練一個分類器，并將其輸出用軟最大化函數(shù)變換為一個后驗(yàn)概率分布。

2018-12-12 15:51:33

云計算的編程模式

大大提升。MapReduce是當(dāng)前云計算主流并行編程模式之一。MapReduce模式將任務(wù)自動分成多個子任務(wù)，通過Map和Reduce兩步實(shí)現(xiàn)任務(wù)在大規(guī)模計算節(jié)點(diǎn)中的高度與分配。

2019-01-02 16:39:53

3858

目標(biāo)檢測：Faster RCNN算法詳解

為59.9%；復(fù)雜網(wǎng)絡(luò)達(dá)到5fps，準(zhǔn)確率78.8%。作者在github上給出了基于matlab和python的源碼。對Region CNN算法不了解的同學(xué)，請先參看這兩篇文章：《RCNN算法詳解

2021-01-13 16:25:31

4314

基于MapReduce/Spark的大規(guī)模壓縮模糊K-近鄰算法

分別基于Mapreduce和 Spark的2種大規(guī)模壓縮模糊K-近鄰算法。在樣例選擇閾值設(shè)置方面，引人動態(tài)機(jī)制，使得所選樣例更具代表性。在具有7個數(shù)據(jù)節(jié)點(diǎn)的大數(shù)據(jù)平臺上進(jìn)行實(shí)驗(yàn)，結(jié)果表明，與 CFKNN算法相比，所提2種算法具有更高的分類精度和加速比。2個平臺相

2021-03-17 10:16:17

基于MapReduce和加權(quán)網(wǎng)絡(luò)信息熵的DBWGIE-MR算法

針對大數(shù)據(jù)下基于密度的聚類算法中存在的數(shù)據(jù)網(wǎng)格劃分不合理，聚類結(jié)果準(zhǔn)確度不高以及并行化效率較低等問題，提出了基于 Mapreduce和加權(quán)網(wǎng)格信息熵的 DBWGIE-MR算法。首先提出自適應(yīng)網(wǎng)格劃分

2021-04-07 14:31:56

MapReduce框架下分布式編碼計算容錯算法

隨著分布式系統(tǒng)規(guī)模擴(kuò)大及計算復(fù)雜度增加，分布式計算的平均故障修復(fù)時間和容錯計算所產(chǎn)生的通信開銷呈現(xiàn)日益上升趨勢。結(jié)合分布式編碼計算和副本冗余技術(shù)，提出一種新的容錯算法。map節(jié)點(diǎn)應(yīng)用分布式編碼計算

2021-06-01 15:43:18