詳解MapReduce的模式、算法和用例 - 全文

前言

? ? ? ?本文總結(jié)了幾種網(wǎng)上或者論文中常見(jiàn)的MapReduce模式和算法，并系統(tǒng)化的解釋了這些技術(shù)的不同之處。所有描述性的文字和代碼都使用了標(biāo)準(zhǔn)hadoop的MapReduce模型，包括Mappers， Reduces， Combiners， Partitioners，和 sorting。詳細(xì)分析如下所示。

基本MapReduce模式

計(jì)數(shù)與求和

問(wèn)題陳述：有許多文檔，每個(gè)文檔都有一些字段組成。需要計(jì)算出每個(gè)字段在所有文檔中的出現(xiàn)次數(shù)或者這些字段的其他什么統(tǒng)計(jì)值。例如，給定一個(gè)log文件，其中的每條記錄都包含一個(gè)響應(yīng)時(shí)間，需要計(jì)算出平均響應(yīng)時(shí)間。

解決方案：

讓我們先從簡(jiǎn)單的例子入手。在下面的代碼片段里，Mapper每遇到指定詞就把頻次記1，Reducer一個(gè)個(gè)遍歷這些詞的集合然后把他們的頻次加和。

? 詳解MapReduce的模式、算法和用例

這種方法的缺點(diǎn)顯而易見(jiàn)，Mapper提交了太多無(wú)意義的計(jì)數(shù)。它完全可以通過(guò)先對(duì)每個(gè)文檔中的詞進(jìn)行計(jì)數(shù)從而減少傳遞給Reducer的數(shù)據(jù)量：

? 詳解MapReduce的模式、算法和用例

如果要累計(jì)計(jì)數(shù)的的不只是單個(gè)文檔中的內(nèi)容，還包括了一個(gè)Mapper節(jié)點(diǎn)處理的所有文檔，那就要用到Combiner了：

? 詳解MapReduce的模式、算法和用例

應(yīng)用：

Log 分析，數(shù)據(jù)查詢

整理歸類

問(wèn)題陳述：

有一系列條目，每個(gè)條目都有幾個(gè)屬性，要把具有同一屬性值的條目都保存在一個(gè)文件里，或者把條目按照屬性值分組。最典型的應(yīng)用是倒排索引。

解決方案：

解決方案很簡(jiǎn)單。在 Mapper 中以每個(gè)條目的所需屬性值作為 key，其本身作為值傳遞給 Reducer。 Reducer 取得按照屬性值分組的條目，然后可以處理或者保存。如果是在構(gòu)建倒排索引，那么每個(gè)條目相當(dāng)于一個(gè)詞而屬性值就是詞所在的文檔ID。

應(yīng)用：

倒排索引， ETL

過(guò)濾（文本查找），解析和校驗(yàn)

問(wèn)題陳述：

假設(shè)有很多條記錄，需要從其中找出滿足某個(gè)條件的所有記錄，或者將每條記錄傳換成另外一種形式（轉(zhuǎn)換操作相對(duì)于各條記錄獨(dú)立，即對(duì)一條記錄的操作與其他記錄無(wú)關(guān)）。像文本解析、特定值抽取、格式轉(zhuǎn)換等都屬于后一種用例。

解決方案：

非常簡(jiǎn)單，在Mapper 里逐條進(jìn)行操作，輸出需要的值或轉(zhuǎn)換后的形式。

應(yīng)用：

日志分析，數(shù)據(jù)查詢，ETL，數(shù)據(jù)校驗(yàn)

分布式任務(wù)執(zhí)行

問(wèn)題陳述：

大型計(jì)算可以分解為多個(gè)部分分別進(jìn)行然后合并各個(gè)計(jì)算的結(jié)果以獲得最終結(jié)果。

解決方案：將數(shù)據(jù)切分成多份作為每個(gè) Mapper 的輸入，每個(gè)Mapper處理一份數(shù)據(jù)，執(zhí)行同樣的運(yùn)算，產(chǎn)生結(jié)果，Reducer把多個(gè)Mapper的結(jié)果組合成一個(gè)。

案例研究：數(shù)字通信系統(tǒng)模擬

像 WiMAX 這樣的數(shù)字通信模擬軟件通過(guò)系統(tǒng)模型來(lái)傳輸大量的隨機(jī)數(shù)據(jù)，然后計(jì)算傳輸中的錯(cuò)誤幾率。每個(gè) Mapper 處理樣本 1/N 的數(shù)據(jù)，計(jì)算出這部分?jǐn)?shù)據(jù)的錯(cuò)誤率，然后在 Reducer 里計(jì)算平均錯(cuò)誤率。

應(yīng)用：

工程模擬，數(shù)字分析，性能測(cè)試

排序

問(wèn)題陳述：

有許多條記錄，需要按照某種規(guī)則將所有記錄排序或是按照順序來(lái)處理記錄。

解決方案：簡(jiǎn)單排序很好辦 – Mappers 將待排序的屬性值為鍵，整條記錄為值輸出。不過(guò)實(shí)際應(yīng)用中的排序要更加巧妙一點(diǎn)，這就是它之所以被稱為MapReduce 核心的原因（“核心”是說(shuō)排序？因?yàn)樽C明Hadoop計(jì)算能力的實(shí)驗(yàn)是大數(shù)據(jù)排序？還是說(shuō)Hadoop的處理過(guò)程中對(duì)key排序的環(huán)節(jié)？）。在實(shí)踐中，常用組合鍵來(lái)實(shí)現(xiàn)二次排序和分組。

MapReduce 最初只能夠?qū)︽I排序，但是也有技術(shù)利用可以利用Hadoop 的特性來(lái)實(shí)現(xiàn)按值排序。想了解的話可以看這篇博客。

按照BigTable的概念，使用 MapReduce來(lái)對(duì)最初數(shù)據(jù)而非中間數(shù)據(jù)排序，也即保持?jǐn)?shù)據(jù)的有序狀態(tài)更有好處，必須注意這一點(diǎn)。換句話說(shuō)，在數(shù)據(jù)插入時(shí)排序一次要比在每次查詢數(shù)數(shù)據(jù)的時(shí)候排序更高效。

應(yīng)用：

ETL，數(shù)據(jù)分析
#e#

非基本 MapReduce 模式

迭代消息傳遞（圖處理）

問(wèn)題陳述：

假設(shè)一個(gè)實(shí)體網(wǎng)絡(luò)，實(shí)體之間存在著關(guān)系。需要按照與它比鄰的其他實(shí)體的屬性計(jì)算出一個(gè)狀態(tài)。這個(gè)狀態(tài)可以表現(xiàn)為它和其它節(jié)點(diǎn)之間的距離，存在特定屬性的鄰接點(diǎn)的跡象，鄰域密度特征等等。

解決方案：

網(wǎng)絡(luò)存儲(chǔ)為系列節(jié)點(diǎn)的結(jié)合，每個(gè)節(jié)點(diǎn)包含有其所有鄰接點(diǎn)ID的列表。按照這個(gè)概念，MapReduce 迭代進(jìn)行，每次迭代中每個(gè)節(jié)點(diǎn)都發(fā)消息給它的鄰接點(diǎn)。鄰接點(diǎn)根據(jù)接收到的信息更新自己的狀態(tài)。當(dāng)滿足了某些條件的時(shí)候迭代停止，如達(dá)到了最大迭代次數(shù)（網(wǎng)絡(luò)半徑）或兩次連續(xù)的迭代幾乎沒(méi)有狀態(tài)改變。從技術(shù)上來(lái)看，Mapper 以每個(gè)鄰接點(diǎn)的ID為鍵發(fā)出信息，所有的信息都會(huì)按照接受節(jié)點(diǎn)分組，reducer 就能夠重算各節(jié)點(diǎn)的狀態(tài)然后更新那些狀態(tài)改變了的節(jié)點(diǎn)。下面展示了這個(gè)算法：

class Mapper

method Map（id n， object N）

Emit（id n， object N）

for all id m in N.OutgoingRelations do

Emit（id m， message getMessage（N））

class Reducer

method Reduce（id m，［s1， s2，。..］）

M = null

messages = ［］

for all s in ［s1， s2，。..］ do

if IsObject（s） then

M = s

else // s is a message

messages.add（s）

M.State = calculateState（messages）

Emit（id m， item M）

一個(gè)節(jié)點(diǎn)的狀態(tài)可以迅速的沿著網(wǎng)絡(luò)傳全網(wǎng)，那些被感染了的節(jié)點(diǎn)又去感染它們的鄰居，整個(gè)過(guò)程就像下面的圖示一樣：

案例研究：沿分類樹(shù)的有效性傳遞

問(wèn)題陳述：

這個(gè)問(wèn)題來(lái)自于真實(shí)的電子商務(wù)應(yīng)用。將各種貨物分類，這些類別可以組成一個(gè)樹(shù)形結(jié)構(gòu)，比較大的分類（像男人、女人、兒童）可以再分出小分類（像男褲或女裝），直到不能再分為止（像男式藍(lán)色牛仔褲）。這些不能再分的基層類別可以是有效（這個(gè)類別包含有貨品）或者已無(wú)效的（沒(méi)有屬于這個(gè)分類的貨品）。如果一個(gè)分類至少含有一個(gè)有效的子分類那么認(rèn)為這個(gè)分類也是有效的。我們需要在已知一些基層分類有效的情況下找出分類樹(shù)上所有有效的分類。

解決方案：

這個(gè)問(wèn)題可以用上一節(jié)提到的框架來(lái)解決。我們咋下面定義了名為 getMessage和 calculateState 的方法：

class N

State in {True = 2， False = 1， null = 0}，

initialized 1 or 2 for end-of-line categories， 0 otherwise

method getMessage（object N）

return N.State

method calculateState（state s， data ［d1， d2，。..］）

return max（［d1， d2，。..］）

案例研究：廣度優(yōu)先搜索

問(wèn)題陳述：需要計(jì)算出一個(gè)圖結(jié)構(gòu)中某一個(gè)節(jié)點(diǎn)到其它所有節(jié)點(diǎn)的距離。

解決方案： Source源節(jié)點(diǎn)給所有鄰接點(diǎn)發(fā)出值為0的信號(hào)，鄰接點(diǎn)把收到的信號(hào)再轉(zhuǎn)發(fā)給自己的鄰接點(diǎn)，每轉(zhuǎn)發(fā)一次就對(duì)信號(hào)值加1：

class N

State is distance，

initialized 0 for source node， INFINITY for all other nodes

method getMessage（N）

return N.State + 1

method calculateState（state s， data ［d1， d2，。..］）

min（［d1， d2，。..］）

案例研究：網(wǎng)頁(yè)排名和 Mapper 端數(shù)據(jù)聚合

這個(gè)算法由Google提出，使用權(quán)威的PageRank算法，通過(guò)連接到一個(gè)網(wǎng)頁(yè)的其他網(wǎng)頁(yè)來(lái)計(jì)算網(wǎng)頁(yè)的相關(guān)性。真實(shí)算法是相當(dāng)復(fù)雜的，但是核心思想是權(quán)重可以傳播，也即通過(guò)一個(gè)節(jié)點(diǎn)的各聯(lián)接節(jié)點(diǎn)的權(quán)重的均值來(lái)計(jì)算節(jié)點(diǎn)自身的權(quán)重。

class N

State is PageRank

method getMessage（object N）

return N.State / N.OutgoingRelations.size（）

method calculateState（state s， data ［d1， d2，。..］）

return （ sum（［d1， d2，。..］））

要指出的是上面用一個(gè)數(shù)值來(lái)作為評(píng)分實(shí)際上是一種簡(jiǎn)化，在實(shí)際情況下，我們需要在Mapper端來(lái)進(jìn)行聚合計(jì)算得出這個(gè)值。下面的代碼片段展示了這個(gè)改變后的邏輯（針對(duì)于 PageRank 算法）：

class Mapper

method Initialize

H = new AssociativeArray

method Map（id n， object N）

p = N.PageRank / N.OutgoingRelations.size（）

Emit（id n， object N）

for all id m in N.OutgoingRelations do

H{m} = H{m} + p

method Close

for all id n in H do

Emit（id n， value H{n}）

class Reducer

method Reduce（id m，［s1， s2，。..］）

M = null

p = 0

for all s in ［s1， s2，。..］ do

if IsObject（s） then

M = s

else

p = p + s

M.PageRank = p

Emit（id m， item M）

應(yīng)用：

圖分析，網(wǎng)頁(yè)索引
#e#

值去重（對(duì)唯一項(xiàng)計(jì)數(shù)）

問(wèn)題陳述：記錄包含值域F和值域 G，要分別統(tǒng)計(jì)相同G值的記錄中不同的F值的數(shù)目（相當(dāng)于按照 G分組）。

這個(gè)問(wèn)題可以推而廣之應(yīng)用于分面搜索（某些電子商務(wù)網(wǎng)站稱之為Narrow Search）

Record 1： F=1， G={a， b}

Record 2： F=2， G={a， d， e}

Record 3： F=1， G=

Record 4： F=3， G={a， b}

Result：

a -》 3 // F=1， F=2， F=3

b -》 2 // F=1， F=3

d -》 1 // F=2

e -》 1 // F=2

解決方案 I：

第一種方法是分兩個(gè)階段來(lái)解決這個(gè)問(wèn)題。第一階段在Mapper中使用F和G組成一個(gè)復(fù)合值對(duì)，然后在Reducer中輸出每個(gè)值對(duì)，目的是為了保證F值的唯一性。在第二階段，再將值對(duì)按照G值來(lái)分組計(jì)算每組中的條目數(shù)。

第一階段：

class Mapper

method Map（null， record ［value f， categories ［g1， g2，。..］］）

for all category g in ［g1， g2，。..］

Emit（record ［g， f］， count 1）

class Reducer

method Reduce（record ［g， f］， counts ［n1， n2，。..］）

Emit（record ［g， f］， null ）

第二階段：

class Mapper

method Map（record ［f， g］， null）

Emit（value g， count 1）

class Reducer

method Reduce（value g， counts ［n1， n2，。..］）

Emit（value g， sum（［n1， n2，。..］））

解決方案 II：

第二種方法只需要一次MapReduce 即可實(shí)現(xiàn)，但擴(kuò)展性不強(qiáng)。算法很簡(jiǎn)單-Mapper 輸出值和分類，在Reducer里為每個(gè)值對(duì)應(yīng)的分類去重然后給每個(gè)所屬的分類計(jì)數(shù)加1，最后再在Reducer結(jié)束后將所有計(jì)數(shù)加和。這種方法適用于只有有限個(gè)分類，而且擁有相同F(xiàn)值的記錄不是很多的情況。例如網(wǎng)絡(luò)日志處理和用戶分類，用戶的總數(shù)很多，但是每個(gè)用戶的事件是有限的，以此分類得到的類別也是有限的。值得一提的是在這種模式下可以在數(shù)據(jù)傳輸?shù)絉educer之前使用Combiner來(lái)去除分類的重復(fù)值。

class Mapper

method Map（null， record ［value f， categories ［g1， g2，。..］）

for all category g in ［g1， g2，。..］

Emit（value f， category g）

class Reducer

method Initialize

H = new AssociativeArray ： category -》 count

method Reduce（value f， categories ［g1， g2，。..］）

［g1‘， g2’，。.］ = ExcludeDuplicates（［g1， g2，。.］）

for all category g in ［g1‘， g2’，。..］

H{g} = H{g} + 1

method Close

for all category g in H do

Emit（category g， count H{g}）

應(yīng)用：

日志分析，用戶計(jì)數(shù)

互相關(guān)

問(wèn)題陳述：有多個(gè)各由若干項(xiàng)構(gòu)成的組，計(jì)算項(xiàng)兩兩共同出現(xiàn)于一個(gè)組中的次數(shù)。假如項(xiàng)數(shù)是N，那么應(yīng)該計(jì)算N*N。

這種情況常見(jiàn)于文本分析（條目是單詞而元組是句子），市場(chǎng)分析（購(gòu)買了此物的客戶還可能購(gòu)買什么）。如果N*N小到可以容納于一臺(tái)機(jī)器的內(nèi)存，實(shí)現(xiàn)起來(lái)就比較簡(jiǎn)單了。

配對(duì)法

第一種方法是在Mapper中給所有條目配對(duì)，然后在Reducer中將同一條目對(duì)的計(jì)數(shù)加和。但這種做法也有缺點(diǎn)：

· 使用 combiners 帶來(lái)的的好處有限，因?yàn)楹芸赡芩许?xiàng)對(duì)都是唯一的

· 不能有效利用內(nèi)存

class Mapper

method Map（null， items ［i1， i2，。..］）

for all item i in ［i1， i2，。..］

for all item j in ［i1， i2，。..］

Emit（pair ［i j］， count 1）

class Reducer

method Reduce（pair ［i j］， counts ［c1， c2，。..］）

s = sum（［c1， c2，。..］）

Emit（pair［i j］， count s）

Stripes Approach（條方法？不知道這個(gè)名字怎么理解）

第二種方法是將數(shù)據(jù)按照pair中的第一項(xiàng)來(lái)分組，并維護(hù)一個(gè)關(guān)聯(lián)數(shù)組，數(shù)組中存儲(chǔ)的是所有關(guān)聯(lián)項(xiàng)的計(jì)數(shù)。The second approach is to group data by the first item in pair and maintain an associative array （“stripe”） where counters for all adjacent items are accumulated. Reducer receives all stripes for leading item i， merges them， and emits the same result as in the Pairs approach.

· 中間結(jié)果的鍵數(shù)量相對(duì)較少，因此減少了排序消耗。

· 可以有效利用 combiners。

· 可在內(nèi)存中執(zhí)行，不過(guò)如果沒(méi)有正確執(zhí)行的話也會(huì)帶來(lái)問(wèn)題。

· 實(shí)現(xiàn)起來(lái)比較復(fù)雜。

· 一般來(lái)說(shuō)， “stripes” 比 “pairs” 更快

class Mapper

method Map（null， items ［i1， i2，。..］）

for all item i in ［i1， i2，。..］

H = new AssociativeArray ： item -》 counter

for all item j in ［i1， i2，。..］

H{j} = H{j} + 1

Emit（item i， stripe H）

class Reducer

method Reduce（item i， stripes ［H1， H2，。..］）

H = new AssociativeArray ： item -》 counter

H = merge-sum（［H1， H2，。..］）

for all item j in H.keys（）

Emit（pair ［i j］， H{j}）

應(yīng)用：

文本分析，市場(chǎng)分析

References：

1. Lin J. Dyer C. Hirst G. Data Intensive Processing MapReduce

用MapReduce 表達(dá)關(guān)系模式

在這部分我們會(huì)討論一下怎么使用MapReduce來(lái)進(jìn)行主要的關(guān)系操作。

篩選（Selection）

class Mapper

method Map（rowkey key， tuple t）

if t satisfies the predicate

Emit（tuple t， null）

投影（Projection）

投影只比篩選稍微復(fù)雜一點(diǎn)，在這種情況下我們可以用Reducer來(lái)消除可能的重復(fù)值

class Mapper

method Map（rowkey key， tuple t）

tuple g = project（t） // extract required fields to tuple g

Emit（tuple g， null）

class Reducer

method Reduce（tuple t， array n） // n is an array of nulls

Emit（tuple t， null）

合并（Union）

兩個(gè)數(shù)據(jù)集中的所有記錄都送入Mapper，在Reducer里消重。

class Mapper

method Map（rowkey key， tuple t）

Emit（tuple t， null）

class Reducer

method Reduce（tuple t， array n） // n is an array of one or two nulls

Emit（tuple t， null）

交集（Intersection）

將兩個(gè)數(shù)據(jù)集中需要做交叉的記錄輸入Mapper，Reducer 輸出出現(xiàn)了兩次的記錄。因?yàn)槊織l記錄都有一個(gè)主鍵，在每個(gè)數(shù)據(jù)集中只會(huì)出現(xiàn)一次，所以這樣做是可行的。

差異（Difference）

假設(shè)有兩個(gè)數(shù)據(jù)集R和S，我們要找出R與S的差異。Mapper將所有的元組做上標(biāo)記，表明他們來(lái)自于R還是S，Reducer只輸出那些存在于R中而不在S中的記錄。

class Mapper

method Map（rowkey key， tuple t）

Emit（tuple t， string t.SetName） // t.SetName is either ‘R’ or ‘S’

class Reducer

method Reduce（tuple t， array n） // array n can be ［‘R’］，［‘S’］，［‘R’ ‘S’］， or ［‘S’， ‘R’］

if n.size（） = 1 and n［1］ = ‘R’

Emit（tuple t， null）

分組聚合（GroupBy and Aggregation）

分組聚合可以在如下的一個(gè)MapReduce中完成。Mapper抽取數(shù)據(jù)并將之分組聚合，Reducer 中對(duì)收到的數(shù)據(jù)再次聚合。典型的聚合應(yīng)用比如求和與最值可以以流的方式進(jìn)行計(jì)算，因而不需要同時(shí)保有所有的值。但是另外一些情景就必須要兩階段MapReduce，前面提到過(guò)的惟一值模式就是一個(gè)這種類型的例子。

連接（Joining）

MapperReduce框架可以很好地處理連接，不過(guò)在面對(duì)不同的數(shù)據(jù)量和處理效率要求的時(shí)候還是有一些技巧。在這部分我們會(huì)介紹一些基本方法，在后面的參考文檔中還列出了一些關(guān)于這方面的專題文章。

分配后連接（Reduce端連接，排序-合并連接）

這個(gè)算法按照鍵K來(lái)連接數(shù)據(jù)集R和L。Mapper 遍歷R和L中的所有元組，以K為鍵輸出每一個(gè)標(biāo)記了來(lái)自于R還是L的元組，Reducer把同一個(gè)K的數(shù)據(jù)分裝入兩個(gè)容器（R和L），然后嵌套循環(huán)遍歷兩個(gè)容器中的數(shù)據(jù)以得到交集，最后輸出的每一條結(jié)果都包含了R中的數(shù)據(jù)、L中的數(shù)據(jù)和K。這種方法有以下缺點(diǎn)：

· Mapper要輸出所有的數(shù)據(jù)，即使一些key只會(huì)在一個(gè)集合中出現(xiàn)。

· Reducer 要在內(nèi)存中保有一個(gè)key的所有數(shù)據(jù)，如果數(shù)據(jù)量打過(guò)了內(nèi)存，那么就要緩存到硬盤上，這就增加了硬盤IO的消耗。

盡管如此，再分配連接方式仍然是最通用的方法，特別是其他優(yōu)化技術(shù)都不適用的時(shí)候。

class Mapper

method Map（null， tuple ［join_key k， value v1， value v2，。..］）

Emit（join_key k， tagged_tuple ［set_name tag， values ［v1， v2，。..］］）

class Reducer

method Reduce（join_key k， tagged_tuples ［t1， t2，。..］）

H = new AssociativeArray ： set_name -》 values

for all tagged_tuple t in ［t1， t2，。..］ // separate values into 2 arrays

H{t.tag}.add（t.values）

for all values r in H{‘R’} // produce a cross-join of the two arrays

for all values l in H{‘L’}

Emit（null，［k r l］）

復(fù)制鏈接Replicated Join （Mapper端連接， Hash 連接）

在實(shí)際應(yīng)用中，將一個(gè)小數(shù)據(jù)集和一個(gè)大數(shù)據(jù)集連接是很常見(jiàn)的（如用戶與日志記錄）。假定要連接兩個(gè)集合R和L，其中R相對(duì)較小，這樣，可以把R分發(fā)給所有的Mapper，每個(gè)Mapper都可以載入它并以連接鍵來(lái)索引其中的數(shù)據(jù)，最常用和有效的索引技術(shù)就是哈希表。之后，Mapper遍歷L，并將其與存儲(chǔ)在哈希表中的R中的相應(yīng)記錄連接，。這種方法非常高效，因?yàn)椴恍枰獙?duì)L中的數(shù)據(jù)排序，也不需要通過(guò)網(wǎng)絡(luò)傳送L中的數(shù)據(jù)，但是R必須足夠小到能夠分發(fā)給所有的Mapper。

class Mapper

method Initialize

H = new AssociativeArray ： join_key -》 tuple from R

R = loadR（）

for all ［ join_key k， tuple ［r1， r2，。..］］ in R

H{k} = H{k}.append（［r1， r2，。..］）

method Map（join_key k， tuple l）

for all tuple r in H{k}

Emit（null， tuple ［k r l］）

閱讀全文

上一頁(yè)1 2 3全文

MapReduce框架(1000) MapReduce框架(1000)

評(píng)論

相關(guān)推薦

MapReduce實(shí)例開(kāi)發(fā)指南

MapReduce實(shí)例——wordcount（單詞統(tǒng)計(jì)）

2019-10-08 07:15:48

MapReduce數(shù)據(jù)壓縮的基本原則

黑猴子的家：MapReduce數(shù)據(jù)壓縮

2019-05-24 12:45:46

MapReduce框架音樂(lè)排行榜案例

Hadoop綜合實(shí)戰(zhàn)之MapReduce運(yùn)算優(yōu)化——音樂(lè)排行榜

2019-10-16 12:20:15

MapReduce的三種運(yùn)行模式

第二章關(guān)于MapReduce

2019-03-26 06:32:50

MapReduce的操作案例分析

一、MapReduce概述1、基本概念Hadoop核心組件之一：分布式計(jì)算的方案MapReduce，是一種編程模型，用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算，其中Map（映射）和Reduce（歸約

2021-01-05 17:01:44

MapReduce綜述

MapReduce是由Google公司發(fā)明，近些年新興的分布式計(jì)算模型。作為Google公司的核心技術(shù)，MapReduce在處理T級(jí)別以上巨量數(shù)據(jù)的業(yè)務(wù)上有著明顯的優(yōu)勢(shì)。本文從分布式計(jì)算的歷史背景

2010-09-18 08:31:59

模式識(shí)別算法的資料

從現(xiàn)在開(kāi)始，給一些模式識(shí)別算法的資料給大家！后面會(huì)給一些其它算法設(shè)計(jì)給大家！如果大家在學(xué)習(xí)中、研發(fā)中有什么問(wèn)題，可以找http://item.taobao.com/item.htm?spm

2013-07-15 22:31:52

算法篇（PID詳解)

2020-05-19 10:30:59

詳解三電平傳統(tǒng)SVPWM調(diào)制算法原理

??各位同學(xué)你們好呀，上期我們講了中性點(diǎn)鉗位型的三電平逆變器原理，相信大家都有印象了。那么這一期我們要詳解三電平傳統(tǒng)SVPWM調(diào)制算法原理。通過(guò)學(xué)習(xí)后，希望能給初學(xué)者提供捷徑明白算法原理，將來(lái)做仿真

2021-08-27 07:25:20

詳解快速傅里葉變換FFT算法

本帖最后由 richthoffen 于 2019-7-19 16:41 編輯詳解快速傅里葉變換FFT算法

2019-07-18 08:07:33

詳解快速傅里葉變換FFT算法

2020-03-28 11:48:16

詳解快速傅里葉變換FFT算法

2020-05-25 09:31:30

詳解快速傅里葉變換FFT算法

2021-03-05 11:07:32

C語(yǔ)言經(jīng)典算法100例

2013-11-01 13:51:29

C語(yǔ)言經(jīng)典算法100例分享

C語(yǔ)言經(jīng)典算法，要的拿去！ C語(yǔ)言經(jīng)典算法100例.pdf

2018-07-19 01:47:51

HFSS 仿真算法及其應(yīng)用場(chǎng)景詳解：有限元算法、積分方程算法、PO算法

明了各種算法應(yīng)用的場(chǎng)景，很多時(shí)候碰到的工程問(wèn)題既包括復(fù)雜結(jié)構(gòu)物理也包括超大尺寸物理，如新能源汽車上的天線布局問(wèn)題，對(duì)仿真而言，最好的精度是用全波算法求解，最快的速度是采用近似算求解，針對(duì)該

2019-09-20 17:15:45

MaxCompute MapReduce

摘要：大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute)的功能詳解和使用心得點(diǎn)此查看原文：http://click.aliyun.com/m/41384/前言MapReduce已經(jīng)有文檔，用戶可以參考文檔

2018-01-31 17:08:45

OpenHarmony——內(nèi)核對(duì)象隊(duì)列之算法詳解（下）

OpenHarmony——內(nèi)核對(duì)象隊(duì)列之算法詳解（下）前言O(shè)penAtom OpenHarmony（以下簡(jiǎn)稱“OpenHarmony”） LiteOS-M 內(nèi)核是面向 IoT 領(lǐng)域構(gòu)建的輕量級(jí)物聯(lián)網(wǎng)

2022-08-09 16:16:20

SM1算法的EBC、CBC、OFB模式是分別是什么意思？

2021-10-22 09:24:13

SVPWM的原理推導(dǎo)和控制算法詳解

SVPWM的原理推導(dǎo)和控制算法詳解，不錯(cuò)的資料，值得一看

2016-01-28 15:09:44

VHDL語(yǔ)言100例詳解

本帖最后由 eehome 于 2013-1-5 09:51 編輯 VHDL語(yǔ)言100例詳解

2012-08-20 20:45:49

VHDL語(yǔ)言100例詳解.pdf 僅供學(xué)習(xí)

本帖最后由田家二好于 2015-3-20 11:52 編輯 VHDL語(yǔ)言100例詳解.pdf僅供學(xué)習(xí)

2015-03-17 21:54:30

VHDL語(yǔ)言100例詳解.pdf 僅供學(xué)習(xí)

2015-03-20 11:52:07

Verilog HDL語(yǔ)言100例詳解

Verilog HDL語(yǔ)言100例詳解希望對(duì)大家有所幫助

2016-09-01 15:58:09

Yarn的偽分布部署步驟及MapReduce簡(jiǎn)單使用

偽分布式部署yarn和MapReduce案例

2019-03-05 16:01:15

stm32F1的GPIO詳解

嵌入式工程師成長(zhǎng)之路（一）stm32F1GPIO詳解想要學(xué)習(xí)嵌入式知識(shí)，可以從單片機(jī)入手，下面以stm32f103zet6以及51單片機(jī)為例，講解單片機(jī)最基本部分IO口第一部分：stm32STM32

2022-01-20 06:48:54

從MapReduce的執(zhí)行來(lái)看如何優(yōu)化MaxCompute（原ODPS） SQL

任務(wù)的拖累。,v>,v>能產(chǎn)生reduce數(shù)據(jù)分布不均勻的操作，最長(zhǎng)出現(xiàn)的有兩分類：join 這里推薦本書《[url=]mapreduce設(shè)計(jì)模式[/url]》，其中的連接模式篇章把各種

2018-01-31 15:42:58

從零開(kāi)始學(xué)習(xí)hadoop？hadoop快速入門

介紹及hdfs、mapreduce體系結(jié)構(gòu)6. Hadoop獨(dú)立模式安裝和測(cè)試7. Hadoop的集群結(jié)構(gòu)8. Hadoop偽分布的詳細(xì)安裝步驟9. 通過(guò)命令行和瀏覽器觀察Hadoop10.

2018-03-13 15:21:18

以小車控制為例做PID算法詳解

控制系統(tǒng)是閉環(huán)，才能滿足整個(gè)系統(tǒng)的穩(wěn)定要求，必竟速度是系統(tǒng)參數(shù)之一，這是其三. 小車調(diào)速肯定不是線性的，外界因素那么多，沒(méi)人能證明是線性的。如果是線性的，直接用P就可以了。比如在PWM=60%時(shí)，速度

2019-05-30 09:06:06

值得一看的MapReduce編程實(shí)例

MapReduce編程實(shí)例

2019-03-05 16:55:22

偏微分方程式數(shù)值解之計(jì)算機(jī)Fortran算法詳解附圖（續(xù)ii）

偏微分方程式數(shù)值解之計(jì)算機(jī)Fortran算法詳解附圖（續(xù)ii）內(nèi)容與附圖頁(yè)碼一致，續(xù)如下： ******************************粵港澳大灣區(qū)2020-08-29

2020-08-29 21:14:26

偏微分方程式數(shù)值解之計(jì)算機(jī)Fortran算法詳解附圖（續(xù)i）

偏微分方程式數(shù)值解之計(jì)算機(jī)Fortran算法詳解附圖（續(xù)i）內(nèi)容與附圖頁(yè)碼一致，續(xù)如下：*********************** 粵港澳大灣區(qū) 2020-8-29

2020-08-29 20:44:14

好友推薦算法的實(shí)現(xiàn)

MapReduce實(shí)例——好友推薦

2019-10-11 08:31:19

嵌入式AES算法CBC模式

2012-08-18 07:28:13

板球系統(tǒng)的算法用什么？

經(jīng)典控制類題目板球系統(tǒng)用什么算法比較好？PID還是模糊算法

2017-08-04 10:25:40

每日推薦 | 鴻蒙IPC開(kāi)發(fā)板免費(fèi)試用，OpenHarmony內(nèi)核對(duì)象隊(duì)列算法詳解

貼評(píng)論區(qū)進(jìn)行申請(qǐng)就能獲得試用機(jī)會(huì)，大家沖鴨~3、OpenHarmony：內(nèi)核對(duì)象隊(duì)列之算法詳解（上）推薦理由：本文希望通過(guò)分享 OpenHarmony 的 LiteOS-M 內(nèi)核對(duì)象隊(duì)列的算法詳解，讓

2022-08-10 10:26:29

請(qǐng)問(wèn)UML用例圖的創(chuàng)建方法是什么？

UML用例圖的創(chuàng)建方法及其用例的描述

2020-11-06 07:10:08

請(qǐng)問(wèn)如何實(shí)現(xiàn)協(xié)同過(guò)濾算法？

協(xié)同過(guò)濾算法的原理及實(shí)現(xiàn)基于物品的協(xié)同過(guò)濾算法詳解協(xié)同過(guò)濾算法的原理及實(shí)現(xiàn)

2020-11-05 06:51:34

遺傳算法的模式理論

導(dǎo)遺傳算法的基本理論，是J.H.Holland教授創(chuàng)立的模式理論。該理論揭示了遺傳算法的基本機(jī)理。 3.1 基本概念 3.1.1 問(wèn)題的引出 &nb

2008-12-20 02:39:39

基于最大模式的關(guān)聯(lián)規(guī)則挖掘算法研究

提出了一種基于最大模式的關(guān)聯(lián)規(guī)則挖掘算法，探討了它的實(shí)現(xiàn)步驟，最后通過(guò)實(shí)例說(shuō)明它是數(shù)據(jù)挖掘中一種有效的關(guān)聯(lián)規(guī)則挖掘算法。

2009-09-16 10:44:31

入侵檢測(cè)系統(tǒng)中模式匹配算法的研究

入侵檢測(cè)是網(wǎng)絡(luò)安全的最后一道防線，模式匹配算法是基于特征匹配的入侵檢測(cè)系統(tǒng)中的核心算法，模式匹配的效率決定這類入侵檢測(cè)系統(tǒng)的性能。本文對(duì)入侵檢測(cè)系統(tǒng)中的模式

2009-09-18 10:47:48

模式匹配算法的深入研究

模式匹配算法的深入研究:模式匹配算法的應(yīng)用較為廣泛, KMP算法是一種性能較高的算法,所以對(duì)KMP算法的深入研究能夠使模式匹配問(wèn)題得到較大的改善. 在匹配的過(guò)程中,從模式匹配算

2009-10-25 12:21:25

模板方法模式在回溯算法中的應(yīng)用

描述了模板方法模式及回溯算法的模板方法模式的Java 語(yǔ)言實(shí)現(xiàn)，該實(shí)現(xiàn)使得回溯算法的實(shí)現(xiàn)達(dá)到了可擴(kuò)展性、靈活性和可插入性三個(gè)目標(biāo)，提高了算法的可維護(hù)性和可復(fù)用性。

2010-01-15 16:48:10

模板方法模式在回溯算法中的應(yīng)用

2010-01-15 16:51:52

多模式匹配算法的性能分析

多模式匹配算法效率直接影響入侵檢測(cè)系統(tǒng)的性能和效率。在分析研究經(jīng)典的AC算法、WM算法和ExB算法的基礎(chǔ)上,通過(guò)上機(jī)實(shí)驗(yàn)測(cè)試這些算法的模式匹配時(shí)間,為改進(jìn)多模式匹配算法提

2010-12-31 17:20:04

詳解九章算法作者:楊輝

1261年,中國(guó)宋朝的楊輝著《詳解九章算法》楊輝，中國(guó)南宋時(shí)期杰出的數(shù)學(xué)家和數(shù)學(xué)教育家。在13世紀(jì)中葉活動(dòng)于蘇杭一帶，其著作

2007-11-07 13:35:52

17014

路由算法詳解

路由算法詳解引言如果您已經(jīng)閱讀過(guò)博聞網(wǎng)中的路由器工作原理一文，您會(huì)了解到路由器的作用是管理網(wǎng)絡(luò)流量和找到發(fā)送分組數(shù)據(jù)包的最佳路由。但是您是否想過(guò)

2009-08-03 09:00:20

6462

路由算法詳解

路由算法詳解1. 引言 2. 路由器基礎(chǔ)知識(shí) 3. LS算法 4. 示例：Dijkstra算法 5. DV算法 6. 分級(jí)路由

2009-08-06 09:36:09

5286

遞歸算法的設(shè)計(jì)模式與調(diào)試

文中提出一種通用遞歸算法的設(shè)計(jì)模式,并結(jié)合實(shí)例說(shuō)明該模式的應(yīng)用方法和有效性,為研究遞歸算法提供了有效的解決方案,可推廣性強(qiáng)。同時(shí)給出了遞歸程序在調(diào)試過(guò)程中的一些方法和

2011-11-03 15:04:48

BM模式匹配算法的研究和改進(jìn)

模式匹配算法在數(shù)字通信、入侵檢測(cè)等多種領(lǐng)域都有著廣泛的應(yīng)用，BM算法以其高效的匹配過(guò)程成為模式匹配算法中應(yīng)用最為廣泛的算法之一。盡管如此，BM算法的效率還是可以再提高的

2012-10-17 11:23:56

SVPWM的原理及法則推導(dǎo)和控制算法詳解

2016-04-13 15:42:35

SVPWM的原理及法則推導(dǎo)和控制算法詳解

空間矢量控制原理及法則推導(dǎo)和控制算法詳解

2016-05-09 10:59:26

PID算法詳解

2016-12-17 20:48:18

基于MapReduce和矩陣的頻繁項(xiàng)集挖掘算法

基于MapReduce和矩陣的頻繁項(xiàng)集挖掘算法_周國(guó)軍

2017-01-07 18:39:17

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學(xué)森

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學(xué)森

2017-03-19 11:41:51

Mapreduce下改進(jìn)Skyline的高效算法_劉建邦

Mapreduce下改進(jìn)Skyline的高效算法_劉建邦

2017-03-19 18:58:18

基于Bagging決策樹(shù)優(yōu)化算法

針對(duì)經(jīng)典C4.5決策樹(shù)算法存在過(guò)度擬合和伸縮性差的問(wèn)題，提出了一種基于Bagging的決策樹(shù)改進(jìn)算法，并基于MapReduce模型對(duì)改進(jìn)算法進(jìn)行了并行化。首先，基于Bagging技術(shù)對(duì)C4.5算法

2017-11-21 11:57:08

面向并行迭代的MapReduce模型

機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的多數(shù)模型均需要通過(guò)迭代計(jì)算以求解其最優(yōu)參數(shù)，而MapReduce模型在迭代計(jì)算中的缺陷不足導(dǎo)致其在迭代計(jì)算中無(wú)法得到廣泛應(yīng)用。為解決上述矛盾，基于MapReduce模型提出并實(shí)現(xiàn)

2017-11-23 15:04:35

基于差分隱私的軌跡模式挖掘算法

針對(duì)現(xiàn)有基于差分隱私的頻繁軌跡模式挖掘算法全局敏感度過(guò)高、挖掘結(jié)果可用性較低的問(wèn)題，提出一種基于前綴序列格和軌跡截?cái)嗟牟罘蛛[私下頻繁軌跡模式挖掘算法LTPM。該算法首先利用自適應(yīng)的方法獲得最優(yōu)截?cái)?/div>

2017-11-25 11:38:37

基于Spark的ItemBased推薦算法性能優(yōu)化

MapReduce計(jì)算場(chǎng)景下，復(fù)雜的大數(shù)據(jù)挖掘類算法通常需要多個(gè)MapReduce作業(yè)協(xié)作完成，但多個(gè)作業(yè)之間嚴(yán)重的冗余磁盤讀寫及重復(fù)的資源申請(qǐng)操作，使得算法的性能嚴(yán)重降低。為提高ItemBased

2017-11-30 11:42:02

基于MapReduce的新會(huì)話識(shí)別方法

會(huì)話識(shí)別結(jié)果的準(zhǔn)確率，在分析會(huì)話識(shí)別算法研究現(xiàn)狀的基礎(chǔ)上，提出一種基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和動(dòng)態(tài)閡值相結(jié)合的新會(huì)話識(shí)別方法并討論其優(yōu)勢(shì)所在，接著用MapReduce模型實(shí)現(xiàn)新方法的分布式處理，最后通過(guò)對(duì)比實(shí)驗(yàn)分析驗(yàn)證MapReduce模型實(shí)現(xiàn)新算法的高效性和高精確度

2017-12-04 15:13:23

一種高效的基于MapReduce分布式蜂群模式挖掘算法

針對(duì)時(shí)空軌跡大數(shù)據(jù)的蜂群模式挖掘需求，提出了一種高效的基于MapReduce的分布式蜂群模式挖掘算法。首先，提出了基于最大移動(dòng)目標(biāo)集的對(duì)象集閉合蜂群模式概念，并利用最小時(shí)間支集優(yōu)化了串行挖掘算法

2017-12-05 19:09:46

[目標(biāo)檢測(cè)]Faster RCNN算法詳解

%；復(fù)雜網(wǎng)絡(luò)達(dá)到5fps，準(zhǔn)確率78.8%。作者在github上給出了基于matlab和python的源碼。對(duì)Region CNN算法不了解的同學(xué)，請(qǐng)先參看前兩篇文章：《RCNN算法詳解

2017-12-06 02:30:04

557

基于MapReduce數(shù)據(jù)流相似性搜索并行算法

成多個(gè)子矩陣，采取并行迭代計(jì)算每條反對(duì)角線上子矩陣的方法，基于MapReduce編程模型，實(shí)現(xiàn)高效并行計(jì)算時(shí)間序列動(dòng)態(tài)彎曲距離，通過(guò)改進(jìn)剪裁冗余計(jì)算方法，設(shè)計(jì)實(shí)現(xiàn)一種數(shù)據(jù)流多模式相似性搜索并行算法。中國(guó)雪深長(zhǎng)時(shí)間序列數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，當(dāng)每條時(shí)間序列的長(zhǎng)度達(dá)

2017-12-07 11:06:47

一種基于MapReduce的圖結(jié)構(gòu)聚類算法

為O（tril5）（m為圖中邊的條數(shù)），因此很難處理大規(guī)模的圖數(shù)據(jù)。為了解決SCAN算法的可擴(kuò)展性問(wèn)題，提出了一種新穎的基于MapReduce的海量圖結(jié)構(gòu)聚類算法MRSCAN。具體地，提出了一種計(jì)算核心節(jié)點(diǎn)，以及兩種合并聚類的MapReduce算法。最后，在多個(gè)真實(shí)的大規(guī)模圖數(shù)

2017-12-19 11:05:34

基于MapReduce的Coteries軌跡模式挖掘及個(gè)性化旅游路線推薦

Coterie是一種異步的組模式，要求在不等時(shí)間間隔約束下找出具有相似軌跡行為的組模式，而傳統(tǒng)的軌跡組模式挖掘算法往往處理具有固定時(shí)間間隔采樣約束的GPS數(shù)據(jù)。因此無(wú)法直接用于Coterie模式挖掘

2017-12-19 15:14:10

MapReduce的誤差反向傳播算法

針對(duì)誤差反向傳播（BP）算法計(jì)算迭代的特點(diǎn)，給出了迭代式MapReduce框架實(shí)現(xiàn)BP算法的方法。迭代式MapReduce框架在傳統(tǒng)MapReduce框架上添加了傳送模塊，避免了傳統(tǒng)框架運(yùn)用在迭代

2017-12-20 16:39:37

基于MapReduce的SVM態(tài)勢(shì)評(píng)估算法

支持向量機(jī)（SVM）可以解決傳統(tǒng)態(tài)勢(shì)評(píng)估算法無(wú)法兼顧的維數(shù)災(zāi)難過(guò)學(xué)習(xí)及非線性等難題，卻無(wú)法應(yīng)對(duì)大規(guī)模樣本的問(wèn)題。為了有效應(yīng)對(duì)態(tài)勢(shì)評(píng)估中的大數(shù)據(jù)處理挑戰(zhàn)，提出了一種基于MapReduce的SVM

2017-12-26 17:52:11

多階段劃分的MapReduce模型

針對(duì)已有的MapReduce模型階段劃分粒度不合理導(dǎo)致模型精度和復(fù)雜度存在的問(wèn)題，提出了階段劃分粒度為5的多階段MapReduce模型（MR-Model）。首先綜述了MapReduce模型的研究現(xiàn)狀

2017-12-27 11:48:35

基于MapReduce計(jì)算框架的并行同態(tài)加密方案

根據(jù)云計(jì)算分布式的特點(diǎn)，并結(jié)合同態(tài)加密和Hadoop環(huán)境下MapReduce并行框架，提出了一種基于MapReduce計(jì)算框架的并行同態(tài)加密方案。實(shí)現(xiàn)了具體的并行同態(tài)加密算法，并對(duì)該方案的安全性

2017-12-27 15:52:29

什么是mapreduce_mapreduce工作原理_mapreduce_mapreduce邏輯模型圖

Mapreduce概況 MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算。概念Map（映射）和Reduce（歸約），是它們的主要思想，都是從函數(shù)式編程語(yǔ)言里借來(lái)的，還有

2018-01-02 10:39:34

24973

mapreduce編程實(shí)例

Mapreduce是一個(gè)計(jì)算框架，既然是做計(jì)算的框架，那么表現(xiàn)形式就是有個(gè)輸入（input），mapreduce操作這個(gè)輸入（input），通過(guò)本身定義好的計(jì)算模型，得到一個(gè)輸出（output），這個(gè)輸出就是我們所需要的結(jié)果。mapreduce編程實(shí)例如下所述

2018-01-02 10:54:27

10988

mapreduce的應(yīng)用開(kāi)發(fā)步驟

MapReduce極大地方便了編程人員在不會(huì)分布式并行編程的情況下，將自己的程序運(yùn)行在分布式系統(tǒng)上。當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map（映射）函數(shù)，用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì)，指定并發(fā)

2018-01-02 14:14:59

4663

mapreduce工作原理圖文詳解_Map、Reduce任務(wù)中Shuffle和排序

本文主要分析以下兩點(diǎn)內(nèi)容：1.MapReduce作業(yè)運(yùn)行流程原理2.Map、Reduce任務(wù)中Shuffle和排序的過(guò)程。分析如下文

2018-01-02 14:39:09

7954

mapreduce二次排序_ mapreduce二次排序原理

在mapreduce操作時(shí)，shuffle階段會(huì)多次根據(jù)key值排序。但是在shuffle分組后，相同key值的values序列的順序是不確定的（如下圖）。如果想要此時(shí)value值也是排序好的，這種

2018-01-02 15:16:14

6066

基于異常檢測(cè)模型的MapReduce性能優(yōu)化

針對(duì)落伍者的選擇問(wèn)題，提出利用故障診斷領(lǐng)域內(nèi)通常使用的異常檢測(cè)模型來(lái)選擇落伍者的方法。首先，利用異常檢測(cè)算法來(lái)發(fā)現(xiàn)集群中的慢節(jié)點(diǎn)；然后改進(jìn)MapReduce任務(wù)分配算法和推測(cè)執(zhí)行算法，不再給慢節(jié)點(diǎn)

2018-01-03 14:14:55

一種面向模式圖變化的增量圖模式匹配算法

在大數(shù)據(jù)時(shí)代，數(shù)據(jù)圖的規(guī)模急劇增長(zhǎng)，增量圖模式匹配算法能夠在數(shù)據(jù)圖或模式圖發(fā)生變化時(shí)避免重新在整個(gè)數(shù)據(jù)圖上進(jìn)行匹配、減少響應(yīng)時(shí)間，因此成為了研究的熱點(diǎn)．針對(duì)實(shí)際應(yīng)用中數(shù)據(jù)圖不變而模式圖發(fā)生變化的情況

2018-01-21 10:06:39

MapReduce的數(shù)據(jù)放置策略

MapReduce是一種適用于大規(guī)模數(shù)據(jù)密集型應(yīng)用的有效編程模型，具有編程簡(jiǎn)單、易于擴(kuò)展、容錯(cuò)性好等特點(diǎn)，已在并行和分布式計(jì)算領(lǐng)域得到了廣泛且成功的應(yīng)用．由于MapReduce將計(jì)算擴(kuò)展到大規(guī)模

2018-01-26 11:15:09

MapReduce連接查詢的IO代價(jià)研究

優(yōu)化，有著學(xué)術(shù)意義和應(yīng)用價(jià)值．MapReduce連接查詢算法的性能主要取決于I/O代價(jià)（包括本地和網(wǎng)絡(luò)I/O），而I/O代價(jià)與數(shù)據(jù)集以及連接運(yùn)算的特征參數(shù)相關(guān)，通過(guò)對(duì)二元連接的I/O代價(jià)評(píng)估可以優(yōu)化多元連接執(zhí)行計(jì)劃．基于此，首先提出了二元連接查詢的I/O代價(jià)模型

2018-01-31 16:29:05

蟻群算法即相關(guān)代碼實(shí)現(xiàn)詳解—matlab之智能算法

本微博主要闡述了蟻群算法即相關(guān)代碼實(shí)現(xiàn)詳解。蟻群算法是近年來(lái)剛剛誕生的隨機(jī)優(yōu)化方法，它是一種源于大自然的新的仿生類算法.由意大利學(xué)者Dorigo最早提出，螞蟻算法主要是通過(guò)螞蟻群體之間的信息傳遞而達(dá)到尋優(yōu)的目的。

2018-02-02 11:03:53

10662

Apriori算法詳解

本文主要是對(duì)Apriori算法的詳解，包括了Apriori算法詳細(xì)介紹概括和步驟和Apriori算法偽代碼和例子。Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法，其核心思想是通過(guò)候選集生成和情節(jié)

2018-02-02 16:35:10

20726

一種基于MapReduce模型的并行化k-medoids聚類算法

本文針對(duì)k-medoids算法具有初始點(diǎn)選取復(fù)雜、聚類迭代時(shí)間久、中心點(diǎn)選取消耗資源過(guò)多等缺點(diǎn)，使用Hadoop平臺(tái)下的MapReduce編程框架對(duì)算法進(jìn)行初始點(diǎn)的點(diǎn)密度計(jì)算選取并行化、非中心點(diǎn)分配并行化和中心點(diǎn)更新并行化等方面的改進(jìn)。

2018-05-18 09:06:39

4850

如何使用MapReduce進(jìn)行大數(shù)據(jù)的主動(dòng)學(xué)習(xí)

針對(duì)傳統(tǒng)的主動(dòng)學(xué)習(xí)算法只能處理中小型數(shù)據(jù)集的問(wèn)題，提出一種基于MapReduce的大數(shù)據(jù)主動(dòng)學(xué)習(xí)算法。首先，在有類別標(biāo)簽的初始訓(xùn)練集上，用極限學(xué)習(xí)機(jī)（ ELM）算法訓(xùn)練一個(gè)分類器，并將其輸出用軟最大化函數(shù)變換為一個(gè)后驗(yàn)概率分布。

2018-12-12 15:51:33

云計(jì)算的編程模式

大大提升。MapReduce是當(dāng)前云計(jì)算主流并行編程模式之一。MapReduce模式將任務(wù)自動(dòng)分成多個(gè)子任務(wù)，通過(guò)Map和Reduce兩步實(shí)現(xiàn)任務(wù)在大規(guī)模計(jì)算節(jié)點(diǎn)中的高度與分配。

2019-01-02 16:39:53

3858

目標(biāo)檢測(cè)：Faster RCNN算法詳解

為59.9%；復(fù)雜網(wǎng)絡(luò)達(dá)到5fps，準(zhǔn)確率78.8%。作者在github上給出了基于matlab和python的源碼。對(duì)Region CNN算法不了解的同學(xué)，請(qǐng)先參看這兩篇文章：《RCNN算法詳解

2021-01-13 16:25:31

4314

基于MapReduce/Spark的大規(guī)模壓縮模糊K-近鄰算法

分別基于Mapreduce和 Spark的2種大規(guī)模壓縮模糊K-近鄰算法。在樣例選擇閾值設(shè)置方面，引人動(dòng)態(tài)機(jī)制，使得所選樣例更具代表性。在具有7個(gè)數(shù)據(jù)節(jié)點(diǎn)的大數(shù)據(jù)平臺(tái)上進(jìn)行實(shí)驗(yàn)，結(jié)果表明，與 CFKNN算法相比，所提2種算法具有更高的分類精度和加速比。2個(gè)平臺(tái)相

2021-03-17 10:16:17

基于MapReduce和加權(quán)網(wǎng)絡(luò)信息熵的DBWGIE-MR算法

針對(duì)大數(shù)據(jù)下基于密度的聚類算法中存在的數(shù)據(jù)網(wǎng)格劃分不合理，聚類結(jié)果準(zhǔn)確度不高以及并行化效率較低等問(wèn)題，提出了基于 Mapreduce和加權(quán)網(wǎng)格信息熵的 DBWGIE-MR算法。首先提出自適應(yīng)網(wǎng)格劃分

2021-04-07 14:31:56

MapReduce框架下分布式編碼計(jì)算容錯(cuò)算法

隨著分布式系統(tǒng)規(guī)模擴(kuò)大及計(jì)算復(fù)雜度增加，分布式計(jì)算的平均故障修復(fù)時(shí)間和容錯(cuò)計(jì)算所產(chǎn)生的通信開(kāi)銷呈現(xiàn)日益上升趨勢(shì)。結(jié)合分布式編碼計(jì)算和副本冗余技術(shù)，提出一種新的容錯(cuò)算法。map節(jié)點(diǎn)應(yīng)用分布式編碼計(jì)算

2021-06-01 15:43:18