詳解MapReduce的模式、算法和用例

前言

? ? ? ?本文總結(jié)了幾種網(wǎng)上或者論文中常見的MapReduce模式和算法，并系統(tǒng)化的解釋了這些技術(shù)的不同之處。所有描述性的文字和代碼都使用了標(biāo)準(zhǔn)hadoop的MapReduce模型，包括Mappers， Reduces， Combiners， Partitioners，和 sorting。詳細(xì)分析如下所示。

基本MapReduce模式

計(jì)數(shù)與求和

問(wèn)題陳述：有許多文檔，每個(gè)文檔都有一些字段組成。需要計(jì)算出每個(gè)字段在所有文檔中的出現(xiàn)次數(shù)或者這些字段的其他什么統(tǒng)計(jì)值。例如，給定一個(gè)log文件，其中的每條記錄都包含一個(gè)響應(yīng)時(shí)間，需要計(jì)算出平均響應(yīng)時(shí)間。

解決方案：

讓我們先從簡(jiǎn)單的例子入手。在下面的代碼片段里，Mapper每遇到指定詞就把頻次記1，Reducer一個(gè)個(gè)遍歷這些詞的集合然后把他們的頻次加和。

? 詳解MapReduce的模式、算法和用例

這種方法的缺點(diǎn)顯而易見，Mapper提交了太多無(wú)意義的計(jì)數(shù)。它完全可以通過(guò)先對(duì)每個(gè)文檔中的詞進(jìn)行計(jì)數(shù)從而減少傳遞給Reducer的數(shù)據(jù)量：

? 詳解MapReduce的模式、算法和用例

如果要累計(jì)計(jì)數(shù)的的不只是單個(gè)文檔中的內(nèi)容，還包括了一個(gè)Mapper節(jié)點(diǎn)處理的所有文檔，那就要用到Combiner了：

? 詳解MapReduce的模式、算法和用例

應(yīng)用：

Log 分析，數(shù)據(jù)查詢

整理歸類

問(wèn)題陳述：

有一系列條目，每個(gè)條目都有幾個(gè)屬性，要把具有同一屬性值的條目都保存在一個(gè)文件里，或者把條目按照屬性值分組。最典型的應(yīng)用是倒排索引。

解決方案：

解決方案很簡(jiǎn)單。在 Mapper 中以每個(gè)條目的所需屬性值作為 key，其本身作為值傳遞給 Reducer。 Reducer 取得按照屬性值分組的條目，然后可以處理或者保存。如果是在構(gòu)建倒排索引，那么每個(gè)條目相當(dāng)于一個(gè)詞而屬性值就是詞所在的文檔ID。

應(yīng)用：

倒排索引， ETL

過(guò)濾（文本查找），解析和校驗(yàn)

問(wèn)題陳述：

假設(shè)有很多條記錄，需要從其中找出滿足某個(gè)條件的所有記錄，或者將每條記錄傳換成另外一種形式（轉(zhuǎn)換操作相對(duì)于各條記錄獨(dú)立，即對(duì)一條記錄的操作與其他記錄無(wú)關(guān)）。像文本解析、特定值抽取、格式轉(zhuǎn)換等都屬于后一種用例。

解決方案：

非常簡(jiǎn)單，在Mapper 里逐條進(jìn)行操作，輸出需要的值或轉(zhuǎn)換后的形式。

應(yīng)用：

日志分析，數(shù)據(jù)查詢，ETL，數(shù)據(jù)校驗(yàn)

分布式任務(wù)執(zhí)行

問(wèn)題陳述：

大型計(jì)算可以分解為多個(gè)部分分別進(jìn)行然后合并各個(gè)計(jì)算的結(jié)果以獲得最終結(jié)果。

解決方案：將數(shù)據(jù)切分成多份作為每個(gè) Mapper 的輸入，每個(gè)Mapper處理一份數(shù)據(jù)，執(zhí)行同樣的運(yùn)算，產(chǎn)生結(jié)果，Reducer把多個(gè)Mapper的結(jié)果組合成一個(gè)。

案例研究：數(shù)字通信系統(tǒng)模擬

像 WiMAX 這樣的數(shù)字通信模擬軟件通過(guò)系統(tǒng)模型來(lái)傳輸大量的隨機(jī)數(shù)據(jù)，然后計(jì)算傳輸中的錯(cuò)誤幾率。每個(gè) Mapper 處理樣本 1/N 的數(shù)據(jù)，計(jì)算出這部分?jǐn)?shù)據(jù)的錯(cuò)誤率，然后在 Reducer 里計(jì)算平均錯(cuò)誤率。

應(yīng)用：

工程模擬，數(shù)字分析，性能測(cè)試

排序

問(wèn)題陳述：

有許多條記錄，需要按照某種規(guī)則將所有記錄排序或是按照順序來(lái)處理記錄。

解決方案：簡(jiǎn)單排序很好辦 – Mappers 將待排序的屬性值為鍵，整條記錄為值輸出。不過(guò)實(shí)際應(yīng)用中的排序要更加巧妙一點(diǎn)，這就是它之所以被稱為MapReduce 核心的原因（“核心”是說(shuō)排序？因?yàn)樽C明Hadoop計(jì)算能力的實(shí)驗(yàn)是大數(shù)據(jù)排序？還是說(shuō)Hadoop的處理過(guò)程中對(duì)key排序的環(huán)節(jié)？）。在實(shí)踐中，常用組合鍵來(lái)實(shí)現(xiàn)二次排序和分組。

MapReduce 最初只能夠?qū)︽I排序，但是也有技術(shù)利用可以利用Hadoop 的特性來(lái)實(shí)現(xiàn)按值排序。想了解的話可以看這篇博客。

按照BigTable的概念，使用 MapReduce來(lái)對(duì)最初數(shù)據(jù)而非中間數(shù)據(jù)排序，也即保持?jǐn)?shù)據(jù)的有序狀態(tài)更有好處，必須注意這一點(diǎn)。換句話說(shuō)，在數(shù)據(jù)插入時(shí)排序一次要比在每次查詢數(shù)數(shù)據(jù)的時(shí)候排序更高效。

應(yīng)用：

ETL，數(shù)據(jù)分析

閱讀全文

12 3 下一頁(yè)全文

MapReduce框架(1000) MapReduce框架(1000)

評(píng)論

相關(guān)推薦

MapReduce實(shí)例開發(fā)指南

MapReduce實(shí)例——wordcount（單詞統(tǒng)計(jì)）

2019-10-08 07:15:48

MapReduce數(shù)據(jù)壓縮的基本原則

黑猴子的家：MapReduce數(shù)據(jù)壓縮

2019-05-24 12:45:46

MapReduce框架音樂(lè)排行榜案例

Hadoop綜合實(shí)戰(zhàn)之MapReduce運(yùn)算優(yōu)化——音樂(lè)排行榜

2019-10-16 12:20:15

MapReduce的三種運(yùn)行模式

第二章關(guān)于MapReduce

2019-03-26 06:32:50

MapReduce的操作案例分析

一、MapReduce概述1、基本概念Hadoop核心組件之一：分布式計(jì)算的方案MapReduce，是一種編程模型，用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算，其中Map（映射）和Reduce（歸約

2021-01-05 17:01:44

MapReduce綜述

MapReduce是由Google公司發(fā)明，近些年新興的分布式計(jì)算模型。作為Google公司的核心技術(shù)，MapReduce在處理T級(jí)別以上巨量數(shù)據(jù)的業(yè)務(wù)上有著明顯的優(yōu)勢(shì)。本文從分布式計(jì)算的歷史背景

2010-09-18 08:31:59

模式識(shí)別算法的資料

從現(xiàn)在開始，給一些模式識(shí)別算法的資料給大家！后面會(huì)給一些其它算法設(shè)計(jì)給大家！如果大家在學(xué)習(xí)中、研發(fā)中有什么問(wèn)題，可以找http://item.taobao.com/item.htm?spm

2013-07-15 22:31:52

算法篇（PID詳解)

2020-05-19 10:30:59

詳解三電平傳統(tǒng)SVPWM調(diào)制算法原理

??各位同學(xué)你們好呀，上期我們講了中性點(diǎn)鉗位型的三電平逆變器原理，相信大家都有印象了。那么這一期我們要詳解三電平傳統(tǒng)SVPWM調(diào)制算法原理。通過(guò)學(xué)習(xí)后，希望能給初學(xué)者提供捷徑明白算法原理，將來(lái)做仿真

2021-08-27 07:25:20

詳解快速傅里葉變換FFT算法

本帖最后由 richthoffen 于 2019-7-19 16:41 編輯詳解快速傅里葉變換FFT算法

2019-07-18 08:07:33

詳解快速傅里葉變換FFT算法

2020-03-28 11:48:16

詳解快速傅里葉變換FFT算法

2020-05-25 09:31:30

詳解快速傅里葉變換FFT算法

2021-03-05 11:07:32

C語(yǔ)言經(jīng)典算法100例

2013-11-01 13:51:29

C語(yǔ)言經(jīng)典算法100例分享

C語(yǔ)言經(jīng)典算法，要的拿去！ C語(yǔ)言經(jīng)典算法100例.pdf

2018-07-19 01:47:51

HFSS 仿真算法及其應(yīng)用場(chǎng)景詳解：有限元算法、積分方程算法、PO算法

明了各種算法應(yīng)用的場(chǎng)景，很多時(shí)候碰到的工程問(wèn)題既包括復(fù)雜結(jié)構(gòu)物理也包括超大尺寸物理，如新能源汽車上的天線布局問(wèn)題，對(duì)仿真而言，最好的精度是用全波算法求解，最快的速度是采用近似算求解，針對(duì)該

2019-09-20 17:15:45

MaxCompute MapReduce

摘要：大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute)的功能詳解和使用心得點(diǎn)此查看原文：http://click.aliyun.com/m/41384/前言MapReduce已經(jīng)有文檔，用戶可以參考文檔

2018-01-31 17:08:45

OpenHarmony——內(nèi)核對(duì)象隊(duì)列之算法詳解（下）

OpenHarmony——內(nèi)核對(duì)象隊(duì)列之算法詳解（下）前言O(shè)penAtom OpenHarmony（以下簡(jiǎn)稱“OpenHarmony”） LiteOS-M 內(nèi)核是面向 IoT 領(lǐng)域構(gòu)建的輕量級(jí)物聯(lián)網(wǎng)

2022-08-09 16:16:20

SM1算法的EBC、CBC、OFB模式是分別是什么意思？

2021-10-22 09:24:13

SVPWM的原理推導(dǎo)和控制算法詳解

SVPWM的原理推導(dǎo)和控制算法詳解，不錯(cuò)的資料，值得一看

2016-01-28 15:09:44

VHDL語(yǔ)言100例詳解

本帖最后由 eehome 于 2013-1-5 09:51 編輯 VHDL語(yǔ)言100例詳解

2012-08-20 20:45:49

VHDL語(yǔ)言100例詳解.pdf 僅供學(xué)習(xí)

本帖最后由田家二好于 2015-3-20 11:52 編輯 VHDL語(yǔ)言100例詳解.pdf僅供學(xué)習(xí)

2015-03-17 21:54:30

VHDL語(yǔ)言100例詳解.pdf 僅供學(xué)習(xí)

2015-03-20 11:52:07

Verilog HDL語(yǔ)言100例詳解

Verilog HDL語(yǔ)言100例詳解希望對(duì)大家有所幫助

2016-09-01 15:58:09

Yarn的偽分布部署步驟及MapReduce簡(jiǎn)單使用

偽分布式部署yarn和MapReduce案例

2019-03-05 16:01:15

stm32F1的GPIO詳解

嵌入式工程師成長(zhǎng)之路（一）stm32F1GPIO詳解想要學(xué)習(xí)嵌入式知識(shí)，可以從單片機(jī)入手，下面以stm32f103zet6以及51單片機(jī)為例，講解單片機(jī)最基本部分IO口第一部分：stm32STM32

2022-01-20 06:48:54

從MapReduce的執(zhí)行來(lái)看如何優(yōu)化MaxCompute（原ODPS） SQL

任務(wù)的拖累。,v>,v>能產(chǎn)生reduce數(shù)據(jù)分布不均勻的操作，最長(zhǎng)出現(xiàn)的有兩分類：join 這里推薦本書《[url=]mapreduce設(shè)計(jì)模式[/url]》，其中的連接模式篇章把各種

2018-01-31 15:42:58

從零開始學(xué)習(xí)hadoop？hadoop快速入門

介紹及hdfs、mapreduce體系結(jié)構(gòu)6. Hadoop獨(dú)立模式安裝和測(cè)試7. Hadoop的集群結(jié)構(gòu)8. Hadoop偽分布的詳細(xì)安裝步驟9. 通過(guò)命令行和瀏覽器觀察Hadoop10.

2018-03-13 15:21:18

以小車控制為例做PID算法詳解

控制系統(tǒng)是閉環(huán)，才能滿足整個(gè)系統(tǒng)的穩(wěn)定要求，必竟速度是系統(tǒng)參數(shù)之一，這是其三. 小車調(diào)速肯定不是線性的，外界因素那么多，沒人能證明是線性的。如果是線性的，直接用P就可以了。比如在PWM=60%時(shí)，速度

2019-05-30 09:06:06

值得一看的MapReduce編程實(shí)例

MapReduce編程實(shí)例

2019-03-05 16:55:22

偏微分方程式數(shù)值解之計(jì)算機(jī)Fortran算法詳解附圖（續(xù)ii）

偏微分方程式數(shù)值解之計(jì)算機(jī)Fortran算法詳解附圖（續(xù)ii）內(nèi)容與附圖頁(yè)碼一致，續(xù)如下： ******************************粵港澳大灣區(qū)2020-08-29

2020-08-29 21:14:26

偏微分方程式數(shù)值解之計(jì)算機(jī)Fortran算法詳解附圖（續(xù)i）

偏微分方程式數(shù)值解之計(jì)算機(jī)Fortran算法詳解附圖（續(xù)i）內(nèi)容與附圖頁(yè)碼一致，續(xù)如下：*********************** 粵港澳大灣區(qū) 2020-8-29

2020-08-29 20:44:14

好友推薦算法的實(shí)現(xiàn)

MapReduce實(shí)例——好友推薦

2019-10-11 08:31:19

嵌入式AES算法CBC模式

2012-08-18 07:28:13

板球系統(tǒng)的算法用什么？

經(jīng)典控制類題目板球系統(tǒng)用什么算法比較好？PID還是模糊算法

2017-08-04 10:25:40

每日推薦 | 鴻蒙IPC開發(fā)板免費(fèi)試用，OpenHarmony內(nèi)核對(duì)象隊(duì)列算法詳解

貼評(píng)論區(qū)進(jìn)行申請(qǐng)就能獲得試用機(jī)會(huì)，大家沖鴨~3、OpenHarmony：內(nèi)核對(duì)象隊(duì)列之算法詳解（上）推薦理由：本文希望通過(guò)分享 OpenHarmony 的 LiteOS-M 內(nèi)核對(duì)象隊(duì)列的算法詳解，讓

2022-08-10 10:26:29

請(qǐng)問(wèn)UML用例圖的創(chuàng)建方法是什么？

UML用例圖的創(chuàng)建方法及其用例的描述

2020-11-06 07:10:08

請(qǐng)問(wèn)如何實(shí)現(xiàn)協(xié)同過(guò)濾算法？

協(xié)同過(guò)濾算法的原理及實(shí)現(xiàn)基于物品的協(xié)同過(guò)濾算法詳解協(xié)同過(guò)濾算法的原理及實(shí)現(xiàn)

2020-11-05 06:51:34

遺傳算法的模式理論

導(dǎo)遺傳算法的基本理論，是J.H.Holland教授創(chuàng)立的模式理論。該理論揭示了遺傳算法的基本機(jī)理。 3.1 基本概念 3.1.1 問(wèn)題的引出 &nb

2008-12-20 02:39:39

基于最大模式的關(guān)聯(lián)規(guī)則挖掘算法研究

提出了一種基于最大模式的關(guān)聯(lián)規(guī)則挖掘算法，探討了它的實(shí)現(xiàn)步驟，最后通過(guò)實(shí)例說(shuō)明它是數(shù)據(jù)挖掘中一種有效的關(guān)聯(lián)規(guī)則挖掘算法。

2009-09-16 10:44:31

入侵檢測(cè)系統(tǒng)中模式匹配算法的研究

入侵檢測(cè)是網(wǎng)絡(luò)安全的最后一道防線，模式匹配算法是基于特征匹配的入侵檢測(cè)系統(tǒng)中的核心算法，模式匹配的效率決定這類入侵檢測(cè)系統(tǒng)的性能。本文對(duì)入侵檢測(cè)系統(tǒng)中的模式

2009-09-18 10:47:48

模式匹配算法的深入研究

模式匹配算法的深入研究:模式匹配算法的應(yīng)用較為廣泛, KMP算法是一種性能較高的算法,所以對(duì)KMP算法的深入研究能夠使模式匹配問(wèn)題得到較大的改善. 在匹配的過(guò)程中,從模式匹配算

2009-10-25 12:21:25

模板方法模式在回溯算法中的應(yīng)用

描述了模板方法模式及回溯算法的模板方法模式的Java 語(yǔ)言實(shí)現(xiàn)，該實(shí)現(xiàn)使得回溯算法的實(shí)現(xiàn)達(dá)到了可擴(kuò)展性、靈活性和可插入性三個(gè)目標(biāo)，提高了算法的可維護(hù)性和可復(fù)用性。

2010-01-15 16:48:10

模板方法模式在回溯算法中的應(yīng)用

2010-01-15 16:51:52

多模式匹配算法的性能分析

多模式匹配算法效率直接影響入侵檢測(cè)系統(tǒng)的性能和效率。在分析研究經(jīng)典的AC算法、WM算法和ExB算法的基礎(chǔ)上,通過(guò)上機(jī)實(shí)驗(yàn)測(cè)試這些算法的模式匹配時(shí)間,為改進(jìn)多模式匹配算法提

2010-12-31 17:20:04

詳解九章算法作者:楊輝

1261年,中國(guó)宋朝的楊輝著《詳解九章算法》楊輝，中國(guó)南宋時(shí)期杰出的數(shù)學(xué)家和數(shù)學(xué)教育家。在13世紀(jì)中葉活動(dòng)于蘇杭一帶，其著作

2007-11-07 13:35:52

17014

路由算法詳解

路由算法詳解引言如果您已經(jīng)閱讀過(guò)博聞網(wǎng)中的路由器工作原理一文，您會(huì)了解到路由器的作用是管理網(wǎng)絡(luò)流量和找到發(fā)送分組數(shù)據(jù)包的最佳路由。但是您是否想過(guò)

2009-08-03 09:00:20

6462

路由算法詳解

路由算法詳解1. 引言 2. 路由器基礎(chǔ)知識(shí) 3. LS算法 4. 示例：Dijkstra算法 5. DV算法 6. 分級(jí)路由

2009-08-06 09:36:09

5286

遞歸算法的設(shè)計(jì)模式與調(diào)試

文中提出一種通用遞歸算法的設(shè)計(jì)模式,并結(jié)合實(shí)例說(shuō)明該模式的應(yīng)用方法和有效性,為研究遞歸算法提供了有效的解決方案,可推廣性強(qiáng)。同時(shí)給出了遞歸程序在調(diào)試過(guò)程中的一些方法和

2011-11-03 15:04:48

BM模式匹配算法的研究和改進(jìn)

模式匹配算法在數(shù)字通信、入侵檢測(cè)等多種領(lǐng)域都有著廣泛的應(yīng)用，BM算法以其高效的匹配過(guò)程成為模式匹配算法中應(yīng)用最為廣泛的算法之一。盡管如此，BM算法的效率還是可以再提高的

2012-10-17 11:23:56

SVPWM的原理及法則推導(dǎo)和控制算法詳解

2016-04-13 15:42:35

SVPWM的原理及法則推導(dǎo)和控制算法詳解

空間矢量控制原理及法則推導(dǎo)和控制算法詳解

2016-05-09 10:59:26

PID算法詳解

2016-12-17 20:48:18

基于MapReduce和矩陣的頻繁項(xiàng)集挖掘算法

基于MapReduce和矩陣的頻繁項(xiàng)集挖掘算法_周國(guó)軍

2017-01-07 18:39:17

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學(xué)森

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學(xué)森

2017-03-19 11:41:51

Mapreduce下改進(jìn)Skyline的高效算法_劉建邦

Mapreduce下改進(jìn)Skyline的高效算法_劉建邦

2017-03-19 18:58:18

基于Bagging決策樹優(yōu)化算法

針對(duì)經(jīng)典C4.5決策樹算法存在過(guò)度擬合和伸縮性差的問(wèn)題，提出了一種基于Bagging的決策樹改進(jìn)算法，并基于MapReduce模型對(duì)改進(jìn)算法進(jìn)行了并行化。首先，基于Bagging技術(shù)對(duì)C4.5算法

2017-11-21 11:57:08

面向并行迭代的MapReduce模型

機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的多數(shù)模型均需要通過(guò)迭代計(jì)算以求解其最優(yōu)參數(shù)，而MapReduce模型在迭代計(jì)算中的缺陷不足導(dǎo)致其在迭代計(jì)算中無(wú)法得到廣泛應(yīng)用。為解決上述矛盾，基于MapReduce模型提出并實(shí)現(xiàn)

2017-11-23 15:04:35

基于差分隱私的軌跡模式挖掘算法

針對(duì)現(xiàn)有基于差分隱私的頻繁軌跡模式挖掘算法全局敏感度過(guò)高、挖掘結(jié)果可用性較低的問(wèn)題，提出一種基于前綴序列格和軌跡截?cái)嗟牟罘蛛[私下頻繁軌跡模式挖掘算法LTPM。該算法首先利用自適應(yīng)的方法獲得最優(yōu)截?cái)?/div>

2017-11-25 11:38:37

基于Spark的ItemBased推薦算法性能優(yōu)化

MapReduce計(jì)算場(chǎng)景下，復(fù)雜的大數(shù)據(jù)挖掘類算法通常需要多個(gè)MapReduce作業(yè)協(xié)作完成，但多個(gè)作業(yè)之間嚴(yán)重的冗余磁盤讀寫及重復(fù)的資源申請(qǐng)操作，使得算法的性能嚴(yán)重降低。為提高ItemBased

2017-11-30 11:42:02

基于MapReduce的新會(huì)話識(shí)別方法

會(huì)話識(shí)別結(jié)果的準(zhǔn)確率，在分析會(huì)話識(shí)別算法研究現(xiàn)狀的基礎(chǔ)上，提出一種基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和動(dòng)態(tài)閡值相結(jié)合的新會(huì)話識(shí)別方法并討論其優(yōu)勢(shì)所在，接著用MapReduce模型實(shí)現(xiàn)新方法的分布式處理，最后通過(guò)對(duì)比實(shí)驗(yàn)分析驗(yàn)證MapReduce模型實(shí)現(xiàn)新算法的高效性和高精確度

2017-12-04 15:13:23

一種高效的基于MapReduce分布式蜂群模式挖掘算法

針對(duì)時(shí)空軌跡大數(shù)據(jù)的蜂群模式挖掘需求，提出了一種高效的基于MapReduce的分布式蜂群模式挖掘算法。首先，提出了基于最大移動(dòng)目標(biāo)集的對(duì)象集閉合蜂群模式概念，并利用最小時(shí)間支集優(yōu)化了串行挖掘算法

2017-12-05 19:09:46

[目標(biāo)檢測(cè)]Faster RCNN算法詳解

%；復(fù)雜網(wǎng)絡(luò)達(dá)到5fps，準(zhǔn)確率78.8%。作者在github上給出了基于matlab和python的源碼。對(duì)Region CNN算法不了解的同學(xué)，請(qǐng)先參看前兩篇文章：《RCNN算法詳解

2017-12-06 02:30:04

557

基于MapReduce數(shù)據(jù)流相似性搜索并行算法

成多個(gè)子矩陣，采取并行迭代計(jì)算每條反對(duì)角線上子矩陣的方法，基于MapReduce編程模型，實(shí)現(xiàn)高效并行計(jì)算時(shí)間序列動(dòng)態(tài)彎曲距離，通過(guò)改進(jìn)剪裁冗余計(jì)算方法，設(shè)計(jì)實(shí)現(xiàn)一種數(shù)據(jù)流多模式相似性搜索并行算法。中國(guó)雪深長(zhǎng)時(shí)間序列數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，當(dāng)每條時(shí)間序列的長(zhǎng)度達(dá)

2017-12-07 11:06:47

一種基于MapReduce的圖結(jié)構(gòu)聚類算法

為O（tril5）（m為圖中邊的條數(shù)），因此很難處理大規(guī)模的圖數(shù)據(jù)。為了解決SCAN算法的可擴(kuò)展性問(wèn)題，提出了一種新穎的基于MapReduce的海量圖結(jié)構(gòu)聚類算法MRSCAN。具體地，提出了一種計(jì)算核心節(jié)點(diǎn)，以及兩種合并聚類的MapReduce算法。最后，在多個(gè)真實(shí)的大規(guī)模圖數(shù)

2017-12-19 11:05:34

基于MapReduce的Coteries軌跡模式挖掘及個(gè)性化旅游路線推薦

Coterie是一種異步的組模式，要求在不等時(shí)間間隔約束下找出具有相似軌跡行為的組模式，而傳統(tǒng)的軌跡組模式挖掘算法往往處理具有固定時(shí)間間隔采樣約束的GPS數(shù)據(jù)。因此無(wú)法直接用于Coterie模式挖掘

2017-12-19 15:14:10

MapReduce的誤差反向傳播算法

針對(duì)誤差反向傳播（BP）算法計(jì)算迭代的特點(diǎn)，給出了迭代式MapReduce框架實(shí)現(xiàn)BP算法的方法。迭代式MapReduce框架在傳統(tǒng)MapReduce框架上添加了傳送模塊，避免了傳統(tǒng)框架運(yùn)用在迭代

2017-12-20 16:39:37

基于MapReduce的SVM態(tài)勢(shì)評(píng)估算法

支持向量機(jī)（SVM）可以解決傳統(tǒng)態(tài)勢(shì)評(píng)估算法無(wú)法兼顧的維數(shù)災(zāi)難過(guò)學(xué)習(xí)及非線性等難題，卻無(wú)法應(yīng)對(duì)大規(guī)模樣本的問(wèn)題。為了有效應(yīng)對(duì)態(tài)勢(shì)評(píng)估中的大數(shù)據(jù)處理挑戰(zhàn)，提出了一種基于MapReduce的SVM

2017-12-26 17:52:11

多階段劃分的MapReduce模型

針對(duì)已有的MapReduce模型階段劃分粒度不合理導(dǎo)致模型精度和復(fù)雜度存在的問(wèn)題，提出了階段劃分粒度為5的多階段MapReduce模型（MR-Model）。首先綜述了MapReduce模型的研究現(xiàn)狀

2017-12-27 11:48:35

基于MapReduce計(jì)算框架的并行同態(tài)加密方案

根據(jù)云計(jì)算分布式的特點(diǎn)，并結(jié)合同態(tài)加密和Hadoop環(huán)境下MapReduce并行框架，提出了一種基于MapReduce計(jì)算框架的并行同態(tài)加密方案。實(shí)現(xiàn)了具體的并行同態(tài)加密算法，并對(duì)該方案的安全性

2017-12-27 15:52:29

什么是mapreduce_mapreduce工作原理_mapreduce_mapreduce邏輯模型圖

Mapreduce概況 MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算。概念Map（映射）和Reduce（歸約），是它們的主要思想，都是從函數(shù)式編程語(yǔ)言里借來(lái)的，還有

2018-01-02 10:39:34

24973

mapreduce編程實(shí)例

Mapreduce是一個(gè)計(jì)算框架，既然是做計(jì)算的框架，那么表現(xiàn)形式就是有個(gè)輸入（input），mapreduce操作這個(gè)輸入（input），通過(guò)本身定義好的計(jì)算模型，得到一個(gè)輸出（output），這個(gè)輸出就是我們所需要的結(jié)果。mapreduce編程實(shí)例如下所述

2018-01-02 10:54:27

10988

mapreduce的應(yīng)用開發(fā)步驟

MapReduce極大地方便了編程人員在不會(huì)分布式并行編程的情況下，將自己的程序運(yùn)行在分布式系統(tǒng)上。當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map（映射）函數(shù)，用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì)，指定并發(fā)

2018-01-02 14:14:59

4663

mapreduce工作原理圖文詳解_Map、Reduce任務(wù)中Shuffle和排序

本文主要分析以下兩點(diǎn)內(nèi)容：1.MapReduce作業(yè)運(yùn)行流程原理2.Map、Reduce任務(wù)中Shuffle和排序的過(guò)程。分析如下文

2018-01-02 14:39:09

7954

mapreduce二次排序_ mapreduce二次排序原理

在mapreduce操作時(shí)，shuffle階段會(huì)多次根據(jù)key值排序。但是在shuffle分組后，相同key值的values序列的順序是不確定的（如下圖）。如果想要此時(shí)value值也是排序好的，這種

2018-01-02 15:16:14

6066

基于異常檢測(cè)模型的MapReduce性能優(yōu)化

針對(duì)落伍者的選擇問(wèn)題，提出利用故障診斷領(lǐng)域內(nèi)通常使用的異常檢測(cè)模型來(lái)選擇落伍者的方法。首先，利用異常檢測(cè)算法來(lái)發(fā)現(xiàn)集群中的慢節(jié)點(diǎn)；然后改進(jìn)MapReduce任務(wù)分配算法和推測(cè)執(zhí)行算法，不再給慢節(jié)點(diǎn)

2018-01-03 14:14:55

一種面向模式圖變化的增量圖模式匹配算法

在大數(shù)據(jù)時(shí)代，數(shù)據(jù)圖的規(guī)模急劇增長(zhǎng)，增量圖模式匹配算法能夠在數(shù)據(jù)圖或模式圖發(fā)生變化時(shí)避免重新在整個(gè)數(shù)據(jù)圖上進(jìn)行匹配、減少響應(yīng)時(shí)間，因此成為了研究的熱點(diǎn)．針對(duì)實(shí)際應(yīng)用中數(shù)據(jù)圖不變而模式圖發(fā)生變化的情況

2018-01-21 10:06:39

MapReduce的數(shù)據(jù)放置策略

MapReduce是一種適用于大規(guī)模數(shù)據(jù)密集型應(yīng)用的有效編程模型，具有編程簡(jiǎn)單、易于擴(kuò)展、容錯(cuò)性好等特點(diǎn)，已在并行和分布式計(jì)算領(lǐng)域得到了廣泛且成功的應(yīng)用．由于MapReduce將計(jì)算擴(kuò)展到大規(guī)模

2018-01-26 11:15:09

MapReduce連接查詢的IO代價(jià)研究

優(yōu)化，有著學(xué)術(shù)意義和應(yīng)用價(jià)值．MapReduce連接查詢算法的性能主要取決于I/O代價(jià)（包括本地和網(wǎng)絡(luò)I/O），而I/O代價(jià)與數(shù)據(jù)集以及連接運(yùn)算的特征參數(shù)相關(guān)，通過(guò)對(duì)二元連接的I/O代價(jià)評(píng)估可以優(yōu)化多元連接執(zhí)行計(jì)劃．基于此，首先提出了二元連接查詢的I/O代價(jià)模型

2018-01-31 16:29:05

蟻群算法即相關(guān)代碼實(shí)現(xiàn)詳解—matlab之智能算法

本微博主要闡述了蟻群算法即相關(guān)代碼實(shí)現(xiàn)詳解。蟻群算法是近年來(lái)剛剛誕生的隨機(jī)優(yōu)化方法，它是一種源于大自然的新的仿生類算法.由意大利學(xué)者Dorigo最早提出，螞蟻算法主要是通過(guò)螞蟻群體之間的信息傳遞而達(dá)到尋優(yōu)的目的。

2018-02-02 11:03:53

10662

Apriori算法詳解

本文主要是對(duì)Apriori算法的詳解，包括了Apriori算法詳細(xì)介紹概括和步驟和Apriori算法偽代碼和例子。Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法，其核心思想是通過(guò)候選集生成和情節(jié)

2018-02-02 16:35:10

20726

一種基于MapReduce模型的并行化k-medoids聚類算法

本文針對(duì)k-medoids算法具有初始點(diǎn)選取復(fù)雜、聚類迭代時(shí)間久、中心點(diǎn)選取消耗資源過(guò)多等缺點(diǎn)，使用Hadoop平臺(tái)下的MapReduce編程框架對(duì)算法進(jìn)行初始點(diǎn)的點(diǎn)密度計(jì)算選取并行化、非中心點(diǎn)分配并行化和中心點(diǎn)更新并行化等方面的改進(jìn)。

2018-05-18 09:06:39

4850

如何使用MapReduce進(jìn)行大數(shù)據(jù)的主動(dòng)學(xué)習(xí)

針對(duì)傳統(tǒng)的主動(dòng)學(xué)習(xí)算法只能處理中小型數(shù)據(jù)集的問(wèn)題，提出一種基于MapReduce的大數(shù)據(jù)主動(dòng)學(xué)習(xí)算法。首先，在有類別標(biāo)簽的初始訓(xùn)練集上，用極限學(xué)習(xí)機(jī)（ ELM）算法訓(xùn)練一個(gè)分類器，并將其輸出用軟最大化函數(shù)變換為一個(gè)后驗(yàn)概率分布。

2018-12-12 15:51:33

云計(jì)算的編程模式

大大提升。MapReduce是當(dāng)前云計(jì)算主流并行編程模式之一。MapReduce模式將任務(wù)自動(dòng)分成多個(gè)子任務(wù)，通過(guò)Map和Reduce兩步實(shí)現(xiàn)任務(wù)在大規(guī)模計(jì)算節(jié)點(diǎn)中的高度與分配。

2019-01-02 16:39:53

3858

目標(biāo)檢測(cè)：Faster RCNN算法詳解

為59.9%；復(fù)雜網(wǎng)絡(luò)達(dá)到5fps，準(zhǔn)確率78.8%。作者在github上給出了基于matlab和python的源碼。對(duì)Region CNN算法不了解的同學(xué)，請(qǐng)先參看這兩篇文章：《RCNN算法詳解

2021-01-13 16:25:31

4314

基于MapReduce/Spark的大規(guī)模壓縮模糊K-近鄰算法

分別基于Mapreduce和 Spark的2種大規(guī)模壓縮模糊K-近鄰算法。在樣例選擇閾值設(shè)置方面，引人動(dòng)態(tài)機(jī)制，使得所選樣例更具代表性。在具有7個(gè)數(shù)據(jù)節(jié)點(diǎn)的大數(shù)據(jù)平臺(tái)上進(jìn)行實(shí)驗(yàn)，結(jié)果表明，與 CFKNN算法相比，所提2種算法具有更高的分類精度和加速比。2個(gè)平臺(tái)相

2021-03-17 10:16:17

基于MapReduce和加權(quán)網(wǎng)絡(luò)信息熵的DBWGIE-MR算法

針對(duì)大數(shù)據(jù)下基于密度的聚類算法中存在的數(shù)據(jù)網(wǎng)格劃分不合理，聚類結(jié)果準(zhǔn)確度不高以及并行化效率較低等問(wèn)題，提出了基于 Mapreduce和加權(quán)網(wǎng)格信息熵的 DBWGIE-MR算法。首先提出自適應(yīng)網(wǎng)格劃分

2021-04-07 14:31:56

MapReduce框架下分布式編碼計(jì)算容錯(cuò)算法

隨著分布式系統(tǒng)規(guī)模擴(kuò)大及計(jì)算復(fù)雜度增加，分布式計(jì)算的平均故障修復(fù)時(shí)間和容錯(cuò)計(jì)算所產(chǎn)生的通信開銷呈現(xiàn)日益上升趨勢(shì)。結(jié)合分布式編碼計(jì)算和副本冗余技術(shù)，提出一種新的容錯(cuò)算法。map節(jié)點(diǎn)應(yīng)用分布式編碼計(jì)算

2021-06-01 15:43:18