許多組織已經(jīng)意識到從其產(chǎn)品、服務(wù)和運(yùn)營中收集的數(shù)據(jù)的價值。他們設(shè)立了新的行政職位,例如首席信息官 (CIO),其主要關(guān)注點(diǎn)是正確使用和保護(hù)這一新的大數(shù)據(jù)資源。CIO 隨后邀請信息技術(shù) (IT) 團(tuán)隊(duì)實(shí)施新的數(shù)據(jù)政策和流程,其中包括:
治理:通過控制數(shù)據(jù)的存儲、訪問和處理來確保數(shù)據(jù)的完整性。
訪問:向工程、運(yùn)營、保修、質(zhì)量、營銷和銷售團(tuán)隊(duì)提供數(shù)據(jù)。
處理:如果數(shù)據(jù)足夠大,則需要專門的處理平臺來消除傳輸數(shù)據(jù)的延遲并減少處理數(shù)據(jù)的時間。
為了滿足這些新要求,IT 組織正在采用新技術(shù)和平臺來存儲和管理這些龐大且不斷增長的數(shù)據(jù)集。因此,您需要與 IT 團(tuán)隊(duì)更緊密地合作,以便獲得訪問權(quán)限并設(shè)置一個工作流,使您能夠處理數(shù)據(jù)。在這個新環(huán)境中,使用與您的 IT 團(tuán)隊(duì)用于存儲、管理和處理大數(shù)據(jù)的系統(tǒng)以及您熟悉的系統(tǒng)一起使用的軟件分析和建模工具,使您能夠有效地使用這些數(shù)據(jù)在日?;顒又小?/p>
大數(shù)據(jù)平臺及應(yīng)用
IT 組織正在采用許多平臺來存儲和管理大數(shù)據(jù)。這些平臺不僅提供了存儲大數(shù)據(jù)的基礎(chǔ)設(shè)施,還支持用于以不同方式處理大數(shù)據(jù)的各種應(yīng)用程序。這些應(yīng)用程序可以大致分為兩類:大型歷史數(shù)據(jù)集的批處理,以及從設(shè)備連續(xù)收集的數(shù)據(jù)的實(shí)時或近實(shí)時處理。第二種情況通常稱為流式傳輸,在大多數(shù)物聯(lián)網(wǎng) (IoT) 應(yīng)用程序中都可以找到。
Hadoop
Hadoop 是圍繞分布式存儲和分布式計(jì)算原則設(shè)計(jì)的。它由在服務(wù)器集群上共存的兩個主要子系統(tǒng)組成,使其能夠支持大型數(shù)據(jù)集。
HDFS:Hadoop 分布式文件系統(tǒng) (HDFS) 提供了一個用于存儲數(shù)據(jù)的大型容錯系統(tǒng)。
YARN:Yet Another Resource Negotiator (YARN) 管理運(yùn)行 Hadoop 集群和處理存儲在 HDFS 中的數(shù)據(jù)的高度可擴(kuò)展的應(yīng)用程序。
批處理應(yīng)用程序和創(chuàng)建模型
批處理應(yīng)用程序通常用于分析和處理在很長一段時間內(nèi)或跨許多不同設(shè)備或系統(tǒng)收集的歷史數(shù)據(jù)。擁有使用這些批處理應(yīng)用程序的能力,您可以在數(shù)據(jù)中尋找趨勢并開發(fā)在過去使用大量數(shù)據(jù)時無法實(shí)現(xiàn)的預(yù)測模型。
在 Hadoop 上運(yùn)行的兩個比較流行的批處理應(yīng)用程序包括:
Spark:一種更通用的框架,可優(yōu)化內(nèi)存中的操作,使其非常適合機(jī)器學(xué)習(xí)應(yīng)用程序。
MapReduce:一個高度結(jié)構(gòu)化的框架,由 map 和 reduce 函數(shù)組成,適用于大數(shù)據(jù)分析和數(shù)據(jù)轉(zhuǎn)換應(yīng)用。
流應(yīng)用程序和模型集成
使用從歷史數(shù)據(jù)集開發(fā)的模型以及 Kafka 或 Paho 等流應(yīng)用程序可以為您的產(chǎn)品和服務(wù)添加更多智能和自適應(yīng)功能。這些差異化功能的示例包括: 預(yù)測性維護(hù),這大大減少了不必要的維護(hù)以及計(jì)劃外停機(jī)時間;調(diào)整船舶、機(jī)車和商用車輛等重型設(shè)備的服務(wù),以在其運(yùn)行環(huán)境中更好地運(yùn)行,從而實(shí)現(xiàn)更好的燃油經(jīng)濟(jì)性和增強(qiáng)的運(yùn)行;和樓宇自動化系統(tǒng),以盡可能低的成本運(yùn)行樓宇系統(tǒng),同時仍保持舒適的環(huán)境。
Mondi Gronau的工程師創(chuàng)建了一個統(tǒng)計(jì)過程控制 (SPC) 應(yīng)用程序,其中包含使用 MATLAB 開發(fā)的預(yù)測模型。該系統(tǒng)不僅允許他們的機(jī)器操作員監(jiān)控其許多復(fù)雜生產(chǎn)線的操作,而且還提供警報(bào)以指示機(jī)器何時趨向于故障狀態(tài)。這些警報(bào)允許操作員在超出任何制造公差之前進(jìn)行調(diào)整,從而減少原材料的損失。
在許多情況下,這類服務(wù)通常是與企業(yè)應(yīng)用程序開發(fā)人員和系統(tǒng)架構(gòu)師一起開發(fā)的。但挑戰(zhàn)在于如何以有效的方式將您的模型集成到這些系統(tǒng)中。將模型移植到另一種語言既費(fèi)時又容易出錯,每次對模型進(jìn)行更新時都需要大量工作。用典型的 IT 語言開發(fā)預(yù)測模型很困難。擁有開發(fā)這些模型所需的領(lǐng)域?qū)I(yè)知識的工程師和科學(xué)家不熟悉這些語言,而且這些語言并不總是包含充分處理和從工程和科學(xué)數(shù)據(jù)創(chuàng)建模型所需的功能。
企業(yè)應(yīng)用程序開發(fā)人員應(yīng)該尋找一種數(shù)據(jù)分析和建模工具,它不僅為他們的工程師和科學(xué)家所熟悉,而且還提供了他們需要的特定領(lǐng)域的工具。這些工具還必須擴(kuò)展以使用基于 Hadoop 的系統(tǒng)開發(fā)模型和大型數(shù)據(jù)集,這些系統(tǒng)提供高度穩(wěn)健的應(yīng)用程序服務(wù)器和代碼生成等功能,從而為將模型部署到企業(yè)應(yīng)用程序中提供直接路徑。
其他數(shù)據(jù)訪問應(yīng)用程序
還有許多其他允許訪問正在采用的大數(shù)據(jù)的應(yīng)用程序。其中一些包括允許使用數(shù)據(jù)庫類型語義訪問存儲在 HDFS 中的數(shù)據(jù)的接口。Hive 和 Impala 就是兩個這樣的應(yīng)用程序,它們允許使用結(jié)構(gòu)化查詢語言 (SQL) 訪問和處理數(shù)據(jù)。這是一種成熟且廣泛使用的語言,用于處理關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。
NoSQL 數(shù)據(jù)庫的架構(gòu)旨在支持不同的大數(shù)據(jù)用例,也正在被采用。很多時候,這些數(shù)據(jù)庫支持 SQL 語言的子集來訪問和處理數(shù)據(jù),但也可能具有傳統(tǒng)數(shù)據(jù)庫不提供的附加接口功能。
科學(xué)家、工程師和 IT
如上所述,各種系統(tǒng)用于存儲、管理和處理大數(shù)據(jù)。通過與您的 IT 團(tuán)隊(duì)密切合作并利用 MATLAB 等工具,您可以創(chuàng)建熟悉的工作流程,使您能夠輕松高效地工作,同時從大量數(shù)據(jù)中獲得洞察力。
審核編輯:郭婷
-
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3978瀏覽量
67403 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8995瀏覽量
142415 -
nosql
+關(guān)注
關(guān)注
0文章
39瀏覽量
10491
發(fā)布評論請先 登錄
學(xué)生適合使用的SOLIDWORKS 云應(yīng)用程序

在EZ串行的BLE“無響應(yīng)寫入”中, CAN一次通信中接收的最大數(shù)據(jù)包大小是多少?
大數(shù)據(jù)與云計(jì)算是干嘛的?
AWTK-WEB 快速入門(5) - C 語言 WebSocket 應(yīng)用程序

基于HPM_SDK_ENV開發(fā)應(yīng)用程序的升級處理

AWTK-WEB 快速入門(4) - JS Http 應(yīng)用程序

ANACONDA——關(guān)于發(fā)布數(shù)據(jù)應(yīng)用程序的新簡單方法

BQ78412應(yīng)用程序編程接口

TAS2521應(yīng)用程序參考指南

android手機(jī)上emulate應(yīng)用程序的方法
AWTK-WEB 快速入門(2) - JS 應(yīng)用程序

AWTK-WEB 快速入門(1) - C 語言應(yīng)用程序

智慧城市與大數(shù)據(jù)的關(guān)系
PCM2912應(yīng)用程序的操作環(huán)境

TLV320AIC3254應(yīng)用程序參考指南

評論