在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 教程/ 大數(shù)據(jù)/ Hadoop教程
Hadoop命令參考
Hadoop教程
Hadoop介紹快速入門
Pig & Hive介紹
Hadoop MapReduce
Hadoop安裝
Hadoop環(huán)境安裝設(shè)置
Hadoop HDFS入門
理解 MapReducer
Hadoop多節(jié)點(diǎn)集群
OOZIE 五分鐘入門學(xué)習(xí)
Flume和Sqoop
Hadoop是什么?
MapReduce計(jì)數(shù)器和連接
MapReduce Hadoop程序連接數(shù)據(jù)
Hadoop Streaming
Hadoop HDFS
Hadoop程序入門實(shí)踐
MapReduce簡介和入門
Hadoop大數(shù)據(jù)解決方案
Hadoop HDFS操作

Hadoop教程

Hadoop是一個(gè)開源框架,它允許在整個(gè)集群使用簡單編程模型計(jì)算機(jī)的分布式環(huán)境存儲(chǔ)并處理大數(shù)據(jù)。它的目的是從單一的服務(wù)器到上千臺(tái)機(jī)器的擴(kuò)展,每一個(gè)臺(tái)機(jī)都可以提供本地計(jì)算和存儲(chǔ)。

90%的世界數(shù)據(jù)在過去的幾年中產(chǎn)生”。

由于新技術(shù),設(shè)備和類似的社交網(wǎng)站通信裝置的出現(xiàn),人類產(chǎn)生的數(shù)據(jù)量每年都在迅速增長。美國從一開始的時(shí)候到2003年產(chǎn)生的數(shù)據(jù)量為5十億千兆字節(jié)。如果以堆放的數(shù)據(jù)磁盤的形式,它可以填補(bǔ)整個(gè)足球場(chǎng)。在2011年創(chuàng)建相同數(shù)據(jù)量只需要兩天,在2013年該速率仍在每十分鐘極大地增長。雖然生產(chǎn)的所有這些信息是有意義的,處理起來有用的,但是它被忽略了。

什么是大數(shù)據(jù)?

大數(shù)據(jù)是不能用傳統(tǒng)的計(jì)算技術(shù)處理的大型數(shù)據(jù)集的集合。它不是一個(gè)單一的技術(shù)或工具,而是涉及的業(yè)務(wù)和技術(shù)的許多領(lǐng)域。

在大數(shù)據(jù)會(huì)發(fā)生什么?

大數(shù)據(jù)包括通過不同的設(shè)備和應(yīng)用程序所產(chǎn)生的數(shù)據(jù)。下面給出的是一些在數(shù)據(jù)的框架下的領(lǐng)域。

  • 黑匣子數(shù)據(jù):這是直升機(jī),飛機(jī),噴氣機(jī)的一個(gè)組成部分,它捕獲飛行機(jī)組的聲音,麥克風(fēng)和耳機(jī)的錄音,以及飛機(jī)的性能信息。

  • 社會(huì)化媒體數(shù)據(jù):社會(huì)化媒體,如Facebook和Twitter保持信息發(fā)布的數(shù)百萬世界各地的人的意見觀點(diǎn)。

  • 證券交易所數(shù)據(jù):交易所數(shù)據(jù)保存有關(guān)的“買入”和“賣出”,客戶由不同的公司所占的份額決定的信息。

  • 電網(wǎng)數(shù)據(jù):電網(wǎng)數(shù)據(jù)保持相對(duì)于基站所消耗的特定節(jié)點(diǎn)的信息。

  • 交通運(yùn)輸數(shù)據(jù):交通數(shù)據(jù)包括車輛的型號(hào),容量,距離和可用性。

  • 搜索引擎數(shù)據(jù):搜索引擎獲取大量來自不同數(shù)據(jù)庫中的數(shù)據(jù)。

Big Data

因此,大數(shù)據(jù)包括體積龐大,高流速和可擴(kuò)展的各種數(shù)據(jù)。它的數(shù)據(jù)為三種類型。

  • 結(jié)構(gòu)化數(shù)據(jù):關(guān)系數(shù)據(jù)。

  • 半結(jié)構(gòu)化數(shù)據(jù):XML數(shù)據(jù)。

  • 非結(jié)構(gòu)化數(shù)據(jù):Word, PDF, 文本,媒體日志。

大數(shù)據(jù)的好處

  • 通過保留了社交網(wǎng)絡(luò)如Facebook的信息,市場(chǎng)營銷機(jī)構(gòu)了解可以他們的活動(dòng),促銷等廣告媒介的響應(yīng)。

  • 利用信息計(jì)劃生產(chǎn)在社會(huì)化媒體一樣喜好并讓消費(fèi)者對(duì)產(chǎn)品的認(rèn)知,產(chǎn)品企業(yè)和零售企業(yè)。

  • 使用關(guān)于患者以前的病歷資料,醫(yī)院提供更好的和快速的服務(wù)。

大數(shù)據(jù)技術(shù)

大數(shù)據(jù)的技術(shù)是在提供更準(zhǔn)確的分析,這可能影響更多的具體決策導(dǎo)致更大的運(yùn)行效率,降低成本,并減少了對(duì)業(yè)務(wù)的風(fēng)險(xiǎn)。

為了利用大數(shù)據(jù)的力量,需要管理和處理的實(shí)時(shí)結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù),可以保護(hù)數(shù)據(jù)隱私和安全的基礎(chǔ)設(shè)施。

目前在市場(chǎng)上的各種技術(shù),從不同的供應(yīng)商,包括亞馬遜,IBM,微軟等來處理大數(shù)據(jù)。盡管找到了處理大數(shù)據(jù)的技術(shù),我們研究了以下兩類技術(shù):

操作大數(shù)據(jù)

這些包括像MongoDB系統(tǒng),提供業(yè)務(wù)實(shí)時(shí)的能力,這里主要是數(shù)據(jù)捕獲和存儲(chǔ)互動(dòng)工作。

NoSQL大數(shù)據(jù)系統(tǒng)的設(shè)計(jì)充分利用已經(jīng)出現(xiàn)在過去的十年,而讓大量的計(jì)算,以廉價(jià),高效地運(yùn)行新的云計(jì)算架構(gòu)的優(yōu)勢(shì)。這使得運(yùn)營大數(shù)據(jù)工作負(fù)載更容易管理,更便宜,更快的實(shí)現(xiàn)。

一些NoSQL系統(tǒng)可以提供深入了解基于使用最少的編碼無需數(shù)據(jù)科學(xué)家和額外的基礎(chǔ)架構(gòu)的實(shí)時(shí)數(shù)據(jù)模式。

分析大數(shù)據(jù)

這些包括,如大規(guī)模并行處理(MPP)數(shù)據(jù)庫系統(tǒng)和MapReduce提供用于回顧性和復(fù)雜的分析,可能觸及大部分或全部數(shù)據(jù)的分析能力的系統(tǒng)。

MapReduce提供分析數(shù)據(jù)的基礎(chǔ)上,MapReduce可以按比例增加從單個(gè)服務(wù)器向成千上萬的高端和低端機(jī)的互補(bǔ)SQL提供的功能,這是系統(tǒng)的一種新方法。

這兩個(gè)類技術(shù)是互補(bǔ)的,并經(jīng)常一起部署。

操作與分析系統(tǒng)

  操作 分析
等待時(shí)間 1 ms - 100 ms 1 min - 100 min
并發(fā) 1000 - 100,000 1 - 10
訪問模式 寫入和讀取 讀取
查詢 選擇 非選擇性
數(shù)據(jù)范圍 操作 回溯
最終用戶 顧客 數(shù)據(jù)科學(xué)家
技術(shù) NoSQL MapReduce, MPP 數(shù)據(jù)庫

大數(shù)據(jù)的挑戰(zhàn)

大數(shù)據(jù)相關(guān)的主要挑戰(zhàn)如下:

  • 采集數(shù)據(jù)
  • 策展
  • 存儲(chǔ)
  • 搜索
  • 分享
  • 傳輸
  • 分析
  • 展示

為了實(shí)現(xiàn)上述挑戰(zhàn),企業(yè)通常需要企業(yè)級(jí)服務(wù)器的幫助。