大數(shù)據(jù)在2014年逐漸爆發(fā),越來(lái)越多的企業(yè)發(fā)現(xiàn)了大數(shù)據(jù)的用途,不僅可以用來(lái)管理每天的業(yè)務(wù)流程,還能解決復(fù)雜的商業(yè)問(wèn)題。大數(shù)據(jù)很快躍升為熱點(diǎn)詞,并將自己打造成可以解決大大小小商業(yè)實(shí)體問(wèn)題的可靠技術(shù)。
大數(shù)據(jù),顧名思義,就是在我們周圍存在的巨大量級(jí)數(shù)據(jù),這些數(shù)據(jù)可以是在智能設(shè)備、互聯(lián)網(wǎng)、社交媒體、聊天室、移動(dòng)APP、電話呼叫、商品購(gòu)買等一系列使用活動(dòng)中產(chǎn)生。大數(shù)據(jù)技術(shù)就是用來(lái)收集、存儲(chǔ)和分析這些量級(jí)(一般達(dá)到拍字節(jié))的信息。
大數(shù)據(jù)技術(shù)徹底改變了人們看待數(shù)據(jù)和數(shù)據(jù)庫(kù)存儲(chǔ)的方式,顛覆了數(shù)據(jù)的使用方法。在軍事上,大數(shù)據(jù)可以用來(lái)阻止外敵的入侵。在NBA比賽中,大數(shù)據(jù)技術(shù)可以捕獲和分析成千上萬(wàn)的個(gè)體運(yùn)動(dòng)。醫(yī)學(xué)上使用大數(shù)據(jù)技術(shù)來(lái)抵抗癌癥和心臟病。汽車公司通過(guò)大數(shù)據(jù)技術(shù)實(shí)現(xiàn)汽車自駕和互通信。
大數(shù)據(jù)正在改變世界。那么,這一切的背后是什么軟件系統(tǒng)在支撐?大數(shù)據(jù)技術(shù)又是如何迅速流行并保持上升趨勢(shì)的呢?
答案是Hadoop。
很多人認(rèn)為Hadoop就是大數(shù)據(jù)。其實(shí)并不是這樣的。大數(shù)據(jù)在Hadoop之前就產(chǎn)生了,而且在沒(méi)有Hadoop的情況下可以繼續(xù)存在。不過(guò)目前Hadoop是大數(shù)據(jù)的有力搭檔,它們有著密切的關(guān)系。正因?yàn)槿绱耍瑢?dǎo)致很多人使用Hadoop,如今你幾乎找不到一家沒(méi)有使用Hadoop軟件的大數(shù)據(jù)公司。那么Hadoop到底是什么?
Hadoop是一個(gè)“軟件庫(kù)”,它讓用戶可以通過(guò)簡(jiǎn)單的編程模型操縱計(jì)算機(jī)集群來(lái)處理大型數(shù)據(jù)集。換個(gè)說(shuō)法就是,它讓企業(yè)有能力去收集、存儲(chǔ)和分析大量的數(shù)據(jù)集。
此外,理解Hadoop的一個(gè)很重要的方面是,它是一個(gè)軟件庫(kù)。Hadoop中包含大量的程序庫(kù),這些程序補(bǔ)充基礎(chǔ)的Hadoop框架,讓企業(yè)有合適的工具去獲得想要的Hadoop結(jié)果。
接下來(lái),讓我們了解一下Hadoop的生態(tài)系統(tǒng)。更多信息可以參見(jiàn)Hadoop官網(wǎng)。
Hadoop項(xiàng)目包括很多組件――Hadoop Common,Hadoop Distributed File System,Hadoop YARN和Hadoop MapReduce。這些組件系統(tǒng)共同提供給用戶并支持附加的Hadoop工程的工具,讓用戶有能力實(shí)時(shí)處理大數(shù)據(jù)集,在這里Hadoop自動(dòng)調(diào)度任務(wù)和管理集群資源。
下面列出一些Hadoop組件,不同的組件分別提供特定的服務(wù)。
Apache Hive:數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)設(shè)施,提供數(shù)據(jù)匯總和特定查詢。這個(gè)系統(tǒng)支持用戶進(jìn)行有效的查詢,并實(shí)時(shí)得到返回結(jié)果。
Apache Spark:Apache Spark是提供大數(shù)據(jù)集上快速進(jìn)行數(shù)據(jù)分析的計(jì)算引擎。它建立在HDFS之上,卻繞過(guò)了MapReduce使用自己的數(shù)據(jù)處理框架。Spark常用于實(shí)時(shí)查詢、流處理、迭代算法、復(fù)雜操作運(yùn)算和機(jī)器學(xué)習(xí)。
Apache Ambari:Ambari用來(lái)協(xié)助管理Hadoop。它提供對(duì)Hadoop生態(tài)系統(tǒng)中許多工具的支持,包括Hive、HBase、Pig、 Spooq和ZooKeeper。這個(gè)工具提供集群管理儀表盤(pán),可以跟蹤集群運(yùn)行狀態(tài),幫助診斷性能問(wèn)題。
Apache Pig:Pig是一個(gè)集成高級(jí)查詢語(yǔ)言的平臺(tái),可以用來(lái)處理大數(shù)據(jù)集。
Apache HBase:HBase是一個(gè)非關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),運(yùn)行在HDFS之上。它用來(lái)處理大數(shù)據(jù)工程中稀疏數(shù)據(jù)集。
其他常見(jiàn)的Hadoop項(xiàng)目還包括Avro、Cassandra、Chukwa, Mahout和ZooKeeper。
用戶通過(guò)Hadoop可以利用許多工具和資源,用真正的大數(shù)據(jù)技術(shù)來(lái)適應(yīng)不同的業(yè)務(wù)需求。