WIKI使用導(dǎo)航
站長百科導(dǎo)航
站長專題
- 網(wǎng)站推廣
- 網(wǎng)站程序
- 網(wǎng)站賺錢
- 虛擬主機(jī)
- cPanel
- 網(wǎng)址導(dǎo)航專題
- 云計算
- 微博營銷
- 虛擬主機(jī)管理系統(tǒng)
- 開放平臺
- WIKI程序與應(yīng)用
- 美國十大主機(jī)
Apache Hadoop
Apache Hadoop 軟件庫是一個框架,允許使用簡單的編程模型跨計算機(jī)集群對大型數(shù)據(jù)集進(jìn)行分布式處理。它旨在從單個服務(wù)器擴(kuò)展到數(shù)千臺計算機(jī),每臺計算機(jī)都提供本地計算和存儲。該庫本身不是依靠硬件來提供高可用性,而是旨在檢測和處理應(yīng)用程序層的故障,因此在計算機(jī)集群上提供高可用性服務(wù),每臺計算機(jī)都可能容易出現(xiàn)故障。
概述[ ]
許多Apache Hadoop大數(shù)據(jù)服務(wù)提供商都競相爭取企業(yè)客戶。畢竟,Apache Hadoop大數(shù)據(jù)不僅僅是一種存儲最大數(shù)據(jù)集合的解決方案,而是需要充分利用盡可能多的數(shù)據(jù)管理。如果你正在尋找部署Apache Hadoop大數(shù)據(jù)的解決方案,單純的Apache Hadoop定義就不夠了。你需要一個能夠適應(yīng)不斷增長數(shù)據(jù)的Apache Hadoop數(shù)據(jù)中心基礎(chǔ)設(shè)施。
Apache Hadoop的分布式文件系統(tǒng)開啟了一個新時代,利用相對廉價的本地磁盤群集,以成本效益的方式進(jìn)行大規(guī)模數(shù)據(jù)分析。無論企業(yè)增長速度有多快,Apache Hadoop及相關(guān)的大數(shù)據(jù)解決方案可以確保持續(xù)地分析各種原始數(shù)據(jù)。
然而,一旦你開始使用Apache Hadoop大數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)管理問題就會重新浮現(xiàn),如數(shù)據(jù)安全性、可靠性、性能和數(shù)據(jù)保護(hù)。盡管Apache Hadoop分布式文件系統(tǒng)已經(jīng)相當(dāng)成熟,但仍有許多方面需要進(jìn)一步改進(jìn)以滿足企業(yè)需求。
事實上,當(dāng)企業(yè)開始將Apache Hadoop大數(shù)據(jù)用于生產(chǎn)數(shù)據(jù)收集時,存儲集群上的產(chǎn)品可能并沒有提供最低成本的解決方案。因此,關(guān)鍵在于大企業(yè)如何充分利用Apache Hadoop大數(shù)據(jù)。我們不僅需要簡單地復(fù)制、移動和備份Apache Hadoop大數(shù)據(jù),而是需要以安全、謹(jǐn)慎的方式管理這些數(shù)據(jù),甚至需要更多功能。與傳統(tǒng)的小規(guī)模Apache Hadoop數(shù)據(jù)庫不同,如果我們的關(guān)鍵業(yè)務(wù)流程依賴于新的Apache Hadoop大數(shù)據(jù)存儲,我們將需要其提供的所有操作彈性和高性能。
發(fā)展歷程[ ]
Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個應(yīng)用程序分解為許多并行計算指令,跨大量的計算節(jié)點運(yùn)行非常巨大的數(shù)據(jù)集。使用該框架的一個典型例子就是在網(wǎng)絡(luò)數(shù)據(jù)上運(yùn)行的搜索算法。Hadoop 最初只與網(wǎng)頁索引有關(guān),迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺。
目前有很多公司開始提供基于Hadoop的商業(yè)軟件、支持、服務(wù)以及培訓(xùn)。Cloudera是一家美國的企業(yè)軟件公司,該公司在2008年開始提供基于Hadoop的軟件和服務(wù)。GoGrid是一家云計算基礎(chǔ)設(shè)施公司,在2012年,該公司與Cloudera合作加速了企業(yè)采納基于Hadoop應(yīng)用的步伐。Dataguise公司是一家數(shù)據(jù)安全公司,同樣在2012年該公司推出了一款針對Hadoop的數(shù)據(jù)保護(hù)和風(fēng)險評估。
核心組件[ ]
Hadoop的核心組件包括了分布式文件系統(tǒng)HDFS、MapReduce處理框架以及多種數(shù)據(jù)倉庫工具和分布式數(shù)據(jù)庫。以下是對Hadoop各個核心組件的詳細(xì)介紹:
- HDFS(Hadoop Distributed File System):作為Hadoop的基礎(chǔ),它是一個高度可靠、高吞吐量的分布式文件系統(tǒng),設(shè)計用來存儲大規(guī)模的數(shù)據(jù)集。它通過將數(shù)據(jù)分成塊并分布在集群中的多個節(jié)點上來工作。
- MapReduce:這是一個編程模型,用于處理和生成大型數(shù)據(jù)集。它由JobTrackers(負(fù)責(zé)作業(yè)調(diào)度和監(jiān)控)和TaskTrackers(負(fù)責(zé)執(zhí)行任務(wù))組成。MapReduce能夠處理海量數(shù)據(jù),并將這些數(shù)據(jù)處理過程分布在整個Hadoop集群上執(zhí)行。
- YARN(Yet Another Resource Negotiator):它是資源管理平臺,負(fù)責(zé)在Hadoop集群中管理和調(diào)度計算資源。
- HBase:基于BigTable概念開發(fā)的數(shù)據(jù)存儲系統(tǒng),它是一個分布式、版本化、非關(guān)系型的數(shù)據(jù)庫,適用于隨機(jī)實時讀/寫訪問大規(guī)模數(shù)據(jù)集。
- Hive:它是一個數(shù)據(jù)倉庫工具,提供類似SQL的查詢語言,稱為HiveQL,轉(zhuǎn)換這些查詢?yōu)镸apReduce任務(wù)來處理存儲在Hadoop文件系統(tǒng)上的大數(shù)據(jù)。
優(yōu)勢[ ]
1、可靠性:Hadoop設(shè)計時考慮到了硬件故障的可能性,因此它通過在集群中維護(hù)多個數(shù)據(jù)副本來確保數(shù)據(jù)的可靠性。這意味著即使某個節(jié)點失敗,數(shù)據(jù)仍然可用,并且可以在其他節(jié)點上重新啟動任務(wù)。
2、高效性:Hadoop通過并行處理來提高處理速度。它將大型任務(wù)分解成多個子任務(wù),并在集群中的多個節(jié)點上同時執(zhí)行這些任務(wù),從而加快了處理速度。此外,Hadoop的MapReduce框架能夠有效地處理大規(guī)模數(shù)據(jù)集。
3、可伸縮性:Hadoop能夠輕松處理PB級別的數(shù)據(jù)。由于其分布式架構(gòu),可以根據(jù)需要擴(kuò)展集群規(guī)模,以應(yīng)對不斷增長的數(shù)據(jù)量。
4、低成本:由于Hadoop是開源的,并且建立在廉價的硬件上,因此它的成本相對較低。此外,Hadoop社區(qū)提供了大量的支持和資源,使得任何人都能夠輕松地使用和部署Hadoop。