WIKI使用導(dǎo)航
站長(zhǎng)百科導(dǎo)航
站長(zhǎng)專題
- 網(wǎng)站推廣
- 網(wǎng)站程序
- 網(wǎng)站賺錢
- 虛擬主機(jī)
- cPanel
- 網(wǎng)址導(dǎo)航專題
- 云計(jì)算
- 微博營(yíng)銷
- 虛擬主機(jī)管理系統(tǒng)
- 開放平臺(tái)
- WIKI程序與應(yīng)用
- 美國(guó)十大主機(jī)
Apache Hadoop
Apache Hadoop 軟件庫是一個(gè)框架,允許使用簡(jiǎn)單的編程模型跨計(jì)算機(jī)集群對(duì)大型數(shù)據(jù)集進(jìn)行分布式處理。它旨在從單個(gè)服務(wù)器擴(kuò)展到數(shù)千臺(tái)計(jì)算機(jī),每臺(tái)計(jì)算機(jī)都提供本地計(jì)算和存儲(chǔ)。該庫本身不是依靠硬件來提供高可用性,而是旨在檢測(cè)和處理應(yīng)用程序層的故障,因此在計(jì)算機(jī)集群上提供高可用性服務(wù),每臺(tái)計(jì)算機(jī)都可能容易出現(xiàn)故障。
概述[ ]
許多Apache Hadoop大數(shù)據(jù)服務(wù)提供商都競(jìng)相爭(zhēng)取企業(yè)客戶。畢竟,Apache Hadoop大數(shù)據(jù)不僅僅是一種存儲(chǔ)最大數(shù)據(jù)集合的解決方案,而是需要充分利用盡可能多的數(shù)據(jù)管理。如果你正在尋找部署Apache Hadoop大數(shù)據(jù)的解決方案,單純的Apache Hadoop定義就不夠了。你需要一個(gè)能夠適應(yīng)不斷增長(zhǎng)數(shù)據(jù)的Apache Hadoop數(shù)據(jù)中心基礎(chǔ)設(shè)施。
Apache Hadoop的分布式文件系統(tǒng)開啟了一個(gè)新時(shí)代,利用相對(duì)廉價(jià)的本地磁盤群集,以成本效益的方式進(jìn)行大規(guī)模數(shù)據(jù)分析。無論企業(yè)增長(zhǎng)速度有多快,Apache Hadoop及相關(guān)的大數(shù)據(jù)解決方案可以確保持續(xù)地分析各種原始數(shù)據(jù)。
然而,一旦你開始使用Apache Hadoop大數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)管理問題就會(huì)重新浮現(xiàn),如數(shù)據(jù)安全性、可靠性、性能和數(shù)據(jù)保護(hù)。盡管Apache Hadoop分布式文件系統(tǒng)已經(jīng)相當(dāng)成熟,但仍有許多方面需要進(jìn)一步改進(jìn)以滿足企業(yè)需求。
事實(shí)上,當(dāng)企業(yè)開始將Apache Hadoop大數(shù)據(jù)用于生產(chǎn)數(shù)據(jù)收集時(shí),存儲(chǔ)集群上的產(chǎn)品可能并沒有提供最低成本的解決方案。因此,關(guān)鍵在于大企業(yè)如何充分利用Apache Hadoop大數(shù)據(jù)。我們不僅需要簡(jiǎn)單地復(fù)制、移動(dòng)和備份Apache Hadoop大數(shù)據(jù),而是需要以安全、謹(jǐn)慎的方式管理這些數(shù)據(jù),甚至需要更多功能。與傳統(tǒng)的小規(guī)模Apache Hadoop數(shù)據(jù)庫不同,如果我們的關(guān)鍵業(yè)務(wù)流程依賴于新的Apache Hadoop大數(shù)據(jù)存儲(chǔ),我們將需要其提供的所有操作彈性和高性能。
發(fā)展歷程[ ]
Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個(gè)應(yīng)用程序分解為許多并行計(jì)算指令,跨大量的計(jì)算節(jié)點(diǎn)運(yùn)行非常巨大的數(shù)據(jù)集。使用該框架的一個(gè)典型例子就是在網(wǎng)絡(luò)數(shù)據(jù)上運(yùn)行的搜索算法。Hadoop 最初只與網(wǎng)頁索引有關(guān),迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺(tái)。
目前有很多公司開始提供基于Hadoop的商業(yè)軟件、支持、服務(wù)以及培訓(xùn)。Cloudera是一家美國(guó)的企業(yè)軟件公司,該公司在2008年開始提供基于Hadoop的軟件和服務(wù)。GoGrid是一家云計(jì)算基礎(chǔ)設(shè)施公司,在2012年,該公司與Cloudera合作加速了企業(yè)采納基于Hadoop應(yīng)用的步伐。Dataguise公司是一家數(shù)據(jù)安全公司,同樣在2012年該公司推出了一款針對(duì)Hadoop的數(shù)據(jù)保護(hù)和風(fēng)險(xiǎn)評(píng)估。
核心組件[ ]
Hadoop的核心組件包括了分布式文件系統(tǒng)HDFS、MapReduce處理框架以及多種數(shù)據(jù)倉庫工具和分布式數(shù)據(jù)庫。以下是對(duì)Hadoop各個(gè)核心組件的詳細(xì)介紹:
- HDFS(Hadoop Distributed File System):作為Hadoop的基礎(chǔ),它是一個(gè)高度可靠、高吞吐量的分布式文件系統(tǒng),設(shè)計(jì)用來存儲(chǔ)大規(guī)模的數(shù)據(jù)集。它通過將數(shù)據(jù)分成塊并分布在集群中的多個(gè)節(jié)點(diǎn)上來工作。
- MapReduce:這是一個(gè)編程模型,用于處理和生成大型數(shù)據(jù)集。它由JobTrackers(負(fù)責(zé)作業(yè)調(diào)度和監(jiān)控)和TaskTrackers(負(fù)責(zé)執(zhí)行任務(wù))組成。MapReduce能夠處理海量數(shù)據(jù),并將這些數(shù)據(jù)處理過程分布在整個(gè)Hadoop集群上執(zhí)行。
- YARN(Yet Another Resource Negotiator):它是資源管理平臺(tái),負(fù)責(zé)在Hadoop集群中管理和調(diào)度計(jì)算資源。
- HBase:基于BigTable概念開發(fā)的數(shù)據(jù)存儲(chǔ)系統(tǒng),它是一個(gè)分布式、版本化、非關(guān)系型的數(shù)據(jù)庫,適用于隨機(jī)實(shí)時(shí)讀/寫訪問大規(guī)模數(shù)據(jù)集。
- Hive:它是一個(gè)數(shù)據(jù)倉庫工具,提供類似SQL的查詢語言,稱為HiveQL,轉(zhuǎn)換這些查詢?yōu)镸apReduce任務(wù)來處理存儲(chǔ)在Hadoop文件系統(tǒng)上的大數(shù)據(jù)。
優(yōu)勢(shì)[ ]
1、可靠性:Hadoop設(shè)計(jì)時(shí)考慮到了硬件故障的可能性,因此它通過在集群中維護(hù)多個(gè)數(shù)據(jù)副本來確保數(shù)據(jù)的可靠性。這意味著即使某個(gè)節(jié)點(diǎn)失敗,數(shù)據(jù)仍然可用,并且可以在其他節(jié)點(diǎn)上重新啟動(dòng)任務(wù)。
2、高效性:Hadoop通過并行處理來提高處理速度。它將大型任務(wù)分解成多個(gè)子任務(wù),并在集群中的多個(gè)節(jié)點(diǎn)上同時(shí)執(zhí)行這些任務(wù),從而加快了處理速度。此外,Hadoop的MapReduce框架能夠有效地處理大規(guī)模數(shù)據(jù)集。
3、可伸縮性:Hadoop能夠輕松處理PB級(jí)別的數(shù)據(jù)。由于其分布式架構(gòu),可以根據(jù)需要擴(kuò)展集群規(guī)模,以應(yīng)對(duì)不斷增長(zhǎng)的數(shù)據(jù)量。
4、低成本:由于Hadoop是開源的,并且建立在廉價(jià)的硬件上,因此它的成本相對(duì)較低。此外,Hadoop社區(qū)提供了大量的支持和資源,使得任何人都能夠輕松地使用和部署Hadoop。