編輯“Apache Hadoop”

Apache Hadoop 軟件庫(kù)是一個(gè)框架，允許使用簡(jiǎn)單的編程模型跨[[計(jì)算機(jī)]]集群對(duì)大型數(shù)據(jù)集進(jìn)行分布式處理。它旨在從單個(gè)[[服務(wù)器]]擴(kuò)展到數(shù)千臺(tái)計(jì)算機(jī)，每臺(tái)計(jì)算機(jī)都提供本地計(jì)算和存儲(chǔ)。該庫(kù)本身不是依靠硬件來(lái)提供高可用性，而是旨在檢測(cè)和處理[[應(yīng)用程序]]層的故障，因此在計(jì)算機(jī)集群上提供高可用性服務(wù)，每臺(tái)計(jì)算機(jī)都可能容易出現(xiàn)故障。
== 概述 ==
許多Apache Hadoop[[大數(shù)據(jù)]]服務(wù)提供商都競(jìng)相爭(zhēng)取企業(yè)客戶。畢竟，Apache Hadoop大數(shù)據(jù)不僅僅是一種存儲(chǔ)最大數(shù)據(jù)集合的解決方案，而是需要充分利用盡可能多的數(shù)據(jù)管理。如果你正在尋找部署Apache Hadoop大數(shù)據(jù)的解決方案，單純的Apache Hadoop定義就不夠了。你需要一個(gè)能夠適應(yīng)不斷增長(zhǎng)數(shù)據(jù)的Apache Hadoop數(shù)據(jù)中心基礎(chǔ)設(shè)施。

Apache Hadoop的分布式文件系統(tǒng)開啟了一個(gè)新時(shí)代，利用相對(duì)廉價(jià)的本地磁盤群集，以成本效益的方式進(jìn)行大規(guī)模數(shù)據(jù)分析。無(wú)論企業(yè)增長(zhǎng)速度有多快，Apache Hadoop及相關(guān)的大數(shù)據(jù)解決方案可以確保持續(xù)地分析各種原始數(shù)據(jù)。

然而，一旦你開始使用Apache Hadoop大數(shù)據(jù)，傳統(tǒng)的數(shù)據(jù)管理問(wèn)題就會(huì)重新浮現(xiàn)，如數(shù)據(jù)安全性、可靠性、性能和數(shù)據(jù)保護(hù)。盡管Apache Hadoop分布式文件系統(tǒng)已經(jīng)相當(dāng)成熟，但仍有許多方面需要進(jìn)一步改進(jìn)以滿足企業(yè)需求。

事實(shí)上，當(dāng)企業(yè)開始將Apache Hadoop大數(shù)據(jù)用于生產(chǎn)數(shù)據(jù)收集時(shí)，存儲(chǔ)集群上的產(chǎn)品可能并沒(méi)有提供最低成本的解決方案。因此，關(guān)鍵在于大企業(yè)如何充分利用Apache Hadoop大數(shù)據(jù)。我們不僅需要簡(jiǎn)單地復(fù)制、移動(dòng)和[[備份]]Apache Hadoop大數(shù)據(jù)，而是需要以安全、謹(jǐn)慎的方式管理這些數(shù)據(jù)，甚至需要更多功能。與傳統(tǒng)的小規(guī)模Apache Hadoop[[數(shù)據(jù)庫(kù)]]不同，如果我們的關(guān)鍵業(yè)務(wù)流程依賴于新的Apache Hadoop大數(shù)據(jù)存儲(chǔ)，我們將需要其提供的所有操作彈性和高性能。
== 發(fā)展歷程 ==
Hadoop原本來(lái)自于[[谷歌]]一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個(gè)應(yīng)用程序分解為許多并行計(jì)算指令，跨大量的計(jì)算節(jié)點(diǎn)運(yùn)行非常巨大的數(shù)據(jù)集。使用該框架的一個(gè)典型例子就是在網(wǎng)絡(luò)數(shù)據(jù)上運(yùn)行的搜索算法。Hadoop 最初只與網(wǎng)頁(yè)索引有關(guān)，迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺(tái)。

目前有很多公司開始提供基于Hadoop的商業(yè)軟件、支持、服務(wù)以及培訓(xùn)。Cloudera是一家美國(guó)的企業(yè)軟件公司，該公司在2008年開始提供基于Hadoop的軟件和服務(wù)。GoGrid是一家[[云計(jì)算]]基礎(chǔ)設(shè)施公司，在2012年，該公司與Cloudera合作加速了企業(yè)采納基于Hadoop應(yīng)用的步伐。Dataguise公司是一家數(shù)據(jù)安全公司，同樣在2012年該公司推出了一款針對(duì)Hadoop的數(shù)據(jù)保護(hù)和風(fēng)險(xiǎn)評(píng)估。
== 核心組件 ==
Hadoop的核心組件包括了分布式文件系統(tǒng)HDFS、MapReduce處理框架以及多種數(shù)據(jù)倉(cāng)庫(kù)工具和分布式數(shù)據(jù)庫(kù)。以下是對(duì)Hadoop各個(gè)核心組件的詳細(xì)介紹：

* HDFS（Hadoop Distributed File System）：作為Hadoop的基礎(chǔ)，它是一個(gè)高度可靠、高吞吐量的分布式文件系統(tǒng)，設(shè)計(jì)用來(lái)存儲(chǔ)大規(guī)模的數(shù)據(jù)集。它通過(guò)將數(shù)據(jù)分成塊并分布在集群中的多個(gè)節(jié)點(diǎn)上來(lái)工作。
* MapReduce：這是一個(gè)[[編程]]模型，用于處理和生成大型數(shù)據(jù)集。它由JobTrackers（負(fù)責(zé)作業(yè)調(diào)度和監(jiān)控）和TaskTrackers（負(fù)責(zé)執(zhí)行任務(wù)）組成。MapReduce能夠處理海量數(shù)據(jù)，并將這些數(shù)據(jù)處理過(guò)程分布在整個(gè)Hadoop集群上執(zhí)行。
* YARN（Yet Another Resource Negotiator）：它是資源管理平臺(tái)，負(fù)責(zé)在Hadoop集群中管理和調(diào)度計(jì)算資源。
* HBase：基于BigTable概念開發(fā)的數(shù)據(jù)存儲(chǔ)系統(tǒng)，它是一個(gè)分布式、版本化、非關(guān)系型的數(shù)據(jù)庫(kù)，適用于隨機(jī)實(shí)時(shí)讀/寫訪問(wèn)大規(guī)模數(shù)據(jù)集。
* Hive：它是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，提供類似[[SQL]]的查詢語(yǔ)言，稱為HiveQL，轉(zhuǎn)換這些查詢?yōu)镸apReduce任務(wù)來(lái)處理存儲(chǔ)在Hadoop文件系統(tǒng)上的大數(shù)據(jù)。
== 優(yōu)勢(shì) ==
1、可靠性：Hadoop設(shè)計(jì)時(shí)考慮到了硬件故障的可能性，因此它通過(guò)在集群中維護(hù)多個(gè)數(shù)據(jù)副本來(lái)確保數(shù)據(jù)的可靠性。這意味著即使某個(gè)節(jié)點(diǎn)失敗，數(shù)據(jù)仍然可用，并且可以在其他節(jié)點(diǎn)上重新啟動(dòng)任務(wù)。

2、高效性：Hadoop通過(guò)并行處理來(lái)提高處理速度。它將大型任務(wù)分解成多個(gè)子任務(wù)，并在集群中的多個(gè)節(jié)點(diǎn)上同時(shí)執(zhí)行這些任務(wù)，從而加快了處理速度。此外，Hadoop的MapReduce框架能夠有效地處理大規(guī)模數(shù)據(jù)集。

3、可伸縮性：Hadoop能夠輕松處理PB級(jí)別的數(shù)據(jù)。由于其分布式架構(gòu)，可以根據(jù)需要擴(kuò)展集群規(guī)模，以應(yīng)對(duì)不斷增長(zhǎng)的數(shù)據(jù)量。

4、低成本：由于Hadoop是[[開源]]的，并且建立在廉價(jià)的硬件上，因此它的成本相對(duì)較低。此外，Hadoop社區(qū)提供了大量的支持和資源，使得任何人都能夠輕松地使用和部署Hadoop。
== 相關(guān)條目 ==
* [[云存儲(chǔ)軟件]]
* [[Ceph]]
* [[MinIO]]
* [[GlusterFS]]
* [[OpenIO]]