Apache Spark

Apache Spark 是一個(gè)開(kāi)源的大數(shù)據(jù)處理框架，旨在提供快速、通用和易用的數(shù)據(jù)處理功能。Spark 是一種與Apache Hadoop 相似的開(kāi)源集群計(jì)算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越，換句話說(shuō)，Spark 啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負(fù)載。

概述[ ]

Apache Spark是UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開(kāi)源的類Hadoop MapReduce的通用并行框架，Spark，擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)；但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。

盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè)，但是實(shí)際上它是對(duì) Hadoop 的補(bǔ)充，可以在 Hadoop 文件系統(tǒng)中并行運(yùn)行。通過(guò)名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實(shí)驗(yàn)室 (Algorithms, Machines, and People Lab) 開(kāi)發(fā)，可用來(lái)構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。

功能特點(diǎn)[ ]

1、速度快：Apache Spark支持內(nèi)存計(jì)算，并且通過(guò)有向無(wú)環(huán)圖（DAG）執(zhí)行引擎支持無(wú)環(huán)數(shù)據(jù)流，據(jù)官方稱，其在內(nèi)存中的運(yùn)算速度比Hadoop的MapReduce快100倍，在硬盤中要快10倍。與MapReduce相比，Spark處理數(shù)據(jù)時(shí)具有兩個(gè)顯著不同之處：首先，它能夠?qū)⒅虚g處理結(jié)果數(shù)據(jù)存儲(chǔ)到內(nèi)存中；其次，Spark提供了豐富的算子（API），使得復(fù)雜任務(wù)可以在一個(gè)Spark程序中完成。

2、易用性好：截至2023年4月13日，Spark的版本已更新至3.4.0，支持Java、Scala、Python、R和SQL等多種語(yǔ)言。為了滿足Spark 2.x企業(yè)級(jí)應(yīng)用場(chǎng)景的需求，Spark仍持續(xù)更新Spark 2.x版本。

3、通用性強(qiáng)：除了核心功能外，Spark還提供了諸如Spark SQL、Spark Streaming、MLlib和GraphX等多個(gè)工具庫(kù)，用戶可以在一個(gè)應(yīng)用中無(wú)縫地使用這些工具庫(kù)。

4、隨處運(yùn)行：Spark支持多種運(yùn)行方式，包括在YARN和Mesos上支持獨(dú)立集群運(yùn)行模式，同時(shí)也能夠運(yùn)行在云環(huán)境中，如Kubernetes（Spark 2.3開(kāi)始支持）。

5、批處理/流數(shù)據(jù)：用戶可以使用首選語(yǔ)言（Python、SQL、Scala、Java或R）以批處理和實(shí)時(shí)流的方式統(tǒng)一進(jìn)行數(shù)據(jù)處理。

6、SQL分析：Spark能夠執(zhí)行快速、分布式的ANSI SQL查詢，可用于儀表板和即席報(bào)告，其運(yùn)行速度比大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)更快。

7、大規(guī)模數(shù)據(jù)科學(xué)：用戶可以對(duì)PB級(jí)數(shù)據(jù)執(zhí)行探索性數(shù)據(jù)分析（EDA），而無(wú)需進(jìn)行縮減采樣。

8、機(jī)器學(xué)習(xí)：用戶可以在筆記本電腦上訓(xùn)練機(jī)器學(xué)習(xí)算法，并使用相同的代碼擴(kuò)展到數(shù)千臺(tái)計(jì)算機(jī)的容錯(cuò)群集。

生態(tài)結(jié)構(gòu)[ ]

Spark Core：這是Spark的基礎(chǔ)組件，包含了Spark的基本功能，如任務(wù)調(diào)度、內(nèi)存管理、容錯(cuò)機(jī)制等。Spark Core內(nèi)部采用了彈性分布式數(shù)據(jù)集（RDD）作為數(shù)據(jù)抽象，并提供豐富的API來(lái)創(chuàng)建和操作這些RDD。

Spark SQL：這是一個(gè)用于處理結(jié)構(gòu)化數(shù)據(jù)的組件，允許用戶直接查詢Hive、HBase等多種外部數(shù)據(jù)源中的數(shù)據(jù)。Spark SQL可以統(tǒng)一處理關(guān)系表，使開(kāi)發(fā)人員能夠使用SQL命令來(lái)完成復(fù)雜的數(shù)據(jù)查詢操作，而無(wú)需編寫MapReduce程序。

Spark Streaming：這是Spark提供的流式計(jì)算框架，支持高吞吐量、可容錯(cuò)的實(shí)時(shí)流式數(shù)據(jù)處理。它的核心原理是將流式數(shù)據(jù)分解成一系列微小的批處理作業(yè)，然后使用Spark Core進(jìn)行快速處理。

MLlib：這是Spark提供的機(jī)器學(xué)習(xí)庫(kù)，包括了多種常用的機(jī)器學(xué)習(xí)算法，如分類、回歸、聚類、協(xié)同過(guò)濾等。它還提供了模型評(píng)估、數(shù)據(jù)導(dǎo)入等功能，使得開(kāi)發(fā)人員只需具備一定的機(jī)器學(xué)習(xí)知識(shí)就能進(jìn)行相關(guān)開(kāi)發(fā)。

GraphX：這是Spark提供的分布式圖處理框架，它具有豐富的圖計(jì)算和圖挖掘算法的API接口以及功能和運(yùn)算符，極大地方便了對(duì)分布式圖的處理，使得可以在海量數(shù)據(jù)上運(yùn)行復(fù)雜的圖算法。

部署模式[ ]

本地模式（單機(jī)模式）：通過(guò)一個(gè)獨(dú)立的進(jìn)程和多個(gè)內(nèi)部線程模擬整個(gè)Spark運(yùn)行時(shí)環(huán)境。本地模式主要用于本地程序開(kāi)發(fā)和代碼驗(yàn)證，不適合用于生產(chǎn)環(huán)境。

獨(dú)立集群模式（集群模式）：各個(gè)Spark角色以獨(dú)立進(jìn)程形式存在，組成Spark集群環(huán)境。在這種模式下，Spark獨(dú)立地管理集群的資源。

Spark on YARN模式（集群模式）：各個(gè)Spark角色在YARN的容器內(nèi)運(yùn)行，組成Spark集群環(huán)境。在這種模式下，Spark不再管理集群資源，而是由YARN進(jìn)行資源管理。

Kubernetes模式（容器集群）：各個(gè)Spark角色在Kubernetes的容器內(nèi)運(yùn)行，形成Spark集群環(huán)境。

云服務(wù)模式（運(yùn)行在云平臺(tái)上）：商業(yè)版本的Databricks運(yùn)行在谷歌云、微軟云和亞馬遜云等云平臺(tái)上，提供云端的Spark服務(wù)。

久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

WIKI使用導(dǎo)航

站長(zhǎng)百科導(dǎo)航

站長(zhǎng)專題

Apache Spark

目錄

概述[ ]

功能特點(diǎn)[ ]

生態(tài)結(jié)構(gòu)[ ]

部署模式[ ]

相關(guān)條目[ ]