久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

Apache Spark

來(lái)自站長(zhǎng)百科
Kyxt討論 | 貢獻(xiàn)2024年5月10日 (五) 15:29的版本 (創(chuàng)建頁(yè)面,內(nèi)容為“Apache Spark 是一個(gè)開(kāi)源大數(shù)據(jù)處理框架,旨在提供快速、通用和易用的數(shù)據(jù)處理功能。Spark 是一種與Apache Hadoop 相似的開(kāi)源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說(shuō),Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。 ==…”)
(差異) ←上一版本 | 最后版本 (差異) | 下一版本→ (差異)
跳轉(zhuǎn)至: 導(dǎo)航、? 搜索

Apache Spark 是一個(gè)開(kāi)源大數(shù)據(jù)處理框架,旨在提供快速、通用和易用的數(shù)據(jù)處理功能。Spark 是一種與Apache Hadoop 相似的開(kāi)源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說(shuō),Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。

概述[ ]

Apache Spark是UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開(kāi)源的類Hadoop MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。

盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實(shí)際上它是對(duì) Hadoop 的補(bǔ)充,可以在 Hadoop 文件系統(tǒng)中并行運(yùn)行。通過(guò)名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實(shí)驗(yàn)室 (Algorithms, Machines, and People Lab) 開(kāi)發(fā),可用來(lái)構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。

功能特點(diǎn)[ ]

1、速度快:Apache Spark支持內(nèi)存計(jì)算,并且通過(guò)有向無(wú)環(huán)圖(DAG)執(zhí)行引擎支持無(wú)環(huán)數(shù)據(jù)流,據(jù)官方稱,其在內(nèi)存中的運(yùn)算速度比Hadoop的MapReduce快100倍,在硬盤中要快10倍。與MapReduce相比,Spark處理數(shù)據(jù)時(shí)具有兩個(gè)顯著不同之處:首先,它能夠?qū)⒅虚g處理結(jié)果數(shù)據(jù)存儲(chǔ)到內(nèi)存中;其次,Spark提供了豐富的算子(API),使得復(fù)雜任務(wù)可以在一個(gè)Spark程序中完成。

2、易用性好:截至2023年4月13日,Spark的版本已更新至3.4.0,支持Java、Scala、Python、R和SQL等多種語(yǔ)言。為了滿足Spark 2.x企業(yè)級(jí)應(yīng)用場(chǎng)景的需求,Spark仍持續(xù)更新Spark 2.x版本。

3、通用性強(qiáng):除了核心功能外,Spark還提供了諸如Spark SQL、Spark Streaming、MLlib和GraphX等多個(gè)工具庫(kù),用戶可以在一個(gè)應(yīng)用中無(wú)縫地使用這些工具庫(kù)。

4、隨處運(yùn)行:Spark支持多種運(yùn)行方式,包括在YARN和Mesos上支持獨(dú)立集群運(yùn)行模式,同時(shí)也能夠運(yùn)行在云環(huán)境中,如Kubernetes(Spark 2.3開(kāi)始支持)。

5、批處理/流數(shù)據(jù):用戶可以使用首選語(yǔ)言(Python、SQL、Scala、Java或R)以批處理和實(shí)時(shí)流的方式統(tǒng)一進(jìn)行數(shù)據(jù)處理。

6、SQL分析:Spark能夠執(zhí)行快速、分布式的ANSI SQL查詢,可用于儀表板和即席報(bào)告,其運(yùn)行速度比大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)更快。

7、大規(guī)模數(shù)據(jù)科學(xué):用戶可以對(duì)PB級(jí)數(shù)據(jù)執(zhí)行探索性數(shù)據(jù)分析(EDA),而無(wú)需進(jìn)行縮減采樣。

8、機(jī)器學(xué)習(xí):用戶可以在筆記本電腦上訓(xùn)練機(jī)器學(xué)習(xí)算法,并使用相同的代碼擴(kuò)展到數(shù)千臺(tái)計(jì)算機(jī)的容錯(cuò)群集。

生態(tài)結(jié)構(gòu)[ ]

  • Spark Core:這是Spark的基礎(chǔ)組件,包含了Spark的基本功能,如任務(wù)調(diào)度、內(nèi)存管理、容錯(cuò)機(jī)制等。Spark Core內(nèi)部采用了彈性分布式數(shù)據(jù)集(RDD)作為數(shù)據(jù)抽象,并提供豐富的API來(lái)創(chuàng)建和操作這些RDD。
  • Spark SQL:這是一個(gè)用于處理結(jié)構(gòu)化數(shù)據(jù)的組件,允許用戶直接查詢Hive、HBase等多種外部數(shù)據(jù)源中的數(shù)據(jù)。Spark SQL可以統(tǒng)一處理關(guān)系表,使開(kāi)發(fā)人員能夠使用SQL命令來(lái)完成復(fù)雜的數(shù)據(jù)查詢操作,而無(wú)需編寫MapReduce程序。
  • Spark Streaming:這是Spark提供的流式計(jì)算框架,支持高吞吐量、可容錯(cuò)的實(shí)時(shí)流式數(shù)據(jù)處理。它的核心原理是將流式數(shù)據(jù)分解成一系列微小的批處理作業(yè),然后使用Spark Core進(jìn)行快速處理。
  • MLlib:這是Spark提供的機(jī)器學(xué)習(xí)庫(kù),包括了多種常用的機(jī)器學(xué)習(xí)算法,如分類、回歸、聚類、協(xié)同過(guò)濾等。它還提供了模型評(píng)估、數(shù)據(jù)導(dǎo)入等功能,使得開(kāi)發(fā)人員只需具備一定的機(jī)器學(xué)習(xí)知識(shí)就能進(jìn)行相關(guān)開(kāi)發(fā)。
  • GraphX:這是Spark提供的分布式圖處理框架,它具有豐富的圖計(jì)算和圖挖掘算法的API接口以及功能和運(yùn)算符,極大地方便了對(duì)分布式圖的處理,使得可以在海量數(shù)據(jù)上運(yùn)行復(fù)雜的圖算法。

部署模式[ ]

  • 本地模式(單機(jī)模式):通過(guò)一個(gè)獨(dú)立的進(jìn)程和多個(gè)內(nèi)部線程模擬整個(gè)Spark運(yùn)行時(shí)環(huán)境。本地模式主要用于本地程序開(kāi)發(fā)和代碼驗(yàn)證,不適合用于生產(chǎn)環(huán)境。
  • 獨(dú)立集群模式(集群模式):各個(gè)Spark角色以獨(dú)立進(jìn)程形式存在,組成Spark集群環(huán)境。在這種模式下,Spark獨(dú)立地管理集群的資源。
  • Spark on YARN模式(集群模式):各個(gè)Spark角色在YARN的容器內(nèi)運(yùn)行,組成Spark集群環(huán)境。在這種模式下,Spark不再管理集群資源,而是由YARN進(jìn)行資源管理。
  • Kubernetes模式(容器集群):各個(gè)Spark角色在Kubernetes的容器內(nèi)運(yùn)行,形成Spark集群環(huán)境。
  • 云服務(wù)模式(運(yùn)行在云平臺(tái)上):商業(yè)版本的Databricks運(yùn)行在谷歌云、微軟云和亞馬遜云等云平臺(tái)上,提供云端的Spark服務(wù)。

相關(guān)條目[ ]