久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔
站長(zhǎng)百科 | 數(shù)字化技能提升教程 數(shù)字化時(shí)代生存寶典
首頁
數(shù)字化百科
電子書
建站程序
開發(fā)
服務(wù)器
辦公軟件
開發(fā)教程
服務(wù)器教程
軟件使用教程
運(yùn)營教程
熱門電子書
WordPress教程
寶塔面板教程
CSS教程
Shopify教程
導(dǎo)航
程序頻道
推廣頻道
網(wǎng)賺頻道
人物頻道
網(wǎng)站程序
網(wǎng)頁制作
云計(jì)算
服務(wù)器
CMS
論壇
網(wǎng)店
虛擬主機(jī)
cPanel
網(wǎng)址導(dǎo)航
WIKI使用導(dǎo)航
WIKI首頁
最新資訊
網(wǎng)站程序
站長(zhǎng)人物
頁面分類
使用幫助
編輯測(cè)試
創(chuàng)建條目
網(wǎng)站地圖
站長(zhǎng)百科導(dǎo)航
站長(zhǎng)百科
主機(jī)偵探
IDCtalk云說
跨境電商導(dǎo)航
WordPress啦
站長(zhǎng)專題
網(wǎng)站推廣
網(wǎng)站程序
網(wǎng)站賺錢
虛擬主機(jī)
cPanel
網(wǎng)址導(dǎo)航專題
云計(jì)算
微博營銷
虛擬主機(jī)管理系統(tǒng)
開放平臺(tái)
WIKI程序與應(yīng)用
美國十大主機(jī)
編輯“
Apache Spark
”
人物百科
|
營銷百科
|
網(wǎng)賺百科
|
站長(zhǎng)工具
|
網(wǎng)站程序
|
域名主機(jī)
|
互聯(lián)網(wǎng)公司
|
分類索引
跳轉(zhuǎn)至:
導(dǎo)航
、?
搜索
警告:
您沒有登錄。如果您做出任意編輯,您的IP地址將會(huì)公開可見。如果您
登錄
或
創(chuàng)建
一個(gè)賬戶,您的編輯將歸屬于您的用戶名,且將享受其他好處。
反垃圾檢查。
不要
加入這個(gè)!
Apache Spark 是一個(gè)[[開源]]的[[大數(shù)據(jù)]]處理框架,旨在提供快速、通用和易用的數(shù)據(jù)處理功能。Spark 是一種與Apache Hadoop 相似的開源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。 == 概述 == Apache Spark是UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開源的類Hadoop MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。 盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實(shí)際上它是對(duì) Hadoop 的補(bǔ)充,可以在 Hadoop 文件系統(tǒng)中并行運(yùn)行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實(shí)驗(yàn)室 (Algorithms, Machines, and People Lab) 開發(fā),可用來構(gòu)建大型的、低延遲的[[數(shù)據(jù)分析]]應(yīng)用程序。 == 功能特點(diǎn) == 1、速度快:Apache Spark支持內(nèi)存計(jì)算,并且通過有向無環(huán)圖(DAG)執(zhí)行引擎支持無環(huán)數(shù)據(jù)流,據(jù)官方稱,其在內(nèi)存中的運(yùn)算速度比Hadoop的MapReduce快100倍,在硬盤中要快10倍。與MapReduce相比,Spark處理數(shù)據(jù)時(shí)具有兩個(gè)顯著不同之處:首先,它能夠?qū)⒅虚g處理結(jié)果數(shù)據(jù)存儲(chǔ)到內(nèi)存中;其次,Spark提供了豐富的算子([[API]]),使得復(fù)雜任務(wù)可以在一個(gè)Spark程序中完成。 2、易用性好:截至2023年4月13日,Spark的版本已更新至3.4.0,支持[[Java]]、Scala、[[Python]]、R和SQL等多種語言。為了滿足Spark 2.x企業(yè)級(jí)應(yīng)用場(chǎng)景的需求,Spark仍持續(xù)更新Spark 2.x版本。 3、通用性強(qiáng):除了核心功能外,Spark還提供了諸如Spark SQL、Spark Streaming、MLlib和GraphX等多個(gè)工具庫,用戶可以在一個(gè)應(yīng)用中無縫地使用這些工具庫。 4、隨處運(yùn)行:Spark支持多種運(yùn)行方式,包括在YARN和Mesos上支持獨(dú)立集群運(yùn)行模式,同時(shí)也能夠運(yùn)行在云環(huán)境中,如[[Kubernetes]](Spark 2.3開始支持)。 5、批處理/流數(shù)據(jù):用戶可以使用首選語言(Python、SQL、Scala、Java或R)以批處理和實(shí)時(shí)流的方式統(tǒng)一進(jìn)行數(shù)據(jù)處理。 6、SQL分析:Spark能夠執(zhí)行快速、分布式的ANSI SQL查詢,可用于儀表板和即席報(bào)告,其運(yùn)行速度比大多數(shù)數(shù)據(jù)倉庫更快。 7、大規(guī)模數(shù)據(jù)科學(xué):用戶可以對(duì)PB級(jí)數(shù)據(jù)執(zhí)行探索性數(shù)據(jù)分析(EDA),而無需進(jìn)行縮減采樣。 8、機(jī)器學(xué)習(xí):用戶可以在筆記本電腦上訓(xùn)練機(jī)器學(xué)習(xí)算法,并使用相同的代碼擴(kuò)展到數(shù)千臺(tái)[[計(jì)算機(jī)]]的容錯(cuò)群集。 == 生態(tài)結(jié)構(gòu) == * Spark Core:這是Spark的基礎(chǔ)組件,包含了Spark的基本功能,如任務(wù)調(diào)度、內(nèi)存管理、容錯(cuò)機(jī)制等。Spark Core內(nèi)部采用了彈性分布式數(shù)據(jù)集(RDD)作為數(shù)據(jù)抽象,并提供豐富的API來創(chuàng)建和操作這些RDD。 * Spark SQL:這是一個(gè)用于處理結(jié)構(gòu)化數(shù)據(jù)的組件,允許用戶直接查詢Hive、HBase等多種外部數(shù)據(jù)源中的數(shù)據(jù)。Spark SQL可以統(tǒng)一處理關(guān)系表,使開發(fā)人員能夠使用SQL命令來完成復(fù)雜的數(shù)據(jù)查詢操作,而無需編寫MapReduce程序。 * Spark Streaming:這是Spark提供的流式計(jì)算框架,支持高吞吐量、可容錯(cuò)的實(shí)時(shí)流式數(shù)據(jù)處理。它的核心原理是將流式數(shù)據(jù)分解成一系列微小的批處理作業(yè),然后使用Spark Core進(jìn)行快速處理。 * MLlib:這是Spark提供的機(jī)器學(xué)習(xí)庫,包括了多種常用的機(jī)器學(xué)習(xí)算法,如分類、回歸、聚類、協(xié)同過濾等。它還提供了模型評(píng)估、數(shù)據(jù)導(dǎo)入等功能,使得開發(fā)人員只需具備一定的機(jī)器學(xué)習(xí)知識(shí)就能進(jìn)行相關(guān)開發(fā)。 * GraphX:這是Spark提供的分布式圖處理框架,它具有豐富的圖計(jì)算和圖挖掘算法的API接口以及功能和運(yùn)算符,極大地方便了對(duì)分布式圖的處理,使得可以在海量數(shù)據(jù)上運(yùn)行復(fù)雜的圖算法。 == 部署模式 == * 本地模式(單機(jī)模式):通過一個(gè)獨(dú)立的進(jìn)程和多個(gè)內(nèi)部線程模擬整個(gè)Spark運(yùn)行時(shí)環(huán)境。本地模式主要用于本地程序開發(fā)和代碼驗(yàn)證,不適合用于生產(chǎn)環(huán)境。 * 獨(dú)立集群模式(集群模式):各個(gè)Spark角色以獨(dú)立進(jìn)程形式存在,組成Spark集群環(huán)境。在這種模式下,Spark獨(dú)立地管理集群的資源。 * Spark on YARN模式(集群模式):各個(gè)Spark角色在YARN的容器內(nèi)運(yùn)行,組成Spark集群環(huán)境。在這種模式下,Spark不再管理集群資源,而是由YARN進(jìn)行資源管理。 * Kubernetes模式(容器集群):各個(gè)Spark角色在Kubernetes的[[容器]]內(nèi)運(yùn)行,形成Spark集群環(huán)境。 * 云服務(wù)模式(運(yùn)行在云平臺(tái)上):商業(yè)版本的Databricks運(yùn)行在谷歌云、微軟云和亞馬遜云等云平臺(tái)上,提供云端的Spark服務(wù)。 == 相關(guān)條目 == * [[大數(shù)據(jù)]] * [[Apache Hadoop]] * [[Apache Hive]] * [[Apache Storm]] * [[Tableau]] * [[Apache Cassandra]] * [[Qubole]]
摘要:
請(qǐng)注意,您對(duì)站長(zhǎng)百科的所有貢獻(xiàn)都可能被其他貢獻(xiàn)者編輯,修改或刪除。如果您不希望您的文字被任意修改和再散布,請(qǐng)不要提交。
您同時(shí)也要向我們保證您所提交的內(nèi)容是您自己所作,或得自一個(gè)不受版權(quán)保護(hù)或相似自由的來源(參閱
Wordpress-mediawiki:版權(quán)
的細(xì)節(jié))。
未經(jīng)許可,請(qǐng)勿提交受版權(quán)保護(hù)的作品!
取消
編輯幫助
(在新窗口中打開)
取自“
http://kktzf.com.cn/wiki/Apache_Spark
”