首頁猿問 Hadoop，Hive，Spark...

Hadoop，Hive，Spark 之間是什么關(guān)系

Hadoop

HUH函數(shù) 2018-12-04 09:04:23

查看完整描述

1 回答

慕神8447489

TA貢獻1780條經(jīng)驗獲得超1個贊

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop也是apache開源大數(shù)據(jù)的一個生態(tài)圈總稱,里面包含跟大數(shù)據(jù)開源框架的一些軟件,包含hdfs,hive,zookeeper,hbase等等;Hadoop的框架最核心的設(shè)計就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲，則MapReduce為海量的數(shù)據(jù)提供了計算。
Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供簡單的sql查詢功能，可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。其優(yōu)點是學習成本低，可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計，不必開發(fā)專門的MapReduce應(yīng)用，十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。
Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越，換句話說，Spark 啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負載。
盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè)，但是實際上它是對 Hadoop 的補充，可以在 Hadoop 文件系統(tǒng)中并行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。
hadoop(hive)<-spark(擴展)

反對回復(fù) 2018-12-20