最近中文字幕高清中文字幕无,亚洲欧美高清一区二区三区,一本色道无码道dvd在线观看 ,一个人看的www免费高清中文字幕

為了賬號安全,請及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會有你想問的

Hadoop,MapReduce,YARN和Spark的區(qū)別與聯(lián)系?

Hadoop,MapReduce,YARN和Spark的區(qū)別與聯(lián)系?

慕雪6442864 2018-12-19 22:18:28
Hadoop,MapReduce,YARN和Spark的區(qū)別與聯(lián)系
查看完整描述

1 回答

?
繁花如伊

TA貢獻(xiàn)2012條經(jīng)驗(yàn) 獲得超12個(gè)贊

?。?) Hadoop 1.0

  第一代Hadoop,由分布式存儲系統(tǒng)HDFS和分布式計(jì)算框架MapReduce組成,其中,HDFS由一個(gè)NameNode和多個(gè)DataNode組成,MapReduce由一個(gè)JobTracker和多個(gè)TaskTracker組成,對應(yīng)Hadoop版本為Hadoop 1.x和0.21.X,0.22.x。

 ?。?) Hadoop 2.0

  第二代Hadoop,為克服Hadoop 1.0中HDFS和MapReduce存在的各種問題而提出的。針對Hadoop 1.0中的單NameNode制約HDFS的擴(kuò)展性問題,提出了HDFS Federation,它讓多個(gè)NameNode分管不同的目錄進(jìn)而實(shí)現(xiàn)訪問隔離和橫向擴(kuò)展;針對Hadoop 1.0中的MapReduce在擴(kuò)展性和多框架支持方面的不足,提出了全新的資源管理框架YARN(Yet Another Resource Negotiator),它將JobTracker中的資源管理和作業(yè)控制功能分開,分別由組件ResourceManager和ApplicationMaster實(shí)現(xiàn),其中,ResourceManager負(fù)責(zé)所有應(yīng)用程序的資源分配,而ApplicationMaster僅負(fù)責(zé)管理一個(gè)應(yīng)用程序。對應(yīng)Hadoop版本為Hadoop 0.23.x和2.x。

  (3) MapReduce 1.0或者M(jìn)Rv1(MapReduceversion 1)

  第一代MapReduce計(jì)算框架,它由兩部分組成:編程模型(programming model)和運(yùn)行時(shí)環(huán)境(runtime environment)。它的基本編程模型是將問題抽象成Map和Reduce兩個(gè)階段,其中Map階段將輸入數(shù)據(jù)解析成key/value,迭代調(diào)用map()函數(shù)處理后,再以key/value的形式輸出到本地目錄,而Reduce階段則將key相同的value進(jìn)行規(guī)約處理,并將最終結(jié)果寫到HDFS上。它的運(yùn)行時(shí)環(huán)境由兩類服務(wù)組成:JobTracker和TaskTracker,其中,JobTracker負(fù)責(zé)資源管理和所有作業(yè)的控制,而TaskTracker負(fù)責(zé)接收來自JobTracker的命令并執(zhí)行它。

 ?。?)MapReduce 2.0或者M(jìn)Rv2(MapReduce version 2)或者NextGen MapReduc

  MapReduce 2.0或者M(jìn)Rv2具有與MRv1相同的編程模型,唯一不同的是運(yùn)行時(shí)環(huán)境。MRv2是在MRv1基礎(chǔ)上經(jīng)加工之后,運(yùn)行于資源管理框架YARN之上的MRv1,它不再由JobTracker和TaskTracker組成,而是變?yōu)橐粋€(gè)作業(yè)控制進(jìn)程ApplicationMaster,且ApplicationMaster僅負(fù)責(zé)一個(gè)作業(yè)的管理,至于資源的管理,則由YARN完成。

  簡而言之,MRv1是一個(gè)獨(dú)立的離線計(jì)算框架,而MRv2則是運(yùn)行于YARN之上的MRv1。

 ?。?)Hadoop-MapReduce(一個(gè)離線計(jì)算框架)

  Hadoop是google分布式計(jì)算框架MapReduce與分布式存儲系統(tǒng)GFS的開源實(shí)現(xiàn),由分布式計(jì)算框架MapReduce和分布式存儲系統(tǒng)HDFS(Hadoop Distributed File System)組成,具有高容錯(cuò)性,高擴(kuò)展性和編程接口簡單等特點(diǎn),現(xiàn)已被大部分互聯(lián)網(wǎng)公司采用。

  (6)Hadoop-YARN(Hadoop 2.0的一個(gè)分支,實(shí)際上是一個(gè)資源管理系統(tǒng))

  YARN是Hadoop的一個(gè)子項(xiàng)目(與MapReduce并列),它實(shí)際上是一個(gè)資源統(tǒng)一管理系統(tǒng),可以在上面運(yùn)行各種計(jì)算框架(包括MapReduce、Spark、Storm、MPI等)。

  

  當(dāng)前Hadoop版本比較混亂,讓很多用戶不知所措。實(shí)際上,當(dāng)前Hadoop只有兩個(gè)版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一個(gè)分布式文件系統(tǒng)HDFS和一個(gè)離線計(jì)算框架MapReduce組成,而Hadoop 2.0則包含一個(gè)支持NameNode橫向擴(kuò)展的HDFS,一個(gè)資源管理系統(tǒng)YARN和一個(gè)運(yùn)行在YARN上的離線計(jì)算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加強(qiáng)大,且具有更好的擴(kuò)展性、性能,并支持多種計(jì)算框架。

  

  Borg/YARN/Mesos/Torca/Corona一類系統(tǒng)可以為公司構(gòu)建一個(gè)內(nèi)部的生態(tài)系統(tǒng),所有應(yīng)用程序和服務(wù)可以“和平而友好”地運(yùn)行在該生態(tài)系統(tǒng)上。有了這類系統(tǒng)之后,你不必憂愁使用Hadoop的哪個(gè)版本,是Hadoop 0.20.2還是 Hadoop 1.0,你也不必為選擇何種計(jì)算模型而苦惱,因此各種軟件版本,各種計(jì)算模型可以一起運(yùn)行在一臺“超級計(jì)算機(jī)”上了。

  從開源角度看,YARN的提出,從一定程度上弱化了多計(jì)算框架的優(yōu)劣之爭。YARN是在Hadoop MapReduce基礎(chǔ)上演化而來的,在MapReduce時(shí)代,很多人批評MapReduce不適合迭代計(jì)算和流失計(jì)算,于是出現(xiàn)了Spark和Storm等計(jì)算框架,而這些系統(tǒng)的開發(fā)者則在自己的網(wǎng)站上或者論文里與MapReduce對比,鼓吹自己的系統(tǒng)多么先進(jìn)高效,而出現(xiàn)了YARN之后,則形勢變得明朗:MapReduce只是運(yùn)行在YARN之上的一類應(yīng)用程序抽象,Spark和Storm本質(zhì)上也是,他們只是針對不同類型的應(yīng)用開發(fā)的,沒有優(yōu)劣之別,各有所長,合并共處,而且,今后所有計(jì)算框架的開發(fā),不出意外的話,也應(yīng)是在YARN之上。這樣,一個(gè)以YARN為底層資源管理平臺,多種計(jì)算框架運(yùn)行于其上的生態(tài)系統(tǒng)誕生了。

  目前spark是一個(gè)非常流行的內(nèi)存計(jì)算(或者迭代式計(jì)算,DAG計(jì)算)框架,在MapReduce因效率低下而被廣為詬病的今天,spark的出現(xiàn)不禁讓大家眼前一亮。

  從架構(gòu)和應(yīng)用角度上看,spark是一個(gè)僅包含計(jì)算邏輯的開發(fā)庫(盡管它提供個(gè)獨(dú)立運(yùn)行的master/slave服務(wù),但考慮到穩(wěn)定后以及與其他類型作業(yè)的繼承性,通常不會被采用),而不包含任何資源管理和調(diào)度相關(guān)的實(shí)現(xiàn),這使得spark可以靈活運(yùn)行在目前比較主流的資源管理系統(tǒng)上,典型的代表是mesos和yarn,我們稱之為“spark on mesos”和“spark on yarn”。將spark運(yùn)行在資源管理系統(tǒng)上將帶來非常多的收益,包括:與其他計(jì)算框架共享集群資源;資源按需分配,進(jìn)而提高集群資源利用率等。

  FrameWork On YARN

  運(yùn)行在YARN上的框架,包括MapReduce-On-YARN, Spark-On-YARN, Storm-On-YARN和Tez-On-YARN。

 ?。?)MapReduce-On-YARN:YARN上的離線計(jì)算;

  (2)Spark-On-YARN:YARN上的內(nèi)存計(jì)算;

 ?。?)Storm-On-YARN:YARN上的實(shí)時(shí)/流式計(jì)算;

  (4)Tez-On-YARN:YARN上的DAG計(jì)算



查看完整回答
反對 回復(fù) 2019-01-05
  • 1 回答
  • 0 關(guān)注
  • 842 瀏覽

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號