-
resourcemanager:
1、分配調度資源
2、啟動并監(jiān)控applicationmanager
3、監(jiān)控nodemanager
查看全部 -
hdfs讀文件:
1、客戶端向namenode發(fā)起讀數(shù)據(jù)請求
2、namenode返回給客戶端文件的元數(shù)據(jù)信息(哪些數(shù)據(jù)塊存儲在哪些datanode)
3、客戶端從datanode下載數(shù)據(jù)塊,并合并數(shù)據(jù)塊
查看全部 -
hdfs寫流程:
1、客戶端向namenode發(fā)起寫數(shù)據(jù)請求,namenode返回datanode信息
2、客戶端將文件分塊,將第一塊寫進datanode,各個datanode自動完成數(shù)據(jù)塊備份
3、datanode向namenode匯報完成第一塊的存儲,namenode通知客戶端
4、開始寫第二塊第三塊,重復步驟2和3
查看全部 -
1、數(shù)據(jù)塊一般設置為128M;
2、nemenode通常通過HA做高可用:主節(jié)點和備用節(jié)點
查看全部 -
hdfs缺點
查看全部 -
hdfs優(yōu)點
查看全部 -
datanode:存儲并檢索數(shù)據(jù)塊;向namenode更新所存儲的塊的列表
查看全部 -
namenode:管理文件系統(tǒng)的命名空間,存儲文件元數(shù)據(jù);維護文件系統(tǒng)的所有目錄和文件,文件和數(shù)據(jù)塊的映射;記錄每個文件各個塊所在的數(shù)據(jù)節(jié)點的信息
查看全部 -
Spark: 基于內存的大數(shù)據(jù)并行計算框架。是MapReduce的替代方案,是現(xiàn)在的主流計算框架。兼容HDFS, Hive, MySQL, PosgreSQL等數(shù)據(jù)源。
Spark優(yōu)勢:1.基于內存分布式計算 2.分布式內存存儲結構 —— RDD(彈性分布式數(shù)據(jù)集)3.基于事件驅動,通過復用線程提高性能
查看全部 -
HBase 支持MapReduce程序讀取數(shù)據(jù)
查看全部 -
https://blog.csdn.net/yihuaiyan/article/details/84938661
搭建環(huán)境卡了兩天,有需要可以參考下以上鏈接
查看全部 -
Hadoop核心
HDFS分布式文件系統(tǒng):存儲是大數(shù)據(jù)技術的基礎
MAPReduce編程模型:分布式計算是大數(shù)據(jù)應用的解決方案
?HDFS?概念?
數(shù)據(jù)塊:是抽象快而非整個文件作為存儲單元,默認大小為64MB,一般設置為128MB,備份X3?
NameNode:
管理文件系統(tǒng)的 ,存放文件元數(shù)據(jù)?
維護文件系統(tǒng)的所有文件和目錄,文件與文件塊的映射
記錄每個文件中各個塊所在數(shù)據(jù)節(jié)點?的信息
DataNode
存儲并檢索數(shù)據(jù)塊
向NameNode更新所存儲塊的列表
HDFS優(yōu)點
適合大數(shù)據(jù)存儲,支持TB/PB級的數(shù)據(jù)存儲,并有副本策略
可構建在廉價的機器上,并有一定 的容錯和恢復機制
支持流式數(shù)據(jù)訪問,一次寫入,多次讀取最高效
HDFS缺點
不適合大量小文件存儲
不適合并發(fā)寫入 ,不支持文件隨機修改
不支持隨機讀等低延時的訪問方式
查看全部 -
Hive:數(shù)據(jù)倉庫,提供大量結構化數(shù)據(jù)檢索的功能。
Spark:基于內存的分布式計算框架。
Sqoop:傳統(tǒng)數(shù)據(jù)庫與Hadoop之間導入導出的工具。
Ambari:Hadoop集群管理部署和監(jiān)控的框架。
查看全部 -
Hadoop查看全部
-
2123123
查看全部
舉報