我有500G的數(shù)據(jù),分別存儲在機器A、B上,為了快速分析數(shù)據(jù),我使用A,B,C,D四臺機器做了一個hadoop集群。A是master。請問我是否需要將這500G的數(shù)據(jù)先上傳到hadoop中?
1 回答

蕪湖不蕪
TA貢獻1796條經(jīng)驗 獲得超7個贊
是必須把這500G上傳到你Hadoop的文件系統(tǒng)(HDFS)中
HDFS中,默認是會存儲3份(為了數(shù)據(jù)高可用和就近訪問)的,也就是會在你的BCD三個節(jié)點中共占用1500G空間,你可以手工設(shè)置冗余的份數(shù)。你通過hdfs的命令只看到一個500G的文件,實際上它們被拆成64m大小的塊了(塊大小也可以設(shè)),每塊都有3份
最后,再次建議你找相關(guān)的文檔閱讀、實踐,反復(fù)鉆研了百思不得其解的問題再來求助。你要做項目的,這點學(xué)習(xí)成本是應(yīng)該付出的。
你這一下就發(fā)了兩個這么入門級的問題,雖然我都耐心回答了,但對你對我效率都太低了。
- 1 回答
- 0 關(guān)注
- 242 瀏覽
添加回答
舉報
0/150
提交
取消