首頁猿問大數(shù)據(jù)分析主要有哪些核心技術(shù)？

大數(shù)據(jù)分析主要有哪些核心技術(shù)？

大數(shù)據(jù)

泛舟湖上清波郎朗 2018-12-20 16:18:37

大數(shù)據(jù)分析主要有哪些核心技術(shù)

查看完整描述

1 回答

肥皂起泡泡

TA貢獻1829條經(jīng)驗獲得超6個贊

統(tǒng)計/分析

統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫，或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等，以滿足大多數(shù)常見的分析需求，在這方面，一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基MySQL的列式存儲Infobright等，而一些批處理，或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大，其對系統(tǒng)資源，特別是I/O會有極大的占用。

導(dǎo)入/預(yù)處理

將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫，或者分布式存儲集群，并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算，來滿足部分業(yè)務(wù)的實時計算需求。導(dǎo)入與預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大，每秒鐘的導(dǎo)入量經(jīng)常會達到百兆，甚至千兆級別。