大數(shù)據(jù)相關(guān)技術(shù) 大數(shù)據(jù)技術(shù)包括哪些

來(lái)源:互聯(lián)網(wǎng)

1、大數(shù)據(jù)技術(shù)包括數(shù)據(jù)收集、數(shù)據(jù)存取、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、模型預(yù)測(cè)、結(jié)果呈現(xiàn)。

2、數(shù)據(jù)收集:在大數(shù)據(jù)的生命周期中,數(shù)據(jù)采集處于第一個(gè)環(huán)節(jié)。


(資料圖)

3、根據(jù)MapReduce產(chǎn)生數(shù)據(jù)的應(yīng)用系統(tǒng)分類,大數(shù)據(jù)的采集主要有4種來(lái)源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)。

4、2、數(shù)據(jù)存取:大數(shù)據(jù)的存去采用不同的技術(shù)路線,大致可以分為3類。

5、第1類主要面對(duì)的是大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)。

6、第2類主要面對(duì)的是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

7、第3類面對(duì)的是結(jié)構(gòu)化和非結(jié)構(gòu)化混合的大數(shù)據(jù),3、基礎(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。

8、4、數(shù)據(jù)處理:對(duì)于采集到的不同的數(shù)據(jù)集,可能存在不同的結(jié)構(gòu)和模式,如文件、XML 樹(shù)、關(guān)系表等,表現(xiàn)為數(shù)據(jù)的異構(gòu)性。

9、對(duì)多個(gè)異構(gòu)的數(shù)據(jù)集,需要做進(jìn)一步集成處理或整合處理,將來(lái)自不同數(shù)據(jù)集的數(shù)據(jù)收集、整理、清洗、轉(zhuǎn)換后,生成到一個(gè)新的數(shù)據(jù)集,為后續(xù)查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。

10、5、統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡(jiǎn)單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測(cè)與殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對(duì)應(yīng)分析、多元對(duì)應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。

11、6、數(shù)據(jù)挖掘:目前,還需要改進(jìn)已有數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù);開(kāi)發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術(shù);突破基于對(duì)象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術(shù);突破用戶興趣分析、網(wǎng)絡(luò)行為分析、情感語(yǔ)義分析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。

12、7、模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。

13、8、結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。

本文到此分享完畢,希望對(duì)大家有所幫助。

標(biāo)簽:

推薦

財(cái)富更多》

動(dòng)態(tài)更多》

熱點(diǎn)