數(shù)據(jù)分析與挖掘,指的是通過對大量的數(shù)據(jù)進行觀察與分析。發(fā)掘其中的未知的,潛在的、對決策有價值的關(guān)系、模式和趨勢,并利用這些規(guī)則建立決策模型、提供預(yù)測性支持的方法和過程。
作為一名大數(shù)據(jù)開發(fā)工程師,什么能力才是我們我們的核心競爭力,答案是肯定的,那就是數(shù)據(jù)分析與挖掘。只有讓數(shù)據(jù)產(chǎn)生價值才是數(shù)據(jù)開發(fā)工程師的職責。下面我將從幾個方面介紹數(shù)據(jù)挖掘:
1.數(shù)據(jù)挖掘的基本任務(wù)
數(shù)據(jù)挖據(jù)的基本任務(wù)包括利用分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、時序模式、偏差檢驗、智能推薦等方法,幫助企業(yè)提取數(shù)據(jù)中蘊含的商業(yè)價值,提高企業(yè)的競爭力。
2.數(shù)據(jù)挖掘的過程
2.1 定義數(shù)據(jù)挖掘目標
針對具體的數(shù)據(jù)挖掘需求,我們首先要做的就是明確本次數(shù)據(jù)挖掘的目標是什么?預(yù)期達到怎樣的效果?因此我們在進行數(shù)據(jù)挖掘工作前,必須先了解項目相關(guān)背景知識,弄清用戶的需求。比如某電商平臺的數(shù)據(jù)挖掘應(yīng)用,可定義一下數(shù)據(jù)挖掘目標:
(1) 分析挖掘用戶數(shù)據(jù),建立用戶畫像與物品畫像等。
(2) 基于用戶畫像實現(xiàn)動態(tài)商品智能推薦,幫助用戶快速發(fā)現(xiàn)自己感興趣的商品,同時確保給用戶推薦的也是企業(yè)所期望的,實現(xiàn)用戶與企業(yè)的雙贏。
(3) 對平臺客戶進行群體細分,了解不同客戶的貢獻度與消費特征,分析哪些客戶是最有價值的,哪些是需要重點的,對不同價值的客戶采取不同的營銷策略,將有限的資源投放到最有價值的客戶身上,實現(xiàn)精準化營銷。
(4) 基于商品的歷史銷售情況,綜合節(jié)假日、氣候和競爭對手等影響因素,對商品銷售量進行趨勢預(yù)測,方便企業(yè)準備庫存。
2.2 數(shù)據(jù)抽樣
在明確了數(shù)據(jù)挖掘的目標后,接下來要做的工作就是抽取企業(yè)的數(shù)據(jù)挖掘庫中的數(shù)據(jù)子集,隨著現(xiàn)在大數(shù)據(jù)技術(shù)的發(fā)展,也有很多企業(yè)進行全量數(shù)據(jù)的抽取,不過為了數(shù)據(jù)挖掘的效率,可以選擇抽樣使用數(shù)據(jù),節(jié)省系統(tǒng)資源。抽樣有很多的方法:比如隨機抽樣、等距抽樣、分層抽樣、分類抽樣等。
2.3 數(shù)據(jù)預(yù)處理
當采集的數(shù)據(jù)維度過大,如何進行降維處理、缺失值處理等都是數(shù)據(jù)預(yù)處理過程中要解決的問題。如何對數(shù)據(jù)進行預(yù)處理以改善數(shù)據(jù)質(zhì)量,并最終達到完善數(shù)據(jù)挖掘結(jié)果。目前數(shù)據(jù)預(yù)處理一般包括:數(shù)據(jù)篩選、數(shù)據(jù)質(zhì)量轉(zhuǎn)換、缺失值處理、壞數(shù)據(jù)處理、數(shù)據(jù)標準化、數(shù)據(jù)規(guī)約等。
2.4 挖掘建模
數(shù)據(jù)挖掘建模是數(shù)據(jù)挖掘的核心工作,選擇哪種算法進行模型構(gòu)建?在生成最終的數(shù)據(jù)集后,就可以在此基礎(chǔ)上建立模型來進行聚類分析了。建立模型階段主要是選擇和應(yīng)用各種建模技術(shù),同時對它們的參數(shù)進行校準以達到最優(yōu)值。在明確建模技術(shù)和算法后需要確定模型參數(shù)和輸入變量。模型參數(shù)包括類的個數(shù)和最大迭代步數(shù)等。在建模過程中,我們采用多種技術(shù)手段,并將建模效果進行對比。需要挑選合適的變量參與建模。參與建模的變量太多會削弱主要業(yè)務(wù)屬性的影響,并給理解分群結(jié)果帶來困難;變量太少則不能全面覆蓋需要考察的各方面屬性,可能會遺漏一些重要的屬性關(guān)系。輸入變量的選擇對建立滿意的模型至關(guān)重要。
建立模型是一個螺旋上升,不斷優(yōu)化的過程,在每一次聚類結(jié)束后,需要判斷聚類結(jié)果在業(yè)務(wù)上是否有意義,其各群特征是否明顯。如果結(jié)果不理想,則需要調(diào)整聚類模型,對模型進行優(yōu)化,稱之為聚類優(yōu)化。聚類優(yōu)化可通過調(diào)整聚類個數(shù)及調(diào)整聚類變量輸入來實現(xiàn),也可以通過多次運行,選擇滿意的結(jié)果。通常可以依據(jù)以下原則判斷聚類結(jié)果是否理想:類間特征差異是否明顯;群內(nèi)特征是否相似;聚類結(jié)果是否易于管理及是否具有業(yè)務(wù)指導意義。
2.5 模型評價
建模的過程中會得到一系列的分析結(jié)果,它們是對目標問題多側(cè)面的描述,這時需要對它們進行驗證和評價,以得到合理的,完備的決策信息。對產(chǎn)生的模型結(jié)果需要進行對比驗證、準確度驗證、支持度驗證等檢驗以確定模型的價值。在這個階段需要引入更多層面和背景的用戶進行測試和驗證,通過對幾種模型的綜合比較,產(chǎn)生最后的優(yōu)化模型。根據(jù)業(yè)務(wù)對模型進行解釋應(yīng)用,不同的模型的評價方法往往也不同。
3.常用的數(shù)據(jù)挖據(jù)建模工具
Ent
ERPrise Miner(EM)是SAS提供的一個圖形化界面、菜單驅(qū)動的、拖拉式操作、對用戶非常友好且功能非常強大的集成的數(shù)據(jù)挖掘系統(tǒng)。它集成了:
(1) 數(shù)據(jù)獲取工具
(2) 數(shù)據(jù)抽樣工具
(3) 數(shù)據(jù)篩選工具
(4) 數(shù)據(jù)變量轉(zhuǎn)換工具
(5) 數(shù)據(jù)挖據(jù)數(shù)據(jù)庫
(6) 數(shù)據(jù)挖掘過程
(7) 多種形式的回歸工具
(8) 為建立決策樹的數(shù)據(jù)剖分工具
(9) 決策樹瀏覽工具
(10) 人工神經(jīng)元網(wǎng)絡(luò)
(11) 數(shù)據(jù)挖據(jù)的評價工具
在SAS/EM中,可利用具有明確代表意義的圖形化的模塊將這些數(shù)據(jù)挖掘工具單元組成一個數(shù)據(jù)流程圖,并以此來組織你的數(shù)據(jù)挖掘過程。對于有經(jīng)驗的數(shù)據(jù)挖掘?qū)<遥琒AS/EM提供大量的選項,可讓有經(jīng)驗的數(shù)據(jù)分析人員進行精細化調(diào)整分析處理。
3.2 IBM SPSS Modeler
IBM SPSS Modeler原名Clementine,2009年被IBM收購以后對產(chǎn)品進行性能和功能進行了大幅度的改進和提升,幾乎一年一個版本。它封裝了了先進的統(tǒng)計學和數(shù)據(jù)挖掘技術(shù)來獲取預(yù)測分析。SPSS Modeler提供圖形化的界面,屏蔽了數(shù)據(jù)挖據(jù)算法的復(fù)雜性和操作的繁瑣,讓使用者只需要聚焦如何使用數(shù)據(jù)挖掘技術(shù)去解決實際的商業(yè)問題。
3.3 Python
Python是一種面向?qū)ο蟆⒔忉屝偷挠嬎銠C程序設(shè)計語言,它擁有高效的數(shù)據(jù)結(jié)構(gòu),能簡單的進行面向?qū)ο蟮木幊獭ython本身不提供數(shù)據(jù)挖掘環(huán)境,但是python它有各種數(shù)據(jù)挖掘的擴展庫。比如比較常見的有:Numpy、Scipy、Matplotlib等,他們分別為Python提供快速數(shù)組處理、科學計算以及繪圖的能力,在用到機器學習和人工神經(jīng)網(wǎng)絡(luò)時,我們會用到SKlearn庫和Keras庫,它提供了完善的機器學習工具箱,包括:數(shù)據(jù)的預(yù)處理、分析、回歸、預(yù)測、模型分析等。正是由于有了這些擴展庫,python才是數(shù)據(jù)分析與挖據(jù)常用的語言。
3.4 SQL Server
微軟公司的SQL Server中集成了數(shù)據(jù)挖掘組件--Analysis Servers,借助于SQL Server數(shù)據(jù)庫管理功能可以很好的集成在SQL Servers中,SQL Server 2008中提供很多數(shù)據(jù)挖掘算法,比如:決策樹算法、聚類分析算法、Native Bayes算法、關(guān)聯(lián)規(guī)則算法等9種算法。但是這些模型的建立都依賴與SQL Server平臺,所以平臺移植性比較差。
3.5 RapidMiner
RapidMiner也成為YALE,提供圖形化的操作界面,采用樹狀結(jié)構(gòu)來組織分析組件,樹上每個節(jié)點表示不同的運算符。RapidMiner中提供了大量的運算符,包括數(shù)據(jù)預(yù)處理、變換、建模、評估等各個環(huán)節(jié)。RapidMiner是基于Java開發(fā)的,基于Weka來構(gòu)建的,所以Yale可以調(diào)用Weka中的組件,Yale中還提供擴展套件Radoop,可以和Hadoop結(jié)合起來用,在Hadoop集群中運行任務(wù)。
3.6 Weka
Weka的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一款免費的,非商業(yè)化(與之對應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine )的,基于JAVA環(huán)境下開源的機器學習(machine learning)以及數(shù)據(jù)挖掘(data mining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。有趣的是,該軟件的縮寫WEKA也是New Zealand獨有的一種鳥名,而Weka的主要開發(fā)者同時恰好來自New Zealand的the University of Waikato。WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔數(shù)據(jù)挖掘任務(wù)的機器學習算法,包括對數(shù)據(jù)進行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。跟很多電子表格或數(shù)據(jù)分析軟件一樣,WEKA所處理的數(shù)據(jù)集是一個二維的表格。
3.7 Knime
KNIME是一個基于Eclipse平臺開發(fā),模塊化的數(shù)據(jù)挖掘系統(tǒng)。它能夠讓用戶可視化創(chuàng)建數(shù)據(jù)流(也就常說的pipeline),選擇性的執(zhí)行部分或所有分解步驟,然后通過數(shù)據(jù)和模型上的交互式視圖研究執(zhí)行后的結(jié)果。可以擴展使用Weka中的算法,同時Knime也提供基于數(shù)據(jù)流的方式來組織數(shù)據(jù)挖掘過程,每個節(jié)點都有數(shù)據(jù)的輸入/輸出端口,用接收或輸出計算結(jié)果。
3.8 TipDM
TipDM(頂尖大數(shù)據(jù)挖掘平臺)使用Java語言開發(fā),能從各種數(shù)據(jù)源獲取數(shù)據(jù),構(gòu)建數(shù)據(jù)挖掘模型。TipDM目前已經(jīng)集成了數(shù)十種預(yù)測算法和分析技術(shù),支持數(shù)據(jù)挖掘流程所需要的主要過程,并提供開發(fā)的應(yīng)用接口和算法,能夠滿足各種復(fù)雜的應(yīng)用需求。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.guhuozai8.cn/
本文標題:DT時代的核心競爭力---數(shù)據(jù)分析與挖掘
本文網(wǎng)址:http://www.guhuozai8.cn/html/solutions/14019319828.html