1. 引言
隨著管理信息系統的廣泛應用和逐趨完善, 相應的信息數據量也得到了快速增長, 人們所擁有的數據已經達到了極大的豐富。同時, 隨著數據庫技術應用的發展, 用戶對于數據的應用提出了更高的要求, 用戶己不僅僅滿足于對事務處理的電子化與自動化, 還希望能夠更多的對于數據進行分析、統計、趨勢預測, 從而對于管理決策提供支持。由此, 數據倉庫及相關技術應運而生。
2. 相關概念
2.1 數據倉庫(Data Warehouse,DW)
W.H.Inmon 在他所著的《Building the Data Warehouse》一書中, 他給數據倉庫作出的定義是: 數據倉庫就是面向主題的、集成的、不可更新的、不同時間的數據集合, 用以支持經營管理中的決策制訂過程。數據倉庫的構建是一個處理過程, 該過程從歷史的角度組織和存儲數據, 并能集成地進行數據分析。
數據倉庫系統由數據倉庫、數據倉庫管理系統、數據倉庫工具三個部分組成。在整個系統中, DW居于核心地位, 是信息挖掘的基礎;數據倉庫管理系統負責管理整個系統的運作;數據倉庫工具則是整個系統發揮作用的關鍵, 包含用于完成實際決策問題所需的各種查詢檢索工具、多維數據的OLAP 分析工具、數據挖掘DM工具等, 以實現決策支持的各種要求。
2.2 聯機分析處理(Online Analytical Processing,OLAP)
OLAP 是一種重要的數據分析工具。OLAP 的概念最早是由關系數據庫之父E.F. Codd 于1993 年提出的, 他認為聯機事務處理OLTP(Online Transactional Processing) 己不能滿足終端用戶對數據庫查詢分析的需要, 因此他提出了多維數據庫和多維分析的概念, 即OLAP 的概念[2]。OLAP 是針對多維數據集的數據處理過程, 它使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來的, 能夠真正為用戶所理解的并真實反映企業維持性的信息進行快速、一致、交互地存取, 從而獲得對數據的更深入了解的一類軟件技術, 其目標是滿足決策支持或多維環境特定的查詢和報表需求。
2.3 數據挖掘(Data Mining,DM)
1995 年, 在美國計算機年會(ACM) 上, 提出了數據挖掘的概念。從商業角度看, 數據挖掘技術是一種新的商業信息處理技術, 它把人們對數據的應用從低層次的聯機查詢操作, 提高到決策支持; 從技術角度看, 數據挖掘就是從真實的、大量的、不完全的、有噪聲的、模糊的和隨機應用的數據中, 提取隱含在其中的、人們事先不知道的、但卻是潛在有用的信息和知識的一個過程。
3. 數據倉庫與數據挖掘、OLAP 之間的關系
3.1 數據倉庫和數據挖掘之間的關系
數據倉庫和數據挖掘都是從20 世紀90 年代中期發展起來的新技術, 數據倉庫由數據庫演變而來, 而數據挖掘則是從人工智能的機器學習演變而來, 是一種知識發現技術, 它負責從豐富的數據中發現有價值的模型。二者的關系總結為:
1、數據倉庫系統的數據可以作為數據挖掘的數據源因為數據倉庫系統已經按照主題將數據進行了集成、清理、轉換, 因此數據倉庫系統能夠滿足數據挖掘技術對數據環境的要求, 可以直接作為數據挖掘的數據源。如果將數據倉庫和數據挖掘緊密聯系在一起, 將獲得更好的結果, 同時能大大提高數據挖掘的工作效率。
2、數據挖掘的數據源不一定必須是數據倉庫系統作為數據挖掘的數據源不一定必須是數據倉庫。它可以是任何數據文件或格式, 但必須事先進行數據預處理, 處理成適合數據挖掘的數據。數據預處理是數據挖掘的關鍵步驟, 并占有數據挖掘全過程工作量的很大比重。
雖然數據倉庫和數據挖掘是兩項不同的技術, 但是它們又有共同之處, 兩者都是從數據庫的基礎上發展起來的, 它們都是決策支持新技術。數據倉庫利用綜合數據得到宏觀信息, 利用歷史數據進行預測; 而數據挖掘是從數據庫中挖掘知識, 也用于決策分析。雖然數據倉庫和數據挖掘支持決策分析的方式不同, 但是它們可以結合起來, 提高決策分析的能力。
3.2 數據倉庫與OLAP 的關系
建立數據倉庫的目的是為了支持管理中的決策制定過程,OLAP 作為一種多維查詢和分析工具, 是數據倉庫功能的自然擴展, 也是數據倉庫中的大容量數據得以有效利用的重要保障。
在數據倉庫中, OLAP 和數據倉庫是密不可分的, 但是兩者具有不同的概念。數據倉庫是一個包含企業歷史數據的大規模數據庫, 這些歷史數據主要用于對企業的經營決策提供分析和
支持。而OLAP 技術則利用數據倉庫中的數據進行聯機分析,OLAP 利用多維數據集和數據聚集技術對數據倉庫中的數據進行組織和匯總, 用聯機分析和可視化工具對這些數據迅速進行評價, 將復雜的分析查詢結果快速地返回用戶。
隨著數據倉庫的發展, OLAP 也得到了迅猛的發展。數據倉庫側重于存儲和管理面向決策主題的數據, 而OLAP 的一個主要特點是多維數據分析, 這與數據倉庫的多維數據組織正好形成相互結合、相互補充的關系。因此, OLAP 技術與數據倉庫的結合可以較好地解決傳統決策支持系統既需要處理大量數據又需要進行大量數值計算的問題, 進而滿足決策支持或多維環境特定的查詢和報表需求。
3.3 數據挖掘與OLAP 的關系
數據挖掘與OLAP 都是數據庫( 數據倉庫) 的分析工具, 但兩者之間有著明顯的區別。前者是挖掘型的, 后者是驗證型的。前者建立在各種數據源的基礎上, 重在發現隱藏在數據深層次的對人們有用的模式并做出有效的預測性分析, 一般并不過多考慮執行效率和響應速度[4]; 后者建立在多維視圖的基礎之上,強調執行效率和對用戶命令的及時響應, 而且其直接數據源一般是數據倉庫。
數據挖掘能自動地發現隱藏在大量數據中的隱含模式, 它與其他分析型工具最大的不同在于它的分析過程是自動的。一個成熟的數據挖掘系統除了具有良好的核心的技術外, 還應該
具有開放性的結構, 友好的用戶接口。數據挖掘的用戶不必提出確切的問題, 而只需挖掘工具去挖掘隱藏的模式并預測未來的趨勢, 這樣更有利于發現未知的事實。
OLAP 是一種自上而下、不斷深入的分析工具, 由用戶提出問題或假設, OLAP 負責從上至下深入地提取出關于該問題的詳細信息, 并以可視化的方式呈現給用戶。與數據挖掘相比, OLAP 更多地依靠用戶輸入問題和假設, 但用戶先入為主的局限性可能會限制問題和假設的范圍, 從而影響最終的結論。因此, 作為驗證型分析工具, OLAP 更需要對用戶需求有全面而深入的了解。
顯然, 從對數據分析的深度來看, OLAP 位于較淺的層次,而數據挖掘所處的位置則較深, 數據挖掘可以發現OLAP 所不能發現的更為復雜而細致的信息。盡管數據挖掘與OLAP 存在著上面的差異, 但作為數據倉庫系統的工具層的組成部分, 兩者是相輔相成的。
4. 結束語
數據倉庫和數據挖掘、OLAP 雖然是三種不同的信息技術,但其目標卻都是輔助決策, 所以它們之間又存在著千絲萬縷的聯系。數據倉庫擁有豐富的數據, 但只有通過OLAP 和數據挖掘才能使數據變成有價值的信息, 才能體現出數據倉庫的輔助決策功能, 否則永遠都是數據豐富、信息匱乏; 反之, 盡管OLAP 和數據挖掘并不一定要建立在數據倉庫的基礎之上, 但數據倉庫卻能提高兩者的工作效率, 讓兩者有更大的發展空間。
同為數據分析工具的數據挖掘與OLAP, 隨著OLAP 的發展, 兩者的界限正在逐漸模糊, 因為越來越多的OLAP 廠商將數據挖掘的方法融入他們的產品中, 這可能是OLAP 產品的一個發展方向。在整個決策分析系統中, OLAP 與數據挖掘以及其他分析工具由于內在技術以及適用范圍的不同, 必須協調使用才能發揮最佳的作用。OLAP 與數據挖掘各有所長, 如果能將二者結合起來, 發展一個建立在OLAP 和數據挖掘基礎上的新的挖掘技術, 將更能適應實際的需要。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:數據倉庫、數據挖掘及OLAP 之兩兩關系
本文網址:http://www.guhuozai8.cn/html/consultation/10820616298.html