引 言
隨著數據庫技術的廣泛應用,以及人們對當今社會信息的高層次需求,以事務處理為核心、支持業務操作環境與平臺的數據庫技術已不能適應人們在分析和決策層次上的需要。為了有效地為企業和政府的管理與決策過程提供重要的信息,需要根據決策的需要收集來自企業內外的有關數據,并加以適當的組織處理,以形成一個綜合的面向決策的環境。
1 數據倉庫及其體系結構
20世紀90年代初期,W.H.Inmon在5Building the Data Warehouse6一書中第一次提出了數據倉庫(Data Warehouse,簡稱DW)的概念,并將它定義為:面向主題的、集成的、與時間相關的、穩定的數據集合。所謂面向主題,是指按主題來組織數據,按不同的決策和分析來綜合和歸并數據;所謂集成,是指將來自不同數據庫中的數據進行統一和綜合;所謂與時間相關是指可以根據決策的需要不斷地添加一些新的數據,刪除一些舊的數據;所謂穩定是指集成以后的數據在內容上保持較長時間的不變。
與傳統數據庫顯著不同的是,數據倉庫是一種服務于高層決策的數據庫,它不僅采集、組織和存儲大量的來自地理位置分散、構造各異的信息源的數據,而且還通過對這些歷史數據的加工和變換,得到一系列用于決策分析的數據,利用這些數據可以更好地為用戶提供決策支持。其次,數據倉庫是一種面向主題的數據庫,它按主題來組織數據,按決策和分析的需要來提煉和凈化數據。另外,數據倉庫是一種包含歷史數據的數據庫,其中的數據不僅用于檢索等基本操作,還用于分析整個組織的運行狀態,以及未來的發展趨勢。
構建數據倉庫的關鍵是ETL(Extract,Transform, Loading)技術,即如何準確、安全、可靠地從各種不同的業務數據庫中抽取數據,并經轉換、清洗以及集成后載入數據倉庫。自數據倉庫的概念提出以后,世界上不少著名的計算機公司(如IBM,Oracle等)都紛紛對此展開深入的研究,并相繼提出各自的研究方案。雖然這些方案各有特色,但基本的框架一般都是通過數據采集和處理工具將各數據源的數據集成并載入數據倉庫(如圖1所示)。
圖1.數據倉庫基本框架圖
(1)數據源。可以為普通的業務數據庫,也可以是特定的數據文件或其他的數據源。
(2)數據采集和處理。負責從各數據源中抽取數據,并經轉換、集成后載入數據倉庫。
(3)數據倉庫。存儲兩類數據。一類是元數據,它是數據倉庫的基本構成單元,主要用于記錄數據的結構以及數據倉庫的變化;另一類是實視圖,它是供決策人員分析處理用的數據。
(4)應用。主要是服務于決策的在線分析(On-Line Analytical Processing,簡稱OLAP)和數據挖掘(Data Mining,簡稱DM)。
由上述基本框架圖可以看出,數據倉庫不是一種軟件產品,而是一種綜合的解決方案。它將原始的數據處理并轉換成服務于決策的綜合數據,并提供一組功能強大的分析工具對其進行多層次、多方位的分析處理。其次,數據倉庫要提供高質量的數據和服務,必須注意數據的一致性、完整性、準確性以及可用性,F有的數據倉庫模型未能充分考慮到這一點。通過擴展元數據庫的方式,在元數據庫中融入質量維度的質量模型,建立系統化的測量和提高數據質量的方法體系,可以較好地解決數據倉庫的質量問題。
2 基于數據倉庫的數據挖掘技術
構建數據倉庫的最終目標是為了從各類海量數據中提取出對有關決策和管理活動具有重要指導意義的規律性知識。但是,由于各類數據是分散于若干業務數據庫或其他數據源中,因此,要得到對各類決策分析有用的知識,必須具有相應的從海量數據中提取價值信息的工具。數據挖掘就是用來挖掘價值信息的工具。
數據挖掘這一概念是由G.Piatetsky-Shapior,W.J.Frawley等人在1989年8月召開的第11屆國際人工智能學術會議上提出的。它是數據庫技術和人工智能、數理統計等學科相結合的產物,是一個多學科相互交叉的具有廣泛應用前景的新興研究領域,并利用人工智能和數理統計中一些較成熟的方法和技術,如規則推理、人工神經網絡、決策樹、鄰近搜索等。因此,也有人把它稱為數據庫中的知識發現(Knowledge Discovery in Database,簡稱KDD)。對數據挖掘這一概念的定義,一般認為是一種從大量數據中獲取潛在規律和知識的方法和技術,是一個從大量數據中發掘潛在的、新穎的、可用的以及最終可理解的模式的高級過程。
面向主題、數據集成、與時間相關以及穩定是數據倉庫區別于數據庫的顯著特點,實現決策支持是數據倉庫的最終應用目標,而數據挖掘則是實現數據倉庫最終目標的有力工具。因此,在實際應用中,數據挖掘和數據倉庫密不可分。數據倉庫是數據挖掘的基礎和平臺,為數據挖掘提供必要的數據準備,數據挖掘則是在數據倉庫的基礎上進一步發掘對實際決策過程有益的知識和信息。
數據挖掘系統的基本結構圖如圖2所示。
圖2.數據挖掘系統結構圖
(1)數據采集與處理。根據數據挖掘的目標,從數據倉庫中選取相關的數據集合,并對其進行數據一致性和數據完整性的檢查。
(2)知識庫。主要用于數據挖掘和知識評價。利用知識庫中提供的有關知識,可以指導數據挖掘過程中的搜索操作,以及評價挖掘所得的結果數據(這些數據可以是概念,也可以是規則或模式)的興趣度。
(3)數據挖掘。主要是對數據倉庫中提取的有關數據進行聚類、估值、分類、預言、關聯和描述等分析處理。
a.聚類。將相似的數據置于一類,目的在于描述數據的共同特征。
b.估值。處理未知連續變量的輸出。
c.分類。描述離散變量的輸出。典型的有線形回歸分類、決策樹分類、基于規則的分類以及神經網絡分類等。
d.預言。通過估值或分類得到模型,以用于未來未知變量的評估。
e.關聯。挖掘數據或特征間的內在聯系。
f.描述。表示數據挖掘的結果。
(4)知識評價。以興趣度作為衡量標準來查找和選擇對最終決策活動有益的知識,并以概念、規則、規律、模式、約束或可視化的形式來表示結果知識;跀祿䝼}庫的數據挖掘是一種對數據倉庫中的數據進行深層次的加工和處理過程,也是一種實現數據倉庫決策價值的方法和工具。通過對數據倉庫中大量歷史數據的更高層次的抽象,不僅反映了數據間的內在聯系和特性,同時也獲得了許多直接用于決策分析的有用信息。
3 數據挖掘在實際決策支持系統中的應用
數據挖掘是在數據倉庫的基礎上進行的深層的數據分析過程,它能揭示大量數據中隱含的、潛在的、有用的和感興趣的信息,并為用戶提供較好的決策支持。
自數據倉庫和數據挖掘技術出現至今,許多大公司、大企業紛紛構建自己的數據倉庫,并通過對數據倉庫中大量歷史數據的挖掘,得到許多有用的信息,以支持企業內部的生產經營管理過程中的決策控制。實際的數據挖掘過程一般包括以下幾個步驟:
(1)了解行業背景,熟悉基本數據;
(2)確定數據挖掘的目標;
(3)選取數據倉庫中相應的數據集合;
(4)給出合適的挖掘算法;
(5)進行實際的數據挖掘;
(6)對所得的結果知識進行評價并輸出。
目前,數據挖掘的主要應用領域有:市場分析和預測;生產過程優化;股票分析和預測;金融風險分析;氣象預報等。例如,針對本單位的人力資源管理需要,構建本單位的人力資源數據倉庫,并利用選擇樹分類器對其進行數據挖掘。針對旅游業的管理需要,構建旅游業數據倉庫,并利用決策樹分類器挖掘其中的深層次規則。針對零售連鎖業的發展需要,構建連鎖超市數據倉庫,并通過對其進行數據挖掘實現連鎖超市銷售分析與預測。
雖然這些基于數據倉庫和數據挖掘技術的實際決策支持系統的設計各有特色,但其基本的框架可以用一個簡單的模型來刻畫,如圖3所示。
圖3.決策支持系統模型圖
在實現實際的決策支持系統時,系統首先通過數據采集與加工模塊將各數據源中數據載入數據倉庫,然后各用戶再通過數據挖掘和在線分析來分析處理來自數據倉庫的數據,并得到一系列用于實際決策過程的有用知識和信息。其中,數據挖掘是系統的核心部件,是決定數據倉庫決策價值的關鍵環節。
4 結束語
數據挖掘是一個基于數據倉庫的有效的輔助決策支持工具,利用它可以發現數據倉庫中許多未知的、潛在的、深層次的和有價值的信息。因此,在當前的企業和政府等部門的決策活動中發揮著重要的作用。目前,該技術的一個重要的發展方向是多維數據挖掘(OLDM),它既具有DM處理的深入性,又兼有OLAP的在線分析性和靈活性,利用該技術來實現決策支持將會具有更大的指導意義和決策價值。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:基于數據倉庫的數據挖掘技術分析研究
本文網址:http://www.guhuozai8.cn/html/consultation/10819416341.html