數(shù)據(jù)倉庫技術(shù)是近年來出現(xiàn)的、發(fā)展迅速的一種技術(shù), 它通過把企業(yè)大量的歷史數(shù)據(jù)整理集中到一個中央倉庫中, 將數(shù)據(jù)加以分析并呈現(xiàn)給用戶來支持管理者的決策。數(shù)據(jù)倉庫是一個整合式的、面向主題的、歷史性的以及只讀性的數(shù)據(jù)集合,其主要目的是提供給企業(yè)管理者作為管理決策的參考依據(jù)。數(shù)據(jù)挖掘技術(shù)作為基于機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)等領(lǐng)域而發(fā)展起來的從數(shù)據(jù)中獲取知識的技術(shù)也越來越得到人們的青睞。數(shù)據(jù)倉庫使得人們只花很短的時間就能夠從大量的歷史數(shù)據(jù)中查詢出所需的數(shù)據(jù), 而數(shù)據(jù)挖掘則可以從這些數(shù)據(jù)中發(fā)現(xiàn)和預(yù)測出有價值的信息, 數(shù)據(jù)倉庫技術(shù)使我們從全新的視角認識了數(shù)據(jù)的價值。然而, 從目前的情況看, 在中國數(shù)據(jù)倉庫推廣還處于起步階段, 其應(yīng)用所取得的成績遠不如商家們“炒作”得那么輝煌, 仍然存在許多不成熟因素, 如計算機應(yīng)用水平較低、數(shù)據(jù)保存和管理不完善、人才缺乏、沒有真正適合行業(yè)特點的應(yīng)用技術(shù)等 。但不管怎么說, 數(shù)據(jù)倉庫的應(yīng)用對于中國企業(yè)未來加入國際競爭有著不可替代的作用。
1 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘
數(shù)據(jù)倉庫是一個面向主題的( Sub ject O riented)、集成的( In teg ra te)、相對穩(wěn)定的( Non-Vo latile) 、反映歷史變化( Time Variant) 的數(shù)據(jù)集合, 用于支持管理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解: ①數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理, 它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫; ②數(shù)據(jù)倉庫是對多個異構(gòu)數(shù)據(jù)源的有效集成, 集成后按照主題進行了重組, 并包含歷史數(shù)據(jù), 而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。企業(yè)數(shù)據(jù)倉庫的建設(shè)是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫不是靜態(tài)的概念, 只有把信息及時交給需要這些信息的使用者, 供他們作出改善其業(yè)務(wù)經(jīng)營的決策, 信息才能發(fā)揮作用, 信息才有意義。而把信息加以整理、歸納和重組, 并及時提供給相應(yīng)的管理決策人員是數(shù)據(jù)倉庫的根本任務(wù)。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。原始數(shù)據(jù)可以是結(jié)構(gòu)化的, 如關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù), 也可以是半結(jié)構(gòu)化的, 如文本、圖形、圖像數(shù)據(jù), 甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的, 也可以是非數(shù)學(xué)的; 可以是演繹的, 也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等, 還可以用于數(shù)據(jù)自身的維護。因此, 數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科, 它匯聚了不同領(lǐng)域的研究者, 尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。
特別要指出的是, 數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。例如加拿大BC 省電話公司要求加拿大Sim on Fraser大學(xué)KDD研究組, 根據(jù)其擁有十多年的客戶數(shù)據(jù), 總結(jié)、分析并提出新的電話收費和管理辦法, 制定既有利于公司又有利于客戶的優(yōu)惠政策。這樣一來, 就把人們對數(shù)據(jù)的應(yīng)用從低層次的末端查詢操作提高到為各級經(jīng)營決策者提供決策支持。
2 構(gòu)建數(shù)據(jù)倉庫的基本方法
2.1 數(shù)據(jù)倉庫的體系結(jié)構(gòu)
數(shù)據(jù)倉庫從多個信息源中獲取原始數(shù)據(jù), 經(jīng)過整理加工后存儲在數(shù)據(jù)倉庫的內(nèi)部數(shù)據(jù)庫。通過數(shù)據(jù)倉庫訪問工具, 向數(shù)據(jù)倉庫的用戶提供統(tǒng)一、協(xié)調(diào)和集成的信息環(huán)境, 支持企業(yè)全局決策過程和對企業(yè)經(jīng)營管理的深入綜合分析。整個數(shù)據(jù)倉庫系統(tǒng)是一個包含四個層次的體系結(jié)構(gòu), 如圖1所示。
(1)數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ), 是整個系統(tǒng)的數(shù)據(jù)源泉, 通常包括企業(yè)內(nèi)部信息和外部信息。
(2)數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。
(3) OLAP( On-L ine Analytical Process ing )服務(wù)器對分析需要的數(shù)據(jù)進行有效集成, 按多維模型予以組織, 以便進行多角度、多層次的分析, 并發(fā)現(xiàn)趨勢。
(4)前端工具主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。
2.2 構(gòu)建數(shù)據(jù)倉庫的方法
目前有兩種構(gòu)建數(shù)據(jù)倉庫的方法: 自頂向下和自底向上。自頂向下開發(fā)企業(yè)數(shù)據(jù)倉庫是從總體上把握整個數(shù)據(jù)倉庫的規(guī)模、粒度的級別和元數(shù)據(jù)管理, 是一種系統(tǒng)的解決方法, 并能
夠最大限度地減少集成問題。然而, 它費用高, 需要長時間開發(fā), 并且缺乏靈活性, 因為整個組織的共同數(shù)據(jù)模型達到一致是很困難的。自底向上設(shè)計、開發(fā)、部署獨立的數(shù)據(jù)集市提供了靈活性, 花費低, 并能夠得到快速的投資回報。但存在的問題是將分散的數(shù)據(jù)集市集成, 形成一個一致的企業(yè)數(shù)據(jù)倉庫并不容易。構(gòu)建數(shù)據(jù)倉庫的流程如下:
(1)啟動工程。建立開發(fā)數(shù)據(jù)倉庫工程的目標及制定工程計劃, 建立技術(shù)環(huán)境, 選擇實現(xiàn)數(shù)據(jù)倉庫的軟硬件資源, 包括開發(fā)平臺、DBMS、開發(fā)工具、終端訪問工具。
(2)設(shè)計主題進行數(shù)據(jù)建模。根據(jù)決策需要確定主題, 選擇數(shù)據(jù)源, 對數(shù)據(jù)倉庫的數(shù)據(jù)進行邏輯結(jié)構(gòu)設(shè)計。
(3)設(shè)計數(shù)據(jù)倉庫中的數(shù)據(jù)庫。基于用戶的需求, 著重于某個主題, 開發(fā)數(shù)據(jù)倉庫中的數(shù)據(jù)的物理存儲結(jié)構(gòu), 即設(shè)計多維數(shù)據(jù)結(jié)構(gòu)的事實表和維表。
(4)轉(zhuǎn)換程序。實現(xiàn)從源系統(tǒng)中抽取數(shù)據(jù)、清理數(shù)據(jù)、一致性格式化數(shù)據(jù)、綜合數(shù)據(jù)、裝載數(shù)據(jù)等過程的設(shè)計和編碼。
(5)管理元數(shù)據(jù)。定義元數(shù)據(jù), 即表示、定義數(shù)據(jù)的意義及系統(tǒng)各組成部分之間的關(guān)系。元數(shù)據(jù)包括關(guān)鍵字、屬性、數(shù)據(jù)描述、物理數(shù)據(jù)結(jié)構(gòu)、源數(shù)據(jù)結(jié)構(gòu)、映射及轉(zhuǎn)換機制、綜合算法、代碼、安全要求等。
(6)開發(fā)用戶決策的數(shù)據(jù)分析工具。建立結(jié)構(gòu)化的決策支持查詢, 實現(xiàn)和使用數(shù)據(jù)倉庫的數(shù)據(jù)分析工具, 包括優(yōu)化查詢工具、C /S工具、OLAP工具及數(shù)據(jù)挖掘工具等, 通過分析工具實現(xiàn)決策支持要求。
(7)管理數(shù)據(jù)倉庫環(huán)境。數(shù)據(jù)倉庫必須像其他系統(tǒng)一樣進行管理, 包括質(zhì)量檢測, 管理決策支持工具及應(yīng)用程序, 定期進行數(shù)據(jù)更新, 使數(shù)據(jù)倉庫能正常運行。
2.3 數(shù)據(jù)模式
最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型, 這種模型可以以星型模式( Star Schema)、雪花模式( Snow flake Schema)或事實星座模式形式存在。
星型模式是目前普遍使用的實現(xiàn)數(shù)據(jù)倉庫的設(shè)計結(jié)構(gòu)。它通過使用一個包含主題的事實表和多個包含事實的非正規(guī)化描述的維度表來執(zhí)行典型的決策支持查詢。星型模式是一種關(guān)系型數(shù)據(jù)庫結(jié)構(gòu), 模式的中間是事實表, 周圍是維度表, 數(shù)據(jù)在事實表中維護, 維度數(shù)據(jù)在維度表中維護。每個維度表通過一個關(guān)鍵字(在某些情況下是主鍵)與事實表關(guān)聯(lián)。
圖2.星型模式與雪花模式
雪花模式是星型模式的一種擴展模式。從圖2可以看出,它與星型模式的不同在于維度表。在雪花模式中, 維度表被分解成與事實表直接關(guān)聯(lián)的主維度表和與主維度表關(guān)聯(lián)的次維度表, 次維度表與事實表間接關(guān)聯(lián)。這種模式用大量的冗余維度數(shù)據(jù)進行設(shè)計, 通過減少讀磁盤的數(shù)量來提高查詢性能。
3 數(shù)據(jù)挖掘?qū)嵗?/span>
數(shù)據(jù)挖掘客戶端工具采用Visual Basic 6. 0, 后臺數(shù)據(jù)庫是MS SQL Server, 利用SQL Server中的Analysis Services進行數(shù)據(jù)挖掘。本實例根據(jù)電信手機銷售記錄中的顧客信息, 利用決策樹算法建立模型對顧客的信譽度進行分類, 這樣可以對新顧客的信譽度進行預(yù)測, 在以后的繳費等服務(wù)中就可以根據(jù)顧客的信譽度提供相關(guān)的支持。實例使用了銷售表、顧客表、手機信息表、時間表、員工信息表、服務(wù)信息表等, 數(shù)據(jù)模式為星型模式。建立多維數(shù)據(jù)集Sales, 選擇銷售表為事實表, 建立時間、產(chǎn)品、顧客維度, 并為顧客維度設(shè)置成員屬性, 如圖3所示。
系統(tǒng)實現(xiàn)過程如下:
首先從包含數(shù)據(jù)源的業(yè)務(wù)數(shù)據(jù)中進行數(shù)據(jù)抽取, 對數(shù)據(jù)進行數(shù)據(jù)一致性的協(xié)調(diào)、格式化處理及必要的轉(zhuǎn)換, 然后將數(shù)據(jù)加載進數(shù)據(jù)倉庫。在ODBC 數(shù)據(jù)源管理器中設(shè)置和源數(shù)據(jù)的連接, 連接數(shù)據(jù)源命名為phone。在Ana lysisM anage r中新建數(shù)據(jù)庫, 取名為手機, 右擊“手機數(shù)據(jù)庫”選擇新數(shù)據(jù)源為其建立連接, 選擇“phone”。
在OLAP挖掘模型編輯器中, 可以使用編輯器編輯模型屬性或者瀏覽其結(jié)果。決策樹顯示于右窗格中, 其中包括四個窗格。中間的“ 內(nèi)容詳情”窗格顯示焦點所在的)決策樹部分;“內(nèi)容選擇區(qū)”窗格顯示樹的完整視圖, 該窗格可以將焦點設(shè)置到樹的其他部分; 其他的兩個窗格分別是“特性”窗格(特性信息可以用“合計”選項卡以數(shù)值方式查看或者用“直方圖”選項卡以圖形方式查看) 和與焦點所在節(jié)點相關(guān)聯(lián)的“節(jié)點路徑”區(qū)域。
樹的級別由顧客的收入決定, 根據(jù)決策樹算法的特點可知, 顧客收入是決定其信譽度的最重要屬性。顏色代表“事例”的密度, 顏色越深的節(jié)點中包含的事例就越多。由特性窗體的記錄可以看出信譽度“一般”與“好”的事例數(shù)及其可能性。在右下角的“ 樹顏色基于”字段中選擇“ 好”, 該樹將顯示另一種顏色模式。可以看出顧客收入大于1 500 元的節(jié)點的密度遠遠高于0 ~ 1 500 元的節(jié)點。可見在信譽度好的事例中, 收入大于1 500元的顧客遠多于0~ 1 500元的。
4 結(jié)束語
目前, 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘已成為一個炙手可熱的行業(yè)。僅在美國就有數(shù)百家公司從事數(shù)據(jù)挖掘相關(guān)產(chǎn)品的研發(fā); 在歐美數(shù)據(jù)挖掘技術(shù)已廣泛用在銀行、金融服務(wù)、電信和零售批發(fā)部門; 但從目前國內(nèi)情況看, 數(shù)據(jù)倉庫推廣還處于起步階段, 其應(yīng)用仍然存在許多不成熟因素。由于數(shù)據(jù)挖掘是一種具有廣泛應(yīng)用的多學(xué)科交叉技術(shù), 數(shù)據(jù)挖掘的一般性原理與針對特定領(lǐng)域需要的有效數(shù)據(jù)挖掘工具之間還存在不小的距離, 給數(shù)據(jù)挖掘提出了許多挑戰(zhàn)性的課題, 如生物、醫(yī)學(xué)等特定應(yīng)用領(lǐng)域的探索;W eb挖掘?qū)⒊蔀閿?shù)據(jù)挖掘中一個最為重要和繁榮的子領(lǐng)域; 可伸縮的數(shù)據(jù)挖掘方法; 數(shù)據(jù)倉庫系統(tǒng)和W eb 數(shù)據(jù)庫系統(tǒng)的集成; 數(shù)據(jù)挖掘語言的標準化; 可視化數(shù)據(jù)挖掘; 數(shù)據(jù)挖掘中的隱私保護與信息安全等, 都是值得我們進一步研究的課題。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.guhuozai8.cn/
本文標題:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用
本文網(wǎng)址:http://www.guhuozai8.cn/html/consultation/10819916312.html