(1)數據倉庫結構及特點
隨著信息處理技術的發展,使得各類數據、信息急劇增長,給數據的傳輸、存儲都帶來了許多新的問題。人們希望能夠看到所有數據和信息的綜合情況,而這些數據與事務處理有許多不能被原有數據結構描述,不能被現有應用系統綜合使用。針對這一問題,人們設想專門為業務的統計分析建立一個數據中心,它的數據來自聯機的事務處理系統、異構的外部數據源、脫機的歷史業務數據等,這個數據中心就叫數據倉庫。
被譽為數據倉庫之父的W.H.Inmon將數據倉庫定義為:“數據倉庫是一個面向主題的、集成的、相對穩定的和隨時間的數據集合,用于支持管理決策和商務智能。”數據倉庫技術,簡單的說,就是將企業內外部的數據進行全面的集成、清洗和整理,去除一些純事務性的數據,將企業數據按主題放置到一個“倉庫”中,然后在次基礎上建立各種決策支持的數據為企業服務。基本結構如圖1所示:
圖1 數據倉庫體系結構
對于數據倉庫的概念我們可以從兩個層次予以理解,首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。數據倉庫擁有以下四個特點:
①面向主題。操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織,它與傳統數據庫中的面向應用相對應。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
②集成的。面向事務處理的操作型數據庫通常與某些特定的應用相關,數據庫之間相互獨立,并且往往是異構的。而數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業的一致的全局信息。數據倉庫的集成特性是指在數據進入數據倉庫之前,必須經過數據加工和集成,這是建立數據倉庫的關鍵步驟。它能夠統一原始數據中的矛盾之處,還能夠將原始數據結構從面向應用向面向主題轉變。
③相對穩定的。操作型數據庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
④反映歷史變化。操作型數據庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
圖2 導出數據過程
根據以上的特點,在數據倉庫里,數據是在對不同來源的數據抽取、清理的基礎上經過系統加上、匯總和整理得到的一個緊密的整體;數據所提供的信息是關于某一特別的主題而不是關于一個公司的日常運營,數據倉庫在構建之初就明確其主題,即確定決策涉及的范圍和所要解決的問題。數據倉庫中的所有數據都由某一個特別的時間段來識別,數據倉庫中的數據是相對穩定的,數據倉庫中的數據主要供企業決策分拆之用,一旦某個數據進入數據倉庫一般被長期保留,修改和刪除操作很少,通常只需要定期的加載、刷新,這使得管理人員能獲得一幅關于商務的一致的畫面。
數據倉庫的一個重要作用是為決策者提供必要的智能,促進決策者更好的理解商務危機、商務機會和運營狀況。在決策支持過程中,數據倉庫主要有四個流程:整合、執行、智能和創新,如圖3所示。
圖3 數據倉庫的四個流程
(2)數據倉庫和數據集市
數據集市(Data Marts)是為了特定的應用目的或應用范圍,從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據,通常服務于單個部門或企業中的部分用戶。按照業務的不同可以分為財務、銷售、市場等多個數據集市,每個數據集市只包含特定領域內的數據。數據倉庫和數據集市的比較如表1所示。
表1 數據倉庫與數據集市比較
關于構建數據倉庫和數據集市先后順序,有兩種截然不同的學術觀點,Ralph Kimball認為“數據倉庫僅僅是構成它的數據集市的聯合”,而Inmon認為只有在構建幾個單主題區域之后,集中式的數據倉庫才能創建數據集市。實際上,方法的選擇取決于項目的主要商業驅動。如果該組織正忍受糟糕的數據管理和不一致的數據,或者希望為今后打下良好的基礎,那么Inmon的方法就更好一些。
如果該組織迫切需要給用戶提供信息,那么Kimball的方法將滿足該需求。而一旦滿足了迫切的信息需求后,就應該考慮包含獨立數據倉庫的數據體系結構的轉換計劃。特別需要注意的是個別部門要防止濫用Kimball的方法而脫離集中控制。
(3)數據抽取、轉換、裝載數據抽取、轉換、裝載上具(Extract Transform.Load.ETL)是數據倉庫的重要組成之一,它是把數據從不同的操作型數據庫、業務部門和企業外部數據庫中拿出來,進行必要的轉化、整理,再以統一定義的格式存放到數據倉庫內。它首先對數據進行篩選,去掉對決策沒有意義的數據段,然后將數據轉換成統一的數據名稱和定義,計算統計和衍生數據:估計遺失數據的缺省值。數據抽取、轉換與裝載過程的目的在于把來自各個不同平臺的數據合并到決策支持環境下的商務智能目標的數據倉庫的標準格式中去。數據抽取工具能對各種不同存儲方式的數據訪問,應能生成不同程序、作業控制語言、腳本和語句等,以訪問不同的數據。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:商務智能體系介紹——數據倉庫相關理論
本文網址:http://www.guhuozai8.cn/html/consultation/1083932971.html