1.引言
商業智能(Business Intelligence,BI)的概念最早于1996年由加特納集團(Gartner Group)提出,并對商業智能做如下的定義:商業智能描述了一系列的概念和方法,輔助商業決策的制定是通過基于事實的支持系統所提供的,商業智能技術為企業迅速分析數據提供技術和方法,包括收集、管理和分析數據,并將這些數據轉化為有用的信息,然后分發到企業各處。
2.商業智能(B1)系統中數據的理解與處理
2.1 數據抽取(ETL)技術
商業智能可以看成是一種解決方案。關鍵在于從許多來自不同的企業運作系統的數據中提取出有用的數據并進行清理,以保證數據的正確性,然后經過抽取(Extraction)、轉換(Transformation)和裝載(LOAd),即ETL過程,合并到一個企業級的數據倉庫里,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理,最后將知識呈現給管理者,為管理者的決策過程提供支持。從BI的技術框架圖中,可以看出整個BI系統中,涉及數據處理的關鍵是數據源到數據倉庫中的ETL部分,ETL過程的成功與否決定了數據倉庫數據的正確性和可用性。
數據抽取(ETL,data extraction,transformation and loading),是對數據進行抽取、清洗、轉換和整合的過程,是數據進入數據倉庫的入口。通過ETL的過程,數據從聯機事務處理系統、外部數據源、脫機的數據存儲介質中導入到數據倉庫。
在數據抽取階段以下幾點值得注意:
2.1.1 數據的有效性檢查
為避免數據冗余,要認識到數據裝入數據倉庫之前,應該對數據進行有效性檢查,這是很重要的。如果沒有進行數據的有效性檢查,就有可能破壞依賴于數據倉庫的商務分析的完整性,幫助檢查數據的有效性的最好方法是源系統專家。源系統專家包括具有技術專業知識和非技術知識的人士。
2.1.2 數據的清洗和轉換
由于數據抽取中的數據是來源于業務系統中的業務數據,難免會存在各種原因所導致的臟數據,例如數據不在給定的界限之內或對于實際業務來說毫無意義的數據。這些數據就是數據清洗的對象。清除數據包括對那些在給定范圍之外的數據采取糾正和舍去等措施。
同樣,由于數據倉庫中的數據來自于多種業務數據源,這些數據源可能是在不同的硬件平臺上,使用不同的操作系統的,又或者是屬于不同的業務系統。因而這些數據的存儲格式各不相同,或者相同的數據具有不同業務含義。而數據的轉換正是為了解決這一問題而必須進行的數據抽取步驟。
2.1.3 數據的聚合與分割
由于數據倉庫中數據的來源是不同的業務系統數據,而各個系統對數據存儲的粒度(粒度是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別)各不相同。而數據倉庫中同一分析主題中數據的粒度必須是統一的,所以,為了保證數據粒度的一致性,必須對原有數據進行聚合(匯總)或分割(細化)。
2.1.4 數據安全性
數據的抽取必非一個完全的技術問題,往往牽涉整個企業中各個不同部門中數據的共享。那么數據共享中的權限等安全問題也就是數據抽取中必須要認真對待的問題。如何保證數據抽取中和數據集中后的限制與共享往往需要業務人員的配合和介入,不能將該問題當作單純的技術問題來對待,而必須進行周密的考慮和計劃。
2.2 ETL轉換過程中的數據處理
ETL過程最復雜的部分就是T,這個轉換過程從對數據源的整個宏觀處理可分:
2.2.1 大表和小表關聯
這種處理在數據清洗過程是很常見的,例如從數據源到ODS階段,如果數據倉庫采用維度建模,而且維度基本采用代理鍵的話,必然存在代碼到此鍵值的轉換。如果用SQL實現,必然需要將一個大表和一堆小表都Join起來,當然如果使用ETL工具的話,一般都是先將小表讀入內存中再處理。這種情況,輸出數據的粒度和大表一樣。
2.2.2 大表和大表關聯
大表之間的關聯存在最大的問題就是性能和穩定性,對于海量數據來說,必須有優化的方法來處理他們的關聯,另外,對于大數據的處理無疑會占用太多的系統資源,出錯的幾率非常大,如何做到有效錯誤恢復也是個問題。對于這種情況,盡量將大表拆分成適度的稍小一點的表,形成大小交的類型。這類情況的輸出數據粒度和主表一樣。
2.2.3 聚集
數據倉庫中重要的任務就是沉淀數據,聚集是必不可少的操作,它是粗化數據粒度的過程。聚集本身其實很簡單,就是類似SQL中Group by的操作,選取特定字段(維度),對度量字段再使用某種聚集函數。但是對于大數據量情況下,聚集算法的優化仍是探究的一個課題。
3.結語
數據抽取(ETL)技術是商業智能的四大關鍵技術之一,ETL技術是商業智能得以實施的一個基礎性的技術,它與元數據管理相結合,提供對不同數據源的數據進行抽取,轉換,清洗,加載的功能,集成和凈化來自于多個不同系統的數據,然后將之載入物理數據庫中。限于多方面的原因,本文在數據的理解與處理方面未能詳盡的說明,希望能和同行一起共同探討。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:談商業智能(BI)系統中數據的理解與處理
本文網址:http://www.guhuozai8.cn/html/consultation/1082064826.html