隨著計算機和信息時代的迅猛發展,人類收集、存儲和訪問數據的能力大大增強,快速增長的海量數據集已經遠遠超出了人類的理解能力,傳統的數據分析工具已經不能解決這些問題。為了解決海量數據的存儲、組織,并從中找出有價值的知識這些問題,出現了數據倉庫和數據挖掘技術。
信息化系統在企事業單位的迅速普及,各單位信息系統產生了大量的數據信息。如何處理已經過期的大量數據成了一個難題,現在各單位的處理這些數據一般有三種做法:簡單的刪除、備份后再刪除、建立一個數據倉庫系統,將數據保存到數據倉庫中。現在各單位也已經認識到歷史業務數據是非常有用的,可以綜合利用這些數據建立分析模型,從中挖掘出有價值的知識,幫助決策者做出正確的決策。目前,大多數企業都不是缺數據,比較難解決的問題是海量數據如何處理,商務智能在這種背景下應運而生。
數據挖掘可以對數據進行自動分類和聚類,找出數據中的趨勢和異常,根據這些因素來預測,在海量的數據挖掘出有價值的知識,使數據真正發揮作用。數據挖掘在商務智能解決方案的體系中占據著重要的地位。
1.相關概念
1.1 網格
網格是把整個因特網整合成一臺巨大的超級計算機,實現計算資源、存儲資源、數據資源、信息資源、知識資源、專家資源的全面共享。當然,網格并不一定非要這么大,我們也可以構造地區性的網格,如中關村科技園區網格、企事業內部網格、局域網網格、甚至家庭網格和個人網格。事實上,網格的根本特征是資源共享而不是它的規模。它應用到不同領域又叫計算網格、信息網格、知識網格、服務網格等。
網格具有以下四點優勢:
(1)資源共享,消除資源孤島:網格能夠提供資源共享,它能消除信息孤島、實現應用程序的互連互通。網格與計算機網絡不同,計算機網絡實現的是一種硬件的連通,而網格能實現應用層面的連通。
(2)協同工作:網格第二個特點是協同工作,很多網格結點可以共同處理一個項目。
(3)通用開放標準,非集中控制,非平凡服務質量:這是Ian Foster最近提出的網格檢驗標準。網格是基于國際的開放技術標準,這跟以前很多行業、部門或者公司推出的軟件產品不一樣。
(4)動態功能,高度可擴展性:網格可以提供動態的服務,能夠適應變化。同時網格并非限制性的,它實現了高度的可擴展性。
1.2 商務智能
商務智能的概念最早由Gartner Group于1996年提出,當時將商務智能定義為一類由數據倉庫、查詢報表、聯機分析、數據挖掘、數據備份和恢復等部分組成的,以幫助企業進行決策的技術。到目前為止,關于商務智能還沒有一個準確的定義,但可以從知識論、數據分析、信息系統和方法論四種不同視角來解釋商務智能,即認為商務智能是綜合利用知識管理的理論、信息分析和系統分析的工具,以及設計科學的方法論構建的一個人機智能系統。其目的是在商務中進行成功利用基于IT的商務應用機會為企業獲取成功的決策支持。它的主要功能就是提供一系列信息分析方法、不同視角的信息與知識呈現功能(各種視圖、報表和鏈接)、智能的技術和評價工具等來支持管理人員決策進化的一個智能集成系統。
商務智能的功能主要有:
(1)數據管理方面包括數據的獲取、選擇、轉換、集成能力;從原來數據中發現知識的能力;對大量數據高效存儲與維護能力。
(2)數據分析方面包括具備OLAP、OLTP、Legacy等多種數據分析能力;終端信息查詢和報告生成能力。
(3)決策支持方面包括具備數據對比分析與趨勢預測能力。
(4)企業優化方面包括輔助企業建模能力。
2.關鍵技術
隨著商務智能的研究和應用的不斷深入,商務智能技術已經有了一個公認的流程框架(如圖1所示),一般的商務智能系統構造基本上都根據這個框架設計開發。
圖1 商務智能技術流程圖
2.1 數據抽取ETL
ETL過程是進行數據的抽取、轉換和“凈化提煉”處理的過程。要對從多個不同業務數據庫抽取的數據,進行數據項名稱的統一、位數的統一、編碼的統一和形式的統一,消除重復數據。
ETL工具包括數據抽取、數據轉換、數據清洗和數據加載。在構建數據庫的過程中,外部數據源所提供的數據并不都是有用的,有些數據對決策并不能提供支持,同時,外部數據源中的數據冗余的現象也很普遍,以主題的需求為依據,對數據源的內容進行有目的的選擇,這一過程被稱為“數據抽取”。數據轉換是把數據倉庫的不同格式的外部數據源對其格式進行轉換處理,統一格式。數據倉庫的外部數據源所提供的數據內容并不一定都是好的,有些數據是有缺陷的,在數據倉庫的各數據源之間,其內容也存在著不一致的現象。為了不讓這些缺陷數據影響數據倉庫的分析結果,要采取各種有效的措施,將錯誤的、不一致的數據在進入數據倉庫之前予以更正或刪除,以免影響DSS決策正確性,這一過程稱為“數據清洗”。把清洗后的數據裝入數據倉庫的過程稱為數據裝載。數據裝載要綜合考慮經營分析需求,對不同業務系統的數據采用不同的加載周期,但必須保持同一時間業務數據的完整性和一致性。
網格商務智能平臺的ETL模塊主要解決的問題有以下幾個:
(1)ETL功能全部以子模塊的形式提供。每一個ETL子模塊對應于一種類型數據源的ETL功能,對于新的數據源類型,只要在系統中添加相應的ETL子模塊。
(2)常用的ETL子模塊是JDBC數據源的抽取模塊。
(3)系統要包含一些常見的JDBC驅動。
(4)將每一個數據源構建一個數據類型映射,將該數據源的每個數據類型映射到網格商務智能平臺內部數據類型上。
(5)網格商務智能平臺內部數據類型使用JDBC標準數據類型。
2.2 數據倉庫
在眾多的數據倉庫定義中,公認的是W.H.Inmon的定義,W.H.Inmon對數據倉庫的定義是在《Buildingthe Data Warehouse》一書中提出的。他將數據倉庫定義為:一個面向主題、集成的、非易失的、非時變的數據集合,用于支持管理決策的過程。
一般地,數據倉庫具有四個主要特征:
(1)面向主題性。面向主題是數據倉庫中數據組織的最基本原則。一般來講,一個數據倉庫中可以有若干個主題,一個主題可以分解成若干個子主題,這樣逐層分解從而構成一個主題層次。數據倉庫的創建、使用都是圍繞主題實現的,所以,必須了解如何按照決策分析來抽取主題,所抽取出的主題應該包括哪些數據內容,這些數據內容應該如何組織。
(2)集成性。數據倉庫中數據的集成性,是指在構建數據倉庫的過程中,多個外部數據源內格式不同、定義各異的數據,按指定的策略經過抽取、清洗、轉換等一系列處理,最終構成一個有機的整體。
(3)非易失性。數據倉庫的非易失性是指數據倉庫的用戶進行分析處理時不進行更新操作,一旦數據進入數據倉庫以后,就會保持一個相當長的時間,但并不是說在數據倉庫的整個生存周期中數據集是不變的。數據的非易失性可以保證不同的用戶在不同的時間查詢、分析相同的問題時,獲得同一結果。
(4)時變性。數據的時變性是指數據倉庫的內容隨時間的變化而不斷的得到增補、更新。當然數據倉庫不能頻繁地更新數據,但為了保證決策分析的正確性,更新是必要的。
2.3 OLAP
OLAP(聯機分析處理)是針對特定問題的聯機數據訪問和分析。通過很多種可能的觀察形式對已經轉換的信息進行快速、穩定一致的交互性的存取,允許管理決策人員對數據進入深入觀察。OLAP是一種軟件技術,它使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數據的目的。
OLAP的原則是快速性、可分析性、共享性、多維性、信息性。快速性是指系統應當使用各種技術,盡量提高對最終用戶的響應速度。可分析性指系統應對與用戶及應用相關的任何業務邏輯進行統計分析,這一分析過程不用編程而且要盡量利用已有的綜合路徑以及統計公式,分析類型應包括時間序列分析、成本分配、貨幣兌換、非過程化建模、多維結構的隨機變化等與應用相關的特征。共享性指多個用戶存取數據時,系統應保證安全性。尤其是當存在多個用戶向OLAP服務器寫數據時,系統應在適當粒度上加更新鎖。多維性是OLAP應用的實質,OLAP系統必須提供數據的多維概念視圖。信息性指在OLAP系統中給出的不再是散亂的數據,而是能夠導入具有指導意義的信息。
2.4 數據挖掘
數據挖掘是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過程。簡單地說,數據挖掘就是從大量數據中提取或挖掘知識。
數據挖掘的分析方法可以分直接數據挖掘和間接數據挖掘兩類。直接數據挖掘的目標是利用可用的數據建立一個模型,這個模型對剩余的數據進行描述,包括分類、估值和預言等分析方法。在間接數據挖掘的目標中,沒有選出某一具體的變量并用模型進行描述,而是在所有的變量中建立起某種關系,如相關性分組或關聯規則、聚集、描述和可視化及復雜數據類型的挖掘,如文本、網頁、圖形圖像、音視頻和空間數據等。
2.5 網格商務
網格商務是在網格環境下開展的商務活動,其中的網格計算環境主要是指各種網格應用,包括數據網格、設備網格、信息服務網格、知識網格和遠程沉浸網格等方面的應用。從應用服務層面上講,網格商務是由網格計算環境創造的、超越時間和空間約束的、以透明的服務方式和極快的速度實現的商品交換。網格商務應該是網格化的購銷市場,使用網格應用和服務完成商品購買和服務。總的來說,網格商務是指網格計算技術在經濟、管理和商務等領域應用,對企業的組織形式、盈利模式、營銷戰略和知識管理等方面發生重大變化的全新商務模式,是具有商業活動能力的實體,為提高商務活動效率,通過透明的外包應用服務,在一定的商務規則下,充分利用網格技術在商務領域中的應用,來實現資源的全面共享,以提高企業核心競爭力,最終完成商品交易服務的一種貿易形式。
3.技術難點
3.1 ETL抽取的多樣化
ETL抽取的對象是各種各樣的數據源,包括文件、關系數據庫、嵌入式數據庫等各種形式。這些數據源產品的特性都各不相同,而對其支持軟件也不能支持所有的數據庫功能。即使比較成熟的有幾十萬行代碼的開源ETL工具,也不能解決系統所需要的全部功能。
這里采用數據源分層架構的方法,把任務逐層分解,把大任務盡量分解成為比較容易解決的小任務,構造了一個具有基本功能的高度可擴展的框架。
3.2 Web Service參數映射
Web Service的一個大特點就是高度的跨平臺性。不同的操作系統上不同語言開發的應用程序,只有通過Web Service的協議就可以實現互相通信。不同語言開發的應用之間的通信是通過將語言類映射為Web Service標準類來實現的。而Web Service的標準類一般是高級語言集合的子集,因此一些高級語言如Java中的對象無法完全映射為Web Service標準類型的,即使映射成為Web Service標準類型,在.NET開發的程序中也無法正常讀取。所以說Web Service的跨平臺性也只是某些限制條件下的跨平臺。
這里采用Java語言的類型序列化技術,將Java語言的對象序列化到二進制編碼中,然后通過Web Service傳輸二進制字編碼,在網絡的另一端將二進制編碼再解碼為Java對象,這種方法成功地解決了Web Service參數映射問題。
4.基于網格的商務智能體系結構
基于網格的商務智能體系結構設計為三層,底層為數據模型層,中間為控制服務層,上層為客戶端視圖層。數據模型層是系統的數據建模底層,以數據庫軟件為基礎構造數據倉庫、聯機在線分析處理、數據挖掘;控制服務層把要解決的業務邏輯封裝為若干個子系統,并基于Web Services技術構建網格服務平臺,供客戶端調用數據挖掘服務;客戶端視圖層提供C/S架構客戶端視圖、B/S架構網絡瀏覽器視圖、移動終端瀏覽視圖以及第三方擴展軟件的視圖。架構的系統具有的功能組件如圖2所示。
圖2 基于網格的商務智能系統功能組件圖
5.結束語
本文介紹了基于數據網格的商務智能應用。結合網格技術、商務智能、數據倉庫、數據挖掘等技術,提出了基于數據網格的商務智能應用的體系結構。這種結構將數據網格服務與商務智能系統緊密結合起來,有效地解決了商務智能應用程序對分布式異構數據庫進行統一操作的問題,極大地擴展了數據網格的應用領域和商務智能的有效性。隨著數據網格和商務智能技術的不斷提高,基于數據網格的商務智能將會得到廣泛的應用。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:基于網格的商務智能研究
本文網址:http://www.guhuozai8.cn/html/consultation/1081946287.html