每一個數據倉庫有一個架構。這架構要么是即時的或計劃過的;或隱式的或形成文件的。不幸的是,許多數據倉庫開發時并沒有一個明確的架構,這極大的限制了它的靈活性。在沒有架構的情況下,主題區域就無法契合在一起,它們之間的連接變得無目的,并且使整個數據倉庫的管理和變更都難于進行。此外,雖然它可能看起來不重要,數據倉庫的架構已成為選擇工具時的框架。
讓我們把開發一個數據倉庫與建造一個真正的房屋進行比較。你如何建造一幢300萬美元的大廈呢?更不用說建造一間10萬美元的房子了。你要有藍圖、圖紙、技術規范、和在多個層次細節上顯示這個房子將如何進行建造的標準。當然,針對房子的各種子系統要有不同版本的藍圖,如管道工程、電氣、暖通空調系統(HVAC)、通信、和空間。針對所有的家用的設備也有相應的標準,包括插頭、燈具、衛生潔具、門的尺寸等。
對于數據倉庫,架構是對數據倉庫的元素和服務的一種描述,用具體細節說明各種組件如何組合在一起,和隨著時間的推移系統將如何地發展。就像這房子的比喻,數據倉庫架構是一套文件、計劃、模型、圖紙和規范,針對每個關鍵的組件區域有獨立的分區,并且足夠詳細到讓專業技術人員可以實施它們。
這并是一個需求文件。需求文件說明架構需要做些什么。數據倉庫架構也不是一個項目計劃或任務清單;它說明數據倉庫是什么,而不是怎么去做或為什么去做。
一個數據倉庫的開發也并不容易,因為相對于房屋的5000年建筑史,我們發展數據倉庫系統只有20年的時間。因此,我們的標準還不多,工具和技術正在快速發展,關于我們已經擁有數據倉庫系統的檔案還很少,而且數據倉庫的術語還有很大的出入。
所以,雖然開發一個架構是困難的,但它也是可能的,并且又是至關重要的。首先,最主要的是,架構應該受業務的驅動。如果你的要求是每夜進行更新,這一要求就該包含在架構內,而你必須弄清實現你目標的技術需求。下面是一些業務需求的例子,和針對每種需求的綜合技術考量:
●每夜更新――充足的數據準備能力
●全球可用性—平行或分布式服務器
●顧客層次分析――大型服務器
●新數據源――帶有支持元數據的靈活工具
●可靠性――工作的控制功能
關鍵組件區域
一個完整的數據倉庫架構包括數據和技術因素。架構可以被分為三個主要區域。首先,是基于業務流程的數據架構。其次是基礎設施,包括硬件、網絡、操作系統和電腦。最后,是技術區域,包含用戶所需的決策制定的技術以及它們的支持結構。對這些區域將在下文分小節進行詳述。
●數據架構
如上所述,在整體數據倉庫架構中的數據架構部分是受業務流程所驅動的。例如,在一個制造環境里,數據模型可能包括訂單、裝運和帳單。每一個區域都依據一套不同的維度。但是在數據模型中對相交維度的定義必須相同。所以相同數據項應該有同樣的結構和內容,并有一個創建和維護的單一流程。
當你完成一個數據倉庫架構并呈現數據給你的用戶,就要做出對工具的選擇,但隨著需求的設定, 選擇就會變窄。例如,產品的功能開始融合,就像多維聯機分析處理(M OLAP)和關系型聯機分析處理(ROLAP)。如果停留在你建造的立方體,多維聯機分析處理(MOLAP)便可以了。它速度快又允許靈活的查詢――在立方體的范圍內。它的缺點是規模(整體上和一個維度內)、設計的局限性(受立方體結構所限)、需要一個專有的數據庫。關系型聯機分析處理(ROLAP)是多維聯機分析處理(MOLAP)的一種替代方案,它克服了多維聯機分析處理(MOLAP)的這些缺點。 通常,混合聯機處理(HOLAP)更受歡迎,它允許一部分數據存儲在維聯機分析處理(MOLAP)中,另一部分數據存儲在關系型聯機分析處理(ROLAP)中,折衷了各自的長處。
●基礎設施架構
對硬件及數據庫選擇的問題在于其大小、擴展性和靈活性。在大約80%的數據倉庫項目中,這并不困難,大多數企業有足夠的力量來應對他們的需要。
在網絡、檢查數據來源、數據倉庫準備區、以及它們之間的任何設施方面,要確保有足夠的帶寬用于數據的移動。
●技術架構
技術架構被元數據目錄所驅動。一切都應該受元數據所驅動。服務應該依從表格所需的參數,而不是它們的硬編碼。技術架構的一個重要組件是 ETL(提取、轉換和加載)流程,它涵蓋了五個主要區域:
●提取-數據來自多種數據源并且種類繁多。在這個區域如果有數據的應用時必須考慮對它的壓縮和加密處理。
●轉換-數據轉換包括代理主鍵的管理、整合、去標準化、清洗、轉換、合并和審計。
●加載-加載通常是利用加載最優化和對整個加載周期的支持對多種目標進行加載。
●安全-管理員訪問和數據加密的策略。
●元件控制--它包括元件的定義、元件安排(時間和事件)、監控、登錄、異常處理、錯誤處理和通知。
數據準備區需要能夠從多種數據源提取數據,如MVS、ORACLE、VM和其它,所以當你選擇產品時要具體。它必須將數據進行壓縮和加密、轉化、加載(可能對多個目標)和安全處理。此外,數據準備區的活動要能夠自動化進行。不同的供應商的產品做不同的事情,所以大多數企業將需要使用多種產品。
一個監控數據倉庫使用的系統對查詢的采集、使用的跟蹤是有價值的,而且也有助于性能的調整。性能優化包括通過“管理者”工具進行的成本估算,而且應包括即時查詢的時間表。有工具能夠提供查詢管理服務。可使用工具來針對這些和其它相關任務, 如對前臺的基于服務器的查詢管理和來自于多種數據源的數據。也有工具可用于報表、連通性和基礎設施管理。最后,數據訪問塊應包括報表的服務(如發布和訂閱),還應包括報表庫,調度程序和分布管理員。
關于元數據
在數據倉庫流程中數據的創建和管理要遵循以下的“步驟”:
●數據倉庫模型
●數據源的定義
●表的定義
●數據源到目標的映射
●映射和轉換信息
●物理信息(表格空間,等)
●提取數據
●轉移數據
●加載統計
●業務描述
●查詢請求
●數據本身
●查詢統計
為顯示元數據的重要性,上述的步驟列表中只有三步包括了“真正”的數據-7、8和12。其他的一切都是元數據,而且整個數據倉庫流程都依賴于它。元數據目錄的專業技術要素包括:
●業務規則--包括定義、推導、相關項目、驗證、和層次結構信息(版本、日期等。)
●轉移/轉換信息--源/目的地的信息,以及DDL(數據類型、名稱等等。)
●操作信息--數據加載的工作時間表、依存性、通知和信息的可靠性 (比如主機的重定向和加載平衡)。
●特定工具的信息--圖形顯示信息和特殊功能的支持。
●安全規則--認證和授權。
建立架構
在開發技術架構模型前,要先起草一份架構需求的文件。然后將每一項業務需求計劃包含到它的架構中。根據架構的區域對這些內容進行分組(遠程訪問、數據準備、數據訪問工具等)。了解它如何于其它區域相適應。采集區域的定義及其內容。最后提煉和形成模型的文件。
我們認識到開發一個數據倉庫架構是困難的,因此要有一個周密細致的規劃。但ZACHMAN框架又超出了大多數企業對數據倉庫的需要,所以建議使用一個合理的折衷方案,它由四層流程所組成:業務需求、技術架構、標準和工具。
業務需求本質上驅動著架構,所以要對業務經理、分析師、高級用戶進行訪談。從你的訪談中尋找主要的業務問題,以及企業戰略、發展方向、挫折、業務流程、時間、可用性、業績預期的指標。將它們一一妥善歸檔。
從IT的角度來看,跟現有的數據倉庫/決策支持系統(DSS)的支持人員、聯機分析處理(OLTP)應用組成員、數據庫管理員們(DBA);以及網絡、操作系統和桌面支持人員進行討論。也要與架構師和專業規劃人員進行探討。你應該從這些討論中得知他們從IT的觀點考慮數據倉庫的意見。從中了解是否有現存的構架文件、IT原則、標準文件、企業數據中心等。
關于數據倉庫并沒有太多現存的標準,但對于許多組件來說是有標準的。下面是一些需要牢記的標準:
●中間設備--開放數據庫連接(ODBC)、對象鏈接與嵌入(OLE)、對象鏈接與嵌入數據庫(OLE DB)、數據通信設備(DCE)、對象請求代理(ORB)和數據庫編程(JDBC)
●數據庫連接--ODBC, JDBC, OLE DB, 和其它。
●數據管理--ANSI SQL 和文件傳輸協議(FTP)
●網絡訪問--數據通信設備(DCE)、域名服務器(DNS)、和 輕量目標訪問協議(LDAP)
無論它們支持的是哪種標準,主流的數據倉庫工具都受元數據所驅動。然而,它們通常并不互相共享元數據而且在開放性上也所有不同。所以,要仔細研究和購買工具。架構師是你選擇適當工具的向導。
一個數據倉庫架構需要具體到怎樣的程度呢?這個問題要問的是:它有足夠的信息可以讓一個有能力的團隊來建立一個滿足業務需求的數據倉庫嗎?至于它要花多長時間,隨著更多的人加入到它的開發中來(即:它變成了“復雜的技術策略”)和生成的系統需要變得更復雜(即"復雜的功能”),架構的完成會呈指數倍的發展。
像數據倉庫中幾乎所有的事情一樣,一個迭代進程是最好的。你不能一次做完所有的事情因為它太大了, 而且業務不能等。同時,數據倉庫的市場還沒有完備。所以從流程中影響大、高價值部分開始,然后,利用你的成功去帶動另外的階段。
總結:
綜上所述,建立一個數據倉庫架構的好處如下:
●提供了一個組織結構的框架--架構對什么是單獨的組件、如何將它們組裝在一起、誰擁有什么部分以及優先次序的問題劃出了界線。
●提高了靈活性和維護性--讓你能快速加入新的數據來源,接口標準允許即插即用,模型和元數據允許影響分析和單點的變化。
●更快的開發和再利用--數據倉庫開發者更能夠快速了解數據倉庫流程、數據庫內容和業務規則。
●管理和通信的工具--定義未來方向和項目范圍, 確定職務和職責、對供應商傳達需求。
●協調多項任務同時進行——多種、相對獨立的工作有機會成功地集合。
我們建議公司對準業務需求而又要務實一些。時刻跟上數據倉庫產業的進步是很重要的。最后,請記住架構總是存在的:或隱性或具體的,或無計劃或計劃內的。經驗證明,有一個計劃內和具體的架構會使數據倉庫與 商業智能項目有更多的成功機會。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:數據倉庫架構的建立
本文網址:http://www.guhuozai8.cn/html/consultation/10839310542.html