分析
設計下一代數據倉庫平臺,需要確定整個數據元素集的分析處理需求并對其劃分類別。因為我們可以在數據發現層次上創建分析,雖然這個層次主要受到業務消費者的關注和驅動,與企業應用的實際情況不符合,但是我們一樣可以在從數據倉庫獲得數據之后再創建分析。
圖1顯示了下一代數據倉庫平臺的分析處理過程。數據集成層是關鍵架構集成層,是我語義、報表和分析技術的組合,它基于語義知識框架,是下一代分析和商業智能的基礎。本章后面將介紹這個框架。
圖1 下一代數據倉庫平臺的分析處理過程
數據架構的最終確定是最耗費時間的任務,但是一旦完成,它就可以為物理部署提供堅實的基礎。物理部署將使用到前面介紹的技術,其中包括大數據和RDBMS系統。
物理組件的集成與架構
下一代數據倉庫將部署在異質基礎架構和能夠把傳統的結構化數據和大數據一起整合到一個可擴展運行環境的架構上。有幾種方法可以部署物理架構,但是每一種方法都有各自的優點和不足。
下一代數據倉庫平臺的物理架構將會面對的主要挑戰包括數據加載、可用性、數據容量、存儲性能、可擴展性、數據的多樣變化查詢要求、運營成本和環境維護。下面將逐一介紹這些挑戰。
數據加載
由于沒有明確的格式、元數據或模式,大數據的加載過程只是直接查詢數據并將它存儲為文件。如果要處理系統的數據源,同時又要處理超大數據或微批處理數據,那么這個任務可能會非常復雜。在這種情況中,可以用一個經過配置和優化的設備來處理這些極端情況,而不要用某一個專業部署。這種方法的缺點是需要定制架構配置,但是它仍然是可管理的。
平臺數據的持續處理可能會在一段時間里產生資源爭奪問題。這種情況常見于大文檔、視頻或圖像。如果這個需求對架構來說很重要,那么就適合使用一個軟設備,這樣在配置和安裝過程就可以避免這個問題。
大型環境的MapReduce配置和優化可能很有難度,但是設備架構會提供一些參考架構安裝步驟,幫助我們簡化這個過程。
數據可用性
數據可用性一直是所有涉及處理和轉換最終用戶數據的系統的難題,大數據也不例外。Hadoop或NoSQL的優點是能夠降低這個風險,同時使數據在獲取之后馬上就可用于分析。不足是需要快速加載數據,因為沒有任何預轉換步驟。
數據可用性取決于SerDe或Avro層次的元數據特殊性。如果在獲取數據時對它們執行了足夠詳細的分類,那么它們就可以馬上用于分析。
由于大數據層次的數據不存在更新,所以處理包含更新的新數據將產生重復數據,我們必須處理這些重復數據,才能減小它們對于可用性的影響。
數據容量
數據的內在特性決定了大數據容量很容易失去控制。在每個數據獲取周期中都一定要特別注意數據的增長。
數據停留需求各不相同,它主要取決于數據的性質、新近程度及其與業務的關系:
合規性需求:Safe Harbor、SOX、HIPAA、GLBA和PCI法規可能會影響數據安全性和存儲。如果計劃要使用這些數據類型,那么一定正確規劃。
法律授權:有一些事務數據集不能在線存儲,法院要求使用這些數據來發現集體訴訟的意圖。大數據基礎架構可以作為這種數據類型的存儲引擎,但是數據授權一定要符合一些需求和額外的安全要求。這種數據容量可能會影響整體性能,而且如果在大數據平臺上處理這些數據集,那么設備配置可以給管理員提供一些工具和方法,幫助他們將基礎架構劃分到不同的區域,為數據標記不同的區域標簽,從而減小對于風險和性能的影響。
數據探索和挖掘是一個非常普通的活動,它是在各個組織中實現大數據抓取的一個動因,它也會在數據處理之后產生大規模數據集。這些數據集需要保存在大數據系統,然后定期清理和刪除中間數據集。這是各種組織經常忽略的一個領域,而且可能在一段時間之后對性能產生嚴重影響。
存儲性能
在創建大數據系統時,磁盤性能是一個重要考慮因素,設備模型可以更多地關注存儲類型和分層架構。對于存儲基礎架構的長期規劃和增長管理而言,它可以作為一個起步工具。
如果在大數據處理中計劃組合使用內存、SSD和傳統存儲架構,那么不同層次數據的維持和交換都會花費大量的處理時間和處理周期。我們需要特別注意這個領域,設備架構專門為這種復雜存儲需求提供了一種參考。
運營成本
計算一個數據倉庫及其大數據平臺的運營開支是一項復雜的任務,運營成本包含基礎架構的初始采購費用、實現架構的勞力成本及持續維護所需要的基礎架構和勞力成本,包括獲取外部咨詢和聘請專家的費用。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:運用大數據技術集成數據倉庫架構
本文網址:http://www.guhuozai8.cn/html/consultation/10839712049.html