在一臺物理服務器之上構建虛擬化抽象層,采用虛擬機監視器或虛擬化平臺2種實現方式,負責服務器的抽象、資源的調度與管理,將項目管理與綜合管理系統分別運行在2個獨立的虛擬機之上,從而提高服務器的資源利用率。在虛擬機的運行過程中,采用實時遷移技術將虛擬機的完整運行狀態快速、平滑地遷移到新的服務器上,用于故障服務器的維護,并通過虛擬機動態調度方法,對資源進一步整合,實現資源的動態分配與調度,從而進一步提高服務器的資源利用率。
在提高服務器資源利用率的同時,應解決可靠性和性能開銷問題。解決可靠性的有效方法是采用隔離機制,在服務器之上存在多個虛擬機實例情況下,應確保虛擬機之間的完全隔離,即一個虛擬機崩潰不會影響到其他的虛擬機,能及時從故障中恢復。目前,電力數據中心的業務應用系統普遍采用企業級J2EE 應用服務器,通過國際商用機器公司(IBM)和VMware對Web Sphere和VMware ESX的性能測試可以看出,服務器虛擬化會付出系統開銷,但性能下降的幅度已經變得可以接受。
2.3 電力數據中心云計算平臺
2.3.1 Hadoop的技術架構及其特征
電力數據中心云計算平臺是一個面向智能電網業務應用的私有云。以Google與Amazon為代表的商用型云計算技術主要應用于各自企業的搜索引擎與電子商務等典型互聯網應用,無法直接應用于電力數據中心云計算平臺。
Hadoop作為一個開源的云計算框架,其核心包括Hadoop分布式文件系統、分布式數據處理和分布式結構化數據表,可以滿足電力數據中心的需要,保證其高可靠性、高可用性與可伸縮性,主要體現在以下方面。
1)Hadoop分布式文件系統具備較為完善的冗余備份和故障恢復機制,可以部署在廉價硬件之上,能夠高容錯、高可靠存儲智能電網海量數據。
2)Hadoop分布式文件系統將支持負載均衡策略,保證可伸縮性。若某個節點的空閑空間下降到一定程度,會自動將數據搬移到其他節點。這樣,在負載變大的時候可提高自身的能力以適應負載。
3)分布式數據處理和分布式結構化數據表可支持結構化存儲,屏蔽底層分布式編程,降低開發難度,保證對智能電網大規模數據集的高吞吐量訪問。
4)Hadoop是Google云計算平臺的開源實現,已經被中國移動、雅虎等企業作為各自海量數據存儲與處理平臺的基本技術。開源化便于針對智能電網業務應用進行研究與二次開發,以確保自主知識產權。
2.3.2 基于Hadoop的電力數據中心云計算平臺
電力數據中心建設的最終目的是為各個業務系統、數據挖掘與輔助支持等應用提供數據存儲、管理與高性能計算環境。為了滿足智能電網對電力數據中心的更高需求,設計了基于Hadoop的電力數據中心云計算平臺,如圖4所示。
圖4 基于Hadoop的電力數據中心云計算平臺
整個平臺采用主從架構,從電力數據中心的虛擬化服務器集群中選擇一個服務器作為主節點,其他節點作為從節點。NameNode部署在主節點,負責管理分布式文件系統的元數據,執行文件的打開、關閉與重命名等命名空間操作,并協調客戶端對文件的訪問。DataNode負責處理客戶端對數據塊的創建、復制、刪除及讀寫請求。每個文件被分成默認大小為64 MB 的數據塊,冗余存儲在從節點的DataNode,例如,當復制因子為3時,一個數據塊副本存放在本地機架的DataNode中,另一個副本存放在同一個機架的另一個DataNode中,最后一個副本存放在其他機架的DataNode中。這種方法實現簡單,通過冗余備份和故障恢復機制,可以確保電力數據中心對大規模智能電網信息的可靠存儲。
采用MapReduce作為處理電力數據中海量數據的并行編程模型和計算框架。對于大規模數據集的操作,采用任務分解與結果匯總的方法。例如,將計算狀態監測信息的最大值、最小值、平均值、同比與環比等數據進行二次加工操作,分發給JobTracker(部署在主節點)管理下的各個TaskTracker(部署在從節點)共同完成,然后整合各個TaskTracker的中間結果,獲得最終的計算結果。另外,采用建立在MapReduce編程模型之上的高級數據流語言Pig,用于簡化MapReduce任務的開發過程。上述方法將計算節點TaskTracker與存儲節點DataNode部署在同一服務器,能夠避免網絡帶寬瓶頸,有效減少傳統分布式計算中數據在網絡中的傳輸,為電力數據中心提供高性能的分布式計算環境。
數據庫與數據倉庫是電力數據中心實現數據挖掘與輔助決策的基礎。采用HBase作為電力數據中心所要求的高可靠、高性能、實時讀寫的分布式數據庫系統,將粗粒度、結構化的數據按列族存儲在一張巨大的稀疏表中,按照行鍵將表劃分成多個Region,分布在從節點的RegionServer之上,并將Region以文件的形式存儲在分布式文件系統中。RegionServer負責客戶端對Region的讀寫請求與操作,而主節點的MasterServer負責Region的分配,協調RegionServer的負載并進行狀態的維護。另外,采用Hive作為電力數據中心的數據倉庫平臺,對分布式文件系統上的智能電網業務數據進行ETL,構建數據倉庫,采用類似于結構化查詢語言(SQL)的HiveQL實現對大規模數據集的查詢與分析。分布式數據分析處理與傳統SQL相結合有利于傳統系統向新平臺的遷移。
3 現有電力數據中心向云計算的遷移策略
3.1 遷移的目的
電力數據中心的設計與建設是一項龐大的系統工程。現有的數據中心由國家電網公司統一規劃建設,但各地的信息化水平、業務系統應用與成熟程度不同,使得各個網省公司數據中心建設有其自身的特點,部分電力數據中心已經引入了虛擬化技術,初步具備了云計算能力,而多數電力數據中心仍然停留在傳統數據中心的水平,遠未達到新一代數據中心對智能電網海量數據存儲與高效計算、高可靠性、高可用性與可伸縮性的要求。
基于云計算的新一代電力數據中心是未來的發展方向。考慮到電力數據中心已經初步建立,智能電網仍處于初級建設階段,應確保現有電力數據中心向新一代云計算數據中心的分階段平穩過渡,一方面保障現有電力數據中心的正常運行,另一方面逐步適應智能電網發展的需要。
3.2 遷移策略及需要解決的難點問題
給出現有電力數據中心向基于云計算的新一代電力數據中心的分階段遷移策略,以確保平穩過渡。
1)逐步將公司總部以及各個網省公司的電力數據中心升級為云節點。將數據中心的基礎設施虛擬化,提升服務的可用性與彈性可擴展性,升級或改造為面向云計算的數據中心,即云節點。
2)將各個云節點連接成電力企業內部的私有云。各個電力數據中心部署為高可用、可擴展的云節點后,將各個云節點連接在一起,構成一個多中心的私有云,如圖5所示。
圖5 電力數據中心私有云
在基于云計算的新一代電力數據中心的建設和遷移過程中,面臨著如下需要重點解決的問題。
1)在電力數據中心升級為云節點的過程中,需要重點解決基礎設施虛擬化的問題。目前存在多種虛擬化解決方案,例如IBM 的zVM 與PowerVM,VMware的VMware ESX Server,微軟的Hyper-V等。在選擇解決方案時應充分考慮與現有電力數據中心的兼容性,減少遷移成本。
2)在電力數據中心私有云中,各個網省公司數據中心與公司總部數據中心之間需要傳送大量的業務數據,可以在各個云節點設置負載均衡設備,構建電力系統廣域網的加速通道,以解決數據傳輸瓶頸問題。
3)安全性是云計算在電力數據中心應用過程中需要解決的一個重要問題。基于云計算的新一代電力數據中心是在電力企業內部建立的私有云,可自我管理與維護,業務數據通過電力系統廣域專網傳輸。電力數據中心在電力安全分區體系中屬于管理信息大區(安全區Ⅲ),可以設置電力專用的單向安全隔離裝置,在物理層面上實現與生產控制大區及外部公共信息網的安全隔離。
4)在電力數據中心私有云之上,統一部署基于Hadoop的云計算平臺。在Hadoop技術的基礎上自主研發云計算平臺,將是建設新一代電力數據中心的關鍵,相關研究工作正在進一步開展,研究成果將另文討論。
4 結語
本文通過研究服務器虛擬化、實時遷移、Hadoop等技術問題,給出了電力企業云計算數據中心的整體架構,并設計了基于Hadoop的電力數據中心云計算平臺,以符合新一代數據中心的發展趨勢,滿足智能電網的業務需要。云計算作為新興技術,其體系結構、虛擬化、數據存儲及資源管理等問題仍然有待進一步研究。后續擬針對智能電網的具體業務應用與信息服務,研究作業的分配策略與調度算法,并采用云仿真工具CloudSim 進行性能比較和優化。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:基于云計算的電力數據中心基礎架構及其關鍵技術(下)
本文網址:http://www.guhuozai8.cn/html/consultation/1083976751.html