近年來,隨著信息系統數量的快速增長,傳統基于B/S或C/S結構的信息系統數據采集分析系統已經遠遠不能滿足眾多數據同時查詢、存取海量檢測信息,以及快速從中對系統數據采集分析的基本訴求。而云計算作為多種計算機與網絡技術發展融合的產物,具有高效、廉價、容錯、易部署和擴展等特點,能夠從根本上解決傳統車輛檢測系統面臨的諸多問題。本文將從云計算三個層次的服務模式出發,采用Hadoop開源云計算平臺以及并行數據流系綜分類挖掘算法對原有系統進行改造,設計出信息系統數據采集分析系統,為云計算系統的部署和實施提供了實例參考。
1、相關知識
云計算是分布式計算、并行計算和網格計算的發展,是這些計算機科學技術的商業表現形式。它將計算任務分布在大量計算機構成的資源池上,使各種應用系統能夠根據需要獲取計算能力、存儲空間和各種軟件服到引。根據云計算提供服務的層次可將它的服務模式分為3種即IaaS基礎設施即服務、PaaS平臺即服務、SaaS軟件即服務。
Hadoop云計算框架是由Apache基金會設計的開源分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下開發分布式程序,這樣就可以充分利用集群的能力進行高速運算和存儲,從技術層面上,Hadoop由兩項關鍵服務構成:采用Hadoop分布式文件系統(HDFS)的可靠數據存儲服務,以及利用一種叫做MapReduce技術的高性能并行數據處理服務。
2、系統的研究與設計
云計算系統提供服務是以IaaS、Paas、SaaS3種模式進行,本文的設計思路是以Hadoop平臺提供的HDFS、MapReduce分別對應laas、PaaS,并且由SOA體系架構中的web服務技術提供SaaS服務。系統總體架構如圖1所示:
圖 1 云計算檢測系統總體設計
2.1 IaaS
經過現場勘察,現有的信息系統數據采集分析系統是基于B/S結構的,利用一臺運行Oracle數據庫的IBM P6-550服務器作為數據中心,一臺DELL PowerEdge SCl425服務器用作數據的備份和系統繁忙時分流,其它集群服務器提供決策支持、實時視頻監控、安全接入驗證等服務。這種系統架構的弊端在于:當檢測高峰時段來臨,大量信息系統產生的數據需要同時讀寫、查詢與傳輸,這對于數據中心和專用網絡的壓力顯然是巨大的,且極易產生系統癱瘓、讀寫錯誤等事故。
為滿足系統要求,本文選取HDFS作為底層基礎設施服務,利用其高容錯性、快速訪問及傳輸數據的特點,將其部署在電網信息中心服務器集群之上,具體方案參照HDFS指南如圖2所示:
圖 2 HDFS部署示意圖
我們選取集群當中一臺中心服務器作為NameNode節點,負責保存以及管理元數據,執行文件系統的namespace操作和客戶端對數據的訪問。其余集群服務器作為DataNode節點,僅需要管理各自節點上的block數據塊并等待NameNode節點的指示完成打開、關閉、復制、刪除等等數據操作即可。這樣做不但降低了數據中心的負擔,也可以更加合理的利用集群中的剩余計算及存儲資源,從而提高了數據處理效率,增強r數據的容錯性。
2.2 PaaS
云計算系統最核心的技術是并行汁算,為了能夠讓用戶更方便地獲取云服務,Hadoop云計算平臺采用了開源的Google MapReduce計算模型提供PaaS服務。
由于原有的信息系統很大程度上依賴于人工從檢測數據上判斷系統是否符合標準,再由工作人員將結果錄入系統傳回中心服務器數據庫。這樣不但浪費了大量的人力物力,而且檢測結果的準確性和可信性也會隨之大打折扣。
通過分析,系統信息具有海量、快速到達等數據流特征,采用數據流分類挖掘算法自動將被測信息系統分為合格與不合格兩類是可行的。
分類器系綜算法采用訓練一系列分類器,根據其在待分類數據上的分類準確率作為權值,并保留權值最高的n個分類器,最終加權投票做出決策。Wang等人在文獻中不但證明了系綜分類在提高分類精度方面的有效性,還同時提出的基于動態權重的數據流系綜分類算法,但執行效率遠不能滿足多檢測線并行檢測的實際問題。為此,引入Hadoop云計算平臺中的MapReduce編程模型并行優化基于權重的數據流系綜分類算法,自動完成輔助決策任務。
算法的執行流程為:
(1)將采集的系統信息數據流采樣作為訓練數據并劃分成規模相當的n個數據塊。
(2)并行在這n個塊上訓練出n個基分類器,對每個塊做格式化操作解析出<keyl,valuel>對,在此處<keyl,valuel>等價于<Block,Classifier>,其中Block為塊號,Classifier為基礎分類器。
(3)啟用Master分配進程將n個訓練數據塊分別發送至分配了Map任務的n個結點,并將新到的待分類數據塊放入公共資源池。每個分配了Map任務的節點收到<Block,Classifier>后,并行計算各自的分類器在待分類數據塊上的MSEr(出錯門限值)、MSEt(均方誤差)以及權值w=MSEr-MSE,,同時產生中問鍵值對<Classifier,w>(注:Classifier為分類器名稱,w為權值)
(4)最后由分配了Reduce任務的節點接收步驟(3)中產生的<Classifier,w>鍵值對,并調用加權投票算法得到用于分類的最優分類器。
由上述的算法分析可知,算法采用多數據塊并行產生分類器,故算法的時間復雜度僅為原算法的l/n,大大縮短了自動決策的處理時間,提升了效率。
雖然算法對于信息系統數據流的分類精度很高,但實際應用中需要輔助決策能夠達到極小的分類出錯率,故本文設計了單獨的數據重分類進程。當數據流存入數據中心數據庫時,利用靜態數據分類挖掘算法離線多遍掃描數據來驗證決策的正確性。
2.3 SaaS
云計算作為新一代計算技術,它的服務交付模式也與以往有很大不同。在SaaS這一層次,系統需要按照用戶需求提供相應的服務模式,也就是說將服務遍布于云內形成服務集群。而由web服務構建的SOA服務體系架構,有利于整合技術平臺、統一技術標準,符合SaaS服務模式的內在邏輯和基本訴求。本文設計的SaaS服務層次是以web服務作為基本技術,采用SOAP協議在web服務之間傳遞XML格式的檢測信息,同時由wsdl描述web服務的接口,并提供服務之間的調用方法。構建SOA服務體系架構示意圖如圖3所示:
圖 3 SOA服務體系架構
參照上圖,流程表述如下:
(1)無論是監查主機還是監測主機都要先將經過MD5加密認證的用戶名以及密碼以SOAP協議封裝,并通過總線云提供的WSDL接口找到身份安全認證服務WSDL接口將消息傳遞進去。身份安全認證服務解封裝后根據用戶類別賦予用戶相應的權限,許可訪問云系統。
(2)當監測主機接收到設備傳同的數據后,將監測數據和存儲控制命令以xml格式存儲并封裝在SOAP協議中,通過云服務總線wsdl接口傳送到數據操作服務wsdl接口,并由數據操作服務將消息解封裝并提取xml中的數據進行存儲操作。
(3)監測主機發出以SOAP協議封裝的自動輔助決策請求,通過云服務總線的中轉將消息轉發給輔助決策服務。接到請求后,輔助決策服務通過云服務總線向數據操作服務發送提取監測數據操作請求(SOAP協議封裝的消息),數據操作服務提供相應服務并以xml格式化數據傳給輔助決策服務,最后由輔助決策服務將系綜分類結果傳回監測主機。
(4)監測主機接收到所有預打印數據后,將數據xml格式化通過云服務總線傳給自助打印服務,自助打印服務提取數據,經過表格標準化、餃驗、備份,添加打印控制命令,傳回監測主機實施打印結果.
(5)監察主機可以通過云服務總線監察整個云服務的行個方面,并擁有修改、增添、終止個服務的權限。
3、實例應用與分析
為了驗汪設計方案的實際應用效果,本文以某電網信息數據采集分析系統為例,將數據分析采集服務平穩移植到云計算平臺卜,并對云服務檢測系統進行了實地部署和分析。
3.1系統開發軟硬件配置
本文采用MyEclipse8.0作為開發平臺,利用其自帶的Xfire構建web服務,在WebSphere Application Server 5.0上發布服務形成云服務總線。云計算平臺運行近期比較穩定的Hadoop 0.20.0版本,用MapReduce編程模型改進MOA中提供的基于權重的數據流系綜分類算法。底層運行Oracle數據庫提供數據服務。
硬件方面原系統采用10臺服務器集群的方案,其中中心服務器采用IBM P6-550基本配置為:2個3.5GHZPOWER6處理器、8G DDR2內存以及2個146G SCSI接口硬盤,其余為戴爾、聯想等品牌服務器。
4、總結
本文提出了基于云計算理論的信息系統數據采集分析系統,能夠將云計算和自動化檢測技術相結合,為自動化檢測平臺提供高效、準確、安全、靈活的解決方案,為云計算平臺的研究提供了現實依據。目前該采集分析系統已成功運行于電網系統信息采集工作中并得到用戶的認可,旺明其具有極高的推廣應用價值。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:基于云計算的數據采集分析系統
本文網址:http://www.guhuozai8.cn/html/consultation/10839715897.html