1、緒論
云計算( Cloud Computing)是網格計算(Grid Computing)、分布式計算〔Disaibuted Computing)、并行計算(Parallel Computing) ,效用計算(Utility Computing)、網絡存儲(Network Storage Tcchnologies),虛擬化(Virtulization ) ,負載均衡(Load Balance )等傳統計算機技術和網絡技術發展融合的產物。它旨在通過網絡把多個成本相對較低的計算實體整合成一個具有強大計算能力的完美系統.并借助SaaS,PaaS.IaaS.MSP等先進的商業模式把這強大的計算能力分布到終端用戶手中。云計算的一個核心理念就是通過不斷提高“云”的處理能力,進而減少用戶終端的處理負擔,最終使用戶終端簡化成一個單純的編人輸出設備.并能按需享受“云襯的強大計算處理能力。
云計算的核心思想,是將大最用網絡連接的計算資源統一管理和調度.構成一個計算資源池向用戶按需服務。
2、云計算的核心技術
云計算系統運用了許多技術,其中以編程模型、數據管理技術、數據存儲技術、虛擬化技術、云計算平臺管理技術最為關鍵。
(1)編程模型
MapReduce是Google開發的java,Python,C++編程模型,它是一種簡化的分布式編程模型和高效的任務調度模型,用于大規模數據集(大于1T8)的并行運算。嚴格的編程模型使云計算環境下的編程十分簡單。MapAeduce模式的思想是將要執行的問題分解成}P(映射)和Reduce(化簡)的方式,先通過Map程序將數據切割成不相關的區塊,分配(調度)給大量計算機處理,達到分布式運算的效果,再通過Reduce程序將結果匯整輸出。
(2)海量數據分布存儲技術
云計算系統由大量服務器組成,同時為大量用戶服務,因此云計算系統采用分布式存儲的方式存儲數據,用冗余存儲的方式保證數據的可靠性。云計算系統中廣泛使用的數據存儲系統是Google的GFS和Hadoop團隊開發的GFS的開源實現HDFS。 GFS即Google文件系統(Google File System),是一個可擴展的分布式文件系統,用于大型的、分布式的、對大量數據進行訪問的應用。GFS的設計思想不同于傳統的文件系統,是針對大規模數據處理和Google應用特性而設計的。它運行于廉價的普通硬件上,但可以提供容錯功能。它可以給大量的用戶提供總體性能較高的服務。一個GFS集群由一個主服務器(~)和大量的塊服務器(chunksecvcr)構成,并被許多客戶(Client)訪問。主服務器存儲文件系統所有的元數據,包括名字空間、訪問控制信息、從文件到塊的映射以及塊的當前位置。它也控制系統范圍的活動,如塊租約(lease)管理,孤兒塊的垃圾收集,塊服務器間的塊遷移。主服務器定期通過HeartBeat消息與每一個塊服務器通信.給塊服務器傳遞指令并收集它的狀態。GFS中的文件被切分為64MB的塊并以冗余存儲,每份數據在系統中保存3個以上備份。客戶與主服務器的交換只限于對元數據的操作.所有數據方面的通信都直接和塊服務器聯系,這大大提高了系統的效率,防止主服務器負載過重。
(3)海量數據管理技術
云計算需要對分布的、海量的數據進行處理、分析,因此,數據管理技術必需能夠高效地管理大量的數據。云計算系統中的數據管理技術主要是Google的BT(BigTable)數據管理技術和Hadoop團隊開發的開源數據管理模塊Hbase。BT是建立在 GFS, Scheduler, Lock Service。和MapReduce之上的一個大型的分布式數據庫,與傳統的關系數據庫不同,它把所有數據都作為對象來處理,形成一個巨大的表格,用來分布存儲大規模結構化數據。Google的很多項目使用BT來存儲數據,包括網頁查詢,Google earth和Google金融。這些應用程序對BT的要求各不相同:數據大小(從URL到網頁到衛星圖象)不同,反應速度不同(從后端的大批處理到實時數據服務)。對于不同的要求,BT都成功地提供了靈活高效的服務。
(4)虛擬化技術
通過虛擬化技術可實現軟件應用與底層硬件相隔離,它包括將單個資源劃分成多個虛擬資源的裂分模式,也包括將多個資源整合成一個虛擬資源的聚合模式。虛擬化技術根據對象可分成存儲虛擬化、計算虛擬化、網絡虛擬化等.計算虛擬化又分為系統級虛擬化、應用級虛擬化和桌面虛擬化。
(5)云計算平臺管理技術
云計算資源規模龐大,服務器數量眾多并分布在不同的地點,同時運行著數百種應用,如何有效地管理這些服務器,保證整個系統提供不間斷的服務是巨大的挑戰。云計算系統的平合管理技術能夠使大量的服務器協同工作,方便地進行業務部署和開通,快速發現和恢復系統故障,通過自動化、智能化的手段實現大規模系統的可靠運營。
3、云計算環境中DAI概念的提出
數字化數據在科學研究中扮演著重要角色.對商業和政府的決策工程給予了有力的支持。隨著時間的推移.越來越多的數據被組織為數據庫中的共享和結構化數據集,XML文檔、結構化的二進制文件集等形式。在模擬和傳感器技術發展的推動下。數據集的大小已經增長到TB數量級。這些數據集的飛速增長,使得訪問任一數據集中的數據都成為一項挑戰。為了有效地訪問、處理和使用這些大規模的分布式數據資源,需要構建一種基礎架構,在這種基礎架構中,共享數據、存儲、計算資源等能以一種標準的訪問接口進行訪問,并以統一的數據格式交付給數據分析任務使用。
另外,隨著網絡連接的普遍存在以及現代科技中問題規模的擴大,建立、管理和利用這些結構化數據集需要進行廣泛集成。盡管單一的數據集只包含特定組織感興趣的數據,但通過集成來自多個數據資源的信息可取得某些實質性進步。比如夭文學家通過虛擬天文臺.將不同頻率和不同時間內收集的數據融合在一起以發現宇宙的新特性;基因功能組的研究需要在物種之間進行比較,它要求綜合蛋白質生物化學、結晶學數據、實驗室數據和人口學方面的數據來發現新的基因組合口。因此數據分析必須能夠處理在大規模計算和數據移動中所涉及的問題,并且提供能融合多種結構化數據集的機制。這些數據集可以駐留在不同平臺,依據不同的策略進行管理,并且在地理上分布。
隨著數據密集型計算的飛速發展,對信息處理能力的要求也越來越高,從科學研究到軍事決策、戰場仿真,從分子生物學到核模擬,從數字地球計劃到海灣戰爭,人們迫切需要縮短從原始數據提取高層信息并進一步完成高層信息處理的時間。通過用戶與數據資源直接交互的模式進行數據訪問和集成變得很不現實,當訪問和集成這些數據時,進行數據發現、訪問、分析和集成就會變得相當縈瑣。這就豁要擴充網格的數據管理能力,建立一種有效的、開放的、可擴展的數據訪問和集成(Data Access and Integration, DAI)體系結構,將超級計算機的數值計算能力和數字圖書館的數據處理及發布能力有機結合起來,為科學應用在網絡中實施數據資源發現,并進行高效的數據訪問和集成提供有力支持。
4、云計算環境中DAI需求
云計算作為一種全新的計算模式,可以動態地定位和訪問網絡環境中各種數據資源,解決那些需要許多組織共同協作才能解決的問題。在云計算環境中,數據資源廣泛存儲在各種分布、異構的數據庫之中,數據資源的動態性、異構性為云計算研究帶來新的機遇和挑戰,需要使用網格技術對分布、異類、異構的網格數據資源提供無縫的共享和集成支持川。而且,隨著云計算技術變得越來越復雜和自動化,就會增加這些數據資源的數量、容量以及多樣性。因此,對于云計算自身來說,系統化的數據訪問和集成方法同樣變得相當重要。
在云計算環境中,一個應用往往由查詢一個或更多的數據庫以及對得到的數據進行分析來實現,而現有的數據庫管理系統并不支持網絡數據集成。一方面,如果每一種數據庫都獨立地訪問網格接口,那將會出現兩個負面的影響:首先要對數據庫提供的網絡接口代碼進行重寫;其次,為了便于訪問,應用程序和數據集成服務將不得不為每一種網絡環境中的數據庫編寫接口代碼,這無形中提高了編寫應用程序的代價。另一方面,數據庫管理系統是成千上萬人多年努力工作的產物,它們提供了廣泛的功能、有價值的編程接口和工具,同時也提供了諸如安全、性能和依賴性等重要特性。由于網絡應用也需要這些屬性,從頭編寫全新網絡集成的數據庫管理系統是不現實的.而且是極大的浪費。因此,必須考慮如何將現有的數據庫管理系統集成到網絡中去。但這種方法也有一定的局限性,因為網絡集成數據庫有一些必需的屬性不能通過這種方式獲得,必須集成在相應的數據庫管理系統本身之中。針對這些問題,可以開發一種DAI網絡中間件來完成對云計算環境中流行的數據庫管理系統的集成,實現分布的、不同種類的數據庫數據訪問和集成操作。隨著云計算商業地位的提高,數據庫的出版商也可把中間件的功能直接嵌人到產品當中,提供諸如“out-of-box"來支持網絡數據集成,以此來支持OGSA(Qpen Grid Services Arcbitecnire)網格標準。同樣在云計算環境中,嵌人許多特殊功能的網絡中間件設計標準也是至關重要的,DAI中間件的目的之一就是揭示和表達這種需要。
5、云計算環境中DAI應解決的幾個問題
云計算環境中DAI中間件在其開發過程中,必然會涉及到大量的技術問題,這些問題主要體現在以下六個方面:
(1)系統體系結構的設計:隨著技術的發展,多層分布式應用體系結構越來越流行,在體系結構的設計中,應按照系統的功能和網格服務系統的需求,設計多層系統體系結構,合理劃分層次,分配各層功能。
(2)數據庫連接:網絡中存在多種異構數據庫,要求用戶在訪問它們時,DAI中間件應提供一種通用的數據庫連接方式,實現數據庫動態定位,完成云計算環境中分布的、異構的、不同種類的數據庫連接。同時應針對不同數據庫用戶采用合適的連接機制,提高系統的響應速度,降低數據庫連接時的時間消耗。
(3)數據傳輸:數據訪同和集成離不開數據傳輸,在現有的網絡基礎上,如何高效、安全地解決大規模數據傳輸問題是提高中間件系統效率的關鍵。
(4)數據格式:在網絡環境中,各種異構數據庫存儲的數據格式不盡相同,同一種類型的數據庫中存儲的數據格式也有不同的定義。因此,中間件應采用統一的數據格式解決數據異構問題,方便用戶對數據資源的訪問和集成。
(5)數據庫集成:用戶對網絡環境中廣泛分布的、異構的數據庫進行訪間時,考慮的是訪問效果,而不關心數據庫的具體位置。DAI中間件應采用合理的機制,把網絡環境中各種異構數據庫集成到服務器端,使得各種異構數據庫對用戶透明。
6、結論
在云計算環境中,數據資源廣泛存儲在各種分布、異構的數據庫之中.需要使用網格技術對分布、異類、異構的網格數據資源提供無縫的共享和集成支持,因此建立一個通用的中間件是必要的。
本文提出了建立一種有效的、開放的、可擴展的數據訪同和集成( DAI)的概念,通過DAI中間件提供的標準訪問接口及統一數據格式對云計算環境中各種分布的、異構的、不同種類的信息資源進行動態訪問和集成,以此來提高信息的可訪性、可用性、時效性、安全性。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:云計算環境中DAI中間件需求分析