隨著計算機技術的快速發展,保障數據的完整性變得越來越重要。德州大學的研究結果表明,一旦關鍵業務數據丟失,可能引起34%的公司立即倒閉,51%的公司在兩年內倒閉,所以構建完善的數據保護系統是近年來研究的熱點。多版本備份是保護數據最有效最常用的方案,面對海量數據的增長,PB級的海量存儲需求越來越普遍.企業和個人迫切需要大量的空間來備份數據。云備份是一個很好的解決方案.可以滿足企業和個人海量數據備份的需求。目前云備份系統仍屬于起步階段,盡管其實現架構沒有統一標準,但國內外少數公司已提供了相關產品:微軟的Azure storage是一種能提供塊級數據備份服務的云備份產品,但其只支持單—快照節點,用戶只能恢復到最后一次上傳數據的狀態,恢復丟失的數據量(Recovery Point objective,RPO)取決于網絡質量,而且目標恢復時間點局限性太大,遠不能滿足用戶需求;EMC和上海電信合作開發的產品“e云”,雖然支持多快照節點備份,可供用戶選擇的恢復目標時間點不再是單一的,但其仍然采用傳統備份方法,即根據用戶設定的備份時間間隔,定期進行數據備份,粒度為分鐘,若磁盤陣列的寫速率為500 MB/s,1分鐘能夠存儲的數據大約是30 GB,因此最多只能恢復到1分鐘前的數據狀態,即RPO≈30GB。針對目前云備份產品的缺陷,本文提出一種支持連續數據保護的云備份系統(Continuous DataProtection cloud Backup,CDP-CB),該系統以私有云架構為基礎,引入連續數據保護技術,徹底打破了傳統以時間間隔為基礎的周期性備份方案,主動截獲每個時刻的數據更新并立即將其備份,備份數據的時間是連續的,不再有時問空隙。能夠提供秒級的連續恢復時間點,RPO≈0,具有更高的可靠性和可用性。
l CDP-CB系統關鍵技術
CDP-CB系統是一種基于私有云架構的數據備份和防護系統,通過引入連續數據保護技術,實現了比Azure Storage和“e”云更完善的云備份功能,主要包含兩個關鍵技術:連續數據保護技術和云備份技術。
1.1 連續數據保護技術
連續數據保護技術(Continuous Data Protection,CDP)是一種最高形式的數據保護技術,對任何引起數據丟失的故障或者災難都具有保護能力,比如病毒侵襲、地震、火災等。都可以確保業務數據不丟失。按照存儲網絡行業協會(StorageNetworking Industry Association,SNIA)的定義,所謂的連續數據保護技術是指連續捕捉和保存數據狀態的變化,并將變化后的數據獨立保存在原始數據之外,從而允許將數據恢復到過去任意時間點的狀態。它打破了傳統數據保護方案的周期性備份以及離散的可恢復時間點的缺陷,真正將數據丟失量降到最低,即RPO≈0。
目前已有的云備份系統,比如“e”云,給用戶提供多個恢復目標時問點,但由于其仍然采用傳統的周期性備份方案,即每隔一段時間對業務數據進行備份,使得恢復目標時間點不連續且恢復粒度太粗,如果發生故障或災難,會造成部分業務數據丟失。為了解決以上問題,在云備份系統中引入連續數據保護技術,實時地將客戶端每一次數據更新保存到云備份服務器中,并能夠實現任意歷史時間點的恢復,保證在發生各種故障或者災難的情況下用戶數據都不會丟失,確保業務數據的連續性.提高云備份系統的可用性。此外,按照CDP捕捉更新數據的層次可分為:塊級CDP、文件級CDP和應用級CDP,其中對于文件級CDP,不同的文件系統需要做不同的沒計,應用級CDP是嵌入具體的應用軟件當中,而塊級CDP部署在文件系統下層,可以屏蔽異構文件系統。CDP-CB系統采用塊級的連續數據保護技術,具有更加廣泛的應用前景。
1.2 云備份技術
云備份是云存儲的一個特殊運用,都是為了保存客戶端的業務數據,只是數據類型有差異,云備份保存的是備份數據,云存儲保存的是原始數據。云備份實現的技術方案與云存儲類似,也是通過集群應用、網格技術或分布式文件系統等技術,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和備份功能。按照云備份中數據的規模可將云分為3類:私有云、公有云和混合云。其中私有云的應用通常部署在一個區域或者企業的防火墻內部,服務質量(Quality of Service,QoS)非常穩定,不會受到網絡不穩定的影響,因而能夠提供對數據安全和服務質量的最有效控制。比起公有云和混合云,私有云具有部署快速、成本低廉的優勢,并能夠提供更加安全可靠的備份服務。云備份架構有以下兩種方案:緊耦合對稱(Tightly coupledsymmetric,Tcs)架構和松散耦合非對稱(Loose couplingAsymmetric,LCA)架構。Tcs架構不存在集中管理的節點,是通過執行某種策略來使每個節點知道自己所要執行的操作,利用分布式鎖管理共享數據,適合于單文件I/0操作頻繁的系統;LCA架構有一個統一管理所有節點的中央元數據控制服務器,所有的操作命令都是通過該服務器發出,通過利用虛擬化技術進行系統擴展和調整。CDP-CB系統的主要職能是備份用戶的更新數據,并允許任意時間點的恢復,沒有頻繁的單文件I/0操作,所以采用LCA架構更有利于系統動態管理和控制。綜上,CDP-CB系統采用基于LCA的私有云備份架構。
2 CDP-CB系統工作原理
2.1 CDP-CB系統整體框架
CDP-CB系統按照地域劃分為本地客戶端和云備份端,二者通過iscsi協議傳輸數據,其整體框架如圖1。
本地客戶端是家庭用戶或者企業用戶的總稱,以卷(volume)為保護單位,安裝完客戶端軟件之后,會自動加載CDP客戶端代理模塊(CDP proxy),該模塊的詳細功能在2.2節介紹。此外,在客戶機的磁盤管理中會多出一個虛擬日志卷(virtual Log Volume),該卷初始大小為0,用戶通過付費機制向云備份端申請備份空刪。虛擬日志卷大小會隨著空間申請自動擴容。云備份端是由一系列的服務器(server)組成,這些服務器利用局域網(LAN)互聯,按照職能劃分為元數據服務器和CDP備份服務器。元數據服務器存儲了客戶端信息和節點的空間、狀態等信息,并利用集群技術、虛擬機技術來管理云備份端的節點,包括節點的加入、撤銷、空問擴容等;CDP備份服務器利用虛擬化技術將異構的存儲介質組織成存儲池.按用戶需求劃分指定大小的空問,并將客戶端的更新數據以日志的形式保存在所屬空問中,存儲池中不同的空間劃分被稱為日志卷。每個CDP備份服務器也有一個CDP服務器代理模塊(CDP proxy),詳情見2.2節。
2.2 CDP-CB系統結構
CDP-CB系統捕獲本地客戶端的更新數據,將其整合之后保存到云備份端,其詳細結構如圖2所示。
圖2按照備份數據(Data)流向設計,其核心模塊包括:本地客戶端的CDP過濾驅動和CDP proxy,服務器端的元數據管理模塊、iscsi控制管理模塊、CDP Proxy和重復數據刪除模塊、備份數據管理模塊和數據存儲模塊。下面介紹各模塊的具體職能:
CDP過濾驅動:該模塊是CDP-CB系統實現連續數據保護技術的基礎,CDP過濾驅動處在文件系統下層,硬件設備上層,可以屏蔽異構文件系統,即CDP-CB系統可以構建在擁有不同文件系統的客戶端上。文件系統通過給設備分發Irp(Input/output Request Packet,Irp)的方式來完成寫操作,該模塊利用自己創建的虛擬塊設備來捕獲客戶端被保護卷每個時刻的數據更新請求(Irp),并負責將Irp整合成日志記錄,即加上時間、位置和塊大小等標簽,然后傳遞到下—個模塊。
CDP proxy:CDP的客戶端代理模塊,相當于一個高級緩存。負責臨時保存CDP過濾驅動傳下來的日志記錄以及其他控制信息。為了保證系統性能,通常采用SSD設備作為CDP proxy。該模塊可以用來處理一些基本故障,比如:在備份數據的過程中,斷網或者客戶端意外掉電,當系統恢復正常時,利用緩存在CDP pfoxy設備上的日志記錄,系統可以自動繼續未完成的備份任務。
虛擬日志卷:該日志卷是云備份端通過iscsi映射的虛擬卷,與云備份端的日志卷是相對應的,只是用戶對該卷并不擁有讀寫操作權限,僅可以訪問該卷的屬性信息。
iscsi控制管理模塊:該模塊通過維護一張由客戶端IP和CDP備份服務器IP組成的地址映射表,來實現IP轉換。iscsi控制管理模塊通過元數據管理模塊建立地址映射表,在備份過程中,當接收到客戶端發來傳輸消息時。iscsi控制管理模塊通過查找地址映射表獲取對應的CDP備份服務器IP,并將消息轉發給實際存儲備份數據的CDP備份服務器;在恢復過程中,CDP備份服務器將恢復數據發送至iscsi控制管理模塊,該模塊查找地址映射表獲得客戶端的IP,再轉發給相應客戶端。以上所有操作對客戶端都是透明的,是CDP-CB系統實現真正云備份的關鍵。
用戶身份認證:用戶在最初使用該服務、申請擴容或者恢復時需要核對用戶的身份,保證能夠建立安全的數據傳輸鏈路。
元數據管理模塊:是云備份端的核心管理模塊,負責管理云備份端的CDP備份服務器(node),不保存不變的node記錄,而是通過定期HeartBeat消息和每個node通信,搜集node的狀態信息,包括:活躍狀態、負載情況、垃圾塊處理情況等。如果有某個node失活,就嘗試進行激活或者更換node。借助校驗和,檢測node上數據的完整性,一旦檢測到數據被破壞,如果該數據有副本,則將某個副本作為主node,并利用該副本來恢復原node的錯誤數據。按照存儲數據可靠性程度將空間租賃分為低、中、高3個檔次,分別對應的副本數量為l、2、3。在用戶提出空間租賃申請時,需要元數據管理模塊(Master)對此作出響應,首先分析每個node的負載情況,按照用戶要求的可靠性程度,將負載較小的m(副本數量)個node的相應空間租給客戶端,并給客戶端返回成功租賃消息,在Master中保存本次租賃記錄以及修改該node的空間分配信息;當用戶開始正常備份數據就無需Master參與了,node自己制定空間管理策略,數據在日志卷中的位置由node自己指定,如果有對應的其他副本,則在寫完主node之后,將數據發送到其他副本;當用戶提出空間退訂申請時,Master負責修改有關該用戶的租賃信息,釋放node的空間,并給客戶端返回成功退訂消息。另外,考慮到Master容易產生單點失效,則為了保障系統的高安全性,Master需要被遠程備份,這部分功能并未在圖2中顯示。
CDP proxy:CDP服務器端代理,功能與客戶端的CDPproxy類似,也是用來緩存日志記錄,提高備份速率。
重復數據刪除模塊:為了降低成本,提供給用戶更加低廉的服務,CDP-CB系統引入了重復數據刪除技術。將CDPproxy中的數據按照固定大小分塊,利用sha-l算法計算每個塊的指紋值,相同指紋表示重復數據,在介質上只保存一份,其他保存指針。該模塊不僅提高介質利用率,而且減少了大量的寫操作,提高了系統效率。
備份數據管理層:負責管理單個node中不同客戶端對應日志卷的使用情況,包括下—個要寫的位置、剩余空閑空間等。數據存儲層:利用虛擬化技術將不同類型、不同特性的異構存儲資源整合成統一的存儲空間,從而實現了對存儲資源的充分利用和有效規劃,負責處理存儲介貢的動態加入和撤銷。
2.3 CDP-CB系統工作流程
按照CDP-CB系統結構(2.2節)中Irp的傳輸路徑總結數據備份、恢復流程:
備份流程:Irp首先被CDP過濾驅動截獲,整合成日志記錄傳給CDP proxy,之后Irp被提交到本地存儲介質上并向上層返回成功,此時完成了一次寫請求,開始接收處理下一個Irp。為了降低備份對上層應用的影響因子,備份過程采用異步方式,即不等云備份端發送成功備份消息,客戶端就開始處理下—個Irp。在Irp被提交到本地存儲介質的同時,日志記錄再次被封裝(加上客戶端地址,便于云備份端辨識),通過iscsi協議傳輸到云備份端的iscsi控制管理模塊,該模塊通過查找地址映射表獲得客戶端對應node的IP,將消息轉發給CDP proxy模塊。CDP胛口砂模塊將緩存的日志記錄再提交給重復數據刪除模塊,針對不同客戶端的日志記錄進行獨立的重復數據刪除操作,把需要保存的日志記錄或者指針傳遞到備份數據管理層。通過查詢對應客戶端的日志空間,確定下一個要寫的位置,將數據提交到數據存儲層中對應的日志卷執行寫操作。至此一次備份操作執行完畢,備份指針前移,開始備份下—個Irp。
恢復流程:用戶利用客戶端軟件指定恢復目標時間點,向云備份端發出恢復請求,CDP過濾驅動自動收回用戶對被保護卷的寫權限。云備份端首先通過用戶身份認證模塊驗證用戶身份,然后元數據管理模塊查詢客戶端備份數據是存放在哪個node中,并檢測node上的數據是否被破壞。如果數據完整,則通知該node開始恢復;否則若有其他副本,則先確定可用副本,再通知副本node開始恢復。node中備份數據管理模塊確定客戶端備份數據的日志卷位置,并利用恢復算法確定有效的恢復數據,將恢復數據按照固定大小發送至iscsi控制管理模塊,再由該模塊轉發給客戶端。成功恢復后,CDP-CB系統自動轉為正常備份狀態,用戶重新獲取對被保護卷的寫權限。
3 實驗結果
在實驗室搭建了小規模的CDP-CB系統,云備份端是由l臺元數據服務器和6臺CDP備份服務器組成,且每臺CDP備份服務器下端掛著高端磁盤陣列;客戶端是由2臺windows主機組成;客戶端和云備份端采用千兆以太網連接。為了簡化測試內容,本文只對其中l臺客戶機進行了正確性驗證實驗和必要的性能測試,測試內容包括CDP-CB系統的備份速率、恢復速率和恢復數據的正確性驗證實驗,如圖3,利用iometer工具測試了備份對順序寫(100%順序,100%寫)的影響因子,如圖4。
圖3表明CDP-CB系統的備份速率的平均水平為4 MB/s,恢復速率的平均水平為ll MB/s。系統的性能是比較高的。此外,對恢復出來的數據計算MD5指紋值,驗證恢復數據的正確性,結果表明CDP-CB系統可以正確恢復到歷史任意時刻的數據狀態,由于受篇幅限制,相關測試數據未在本文展示。
影響因子的計算方法是:(無備份軟件順序寫速率- 有備份軟件順序寫速率)/無備份軟件順序寫速率,用來表征客戶端數據備份對普通寫操作的影響。CDP-CB系統采用異步備份方式,大大減弱備份對客戶端上層應用的性能影響,由圖4可見影響因子在15%-45%區間內波動,是—個比較理想的范圍。
4 結束語
著跟于目前云備份系統恢復目標時間點不連續以及恢復粒度太粗的問題,將連續數據保護技術應用到云備份中,提出支持連續數據保護的云備份系統(CDP-CBS)。CDP-CB系統能夠提供秒級的連續恢復時間點,且PRO≈O。過濾驅動是數據塊級別的,可屏蔽異構文件系統,具有廣泛的應用前景。引入重復數據刪除技術大大降低了系統成本,從而為用戶提供更低廉的服務。當然,該系統仍然存在很多不足,需要在下一步的研究中完善,比如:身份認證機制的完善、異步復制模式的數據正確性保證、系統容錯機制及云備份端控制信息同步機制建立等。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:支持連續數據保護的云備份系統的架構設計
本文網址:http://www.guhuozai8.cn/html/consultation/1083973668.html