1.工業(yè)數(shù)據(jù)災(zāi)備
災(zāi)難性事故所導(dǎo)致的信息系統(tǒng)崩潰的事件時有發(fā)生。在煙草工業(yè),隨著煙草一體化建設(shè)的推進(jìn),數(shù)據(jù)中心的范疇已逐步形成,數(shù)據(jù)和系統(tǒng)也逐步集中。結(jié)合小型機(jī)的雙機(jī)容錯技術(shù)。數(shù)據(jù)中心順利降低了單點(diǎn)故障的風(fēng)險,為業(yè)務(wù)提供持續(xù)和有效的服務(wù)能力。然而,隨著系統(tǒng)和數(shù)據(jù)的集中,所有數(shù)據(jù)存儲在一個機(jī)房,如果災(zāi)難性事故導(dǎo)致機(jī)房受到破壞,其內(nèi)的所有數(shù)據(jù)包括備份數(shù)據(jù)也會隨之破壞,其帶來的風(fēng)險和損失是無法估量的。而數(shù)據(jù)異地備份能有效解決這個問題。隨之而來的問題是要降低數(shù)據(jù)的存儲容量和降低數(shù)據(jù)網(wǎng)絡(luò)傳輸?shù)拈_銷以及加快備份速度。煙草工業(yè)數(shù)據(jù)主要存在以下兩個特點(diǎn):
1)每天新增數(shù)據(jù)量大。比如:僅僅在銷售環(huán)節(jié),全國零售戶有大概500萬家,平均每周進(jìn)化一次,假設(shè)平均每家只銷售15個規(guī)格,那么平均每天產(chǎn)生銷售記錄數(shù)為:500x15+7=1070(萬)。
2)數(shù)據(jù)變動大、重復(fù)率高。比如,在筆者所參與的綜合營銷平臺中,僅辦公自動化子系統(tǒng),每天文件流轉(zhuǎn)、版本修訂、郵件附件抄送都非常普遍。有時候一個文件要抄送給多人,有時候同一原始文件會產(chǎn)生多個修訂版本,使得文件系統(tǒng)中保存有大量的重復(fù)數(shù)據(jù)。
重復(fù)數(shù)據(jù)刪除技術(shù)是一種能夠大規(guī)模消除冗余數(shù)據(jù),降低數(shù)據(jù)存儲成本的重要技術(shù)。它的工作方式是查找不同文件中不同位置的重復(fù)數(shù)據(jù)塊,重復(fù)的數(shù)據(jù)塊用指示符取代,使得在備份中重復(fù)數(shù)據(jù)塊只保留一份,從而可以在已有的磁盤上存儲更多的備份數(shù)據(jù)。重復(fù)數(shù)據(jù)刪除后,再通過WAN進(jìn)行異地備份,則能減少備份數(shù)據(jù)量,節(jié)省網(wǎng)絡(luò)帶寬,加快數(shù)據(jù)備份和恢復(fù)速度。本文將圍繞企業(yè)數(shù)據(jù)災(zāi)備,研究如何使用重復(fù)數(shù)據(jù)刪除技術(shù),提高數(shù)據(jù)存取效率,降低數(shù)據(jù)保護(hù)成本。
2.重復(fù)數(shù)據(jù)刪除方法
2.1 基于哈希(Hash)算法的重復(fù)數(shù)據(jù)刪除
哈希算法主要用于文件級和數(shù)據(jù)塊級別的重復(fù)數(shù)據(jù)刪除。在重復(fù)數(shù)據(jù)刪除技術(shù)的實(shí)現(xiàn)中,通常采用SHA-1和MD5算法計算并檢查數(shù)據(jù)塊的“指紋”,判斷該數(shù)據(jù)塊是否與已經(jīng)存在數(shù)據(jù)塊重復(fù)。如果該數(shù)據(jù)塊已經(jīng)存在,則只需要保留指向該數(shù)據(jù)塊的指針,否則,則要保留該數(shù)據(jù)塊,并將該數(shù)據(jù)塊的“指紋”保存在索引表中,供以后使用。基于哈希算法的重復(fù)數(shù)據(jù)刪除的流程圖如圖1所示:
圖1 基于哈希算法的重復(fù)數(shù)據(jù)刪除流程
文件級的重復(fù)數(shù)據(jù)刪除主要是識別內(nèi)容完相同的兩個文件,從而避免相同文件多個備份。用散列函數(shù)計算文件哈希值的方法來比較文件是否相同,可以快速的掃描整個目錄,查找速度非常快。文件級的重復(fù)數(shù)據(jù)刪除的缺點(diǎn)也很明顯,就是當(dāng)文件稍稍修改了一點(diǎn),都會變成不同的文件,重復(fù)數(shù)據(jù)刪除率會大打折扣。
數(shù)據(jù)塊級的重復(fù)數(shù)據(jù)肭除就是將文件分塊,然后進(jìn)行重復(fù)刪除。分塊的方式有固定大小分塊和可變大小分塊。兩者相比,固定分塊可以更快的掃描新到數(shù)據(jù)流,獲取更高重復(fù)刪除速率;而可變分塊可以提供更大的重復(fù)數(shù)據(jù)刪除率。兩者之間根本差異即空間和時間的矛盾,實(shí)際應(yīng)用中,還要根據(jù)應(yīng)用環(huán)境和需求來選擇相應(yīng)分塊方式。
通常,為了快速識別數(shù)據(jù)塊是否已經(jīng)備份,會將哈希索引保留在內(nèi)存中。當(dāng)備份的數(shù)據(jù)塊數(shù)據(jù)增加時,索引也增加。因此,總有一天,索引會將內(nèi)存填滿。現(xiàn)在大部分基于散列的系統(tǒng)的都是獨(dú)立的。
2.2 基于內(nèi)容識別的重復(fù)數(shù)據(jù)刪除
從字節(jié)級別上分析數(shù)據(jù)流通常能夠“識別內(nèi)容”。這種方法主要是對比記錄的數(shù)據(jù)格式。在備份數(shù)據(jù)時,首先從數(shù)據(jù)流中提取元數(shù)據(jù),并將之與備份系統(tǒng)中已經(jīng)存儲的元數(shù)據(jù)進(jìn)行對比。當(dāng)元數(shù)據(jù)匹配成功時,則將新的數(shù)據(jù)對象與備份系統(tǒng)中對應(yīng)的數(shù)據(jù)對象進(jìn)行逐字節(jié)比較,如果完全相同,則刪除新數(shù)據(jù),用備份系統(tǒng)中的數(shù)據(jù)對象索引替換;如果不同,則找出發(fā)生變化的數(shù)據(jù),將增量保存并計算并插入索引。該方法的流程如圖2所示:
圖2 基于內(nèi)容識別的重復(fù)數(shù)據(jù)刪除流程圖
3.綜合營銷平臺備份策略分析設(shè)計
筆者參與開發(fā)的綜合營銷平臺主要功能有:OA辦公、業(yè)務(wù)處理、決策支持和會員俱樂部等。平臺數(shù)據(jù)存儲備份整體架構(gòu)如圖3所示:
圖3 平臺數(shù)據(jù)存儲備份整體架構(gòu)
由此平臺系統(tǒng)的功能決定,工作人員主要是在白天(上班時間)使用系統(tǒng),系統(tǒng)產(chǎn)生大量企業(yè)內(nèi)業(yè)務(wù)數(shù)據(jù)和辦公數(shù)據(jù);而決策支持的所需大批量數(shù)據(jù)主要由國家局每天下行導(dǎo)入本系統(tǒng)。為了保證業(yè)務(wù)的正常進(jìn)行,白天需要把計算機(jī)的CPU資源和內(nèi)存資源盡量用給業(yè)務(wù)功能,因此,本系統(tǒng)對國家下行數(shù)據(jù)的抽取、整理和重復(fù)數(shù)據(jù)刪除只能在夜里進(jìn)行。首先,由于決策分析的需要,需要在每天夜里把下行的數(shù)據(jù)(數(shù)據(jù)量非常大,大概有7G到10G)進(jìn)行完全加工,而這需要較長的時間(通過升級硬件資源和優(yōu)化算法可能將時間稍稍減少);其次本地存儲系統(tǒng)和異地存儲之間網(wǎng)絡(luò)帶寬的限制,在每天上班前要把每天的數(shù)據(jù)備份完畢也需要較長的時間。因此,重復(fù)數(shù)據(jù)刪除的策略如下:
1)首先對于本地存儲的數(shù)據(jù),對每天新增的數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)刪除,可以減少數(shù)據(jù)遠(yuǎn)程備份的網(wǎng)絡(luò)流量,減少帶寬的占用。為能夠較快的完成重復(fù)數(shù)據(jù)刪除,采用基于哈希算法固定分塊的重復(fù)數(shù)據(jù)刪除策略,在分塊散列查找時采用一種滑動窗1:3的方式,期望盡可能的發(fā)現(xiàn)重復(fù)數(shù)據(jù)塊。
2)對于異地存儲,由于業(yè)務(wù)的需要對數(shù)據(jù)的真實(shí)性要求非常高,而現(xiàn)有的在線處理方式是在數(shù)據(jù)存入設(shè)備的同時時行重復(fù)數(shù)據(jù)刪除,并沒有進(jìn)行嚴(yán)格的校驗(yàn)和核對。萬一數(shù)據(jù)處理的環(huán)節(jié)發(fā)生一個小錯誤。可能導(dǎo)致整個備份變成無法使用的東西,給企業(yè)帶來損失。而且異地設(shè)備除了進(jìn)行數(shù)據(jù)存儲,一般不需要進(jìn)行其它工作。因此采用后處理重復(fù)數(shù)據(jù)刪除方式。并采用基于基于哈希算法變長分塊的重復(fù)刪除數(shù)據(jù)策略,盡可能的發(fā)現(xiàn)重復(fù)數(shù)據(jù),提高存儲的使用率,在不增加存儲的情況下備份更多的數(shù)據(jù)。
3)因?yàn)楣K惴ù嬖诠_突的問題,此系統(tǒng)采用一種優(yōu)化了的方法,對哈希匹配的數(shù)據(jù)對象,進(jìn)行二進(jìn)制的比對,若完全一致,才能進(jìn)行重復(fù)數(shù)據(jù)刪除。
4)為了能以較快、較高效率的進(jìn)行重復(fù)數(shù)據(jù)刪除,在本地和異地執(zhí)行重復(fù)數(shù)據(jù)刪除前,先利用系統(tǒng)的智能引擎模塊探測新增數(shù)據(jù)的文件名、文件各類和日期/時間戳等信息,然后進(jìn)行有規(guī)律的分塊,再通過數(shù)據(jù)壓縮技術(shù)進(jìn)行壓縮。這之后再進(jìn)行重復(fù)數(shù)據(jù)刪除。采用這種策略可以極大的提高執(zhí)行重復(fù)數(shù)據(jù)刪除的效率。
5)對于非常重要的業(yè)務(wù)數(shù)據(jù)和要求能夠迅速恢復(fù)的數(shù)據(jù)(比如職員信息,最近的業(yè)務(wù)訂單等),則不進(jìn)行重復(fù)數(shù)據(jù)刪除,以便在發(fā)生故障時能夠迅速恢復(fù),不影響工作的開展。
4.結(jié)束語
配置管理自產(chǎn)生至今經(jīng)過幾十年的發(fā)展,理論體系日臻成熟,是一種系統(tǒng)、高效的質(zhì)量管理體系。在技術(shù)上。配置管理能夠建立對于核電數(shù)字化儀控系統(tǒng)原始設(shè)計和中間變更的控制和審查、批準(zhǔn)流程,為核電項(xiàng)目的安全性和可靠性奠定基礎(chǔ)。在經(jīng)濟(jì)上,配置管理保證配置項(xiàng)描述文檔及時的反應(yīng)已經(jīng)實(shí)施的變更,從而有效的控制變更,控制項(xiàng)目成本。在管理上,它為項(xiàng)目管理提供了各種監(jiān)控項(xiàng)目進(jìn)展的視角,為項(xiàng)目經(jīng)理確切掌握項(xiàng)目進(jìn)程提供了保證。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.guhuozai8.cn/
本文標(biāo)題:煙草工業(yè)數(shù)據(jù)災(zāi)備中重復(fù)數(shù)據(jù)刪除技術(shù)研究
本文網(wǎng)址:http://www.guhuozai8.cn/html/consultation/10839312820.html