面對數據量的急劇增長,傳統存儲技術面臨建設成本高、運維復雜、擴展性有限等問題,主要體現在以下幾個方面:
(1)開放性不足:盤陣存儲標準化程度低,組件的更換常常導致系統故障或者硬件的升級,這些組件通常是由制造商專門開發用于此系統,不能輕易的利用市場上通用部件。
(2)成本較高:盤陣造價昂貴,導致系統建設成本居高不下;
(3)擴展性較差:傳統盤陣單點擴展存在容量上限和接口帶寬等限制,面對PB級的海量存儲需求,傳統的SAN或NAS在容量和性能的擴展上無法滿足。
在此背景下,成本低廉、提供高可擴展性的云存儲技術日益得到關注,本文將詳細介紹存儲的新技術——云存儲的特征定義、相關技術發展現狀及國際標準情況,并針對各類云存儲技術,分析其對于電信運營商的適合應用場景及應用建議。
1 云存儲概況
1.1云存儲的定義
由于業內沒有統一的標準,各廠商的技術發展路線也不盡相同,因此相對于云計算,云存儲概念存在更多的多義和模糊現象。結合云存儲技術發展背景及主流廠商的技術方向,可以得出如下定義:云存儲不是指某一個具體的設備,而是指一個由許許多多個存儲設備和服務器所構成的集合體。使用者使用云存儲,并不是使用某一個存儲設備,而是使用整個云存儲系統帶來的一種數據訪問服務。云存儲的核心是應用軟件與存儲設備相結合,通過應用軟件來實現存儲設備向存儲服務的轉變。
1.2云存儲系統的特征
云存儲系統應具有以下通用特征:
(1)高可擴展性:云存儲系統可支持海量數據處理,資源可以實現按需擴展;
(2)低成本:云存儲系統應具備高性價比的特點,低成本體現在兩方面,更低的建設成本和更低的運維成本;
(3)無接入限制:相比傳統存儲,云存儲強調對用戶存儲的靈活支持,服務域內存儲資源可以隨處接入,隨時訪問。
(4)易管理:少量管理員可以處理上千節點和PB級存儲,更高效的支撐大量上層應用對存儲資源的快速部署需求。
1.3云存儲的分類
在存儲資源獲取接口上,云存儲和傳統存儲在功能上并無差異,二者的區別體現在云存儲可以按需提供易管理、高可擴展、高性價比的存儲資源。根據存儲的數據類型不同和應用需求不同,云存儲系統可分為以下4種類型:
(1)提供塊存儲的云存儲系統;
(2)提供文件存儲的云存儲系統。
(3)提供對象存儲的云存儲系統。
(4)提供表存儲的云存儲系統。
2 云存儲技術現狀和應用場景分析
2.1提供塊存儲的云存儲系統
傳統FC SAN系統就是典型的塊存儲系統。由于采用直接讀寫磁盤空間來訪問數據,相對于其它數據讀取方式,塊存儲的讀取效率最高,一些大型數據庫應用只能運行在塊存儲設備上。
一些廠家在SAN存儲系統的基礎上進行“云化”,在保證讀取效率和設備可靠性的情況下,增加設備的擴展能力。這種云化方案主要包括兩類技術,一種為存儲虛擬化,另一種為新存儲架構。
2.2存儲虛擬化
根據虛擬化實現層面的不同,存儲虛擬化又分為基于主機的虛擬化、基于存儲網絡的虛擬化和基于存儲設備的虛擬化3類。
各類存儲虛擬化技術的實現方式、技術優缺點及使用場景分析如表l所示。
基于傳統FC SAN存儲、通過第三方虛擬化設備實現存儲的彈性擴展的存儲虛擬化技術也可以算作云存儲系統。但由于虛擬化硬件或軟件的性能瓶頸問題、傳統磁盤陣列本身有限的擴展能力以及異構設備故障定位困難等問題,存儲虛擬化技術應用具有一定局限性,對于遺留FC SAN存儲系統,建議選擇適合的存儲虛擬化技術進行資源整合和分級存儲,以實現存儲資源的有效利用。
表1 各類存儲虛擬化技術對比及適用場景分析表
2.3新存儲架構
目前一些傳統存儲設備廠商也推出了全新架構的云存儲系統,如通過改變前端交換矩陣結構、通過分布式算法管理的網格存儲等在設計上實現塊存儲系統的scale Out。此類代表的產品有EMC V—MAX和IBM XIV。
V—MAX其后端架構體系和現有盤陣相同,可在新建系統中考慮使用,并可與原有傳統盤陣進行虛擬化整合。但其擁有成本仍然較高,XIV屬于全新架構的陣列設備,無法與傳統FC SAN設備以虛擬化方式進行整合,引入必然帶來新的存儲豎井,在已有系統擴容中不建議考慮,但由于其采用標準硬件單元,成本降低。也可在新建生產系統時謹慎采用。由于設備的廠商私有性,各廠商新架構的云存儲系統之間難以兼容。
2.4提供文件存儲的云存儲系統
文件存儲系統可提供通用的文件訪問接口,如POSIX、NFS、CIFS、FTP等,實現文件與目錄操作、文件訪問、文件訪問控制等功能。文件系統云存儲系統適合處理海量非結構化數據,目前提供文件存儲的云存儲系統包括兩類:
(1)軟硬件一體解決方案:基于X86硬件,但利用專有的、定制設計的硬件組件,與廠家分布式文件系統集成在一起,以實現目標設計的性能和可靠性目標。
(2)軟硬件分離解決方案:基于開源分布式文件系統對外提供彈性存儲資源,軟硬件分離方式。可采用標準PC服務器硬件。
2.5軟硬件一體機
軟硬件一體機又可進一步分為并行文件系統和NAS虛擬化系統,前者代表產品為EMC Isilon ONE FS和IBM SONAS GPFS,后者代表產品為HP X9000(IBRIX Fusion FS)。
NAS虛擬化本質為NAS機頭+集中存儲的解決方案,存在管理節點的瓶頸,同時以文件為粒度的分布式決定了其有限的文件讀寫性能,不是完全意義上的分布式文件系統,前兩者為分布式并行文件系統,且無管理節點瓶頸,但均采用集中共享存儲,文件系統成熟度較好,但軟硬一體的結構帶來成本問題和未來擴容的局限性問題。
2.6軟硬件分離的分布式文件系統
分布式文件系統雖然已經提出很多年,但由于以開源產品或自用技術為主,既無統一標準又缺少成熟商用產品,因此真正的商用應用較少。代表性的為Google的GFS和開源的HDFS,另外Facebook、淘寶、騰訊等均開發了自己的分布式文件系統,用于管理其Blog、相冊等數據信息。近年來一些國內廠商也推出了商用的軟硬件分離的分布式文件系統。
HDFS可以認為是GFS的一個簡化版實現,采用單一主控機(Master)+多臺工作機的模式,由一臺主控機存儲系統全部元數據,并實現數據的分布、復制、備份決策,工作機存儲數據并根據主控機的指令進行數 據存儲、數據遷移和數據計算等。HDFS通過數據分塊和復制(多副本,一般是3)來提供更高的可靠性和更高的性能。同時,針對數據讀多于寫的特點,讀服務 被分配到多個副本所在機器,提供了系統的整體性能。HDFS提供了一個樹結構的文件系統,實現了類似與Linux下的文件復制、改名、移動、創建、刪除操 作以及簡單的權限管理等。但HDFS為避免多客戶端對同一文件的追加,簡化了設計,不支持對文件的Append追加操作,這也使得HDFS不能提供標準的 POSIX接口,不能成為一個完整意義上“文件系統”。
軟硬件分離分布式文件系統解決方案與廠商私有分布式文件系統一樣,可通過分布式架構有效提高文件并發讀寫性能,且能夠構建在標準的x86服務器集群之上.比軟硬件一體設備具有更好的擴展性并可有效降低建設成本,但開源軟件本身的成熟度有待驗證。
圖1 HDFS技術架構示意圖
2.7提供對象存儲的云存儲系統
對象存儲是為海量數據提供Key—Value這種通過鍵值查找數據文件的存儲模式,它引人對象元數據來描述對象特征,對象元數據具有豐富的語義,引人容器 概念作為存儲對象的集合。對象存儲系統服務層對應用系統提供基于http/https協議的對象存儲WebService服務或直接提供API接口,底層 基于分布式存儲系統來實現數據的存取,具體存儲方式對外部應用透明。這樣的存儲系統架構具有高可擴展性,支持數據的并發讀寫,一般不支持數據的隨機寫操 作。
2.7.1 AmazoN S3
Amazon S3 (Amazon Simple Storage Service)是亞馬遜公司利用他們的亞馬遜網絡服務系統所提供的網絡線上儲存服務。經由Web服務界面,提供給用戶包括REST, SQAP與BitTorrent接口,使用戶能夠輕易把檔案儲存到網絡服務器上。
S3基本概念:
(1)桶(bucket):類比于文件系統的目錄,存儲對象的容器,不能嵌套,名稱全局唯一;
(2)對象(object):類比文件系統的文件,包含對象數據和對象元數據。對象元數據用來描述對象特征,具有豐富的語義,并帶有版本概念。上傳的對象在其存儲周期內不能改變,
(3)鍵值(Keys):類比文件名,key的樣式是URL。
同名文件的寫人,并不覆蓋已有文件而是增加了一個最新的文件版本(圖2左)。同樣下面的刪除也不真正刪除,而是mark了刪除標記(圖2右)。當最新版本 mark為deleted之后,對該對象的get操作返回錯誤,除非明確指定一個歷史版本。也可以指定版本永久刪除其中一個拷貝。
2.7.2 中國移動BC-ONEST
中國移動大云也提供了對象存儲模塊BC-ONest,基本概念與S3類似,相關接口如下:
Native API接口:提供C++, Java API接口,實現本地高并發數據操作。
Internet接口:基于http/https的REST/SOAP訪問接口,用戶可以通過互聯網隨時隨地的上傳、訪問系統中的對象數據;系統為用戶的接人和數據的傳輸提供安全可靠的通道。
Cloud NA5接口:本系統支持以NAS Server的形式對外提供基于文件系統訪問接口的存儲服務。客戶端應用可以通過“掛載(mount)”,將遠程的對象存儲空間映射為本地的文件系統。
小結:對象存儲技術相對成熟,國內外也有很多成功案例,對于運營商來說,對象存儲對底層硬件要求不高,存儲系統可靠性和容錯通過軟件實現,同時其訪問接口 簡單,適合處理海量、小數據的非結構化數據,如在線的公共云存儲服務、數據備份服務等;移動互聯網類應用,如郵箱、網盤、相冊、音頻視頻存儲等。
圖2 Amazon 53存儲操作示意圖
2. 8提供表存儲的云存儲系統
表結構存儲是一種結構化數據存儲,如傳統數據庫相比,它提供的表空間訪問功能受限,但更強調系統的可擴展性。提供表存儲的云存儲系統的特征就是同時提供高并發的數據訪問性能和可伸縮的存儲和計算架構。如表2所示。
表2 結構云存儲與傳統數據庫比較表
提供表存儲的云存儲系統有兩類接口訪問方式。一類是標準的xDBC, SQL數據庫接口,一類是MapReduce的數據倉庫應用處理接口。前者目前以開源技術為主,尚未有成熟的商業軟件,后者己有商業軟件和成功的商業應用案例。
2.8.1 分布式數據倉庫
分布式數據倉庫一般采用MPP( Massive ParallelProcessing)架構實現海量數據存儲和處理、以及高并發數據讀寫能力,它實現了SQL到MapReduce的翻譯,優化.執行和 結果收集,具有良好的擴展能力。分布式數據倉庫能基于各種開放式硬件平臺,同時支持SQL和MapReduce接口。
分布式數據倉庫的代表系統:商業軟件GreenPlum,中國移動HuqeTable、開源Hive等。
圖3 為Green Plum的SharcNothiny體系架構示意圖
2.8.2分布式數據庫
分布式數據庫同樣基于低成本的PC服務器,提供了高度可伸縮的存儲和計算架構。數據存儲、可靠性依賴于表存儲底層采用的文件存儲;高性能的數據讀寫能力也需要利用底層并行文件系統的并行數據讀寫能力。分布式數據庫的代表系統:Google BigTable。
BigTable承載了Google搜索引擎、郵件、地圖、Analytics等應用的結構化數據,容量達到十PB規模,它提供了簡單的數據模型,支持快 速數據定位、掃描,但是不支持RDBMS的關系運算如報表、多表查詢、復雜關系運算。BigTable可提供高性能數據讀寫,利用內存寫十日志保證數據寫 性能,利用數據分區+三層索引提高讀性能,尤其是數據掃描的性能。
小結:分布式數據倉庫領域里。商用Greenplum和開源的Hive有了大量的成功案例,己經成為BI領域發展趨勢.適用于海量數據ETL處理、數據挖掘應用、以及網管信令分析應用、海量日志處理等。
分布式數據庫目前以開源為主,尚未有成熟的商業軟件,其與并行計算模式配合可實現高性能可伸縮的批處理,可用于話單結算等場景,并提供了簡單的數據模型以支持快速數據定位、掃描,但目前不適用于業務邏輯復雜的OLTP應用,如CRM和ERP等。
圖4 BigTable的邏輯模型與物理設計示意圖
模型以支持快速數據定位、掃描,但目前不適用于業務邏輯復雜的OLTP應用,如CRM和ERP等。
2.9相關國際標準簡介
SNIA(Storage Networking IndustryAssociation )于2010年4月12日推出首個云存儲標準—CDMI ( Cloud Data Management Interface)標準,主要面向存儲即服務(DaaS),屬于對象存儲的范疇,廠家產品可以以CDMI標準為基礎提供按需虛擬存儲或相關數據服務。
由于篇幅有限,本文不再詳細敘述CDMI標準。
3 結束語
以上詳細闡述了不同數據類型的云存儲技術,并一一分析了其應用場景。
對于企業私有云應用,面對各類生產系統的存儲需求,要求云存儲系統按需提供不同空間容量、不同性能的存儲資源,應積極采用存儲虛擬化技術整合現有FC SAN資源,挖掘設備潛力,建立分級存儲機制,使數據合理分布,在海量非結構化數據處理、日志詳單處理、經營分析領域等積極實驗和試點分布式存儲解決方 案。
對于公眾云服務,云存儲的成本和擴展性是首要考慮,應基于標準x86服務器,采用分布式對象存儲技術提供有競爭力的云存儲服務,為將來云服務在更大范圍的融合和合作奠定基礎,在云存儲服務接口上應統一規范要求,建議參考CDMI國際標準。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:云存儲技術發展及應用
本文網址:http://www.guhuozai8.cn/html/consultation/1083967643.html