云計算是公共資源,是一臺超級計算機,大規模,低成本,可服務,是互聯網時代的水和電… 云計算貼有很多這樣的標簽(Tag),但云計算時代的運維,到底為開發者和云計算平臺運營商帶來了怎樣的Big Switch? 我的答案是運維之“輕”與“重”的轉移,這“輕”與“重”的背后,體現了云計算運維和傳統運維的差異性和核心競爭力的轉移。
傳統運維之“重”
傳統網站的運維模式、業務和規模上雖然各有差異,但在結構上都很相似,從最底層的IDC(數據中心)、網絡、服務器和系統等基礎運維,到上層數據庫、安全和產品等應用運維,需要環環相扣,層層覆蓋。尤其對于一些小、微型開發者,麻雀雖小也要五臟俱全,各種運維任務如同一輛滿載的貨車,面對惡劣的路況(激烈的市場環境),為了保持行駛速度,要不斷加油和維修(網站運維持續投入人力、物力,避免運維成為阻礙自身發展的瓶頸);另一方面,由于運維所具有的專業性、規模化和周期性等特點,使得運維投入所換來的產出往往又不如人意。傳統網站的運維模式,令許多網站不堪重負。
圖1 云計算給開發商帶來的變化
開發者運維之“輕”
在云計算時代,對于開發者的變化是什么?隨著開發者的網站“上云”,開發者的網站運維將變得很輕、很薄。開發者可以集中優勢資源專注于自身產品的研發和運營,把這部分核心競爭力做重、做厚。而產品的絕大部分網站運維工作隱身在背后那朵云里,由云計算平臺運營商實現。對于開發者而言,云計算時代的網站運維可以舉重若輕,如同將原來滿載的貨車,換成了快捷的跑車,輕松上路。例如,阿里云某開發者客戶,自行維護網站時,需要10人以上的專屬運維團隊,經常面臨網站高可用性、安全事件和設備成本投入等挑戰,遷移到阿里云平臺后,應用彈性計算ECS、負載均衡SLB、云盾和關系型數據庫RDS等產品,其10多人的運維團隊資源得到釋放,可以補充到產品研發和運營中;網站高可用性得到提升;成本控制更具彈性。
云計算平臺運營商運維之“重”
開發者實現網站運維之“輕”,并不是網站運維的挑戰在云計算平臺上真的減輕,而是這部分工作由云計算平臺運營商來提供更專業的運維保障服務。撥開云霧,我們會發現云背后所承載的運維實現構成了云計算平臺運營商的運維之“重”。“重”在這里有兩層含義。一是“量”之“重”,以阿里云為例,所有的云產品都運行在“飛天”大規模云計算平臺上,運維在保障這個平臺服務質量中扮演著核心角色,從運維人員組織、過程改進、系統優化到運維支撐自動化系統等,各個環節都緊密圍繞云計算平臺特性進行協同。如何實現云計算運維的最佳實踐,所涉及的技術難度、優化改進和操作強度在“量”上非常之“重”。二是“責任”之 “重”,云計算平臺的服務質量,直接關系到其上承載的萬千開發者產品的可用性、口碑和生命力。過去3年,阿里云的開發者,包括我們的客戶、合作伙伴,真正教會阿里云如何去實現一個云計算平臺,讓我們認識到所運營的云計算平臺,如何關乎開發者切身利益,關乎生態系統的健康發展,責任“重”大。
云計算改變運維
云計算平臺服務端的復雜性和創新性,對于運維是個全新的挑戰,運維思路和方式都為之發生改變。這種改變不是簡單的在傳統運維上的優化,而是基于云計算特征孕育而生的運維重構;這種改變也并非一蹴而就,是隨著云計算平臺的發展過程不斷演進,許多都沒有最佳實踐可循,是在摸著石頭過河中不斷積累經驗。相對傳統的網站運維,云計算平臺運維的主要特征如下。
集群是基本運維單位:組成云計算平臺的節點都是普通PC服務器,平臺的高可用性,不再借助傳統的高投入服務器硬件冗余方案(RAID、網絡雙上連、雙電源等)實現,而是通過云計算平臺自身的魯棒性保障。這需要運維改變視角,從原來把服務器作為基本運維單位,轉變為以集群作為基本運維單位。傳統運維場景下的“及時”維修服務器,在云計算場景下,可以“輕松”定期維修。而這種“輕松”,并不是對運維需求的降低,而是基于對集群整體容量和健康狀態的管理能力,即通過有效提煉和過濾各種服務器的個體運行狀態,映射出集群的整體狀態的能力。集群的容量管理、部署、監控、故障管理等運維任務,都必須以集群為單位進行。
大規模:單集群的規模,是衡量云計算平臺能力的重要指標之一。對于生產環境而言,云計算集群也必須達到一定規模,才能實現云計算平臺的高可用、低成本等真正價值。因此,在進行運維的規劃和實現時,都要以滿足大規模為必要條件。
可運維性是云平臺基本屬性:集群可運維性包括實現高效和大規模的部署、升級、遷移、擴容和故障管理等運維任務,是集群必須具備的能力。云平臺從第一天設計開始,就必須包括該屬性。開發團隊和運維團隊需要緊密協同,結合平臺和運維特性加以實現。較之傳統運維,云計算平臺對于大規模集群的可運維性、可管理性等的要求高很多,是集群落地的剛性需求。
規范化:要在大規模下,實現集群部署、遷移、擴容等管理,依賴于從IDC設計、網絡設計、服務器選型到云平臺實現的全局統籌的規范化,這如同統一 “度量衡”,實現“車同軌,書同文,行同倫”。規范化構成了云計算One Infrastructure重要屬性。基于One Infrastructure的實現,把一批服務器從A集群遷移到B集群,只是在集群管理系統上對配置的遠程變更,而不需要物理服務器實際搬遷。
解構阿里云平臺運維
組織建設
阿里巴巴集團技術保障是“一個”團隊(one team),阿里云、天貓、淘寶、etao、雅虎中國等阿里巴巴集團旗下產品,都由這個團隊統一進行技術保障。團隊的統一,可以確保運維體系的統一和運維資源的充分共享。換言之,阿里云的運維體系、網絡質量、安全和支撐能力等和淘寶、天貓由同一個技術保障團隊護航,在同一個支撐平臺下實現。技術保障團隊組織建設分橫向、縱向兩個維度。其中,縱向按照技術職能劃分,主要包括基礎運維、應用運維、DBA、安全和平臺支撐等專業團隊,確保各領域的專業性和技術深度;橫向為了保障重點產品和項目,打破了團隊界限,圍繞產品建立“護航小組”。例如,阿里云彈性計算護航小組,成員包括平臺和應用運維、DBA、安全和過程改進工程師,在2012年7-8月CCTV 5+網站奧運保障期間,該護航小組貫穿容量管理、壓測、預案、性能優化、故障演練、重點賽事保障和資源彈性分配等全過程,之前團隊間的任務,在“護航小組”模式下,變為團隊內的任務,各角色緊密協同,發揮各自優勢,上下游通暢,其高效、專注的工作特點取得良好的成效。
過程改進
如圖2所示,運維過程從左到右將一個產品的生命周期中的業務研發、發布變更到生產運維貫穿起來。各個階段的流程均具備可量化的KPI指標,能夠清晰指示產品運維的健康程度和優化方向。例如,“生產變更提前計劃率”可以指示一個產品發布的計劃性和規范性,避免因為發布管理不善,而引發線上故障的風險。這3年阿里云的發展讓我們深刻認識到,由于云計算平臺自身的技術復雜性、大規模等特點,使得故障具備全局性、泛洪等特點,因此規范的運維流程和制度保障至關重要。
圖2 云計算運維過程的改進
支撐系統
云計算平臺和產品的高可用性實現,大規模、穩定、成本和效率之間的有效結合,都依賴于一套健壯、實用的運維支撐體系。服務于阿里云的運維支撐體系不是簡單套用ITIL或拼湊開源運維工具,而是根據云計算集群大規模分布式的特點,由飛天和技術保障開發團隊自主研發并不斷完善中的一套系統,其子系統主要包括:基礎運維、配置管理、生產變更、故障管理、集群容量、監控、集群運維等部分。從快速部署一套包括幾千個計算、存儲節點的飛天集群,到監控集群上萬的任務和服務對象,運維支撐系統在可管理、可擴展、健壯性和自動化程度的提升,既是解放運維生產力的過程,也是云計算是否真正落地的重要標志之一。圍繞飛天平臺運維保障,從操作系統安裝、飛天平臺搭建、應用部署、變更發布、監控、容量管理、儀表盤(Dashboard),都有專門的運維工具實現,并且工具之間相互關聯和協同。
圖3 發布變更
云運維面臨的挑戰
高可用!開發者需要一個安全、高可用的網站環境開展業務,因此如何確保云計算平臺和產品提供高可用性服務,是我們一直投入最大力量之所在。以故障管理為例,據相關機構統計,2012年國際知名云計算公司,先后發生多起云服務中斷事件,此類事件的數量較2011年呈上升趨勢,故障影響的周期從小時到天級別。分析這些故障背后的觸發因素,包括代碼Bug、IDC電力故障、網絡故障、設備故障、配置變更錯誤等諸多因素,可見云計算的風險隱患較之傳統網站并不少,結合云計算平臺自身所具備的大規模等特點,故障在云計算集群因為規模化而存在被放大的隱患,故障恢復也因為海量數據等因素而延長,所以如何對于故障進行容錯、容災、有效隔離影響和快速恢復對于云計算運營商至關重要。面對這些挑戰,阿里云產品開發團隊和技術保障團隊,把平臺的高可用性放在最高優先級加以實現,這也是阿里云飛天平臺重要的核心競爭力。其中,集群多Master HA、熱升級、動態遷移、集群管理平臺等,已在產品中普遍應用;技術保障團隊在故障預案、容災演練、工具自動化和應急響應等方面,在不斷改進和完善。
共創云運維生態系統
阿里云計算平臺是一個開放的生態系統,其中圍繞云計算的運維,是構成這個生態系統的重要的生態鏈。從云產品開發者的“輕”運維,到云平臺運營商的 “重”運維,相得益彰,相互促進,才能打造健康的發展環境。這條運維生態鏈充滿潛力,例如可以為第三方軟件提供商(ISV)、第三方運維服務提供商提供平臺,創造更細分和垂直的運維服務系統,豐富云生態系統,創造價值。以2012年11月的阿里云開發者大會為例,參賽作品中有相當比例是基于OSS和ECS 等開發的管理類工具,這些第三方管理工具在云生態系統中,就可能找到自己的需求方,從而產生價值。第三方運維服務商也同樣可以通過提供更細分、定制化的服務內容,在云生態系統中滿足開發者用戶的個性化運維需求。
云計算方興未艾,可謂小荷才露尖尖角,精彩剛剛開始。運維作為云計算的天然組成部分,會越來越展示其重要性,成為云計算核心競爭力之一。讓我們攜手所有的阿里云開發者共創一個健康、開放的云計算運維生態環境;讓阿里云計算平臺運維重如泰山,穩若磐石;讓開發者運維舉重若輕,輕松在路上。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:云計算運維之“輕”與“重”
本文網址:http://www.guhuozai8.cn/html/consultation/1083977895.html