SDN,在經歷了猶豫彷徨、百家爭鳴之后,目前已成為企業CTO的堅定選擇。
SDN時代的網絡展現出兩面性:一方面讓客戶使用更加簡單,另一方面卻讓運維更加復雜。而當前,整個行業的目光多聚焦在前者而忽略了后者。
隨著SDN的部署如火如荼,一絲憂患也隱隱浮現。2015年12月,管理行業研究機構EMA(Ent
ERPrise Management Associates)針對100多家企業的調查結果顯示:70%左右的客戶對于現有管理運維體系是否適用于SDN場景表示擔憂。Gartner于 2015年7月發布的通信網絡技術成熟度曲線(The Hype Cycle)也顯示,SDN相關的運維技術處于泡沫化的底谷期(Trough of Disillusionment),將在2~5年內進行大規模商用部署。
華為早在全面擁抱SDN初期,就把SDN運維作為關鍵課題進行研究和實踐,下面分別從WHY、WHAT、HOW這3個緯度展示華為對SDN運維的思考。
WHY:SDN運維的新變化
相對于傳統網絡,SDN時代的網絡有如下的特征:
動態網絡:動態是指根據應用需求按需創建和刪除邏輯網絡。比如某企業用戶反饋,在運維中需要投入50%的工作在防火墻的規則上,主要原因是隨著應用的變遷,防火墻規則沒有隨之變遷,造成網絡沉淀和碎片。
實時響應:傳統網絡的設計主要是面向人的界面,基于分鐘級別慢速的原則,比如使用了幾十年的SNMP機制。這種慢速機制,在SDN的快節奏中成為“吐槽”點。某企業客戶抱怨其輕載的網絡存在瞬態的突發丟包,懷疑存在毫秒級別的微突發流量,但是在分鐘級別的 SNMP機制下無法觀察到,更無法優化。
大規模:大規模有兩個含義,其一是管理的設備數量。從物理網元到邏輯網元vSwitch/vRouter,其數量增加了50倍;其二是處理的故障數量。據LinkedIn披露,從2010年到2015年,需要處理的故障增加了18倍,但管理人員僅增加了幾個。
要應對上述SDN網絡的3大問題,傳統的“人工運維”方式賢德捉襟見肘、難以為繼。
WHAT:SDN運維內涵
為了滿足SDN下“動態性、實時性、大規模”的挑戰,華為提出需要對整個運維架構進行變革,才能讓SDN“管用、好用”。新的SDN運維架構需要圍繞下面幾個方面打造:
可視化:看得見,看得清
俗話說“You Can’t Manage What You Can’t See”。“看得見”有兩個方面的含義:
觀察對象可視:可監控物理和邏輯對象,包括網元級別的節點和接口等,也包括網絡級別的鏈路、邏輯路徑和應用質量等。
觀察的實時性:支持毫秒級別現象的感知(比如流量微突發)、低頻率(<10-4)的丟包,以及大象流和老鼠流的識別等。
“看得清”意味著針對觀察的準確性,需要采集和分析海量的數據。包括:
精確計費:采集的比例需要從8K:1到2K:1,甚至1:1全量采集。
疑難問題定位:基于采集的“大數據”和實時分析,及時發現偶發性丟包和流量黑洞等。
自動化:自修復,自優化
傳統的網絡運維架構是一個單向的系統,而不是一個負反饋系統。網絡運維包括兩個方向:管理員在下行方向配置網絡,然后通過上行方向獲得網絡的狀態,也就是說,網絡的部署和狀態是割裂的,通過管理員進行有限的溝通。這種機制顯然無法滿足網絡故障自修復和網絡自優化的需求。自動化的運維需要構建 “閉環”運維架構,具體包括:
延遲修復:發現故障后,首先隔離故障,不影響現有業務。
診斷修復:結合采集的“大數據”和經驗數據庫,進行自動修復或給出明確的修復方案。
網絡優化:及時發現網絡存在的“病態”,如流量不均衡和流量擁塞風險等,通過閉環系統,由網絡部署系統自動進行調整,把故障消滅在萌芽狀態。
HOW:SDN運維方案
基于SDN下的運維新變化,華為分解了運維的生命周期,構建了“閉環”的運維負反饋系統,稱為Fabric Insight架構,包括如下4個模塊:
Monitor:監視
為了解決實時,海量的數據監視,需要在如下兩個方面改進方案:
改造采集通道,滿足海量數據上報:對于中規模的數據上報,采用gRPC等高效的采集通道替代SNMP等;對于大規模的數據上報,直接采用數據面基于UDP的采集通道,消除管理面CPU的帶寬限制。
改造采集點,滿足高頻采集:在數據中心交換機上設計專門的高頻采集部件,滿足毫秒級的事件采集。
Detector:探測
未來及時發現端到端業務路徑的質量,需要通過實時發送探測報的方式,對網絡進行“掃描”。區別于傳統機制的“隨機掃描”,華為結合網絡的拓撲和路由,支持更精確的“定向掃描”,可以做到真正的全網全覆蓋。基于這種能力,管理員就不再是“救火員”,而是運籌帷幄的“諸葛亮”。
Metrics:度量
在某些情況下,網絡質量顯示正常,但是應用體驗下降。探測機制無法解決這種問題,就需要基于真實的業務流進行度量,發現該業務流是否存在丟包和時延問題,如果丟包,丟包位置在哪?如果時延大,是什么因素造成的?
Diagnosis:診斷
診斷就像老中醫看病,通過Monitor、Detector和Metrics進行“望聞問切”后,再結合經驗庫的案例,定位出問題的根因。診斷部件由一系列的工具組成,每個工具針對特定的問題。比如環路診斷工具、丟包診斷工具等。
華為秉承開放的理念,開放基本的運維API,客戶可自助地開放和定制自己的診斷工具集。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:云時代如何簡化數據中心網絡運維?
本文網址:http://www.guhuozai8.cn/html/consultation/10839719921.html