Hadoop在一些企業(yè)部署時,往往會遇到多個用戶各自創(chuàng)建的數(shù)據(jù)處理工作的情況。這些工作都運行在同一個Hadoop系統(tǒng)上時,他們之間可能會彼此沖突,爭奪可用的處理器資源。
David Clubb,在移動游戲平臺和市場公司Chartboost的高級數(shù)據(jù)工程師,試圖優(yōu)化大數(shù)據(jù)技術,提升產(chǎn)品體驗時,也遇到了Hadoop集群管理的問題。“我們正在更新Hadoop軟件,并試圖將其遷移到新的集群,但并沒有找到監(jiān)控集群的好方法,”Clubb說道。“你可以看到工作在運行,但你卻不能看到其所使用的資源。”
這樣顯然不太好,因為低優(yōu)先級的提取、轉換和加載過程和分析工作可能會占用CPU周期,而具有更高的優(yōu)先級的工作,例如實時的報告,所獲得的 CPU周期就會相對減少。與此同時,集群中的一些計算節(jié)點可能沒有被充分利用,Clubb說道。這個問題促使他實現(xiàn)了一套新的軟件,提供一個更便捷的窗口來觀察集群資源的活動和和實時優(yōu)化處理工具的工作負載,其中包括MapReduce、Hive和Spark等應用程序。
用了YARN,卻在原地踏步
今年安裝的Hadoop系統(tǒng)每天處理10億多個事件,創(chuàng)建一個龐大的數(shù)據(jù)池,以供業(yè)務產(chǎn)品線經(jīng)理使用,通過這些數(shù)據(jù),產(chǎn)品經(jīng)理可以了解 Chartboost平臺被玩家和游戲開發(fā)者使用的情況。首先,Chartboost,運行在Cloudera部署在Amazon Web Services 云環(huán)境上的Hadoop分布式平臺上,僅僅依靠開源框架內(nèi)置的Hadoop YARN調(diào)度程序調(diào)整其工作負載。但使用YARN,并沒有讓這家舊金山的公司能對高優(yōu)先級工作有什么特殊的處理,Clubb說。 他補充說道,Hadoop創(chuàng)建了一些信息,用于集群管理,但由于其開源的架構的特性,數(shù)據(jù)被分到不同的地方。自制的腳本可以解決的一些管理問題,但還是不足以解決所有問題。
后來,Clubb發(fā)現(xiàn)創(chuàng)業(yè)公司Pepperdata能夠提供更深層次的視圖,通過該視圖可以觀察Hadoop集群的I / O、內(nèi)存和CPU使用情況。對于Chartboost更重要的是,Pepperdata軟件可以自動降低低優(yōu)先級工作的占用,給予高優(yōu)先級應用程序額外的運行空間,并確保集群中所有的計算節(jié)點盡可能被有效地利用。
“我們試圖找出管理工作負載的最好方式——你肯定不想過度使用或未充分使用你的節(jié)點,”Clubb說道。“Pepperdata讓硬件的使用更高效。它可以動態(tài)地調(diào)整工作。” 使用這個軟件,減少了公司所需集群節(jié)點的數(shù)量,節(jié)約了Chartboost在云計算上的花費。Clubb說,其Hadoop系統(tǒng)目前有22個節(jié)點,原來的部署時則有33個節(jié)點。
多重Hadoop管理選項
Pepperdata是許多供應商中的一員,這些供應商包括傳統(tǒng)的系統(tǒng)管理軟件制造商,Hadoop分布提供者和類似Concurrent之類的創(chuàng)業(yè)公司,他們采取不同的方式來進行Hadoop集群管理流程的自動化。位于Sunnyvale, Calif的Pepperdata公司創(chuàng)始人之一,Chad Carson表示,基于處理優(yōu)先級的自適應調(diào)整是Pepperdata軟件的關鍵元素。 當公司把Hadoop大數(shù)據(jù)服務投入到生產(chǎn)使用中,IT團隊可能需要將保證應用程序的性能作為服務水平協(xié)議的一部分,Carson 說。他認為,理解如何利用Hadoop集群資源,并根據(jù)所需進行動態(tài)修改,對于企業(yè)來說會越來越重要。
Hadoop生態(tài)系統(tǒng)的新成員,比如Apache Spark處理引擎,可能會進一步加劇集群管理問題,Carson補充說。“Spark能做的更多,也更快,”他說。”但它在使用中存在高峰期,你會看到 Spark的工作干擾到了其他工作。或者你會看到一個Spark或HBase工作負載被延遲所約束,或被低優(yōu)先級的MapReduce[工作]干涉。”
Hadoop集群管理中的“交通警察”
像Pepperdata一類的軟件可以幫助企業(yè)解決一些阻礙Hadoop使用的問題,Mike Matchett—位于Hopkinton, Mass的 Taneja Group公司分析師如是說。 “做一個應用程序性能管理系統(tǒng)是一回事——而做一個可以動態(tài)地優(yōu)化系統(tǒng)的實時控制器是另外一碼事,”Matchett 說道。“如果部署了一個大的集群,且用于多重用途,那么你就需要一個“交通警察”。 對于Clubb來說,下一步可能會增加Spark的使用,以處理Hadoop數(shù)據(jù)。他提到,早前的工作,使用Pepperdata的軟件支持處理引擎對 Chartboost有了積極的結果。Clubb說,他有信心可以遷移更多的工作流到Spark,且不會遇到之前的集群管理問題,“更多工作意味著你更有可能耗盡所有的資源。”
作者:Jack Vaughan,主要關注數(shù)據(jù)管理領域的技術趨勢和動態(tài)。
翻譯:楊宏玉
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網(wǎng)http://www.guhuozai8.cn/
本文標題:Hadoop集群管理上的新“絕招”
本文網(wǎng)址:http://www.guhuozai8.cn/html/solutions/14019319154.html