當(dāng)前各個(gè)領(lǐng)域數(shù)據(jù)生成速度逐漸加快,需要處理的數(shù)據(jù)量急劇膨脹。這些巨大的數(shù)據(jù)資源蘊(yùn)藏著潛在的價(jià)值,需要對其進(jìn)行有效的分析和利用。當(dāng)前數(shù)據(jù)的特點(diǎn)除了數(shù)量龐大之外,數(shù)據(jù)類型也變得多樣化,其中包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)量龐大、種類繁多的海量數(shù)據(jù),給傳統(tǒng)分析工具帶來了巨大的挑戰(zhàn)。當(dāng)前對數(shù)據(jù)的分析不再是簡單的生成統(tǒng)計(jì)報(bào)表,而是利用復(fù)雜的分析模型進(jìn)行深人的分析,傳統(tǒng)分析技術(shù)例如關(guān)系數(shù)據(jù)庫技術(shù)已經(jīng)不能滿足其要求。在擴(kuò)展性上,通過增加或更換內(nèi)存、CPU、硬盤等設(shè)備原件以打一展單個(gè)節(jié)點(diǎn)的能力的縱向打一展(scale up)系統(tǒng)遇到了瓶頸;只有通過增加計(jì)算節(jié)點(diǎn),連接成大規(guī)模集群,進(jìn)行分布式并行計(jì)算和管理的橫向打一展(scale out )系統(tǒng)才能滿足大數(shù)據(jù)的分析需求[u。因此傳統(tǒng)工具在擴(kuò)展性上遇到了障礙,必須尋求可靠的數(shù)據(jù)存儲和分析技術(shù)來分析和利用這些龐大的資源。利用云計(jì)算平臺搭建Hadoop計(jì)算框架成為當(dāng)前處理大數(shù)據(jù)的主要手段。然而由于云計(jì)算和Hadoop應(yīng)用的特點(diǎn)和自身安全機(jī)制薄弱,不可避免地帶來了安全風(fēng)險(xiǎn)。
1、大數(shù)據(jù)應(yīng)用模式
云計(jì)算(Cloud Computing)是一種基于Internet的計(jì)算,是以并行計(jì)算(Parallel Computing )、分布式計(jì)算(Distributed Computing)和網(wǎng)格計(jì)算(Grid Compu-tin助為基礎(chǔ),融合了網(wǎng)絡(luò)存儲、虛擬化、負(fù)載均衡等技術(shù)的新興產(chǎn)物。它將原本需要由個(gè)人計(jì)算機(jī)和私有數(shù)據(jù)中心執(zhí)行的任務(wù)轉(zhuǎn)移給具備專業(yè)存儲和計(jì)算技術(shù)的大型計(jì)算中心來完成,實(shí)現(xiàn)了計(jì)算機(jī)軟件、硬件等計(jì)算資源的充分共享[z}。企業(yè)或個(gè)人不再需要花費(fèi)大量的費(fèi)用在基礎(chǔ)設(shè)施的購買上,更不需要花費(fèi)精力對軟硬件進(jìn)行安裝、配置和維護(hù),這些都將由云計(jì)算服務(wù)商CSP( Cloud Service Provider)提供相應(yīng)的服務(wù)。企業(yè)或個(gè)人只需按照計(jì)時(shí)或計(jì)量的方式支付租賃的計(jì)算資源。云計(jì)算服務(wù)商擁有大數(shù)據(jù)存儲能力和計(jì)算資源,被視為外包信息服務(wù)的最佳選擇[31因此大數(shù)據(jù)的應(yīng)用往往與云計(jì)算相結(jié)合。
Hadoop是當(dāng)前最廣為人知的大數(shù)據(jù)技術(shù)實(shí)施方案,它是Google云計(jì)算中的Map/Reduce}4}和GFS( Google File System)的開源實(shí)現(xiàn)。Hadoop提供了一種計(jì)算框架,其最為核心的技術(shù)是HDFS ( HadoopDistributed File System)以及MapReduee } HDFS提供了高吞吐量的分布式文件系統(tǒng),而MapReduee是大型數(shù)據(jù)的分布式處理模型。Hadoop為大數(shù)據(jù)提供了一個(gè)可靠的共享存儲和分析系統(tǒng)[5-6 }v
盡管有一些組織自建集群來運(yùn)行Hadoop,但是仍有許多組織選擇在租賃硬件所搭建的云端運(yùn)行Hadoop或提供Hadoop服務(wù)。例如提供在公有或私有云端運(yùn)行Hadoop的Cloudera,還有由Amazon提供的稱為Elastic MapReduee的云服務(wù)等f}l。因此將云計(jì)算與Hadoop結(jié)合處理大數(shù)據(jù)已成為一種趨勢。
2、大數(shù)據(jù)安全風(fēng)險(xiǎn)分析
隨著大數(shù)據(jù)應(yīng)用范圍越來越廣,對數(shù)據(jù)安全的需求也越來越迫切。
由于云計(jì)算的特點(diǎn)是將數(shù)據(jù)外包給云服務(wù)商提供服務(wù),這種服務(wù)模式將數(shù)據(jù)的所有權(quán)轉(zhuǎn)移給了CSP,用戶失去了對物理資源的直接控制[A1。而云中存儲的大數(shù)據(jù)通常是以明文的方式存在的,CSP對數(shù)據(jù)具有底層控制權(quán),惡意的CSP有可能在用戶不知情的情況下竊取用戶數(shù)據(jù),而云計(jì)算平臺亦可能受到攻擊致使安全機(jī)制失效或被非法控制從而導(dǎo)致非授權(quán)人讀取數(shù)據(jù),給大數(shù)據(jù)安全帶來了威脅。
Hadoop在設(shè)計(jì)之初并未考慮過安全問題,在Ha-doop 1. 0. 0和Cloudera CDH3版本之后,Hadoop加人了Kerberos的身份認(rèn)證機(jī)制和基于ACL的訪問控制機(jī)制[91。即使在安全方面增加了身份認(rèn)證和訪問控制策略,Hadoop的安全機(jī)制仍然非常薄弱,因?yàn)镵er-beros的認(rèn)證機(jī)制只應(yīng)用于客戶機(jī)(Clients )、密鑰分發(fā)中心(I}ey Distribution Center, I}DC )、服務(wù)器(Serv-er)之間,只是針對機(jī)器級別的安全認(rèn)證,并未對Ha-doop應(yīng)用平臺本身進(jìn)行認(rèn)證[}o}。而基于ACL的訪問控制策略需要通過在啟用ACL之后,對hadoop-policy. xml中的屬性進(jìn)行配置,其中包括9條屬性,它們限制了用戶與組成員對Hadoop中資源的訪問以及Datanode和Namenode或Jobtracke:和Tasktrackers等節(jié)點(diǎn)間的通信,但該機(jī)制依賴于管理員對其的配置[川,這種基于傳統(tǒng)的訪問控制列表容易在服務(wù)器端被篡改而不易察覺。而且基于ACL的訪問控制策略粒度過粗,不能在MapReduce過程中以細(xì)粒度的方式保護(hù)用戶隱私字段。況且針對不同的用戶和不同應(yīng)用,訪問控制列表需要經(jīng)常作對應(yīng)的更改,這樣的操作過于繁瑣且不易維護(hù)。因此Hadoop自身的安全機(jī)制是不完善的。
2.1 不同應(yīng)用模式下CSP及Uers帶來的安全風(fēng)險(xiǎn)
云計(jì)算中Hadoop有多種應(yīng)用模式。在私有云中搭建Hadoop,即企業(yè)自己應(yīng)用Hadoop,使用該平臺的是企業(yè)內(nèi)部各個(gè)部門的員工,外部人員無法訪問和使用這些資源。這時(shí)的CSP指的是Hadoop的創(chuàng)建和管理者,IaaS級和PaaS級CSP為相同的實(shí)體;在公有云平臺應(yīng)用Hadoop , C SP有2級,IaaS級CSP,提供基礎(chǔ)設(shè)施;PaaS級C SP,負(fù)責(zé)Hadoop的搭建和管理。這時(shí)兩級CSP往往是不同的實(shí)體。
由于存儲在Hadoop上的數(shù)據(jù)是明文的,所以Hadoop中的安全隱患是多方面的,筆者關(guān)注的是CSP和用戶之間的安全問題,因此威脅對象分別是CSP和User,如圖1所示。
圖 1 CSP和User之間的威脅
C SP對用戶數(shù)據(jù)的威脅指的是:CSP權(quán)限過大可在用戶不知情的情況下獲取用戶數(shù)據(jù)。用戶對CSP構(gòu)成的威脅指的是:Faked用戶獲取合法用戶數(shù)據(jù)或者惡意用戶對CSP發(fā)起不合法請求,獲取隱私數(shù)據(jù)。本文對位于Hadoop中不同狀態(tài)的數(shù)據(jù)可能受到的威脅點(diǎn)用三角表示,如圖2所示。其中1 ,5位置均指的是HDFS中,所以受到的威脅是相同的。
Malice IaaS級CSP可以通過物理磁盤在位置1,3 ,4 ,5對數(shù)據(jù)進(jìn)行獲取。Hadoop中主要的文件結(jié)構(gòu)有如下幾種:SequenceFile , RC File , Avro、文本格式、外部格式。其中有些文件格式是二進(jìn)制形式的,但像文本格式和外部格式并不都是二進(jìn)制格式,因此是可讀的。由于是明文存儲,CSP便可以通過讀取數(shù)據(jù)塊內(nèi)容提取有價(jià)值的部分進(jìn)行分析。IaaS級CSP對數(shù)據(jù)具有絕對的控制權(quán),如果從物理磁盤竊取文件或數(shù)據(jù)塊,便獲得了其中的內(nèi)容。可以通過建立第三方審計(jì)系統(tǒng)來保障其安全,這部分不在本文的討論范圍內(nèi)。
Malice PaaS級CSP可以在用戶不知情的情況下通過超級用戶身份即特權(quán)管理員身份對文件權(quán)限進(jìn)行更改,以合法身份對數(shù)據(jù)進(jìn)行讀取和分析。因此可以在位置1 ,2,5進(jìn)行數(shù)據(jù)竊取。不過在1 ,5的位置獲取數(shù)據(jù)是通過向Namenode請求數(shù)據(jù)塊,從Datan-ode獲取數(shù)據(jù)。
Fucked Use:假冒合法用戶身份對數(shù)據(jù)進(jìn)行讀取,一旦獲取了合法用戶身份,便與合法用戶擁有相同的權(quán)限,可以在1 ,5的位置通過向Namenode請求數(shù)據(jù)塊,從Datanode獲取數(shù)據(jù),也可以在2的位置輸出需要的數(shù)據(jù)進(jìn)行分析。
Malice Use:在利用數(shù)據(jù)擁有者提供的數(shù)據(jù)進(jìn)行分析時(shí),竊取部分敏感字段進(jìn)行分析和輸出。可以在2中提取數(shù)據(jù),在計(jì)算完后通過5獲取分析結(jié)果。
2. 2 威脅模型
上面提到的是提供Hadoop服務(wù)的C SP和使用Hadoop的Use:之間的安全風(fēng)險(xiǎn),接下來對使用Ha-doop的用戶Use:角色進(jìn)行細(xì)化,分析他們之間對數(shù)據(jù)隱私的竊取產(chǎn)生的安全問題。在云中搭建Hadoop提供服務(wù)的應(yīng)用場景下,數(shù)據(jù)使用者收集數(shù)據(jù)擁有者的數(shù)據(jù),并將數(shù)據(jù)分塊存儲于HDFS中,數(shù)據(jù)計(jì)算者提供對數(shù)據(jù)分析的代碼,CSP提供數(shù)據(jù)存儲和分析平臺。因此涉及4類主體,數(shù)據(jù)擁有者、數(shù)據(jù)使用者、數(shù)據(jù)計(jì)算者和云服務(wù)提供商CSP。這里的不可信實(shí)體包括數(shù)據(jù)計(jì)算者和C SP。筆者通過實(shí)際的例子給出Hadoop中獲取隱私信息的可能途徑。
依據(jù)Airavat系統(tǒng)中描述的威脅場景,給出對應(yīng)的安全威脅模型:
圖 2 數(shù)據(jù)非法獲取位置分析
一個(gè)在線零售商BigShop ,擁有大量的客戶交易數(shù)據(jù)庫。現(xiàn)在假定所有記錄是以<客戶、訂單、日期>的形式存在數(shù)據(jù)庫中,每個(gè)客戶一份記錄。一個(gè)機(jī)器學(xué)習(xí)專家Researcher,付給BigShop一些錢用來對特定的交易模式進(jìn)行數(shù)據(jù)挖掘。BigShop加載數(shù)據(jù)到Hadoop框架中,Bob寫MapReduce代碼分析它。這里按照對角色的劃分,BigShop屬于數(shù)據(jù)使用者和CSP,客戶為數(shù)據(jù)擁有者,Researche:為數(shù)據(jù)計(jì)算者。
假設(shè)Researche:想要得到特殊日子D的訂單數(shù)口。他寫了一個(gè)Mappe:用來讀取每份記錄,如果記錄日期D,就輸出鍵/值對
這種情況下,對于BigShop的主要風(fēng)險(xiǎn)就是Re-searche:的代碼是不可信的,可能是有無意的漏洞或者是主動惡意漏洞。由于Researche:的Mappe:程序直接訪問BigShop專有的交易記錄,它可以存儲部分?jǐn)?shù)據(jù)到某個(gè)文件中,過后由Researche:取走;或者程序把數(shù)據(jù)發(fā)送到網(wǎng)絡(luò)上。
這樣的泄露可能使得BigShop在商業(yè)上處于不利的地位并且由于沒有經(jīng)過客戶的同意把交易數(shù)據(jù)公開而遭受信譽(yù)問題。輸出的計(jì)算結(jié)果可能也會泄露信息。例如,Researche:的Mappe:程序可能會在輸人的數(shù)據(jù)庫中標(biāo)記存在的(或者不存在)的一個(gè)特定客戶,通過操控特定日期的訂單數(shù)口:如果該客戶的記錄在這個(gè)數(shù)據(jù)集中,Mappe:程序輸出一個(gè)一百萬的訂單數(shù)口;否則,輸出0。很明顯,這個(gè)結(jié)果泄露了客戶的隱私。
上述提到的安全風(fēng)險(xiǎn)來自于數(shù)據(jù)計(jì)算者,這里的CSP是BigShop自身,數(shù)據(jù)由BigShop進(jìn)行維護(hù),并在其上進(jìn)行計(jì)算,因此不存在安全問題。但是如果Big-Shop自身沒有相應(yīng)存儲和計(jì)算設(shè)施或并未搭建和使用Hadoop框架,則需要應(yīng)用外包服務(wù)模式,利用其它云服務(wù)商提供的Hadoop服務(wù),此時(shí)安全風(fēng)險(xiǎn)除了來自數(shù)據(jù)計(jì)算者,還有C SP對數(shù)據(jù)的竊取,以及云平臺由于出現(xiàn)漏洞受到黑客攻擊,例如黑客通過Root-kith "}方式強(qiáng)迫口標(biāo)操作系統(tǒng)安裝它的Hypervisor,并把口標(biāo)操作系統(tǒng)移人一個(gè)普通的虛擬機(jī)中運(yùn)行,由于在虛擬化環(huán)境中Hypervisor擁有最高特權(quán),因此Ro-otkit可以獲得整個(gè)物理機(jī)的控制權(quán),對數(shù)據(jù)安全構(gòu)成威脅。
因此上述威脅可以歸納為:
1)惡意的PaaS級CSP通過給自己設(shè)定權(quán)限對數(shù)據(jù)進(jìn)行竊取,或通過備份中間數(shù)據(jù)到其他位置進(jìn)行訪問,或不徹底刪除放人云中的數(shù)據(jù),留作他用。
2)在平臺安全機(jī)制失效的情況下,黑客通過某些途徑獲得root權(quán)限隨意讀取數(shù)據(jù),或偽造數(shù)據(jù)使用者身份讀取數(shù)據(jù)或進(jìn)行篡改。
3)數(shù)據(jù)計(jì)算者通過map過程輸出某些敏感信息,并使用MapReduee進(jìn)行統(tǒng)計(jì)。
3、安全策略
在大數(shù)據(jù)應(yīng)用模式下,對文件及文件系統(tǒng)的保護(hù)稱為數(shù)據(jù)服務(wù)安全保護(hù),對存儲的鍵值內(nèi)容及計(jì)算輸出結(jié)果的保護(hù)稱為隱私保護(hù)。從行為角度考慮服務(wù)安全性的同時(shí),同樣需要考慮數(shù)據(jù)隱私安全問題。
對上面提到的安全問題,本文提出以下安全策略:
首先,需要對CSP和Use:的身份及平臺進(jìn)行完整性驗(yàn)證。Kerberos的雙向認(rèn)證可以保證用戶和CSP雙方身份安全,這是在請求發(fā)起時(shí)所作的認(rèn)證。
其次,在保障了身份的可靠性后,還需要驗(yàn)證平臺的安全性,平臺安全性可以通過可信計(jì)算技術(shù),利用TPM搭建可信云計(jì)算環(huán)境,對平臺環(huán)境進(jìn)行度量,建立可信鏈,將可信鏈從物理層擴(kuò)展到虛擬化層,保障云平臺的安全性[} }a一‘6es。
最后,需要在數(shù)據(jù)使用過程中對行為請求進(jìn)行監(jiān)控,建立監(jiān)控機(jī)制可以保障CSP對數(shù)據(jù)的非法請求,同時(shí)可以監(jiān)控?cái)?shù)據(jù)計(jì)算者對數(shù)據(jù)的非法運(yùn)算和輸出。可以通過使用LSM ( Linux Security Module)設(shè)立相應(yīng)的訪問控制策略,利用hook函數(shù)對內(nèi)核調(diào)用進(jìn)行控制[n},允許合法行為對數(shù)據(jù)的訪問,拒絕非法的不可信行為,保障數(shù)據(jù)流向合法請求主體。
4、結(jié)束語
本文首先提出大數(shù)據(jù)的應(yīng)用模式是在云計(jì)算環(huán)境下使用Hadoop計(jì)算框架對大數(shù)據(jù)進(jìn)行存儲和分析。給出在不同云計(jì)算部署模式下,Hadoop不同階段操作過程中,不可信主體對數(shù)據(jù)服務(wù)和隱私安全構(gòu)成的威脅,并給出了對應(yīng)的威脅模型實(shí)例,得出在平臺環(huán)境可信的情況下,風(fēng)險(xiǎn)主要來自于CSP及數(shù)據(jù)計(jì)算者。CSP可以在不被用戶知曉的情況下更改文件權(quán)限獲取數(shù)據(jù)內(nèi)容,數(shù)據(jù)計(jì)算者可以通過計(jì)算程序輸出隱私字段等方式獲取相關(guān)數(shù)據(jù),因此需要保障數(shù)據(jù)服務(wù)及隱私安全。最后對相關(guān)安全問題給出了對應(yīng)解決策略。下一步筆者將要對相應(yīng)安全策略進(jìn)行進(jìn)一步的研究。〕
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.guhuozai8.cn/
本文標(biāo)題:大數(shù)據(jù)應(yīng)用模式及安全風(fēng)險(xiǎn)分析
本文網(wǎng)址:http://www.guhuozai8.cn/html/consultation/10839516053.html