1.引言
當(dāng)今,社會信息化和網(wǎng)絡(luò)化的發(fā)展導(dǎo)致數(shù)據(jù)爆炸式增長。據(jù)統(tǒng)計,平均每秒有200萬用戶在使用谷歌搜索,F(xiàn)acebook用戶每天共享的東西超過40億,Twitter每天處理的推特數(shù)量超過3.4億。同時,科學(xué)計算、醫(yī)療衛(wèi)生、金融、零售業(yè)等各行業(yè)也有大量數(shù)據(jù)在不斷產(chǎn)生。2012年全球信息總量已經(jīng)達到2.7 ZB,而到2015年這一數(shù)值預(yù)計會達到8 ZB。這一現(xiàn)象引發(fā)了人們的廣泛關(guān)注。在學(xué)術(shù)界,圖靈獎獲得者Jim Gray提出了科學(xué)研究的第四范式,即以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)密集型科學(xué)研究;2008年《Nature))推出了大數(shù)據(jù)專刊對其展開探討;2011年《Science》也推出類似的數(shù)據(jù)處理專刊。IT產(chǎn)業(yè)界行動更為積極,持續(xù)關(guān)注數(shù)據(jù)再利用,挖掘大數(shù)據(jù)的潛在價值。目前,大數(shù)據(jù)已成為繼云計算之后信息技術(shù)領(lǐng)域的另一個信息產(chǎn)業(yè)增長點。據(jù)Gartner預(yù)測,2013年大數(shù)據(jù)將帶動全球IT支出340億美元,到2016年全球在大數(shù)據(jù)方面的總花費將達到2320億美元。Gartner將“大數(shù)據(jù)”技術(shù)列入2012年對眾多公司和組織機構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢之一。不僅如此,作為國家和社會的主要管理者,各國政府也是大數(shù)據(jù)技術(shù)推廣的主要推動者。2009年3月美國政府上線了data.gov網(wǎng)站,向公眾開放政府所擁有的公共數(shù)據(jù)。隨后,英國、澳大利亞等政府也開始了大數(shù)據(jù)開放的進程,截至目前,全世界已經(jīng)正式有35個國家和地區(qū)構(gòu)建了自己的數(shù)據(jù)開放門戶網(wǎng)站。美國政府聯(lián)合6個部門宣布了2億美元的“大數(shù)據(jù)研究與發(fā)展計劃”。在我國,2012年中國通信學(xué)會、中國計算機學(xué)會等重要學(xué)術(shù)組織先后成立了大數(shù)據(jù)專家委員會,為我國大數(shù)據(jù)應(yīng)用和發(fā)展提供學(xué)術(shù)咨詢。
目前大數(shù)據(jù)的發(fā)展仍然面臨著許多問題,安全與隱私問題是人們公認的關(guān)鍵問題之一。當(dāng)前,人們在互聯(lián)網(wǎng)上的一言一行都掌握在互聯(lián)網(wǎng)商家手中,包括購物習(xí)慣、好友聯(lián)絡(luò)情況、閱讀習(xí)慣、檢索習(xí)慣等等。多項實際案例說明,即使無害的數(shù)據(jù)被大量收集后,也會暴露個人隱私。事實上,大數(shù)據(jù)安全含義更為廣泛,人們面臨的威脅并不僅限于個人隱私泄漏。與其它信息一樣,大數(shù)據(jù)在存儲、處理、傳輸?shù)冗^程中面臨諸多安全風(fēng)險,具有數(shù)據(jù)安全與隱私保護需求。而實現(xiàn)大數(shù)據(jù)安全與隱私保護,較以往其它安全問題(如云計算中的數(shù)據(jù)安全等)更為棘手。這是因為在云計算中,雖然服務(wù)提供商控制了數(shù)據(jù)的存儲與運行環(huán)境,但是用戶仍然有些辦法保護自己的數(shù)據(jù),例如通過密碼學(xué)的技術(shù)手段實現(xiàn)數(shù)據(jù)安全存儲與安全計算,或者通過可信計算方式實現(xiàn)運行環(huán)境安全等。而在大數(shù)據(jù)的背景下,F(xiàn)acebook等商家既是數(shù)據(jù)的生產(chǎn)者,又是數(shù)據(jù)的存儲、管理者和使用者,因此,單純通過技術(shù)手段限制商家對用戶信息的使用,實現(xiàn)用戶隱私保護是極其困難的事。
當(dāng)前很多組織都認識到大數(shù)據(jù)的安全問題,并積極行動起來關(guān)注大數(shù)據(jù)安全問題。2012年云安全聯(lián)盟CSA組建了大數(shù)據(jù)工作組,旨在尋找針對數(shù)據(jù)中心安全和隱私問題的解決方案。本文在梳理大數(shù)據(jù)研究現(xiàn)狀的基礎(chǔ)上,重點分析了當(dāng)前大數(shù)據(jù)所帶來的安全挑戰(zhàn),詳細闡述了當(dāng)前大數(shù)據(jù)安全與隱私保護的關(guān)鍵技術(shù)。需要指出的是,大數(shù)據(jù)在引人新的安全問題和挑戰(zhàn)的同時,也為信息安全領(lǐng)域帶來了新的發(fā)展契機,即基于大數(shù)據(jù)的信息安全相關(guān)技術(shù)可以反過來用于大數(shù)據(jù)的安全和隱私保護。本文在第5節(jié)對其進行了初步分析與探討。
2.大數(shù)據(jù)研究概述
2.1 大數(shù)據(jù)來源與特征
普遍的觀點認為,大數(shù)據(jù)是指規(guī)模大且復(fù)雜、以至于很難用現(xiàn)有數(shù)據(jù)庫管理工具或數(shù)據(jù)處理應(yīng)用來處理的數(shù)據(jù)集。大數(shù)據(jù)的常見特點包括大規(guī)模(volume)、高速性(velocity)和多樣性(variety)。根據(jù)來源的不同,大數(shù)據(jù)大致可分為如下幾類:
(1)來自于人。人們在互聯(lián)網(wǎng)活動以及使用移動互聯(lián)網(wǎng)過程中所產(chǎn)生的各類數(shù)據(jù),包括文字、圖片、視頻等信息;
(2)來自于機。各類計算機信息系統(tǒng)產(chǎn)生的數(shù)據(jù),以文件、數(shù)據(jù)庫、多媒體等形式存在,也包括審計、日志等自動生成的信息;
(3)來自于物。各類數(shù)字設(shè)備所采集的數(shù)據(jù)。如攝像頭產(chǎn)生的數(shù)字信號、醫(yī)療物聯(lián)網(wǎng)中產(chǎn)生的人的各項特征值、天文望遠鏡所產(chǎn)生的大量數(shù)據(jù)等。
2.2 大數(shù)據(jù)分析目標
目前大數(shù)據(jù)分析應(yīng)用于科學(xué)、醫(yī)藥、商業(yè)等各個領(lǐng)域,用途差異巨大。但其目標可以歸納為如下幾類:
(1)獲得知識與推測趨勢
人們進行數(shù)據(jù)分析由來已久,最初且最重要的目的就是獲得知識、利用知識。由于大數(shù)據(jù)包含大量原始、真實信息,大數(shù)據(jù)分析能夠有效地摒棄個體差異,幫助人們透過現(xiàn)象、更準確地把握事物背后的規(guī)律。基于挖掘出的知識,可以更準確地對自然或社會現(xiàn)象進行預(yù)測。典型的案例是Google公司的Google Flu Trends網(wǎng)站。它通過統(tǒng)計人們對流感信息的搜索,查詢Google服務(wù)器日志的IP地址判定搜索來源,從而發(fā)布對世界各地流感情況的預(yù)測。又如,人們可以根據(jù)Twitter信息預(yù)測股票行情等。
(2)分析掌握個性化特征
個體活動在滿足某些群體特征的同時,也具有鮮明的個性化特征。正如“長尾理論”中那條細長的尾巴那樣,這些特征可能千差萬別。企業(yè)通過長時間、多維度的數(shù)據(jù)積累,可以分析用戶行為規(guī)律,更準確地描繪其個體輪廓,為用戶提供更好的個性化產(chǎn)品和服務(wù),以及更準確的廣告推薦。例如Google通過其大數(shù)據(jù)產(chǎn)品對用戶的習(xí)慣和愛好進行分析,幫助廣告商評估廣告活動效率,預(yù)估在未來可能存在高達到數(shù)千億美元的市場規(guī)模。
(3)通過分析辨識真相
錯誤信息不如沒有信息。由于網(wǎng)絡(luò)中信息的傳播更加便利,所以網(wǎng)絡(luò)虛假信息造成的危害也更大。例如,2013年4月24日,美聯(lián)社Twitter帳號被盜,發(fā)布虛假消息稱總統(tǒng)奧巴馬遭受恐怖襲擊受傷。雖然虛假消息在幾分鐘內(nèi)被禁止,但是仍然引發(fā)了美國股市短暫跳水。由于大數(shù)據(jù)來源廣泛及其多樣性,在一定程度上它可以幫助實現(xiàn)信息的去偽存真。目前人們開始嘗試利用大數(shù)據(jù)進行虛假信息識別。例如,社交點評類網(wǎng)站Yelp利用大數(shù)據(jù)對虛假評論進行過濾,為用戶提供更為真實的評論信息;Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件。
2.3 大數(shù)據(jù)技術(shù)框架
大數(shù)據(jù)處理涉及數(shù)據(jù)的采集、管理、分析與展示等。圖1是相關(guān)技術(shù)示意圖。
圖1 大數(shù)據(jù)技術(shù)架構(gòu)
(1)數(shù)據(jù)采集與預(yù)處理(Data Acquisition & Preparation)
大數(shù)據(jù)的數(shù)據(jù)源多樣化,包括數(shù)據(jù)庫、文本、圖片、視頻、網(wǎng)頁等各類結(jié)構(gòu)化、非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)。因此,大數(shù)據(jù)處理的第一步是從數(shù)據(jù)源采集數(shù)據(jù)并進行預(yù)處理操作,為后繼流程提供統(tǒng)一的高質(zhì)量的數(shù)據(jù)集。
由于大數(shù)據(jù)的來源不一,可能存在不同模式的描述,甚至存在矛盾。因此,在數(shù)據(jù)集成過程中對數(shù)據(jù)進行清洗,以消除相似、重復(fù)或不一致的數(shù)據(jù)是非常必要的。文獻中數(shù)據(jù)清洗和集成技術(shù)針對大數(shù)據(jù)的特點,提出非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的清洗以及超大規(guī)模數(shù)據(jù)的集成。
數(shù)據(jù)存儲與大數(shù)據(jù)應(yīng)用密切相關(guān)。某些實時性要求較高的應(yīng)用,如狀態(tài)監(jiān)控,更適合采用流處理模式,直接在清洗和集成后的數(shù)據(jù)源上進行分析。而大多數(shù)其它應(yīng)用則需要存儲,以支持后繼更深度的數(shù)據(jù)分析流程。為了提高數(shù)據(jù)吞吐量,降低存儲成本,通常采用分布式架構(gòu)來存儲大數(shù)據(jù)。這方面有代表性的研究包括:文件系統(tǒng)GFSE、HDFS和Haystack等;NoSQL數(shù)據(jù)庫Mongodb、CouchDB、HBase、Redis、Neo4j等。
(2)數(shù)據(jù)分析(Data Analysis)
數(shù)據(jù)分析是大數(shù)據(jù)應(yīng)用的核心流程。根據(jù)不同層次大致可分為3類:計算架構(gòu)、查詢與索引以及數(shù)據(jù)分析和處理。
在計算架構(gòu)方面,MapReduce是當(dāng)前廣泛采用的大數(shù)據(jù)集計算模型和框架。為了適應(yīng)一些對任務(wù)完成時間要求較高的分析需求,文獻對其性能進行了優(yōu)化;文獻提出了一種基于MapReduce架構(gòu)的數(shù)據(jù)流分析解決方案MARISSA,使其能夠支持實時分析任務(wù);文獻則提出了基于時間的大數(shù)據(jù)分析方案Mastiff;文獻也針對廣告推送等實時性要求較高的應(yīng)用,提出了基于MapReduce的TiMR框架來進行實時流處理。
在查詢與索引方面,由于大數(shù)據(jù)中包含了大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)關(guān)系型數(shù)據(jù)庫的查詢和索引技術(shù)受到限制,而NoSQL類數(shù)據(jù)庫技術(shù)得到更多關(guān)注。例如,文獻提出了一個混合的數(shù)據(jù)訪問架構(gòu)HyDB以及一種并發(fā)數(shù)據(jù)查詢及優(yōu)化方法。文獻對key-value類型數(shù)據(jù)庫的查詢進行了性能優(yōu)化。
在數(shù)據(jù)分析與處理方面,主要涉及的技術(shù)包括語義分析與數(shù)據(jù)挖掘等。由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)呈現(xiàn)多樣化特點,所以對數(shù)據(jù)進行語義分析時,就較難統(tǒng)一術(shù)語進而挖掘信息。文獻針對大數(shù)據(jù)環(huán)境,提出了一種解決術(shù)語變異問題的高效術(shù)語標準化方法。文獻對語義分析中語義本體的異質(zhì)性展開了研究。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)主要針對結(jié)構(gòu)化數(shù)據(jù),因此迫切需要對非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)展開研究。文獻提出了一種針對圖片文件的挖掘技術(shù),文獻提出了一種大規(guī)模TEXT文件的檢索和挖掘技術(shù)。
(3)數(shù)據(jù)解釋(Data IntERPretation)
數(shù)據(jù)解釋旨在更好地支持用戶對數(shù)據(jù)分析結(jié)果的使用,涉及的主要技術(shù)為可視化和人機交互。目前已經(jīng)有了一些針對大規(guī)模數(shù)據(jù)的可視化研究,通過數(shù)據(jù)投影、維度降解或顯示墻等方法來解決大規(guī)模數(shù)據(jù)的顯示問題。由于人類的視覺敏感度限制了更大屏幕顯示的有效性,以人為中心的人機交互設(shè)計也將是解決大數(shù)據(jù)分析結(jié)果展示的一種重要技術(shù)。
(4)其它支撐技術(shù)(Data Transmission & Virtual Cluster)
雖然大數(shù)據(jù)應(yīng)用強調(diào)以數(shù)據(jù)為中心,將計算推送到數(shù)據(jù)上執(zhí)行,但是在整個處理過程中,數(shù)據(jù)的傳輸仍然是必不可少的,例如一些科學(xué)觀測數(shù)據(jù)從觀測點向數(shù)據(jù)中心的傳輸?shù)取N墨I針對大數(shù)據(jù)特征研究高效傳輸架構(gòu)和協(xié)議。
此外,由于虛擬集群具有成本低、搭建靈活、便于管理等優(yōu)點,人們在大數(shù)據(jù)分析時可以選擇更加方便的虛擬集群來完成各項處理任務(wù)。因此需要針對大數(shù)據(jù)應(yīng)用展開的虛擬機集群優(yōu)化研究。
3.大數(shù)據(jù)帶來的安全挑戰(zhàn)
科學(xué)技術(shù)是一把雙刃劍。大數(shù)據(jù)所引發(fā)的安全問題與其帶來的價值同樣引人注目。而最近爆發(fā)的“棱鏡門”事件更加劇了人們對大數(shù)據(jù)安全的擔(dān)憂。與傳統(tǒng)的信息安全問題相比,大數(shù)據(jù)安全面臨的挑戰(zhàn)性問題主要體現(xiàn)在以下幾個方面。
3.1 大數(shù)據(jù)中的用戶隱私保護
大量事實表明,大數(shù)據(jù)未被妥善處理會對用戶的隱私造成極大的侵害。根據(jù)需要保護的內(nèi)容不同,隱私保護又可以進一步細分為位置隱私保護、標識符匿名保護、連接關(guān)系匿名保護等。
人們面臨的威脅并不僅限于個人隱私泄漏,還在于基于大數(shù)據(jù)對人們狀態(tài)和行為的預(yù)測。一個典型的例子是某零售商通過歷史記錄分析,比家長更早知道其女兒已經(jīng)懷孕的事實,并向其郵寄相關(guān)廣告信息。而社交網(wǎng)絡(luò)分析研究也表明,可以通過其中的群組特性發(fā)現(xiàn)用戶的屬性。例如通過分析用戶的Twitter信息,可以發(fā)現(xiàn)用戶的政治傾向、消費習(xí)慣以及喜好的球隊等。
當(dāng)前企業(yè)常常認為經(jīng)過匿名處理后,信息不包含用戶的標識符,就可以公開發(fā)布了。但事實上,僅通過匿名保護并不能很好地達到隱私保護目標。例如,AOL公司曾公布了匿名處理后的3個月內(nèi)部分搜索歷史,供人們分析使用。雖然個人相關(guān)的標識信息被精心處理過,但其中的某些記錄項還是可以被準確地定位到具體的個人。紐約時報隨即公布了其識別出的1位用戶。編號為4417 749的用戶是1位62歲的寡居婦人,家里養(yǎng)了3條狗,患有某種疾病,等等。另一個相似的例子是,著名的DVD租賃商Netflix曾公布了約50萬用戶的租賃信息,懸賞100萬美元征集算法,以期提高電影推薦系統(tǒng)的準確度。但是當(dāng)上述信息與其它數(shù)據(jù)源結(jié)合時,部分用戶還是被識別出來了。研究者發(fā)現(xiàn),Netflix中的用戶有很大概率對非topl00、top500、topl000的影片進行過評分,而根據(jù)對非top影片的評分結(jié)果進行去匿名化(de-anonymizing)攻擊的效果更好。
目前用戶數(shù)據(jù)的收集、存儲、管理與使用等均缺乏規(guī)范,更缺乏監(jiān)管,主要依靠企業(yè)的自律。用戶無法確定自己隱私信息的用途。而在商業(yè)化場景中,用戶應(yīng)有權(quán)決定自己的信息如何被利用,實現(xiàn)用戶可控的隱私保護。例如用戶可以決定自己的信息何時以何種形式披露,何時被銷毀。包括:(1)數(shù)據(jù)采集時的隱私保護,如數(shù)據(jù)精度處理;(2)數(shù)據(jù)共享、發(fā)布時的隱私保護,如數(shù)據(jù)的匿名處理、人工加擾等;(3)數(shù)據(jù)分析時的隱私保護;(4)數(shù)據(jù)生命周期的隱私保護;(5)隱私數(shù)據(jù)可信銷毀等。
3.2 大數(shù)據(jù)的可信性
關(guān)于大數(shù)據(jù)的一個普遍的觀點是,數(shù)據(jù)自己可以說明一切,數(shù)據(jù)自身就是事實。但實際情況是,如果不仔細甄別,數(shù)據(jù)也會欺騙,就像人們有時會被自己的雙眼欺騙一樣。
大數(shù)據(jù)可信性的威脅之一是偽造或刻意制造的數(shù)據(jù),而錯誤的數(shù)據(jù)往往會導(dǎo)致錯誤的結(jié)論。若數(shù)據(jù)應(yīng)用場景明確,就可能有人刻意制造數(shù)據(jù)、營造某種“假象”,誘導(dǎo)分析者得出對其有利的結(jié)論。由于虛假信息往往隱藏于大量信息中,使得人們無法鑒別真?zhèn)危瑥亩龀鲥e誤判斷。例如,一些點評網(wǎng)站上的虛假評論,混雜在真實評論中使得用戶無法分辨,可能誤導(dǎo)用戶去選擇某些劣質(zhì)商品或服務(wù)。由于當(dāng)前網(wǎng)絡(luò)社區(qū)中虛假信息的產(chǎn)生和傳播變得越來越容易,其所產(chǎn)生的影響不可低估。用信息安全技術(shù)手段鑒別所有來源的真實性是不可能的。
大數(shù)據(jù)可信性的威脅之二是數(shù)據(jù)在傳播中的逐步失真。原因之一是人工干預(yù)的數(shù)據(jù)采集過程可能引入誤差,由于失誤導(dǎo)致數(shù)據(jù)失真與偏差,最終影響數(shù)據(jù)分析結(jié)果的準確性。此外,數(shù)據(jù)失真還有數(shù)據(jù)的版本變更的因素。在傳播過程中,現(xiàn)實情況發(fā)生了變化,早期采集的數(shù)據(jù)已經(jīng)不能反映真實情況。例如,餐館電話號碼已經(jīng)變更,但早期的信息已經(jīng)被其它搜索引擎或應(yīng)用收錄,所以用戶可能看到矛盾的信息而影響其判斷。
因此,大數(shù)據(jù)的使用者應(yīng)該有能力基于數(shù)據(jù)來源的真實性、數(shù)據(jù)傳播途徑、數(shù)據(jù)加工處理過程等,了解各項數(shù)據(jù)可信度,防止分析得出無意義或者錯誤的結(jié)果。
密碼學(xué)中的數(shù)字簽名、消息鑒別碼等技術(shù)可以用于驗證數(shù)據(jù)的完整性,但應(yīng)用于大數(shù)據(jù)的真實性時面臨很大困難,主要根源在于數(shù)據(jù)粒度的差異。例如,數(shù)據(jù)的發(fā)源方可以對整個信息簽名,但是當(dāng)信息分解成若干組成部分時,該簽名無法驗證每個部分的完整性。而數(shù)據(jù)的發(fā)源方無法事先預(yù)知哪些部分被利用、如何被利用,難以事先為其生成驗證對象。
3.3 如何實現(xiàn)大數(shù)據(jù)訪問控制
訪問控制是實現(xiàn)數(shù)據(jù)受控共享的有效手段。由于大數(shù)據(jù)可能被用于多種不同場景,其訪問控制需求十分突出。
大數(shù)據(jù)訪問控制的特點與難點在于:
(1)難以預(yù)設(shè)角色,實現(xiàn)角色劃分。由于大數(shù)據(jù)應(yīng)用范圍廣泛,它通常要為來自不同組織或部門、不同身份與目的的用戶所訪問,實施訪問控制是基本需求。然而,在大數(shù)據(jù)的場景下,有大量的用戶需要實施權(quán)限管理,且用戶具體的權(quán)限要求未知。面對未知的大量數(shù)據(jù)和用戶,預(yù)先設(shè)置角色十分困難。
(2)難以預(yù)知每個角色的實際權(quán)限。由于大數(shù)據(jù)場景中包含海量數(shù)據(jù),安全管理員可能缺乏足夠的專業(yè)知識,無法準確地為用戶指定其所可以訪問的數(shù)據(jù)范圍。而且從效率角度講,定義用戶所有授權(quán)規(guī)則也不是理想的方式。以醫(yī)療領(lǐng)域應(yīng)用為例,醫(yī)生為了完成其工作可能需要訪問大量信息,但對于數(shù)據(jù)能否訪問應(yīng)該由醫(yī)生來決定,不應(yīng)該需要管理員對每個醫(yī)生做特別的配置。但同時又應(yīng)該能夠提供對醫(yī)生訪問行為的檢測與控制,限制醫(yī)生對病患數(shù)據(jù)的過度訪問。
此外,不同類型的大數(shù)據(jù)中可能存在多樣化的訪問控制需求。例如,在Web2.0個人用戶數(shù)據(jù)中,存在基于歷史記錄的訪問控制;在地理地圖數(shù)據(jù)中,存在基于尺度以及數(shù)據(jù)精度的訪問控制需求;在流數(shù)據(jù)處理中,存在數(shù)據(jù)時間區(qū)間的訪問控制需求,等等。如何統(tǒng)一地描述與表達訪問控制需求也是一個挑戰(zhàn)性問題。
4.大數(shù)據(jù)安全與隱私保護關(guān)鍵技術(shù)
當(dāng)前亟需針對前述大數(shù)據(jù)面l臨的用戶隱私保護、數(shù)據(jù)內(nèi)容可信驗證、訪問控制等安全挑戰(zhàn),展開大數(shù)據(jù)安全關(guān)鍵技術(shù)研究。本節(jié)選取部分重點相關(guān)研究領(lǐng)域予以介紹。
4.1 數(shù)據(jù)發(fā)布匿名保護技術(shù)
對于大數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)(或稱關(guān)系數(shù)據(jù))而言,數(shù)據(jù)發(fā)布匿名保護是實現(xiàn)其隱私保護的核心關(guān)鍵技術(shù)與基本手段,目前仍處于不斷發(fā)展與完善階段。以典型的k匿名方案為例。早期的方案及其優(yōu)化方案通過元組泛化、抑制等數(shù)據(jù)處理,將準標識符分組。每個分組中的準標識符相同且至少包含k個元組,因而每個元組至少與k-1個其它元組不可區(qū)分。由于是匿名模型是針對所有屬性集合而言,對于具體的某個屬性則未加定義,容易出現(xiàn)某個屬性匿名處理不足的情況。若某等價類中某個敏感屬性上取值一致,則攻擊者可以有效地確定該屬性值。針對該問題研究者提出l多樣化(l-diversity)匿名。其特點是在每一個匿名屬性組里敏感數(shù)據(jù)的多樣性滿足要大于或等于l。實現(xiàn)方法包括基于裁剪算法的方案以及基于數(shù)據(jù)置換的方案等。此外,還有一些介于志匿名與l多樣化之間的方案。進一步的,由于l-diversity只是能夠盡量使敏感數(shù)據(jù)出現(xiàn)的頻率平均化。當(dāng)同一等價類中數(shù)據(jù)范圍很小時,攻擊者可猜測其值。t貼近性(t-closeness)方案要求等價類中敏感數(shù)據(jù)的分布與整個數(shù)據(jù)表中數(shù)據(jù)的分布保持一致。其它工作包括(k,e)匿名模型(X,Y)匿名模型等。上述研究是針對靜態(tài)、一次性發(fā)布情況。而現(xiàn)實中,數(shù)據(jù)發(fā)布常面臨數(shù)據(jù)連續(xù)、多次發(fā)布的場景。需要防止攻擊者對多次發(fā)布的數(shù)據(jù)聯(lián)合進行分析,破壞數(shù)據(jù)原有的匿名特性。
在大數(shù)據(jù)場景中,數(shù)據(jù)發(fā)布匿名保護問題較之更為復(fù)雜:攻擊者可以從多種渠道獲得數(shù)據(jù),而不僅僅是同一發(fā)布源。例如,在前所提及的Netflix應(yīng)用中,人們發(fā)現(xiàn)攻擊者可通過將數(shù)據(jù)與公開可獲得的imdb相對比,從而識別出目標在Netflix的賬號。并據(jù)此獲取用戶的政治傾向與宗教信仰等(通過用戶的觀看歷史和對某些電影的評論和打分分析獲得)。此類問題有待更深入的研究。
4.2 社交網(wǎng)絡(luò)匿名保護技術(shù)
社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)是大數(shù)據(jù)的重要來源之一,同時這些數(shù)據(jù)中包含大量用戶隱私數(shù)據(jù)。截至2012年10月Facebook的用戶成員就已達10億。由于社交網(wǎng)絡(luò)具有圖結(jié)構(gòu)特征,其匿名保護技術(shù)與結(jié)構(gòu)化數(shù)據(jù)有很大不同。
社交網(wǎng)絡(luò)中的典型匿名保護需求為用戶標識匿名與屬性匿名(又稱點匿名),在數(shù)據(jù)發(fā)布時隱藏了用戶的標識與屬性信息;以及用戶問關(guān)系匿名(又稱邊匿名),在數(shù)據(jù)發(fā)布時隱藏用戶間的關(guān)系。而攻擊者試圖利用節(jié)點的各種屬性(度數(shù)、標簽、某些具體連接信息等),重新識別出圖中節(jié)點的身份信息。
目前的邊匿名方案大多是基于邊的增刪。隨機增刪交換邊的方法可以有效地實現(xiàn)邊匿名。其中文獻在匿名過程中保持鄰接矩陣的特征值和對應(yīng)的拉普拉斯矩陣第二特征值不變,文獻根據(jù)節(jié)點的度數(shù)分組,從度數(shù)相同的節(jié)點中選擇符合要求的進行邊的交換,類似的還有文獻。這類方法的問題是隨機增加的噪音過于分散稀少,存在匿名邊保護不足問題。
另一個重要思路是基于超級節(jié)點對圖結(jié)構(gòu)進行分割和集聚操作。如基于節(jié)點聚集的匿名方案、基于基因算法的實現(xiàn)方案、基于模擬退火算法的實現(xiàn)方案哺們以及先填充再分割超級節(jié)點的方案。文獻所提出的k-security概念,通過k個同構(gòu)子圖實現(xiàn)圖匿名保護。基于超級節(jié)點的匿名方案雖然能夠?qū)崿F(xiàn)邊的匿名,但是與原始社交結(jié)構(gòu)圖存在較大區(qū)別,以犧牲數(shù)據(jù)的可用性為代價。
社交網(wǎng)絡(luò)匿名方案面臨的重要問題是,攻擊者可能通過其它公開的信息推測出匿名用戶,尤其是用戶之間是否存在連接關(guān)系。例如,可以基于弱連接對用戶可能存在的連接進行預(yù)測,適用于用戶關(guān)系較為稀疏的網(wǎng)絡(luò);根據(jù)現(xiàn)有社交結(jié)構(gòu)對人群中的等級關(guān)系進行恢復(fù)和推測;針對微博型的復(fù)合社交網(wǎng)絡(luò)進行分析與關(guān)系預(yù)測;基于限制隨機游走方法,推測不同連接關(guān)系存在的概率,等等。研究表明,社交網(wǎng)絡(luò)的集聚特性對于關(guān)系預(yù)測方法的準確性具有重要影響,社交網(wǎng)絡(luò)局部連接密度增長,集聚系數(shù)增大,則連接預(yù)測算法的準確性進一步增強。因此,未來的匿名保護技術(shù)應(yīng)可以有效抵抗此類推測攻擊。
4.3 數(shù)據(jù)水印技術(shù)
數(shù)字水印是指將標識信息以難以察覺的方式嵌入在數(shù)據(jù)載體內(nèi)部且不影響其使用的方法,多見于多媒體數(shù)據(jù)版權(quán)保護。也有部分針對數(shù)據(jù)庫和文本文件的水印方案。
由數(shù)據(jù)的無序性、動態(tài)性等特點所決定,在數(shù)據(jù)庫、文檔中添加水印的方法與多媒體載體上有很大不同。其基本前提是上述數(shù)據(jù)中存在冗余信息或可容忍一定精度誤差。例如,Agrawal等人基于數(shù)據(jù)庫中數(shù)值型數(shù)據(jù)存在誤差容忍范圍,將少量水印信息嵌入到這些數(shù)據(jù)中隨機選取的最不重要位上。而Sion等人提出一種基于數(shù)據(jù)集合統(tǒng)計特征的方案,將一比特水印信息嵌入在一組屬性數(shù)據(jù)中,防止攻擊者破壞水印。此外,通過將數(shù)據(jù)庫指紋信息嵌入水印中,可以識別出信息的所有者以及被分發(fā)的對象,有利于在分布式環(huán)境下追蹤泄密者;通過采用獨立分量分析技術(shù)(簡稱ICA),可以實現(xiàn)無需密鑰的水印公開驗證。若在數(shù)據(jù)庫表中嵌人脆弱性水印,可以幫助及時發(fā)現(xiàn)數(shù)據(jù)項的變化。
文本水印的生成方法種類很多,可大致分為基于文檔結(jié)構(gòu)微調(diào)的水印,依賴字符間距與行間距等格式上的微小差異;基于文本內(nèi)容的水印,依賴于修改文檔內(nèi)容,如增加空格、修改標點等;以及基于自然語言的水印。通過理解語義實現(xiàn)變化,如同義詞替換或句式變化等。
上述水印方案中有些可用于部分數(shù)據(jù)的驗證。例如在文獻中,殘余元組數(shù)量達到閾值就可以成功驗證出水印。該特性在大數(shù)據(jù)應(yīng)用場景下具有廣闊的發(fā)展前景,例如:強健水印類(RobustWatermark)可用于大數(shù)據(jù)的起源證明,而脆弱水印類(Fragile Watermark)可用于大數(shù)據(jù)的真實性證明。存在問題之一是當(dāng)前的方案多基于靜態(tài)數(shù)據(jù)集,針對大數(shù)據(jù)的高速產(chǎn)生與更新的特性考慮不足,這是未來亟待提高的方向。
4.4 數(shù)據(jù)溯源技術(shù)
如前所述,數(shù)據(jù)集成是大數(shù)據(jù)前期處理的步驟之一。由于數(shù)據(jù)的來源多樣化,所以有必要記錄數(shù)據(jù)的來源及其傳播、計算過程,為后期的挖掘與決策提供輔助支持。
早在大數(shù)據(jù)概念出現(xiàn)之前,數(shù)據(jù)溯源(Data Provenance)技術(shù)就在數(shù)據(jù)庫領(lǐng)域得到廣泛研究。其基本出發(fā)點是幫助人們確定數(shù)據(jù)倉庫中各項數(shù)據(jù)的來源,例如了解它們是由哪些表中的哪些數(shù)據(jù)項運算而成,據(jù)此可以方便地驗算結(jié)果的正確性,或者以極小的代價進行數(shù)據(jù)更新。數(shù)據(jù)溯源的基本方法是標記法,如在口文獻中通過對數(shù)據(jù)進行標記來記錄數(shù)據(jù)在數(shù)據(jù)倉庫中的查詢與傳播歷史。后來概念進一步細化為why和where兩類,分別側(cè)重數(shù)據(jù)的計算方法以及數(shù)據(jù)的出處。除數(shù)據(jù)庫以外,它還包括XML數(shù)據(jù)、流數(shù)據(jù)與不確定數(shù)據(jù)的溯源技術(shù)。
數(shù)據(jù)溯源技術(shù)也可用于文件的溯源與恢復(fù)。例如文獻通過擴展Linux內(nèi)核與文件系統(tǒng),創(chuàng)建了一個數(shù)據(jù)起源存儲系統(tǒng)原型系統(tǒng),可以自動搜集起源數(shù)據(jù)。此外也有其在云存儲場景中的應(yīng)用。
未來數(shù)據(jù)溯源技術(shù)將在信息安全領(lǐng)域發(fā)揮重要作用。在2009年呈報美國國土安全部的“國家網(wǎng)絡(luò)空間安全”的報告中,將其列為未來確保國家關(guān)鍵基礎(chǔ)設(shè)施安全的3項關(guān)鍵技術(shù)之一。然而,數(shù)據(jù)溯源技術(shù)應(yīng)用于大數(shù)據(jù)安全與隱私保護中還面I臨如下挑戰(zhàn):
(1)數(shù)據(jù)溯源與隱私保護之間的平衡。一方面,基于數(shù)據(jù)溯源對大數(shù)據(jù)進行安全保護首先要通過分析技術(shù)獲得大數(shù)據(jù)的來源,然才能更好地支持安全策略和安全機制的工作;另一方面,數(shù)據(jù)來源往往本身就是隱私敏感數(shù)據(jù)。用戶不希望這方面的數(shù)據(jù)被分析者獲得。因此,如何平衡這兩者的關(guān)系是值得研究的問題之一。
(2)數(shù)據(jù)溯源技術(shù)自身的安全性保護。當(dāng)前數(shù)據(jù)溯源技術(shù)并沒有充分考慮安全問題,例如標記自身是否正確、標記信息與數(shù)據(jù)內(nèi)容之間是否安全綁定等等。而在大數(shù)據(jù)環(huán)境下,其大規(guī)模、高速性、多樣性等特點使該問題更加突出。
4.5 角色挖掘
基于角色的訪問控制(RBAC)是當(dāng)前廣泛使用的一種訪問控制模型。通過為用戶指派角色、將角色關(guān)聯(lián)至權(quán)限集合,實現(xiàn)用戶授權(quán)、簡化權(quán)限管理。早期的RBAC權(quán)限管理多采用“自頂向下”的模式:即根據(jù)企業(yè)的職位設(shè)立角色分工。當(dāng)其應(yīng)用于大數(shù)據(jù)場景時,面臨需大量人工參與角色劃分、授權(quán)的問題(又稱為角色工程)。
后來研究者們開始關(guān)注“自底向上”模式,即根據(jù)現(xiàn)有“用戶一對象”授權(quán)情況,設(shè)計算法自動實現(xiàn)角色的提取與優(yōu)化,稱為角色挖掘。簡單來說,就是如何設(shè)置合理的角色。典型的工作包括:以可視化的形式,通過用戶權(quán)限二維圖的排序歸并的方式實現(xiàn)角色提取;通過子集枚舉以及聚類的方法提取角色等非形式化方法;也有基于形式化語義分析、通過層次化挖掘來更準確提取角色的方法。
總體來說,挖掘生成最小角色集合的最優(yōu)算法時間復(fù)雜度高,多屬于NP一完全問題。因而也有研究者關(guān)注在多項式時間內(nèi)完成的啟發(fā)式算法。在大數(shù)據(jù)場景下,采用角色挖掘技術(shù)可根據(jù)用戶的訪問記錄自動生成角色,高效地為海量用戶提供個性化數(shù)據(jù)服務(wù)。同時也可用于及時發(fā)現(xiàn)用戶偏離日常行為所隱藏的潛在危險。但當(dāng)前角色挖掘技術(shù)大都基于精確、封閉的數(shù)據(jù)集,在應(yīng)用于大數(shù)據(jù)場景時還需要解決數(shù)據(jù)集動態(tài)變更以及質(zhì)量不高等特殊問題。
4.6 風(fēng)險自適應(yīng)的訪問控制
在大數(shù)據(jù)場景中,安全管理員可能缺乏足夠的專業(yè)知識,無法準確地為用戶指定其可以訪問的數(shù)據(jù)。風(fēng)險自適應(yīng)的訪問控制是針對這種場景討論較多的一種訪問控制方法。Jason的報告描述了風(fēng)險量化和訪問配額的概念。隨后,Cheng等人提出了一個基于多級別安全模型的風(fēng)險自適應(yīng)訪問控制解決方案。Ni等人提出了另一個基于模糊推理的解決方案,將信息的數(shù)目和用戶以及信息的安全等級作為進行風(fēng)險量化的主要參考參數(shù)。當(dāng)用戶訪問的資源的風(fēng)險數(shù)值高于某個預(yù)定的門限時,則限制用戶繼續(xù)訪問。文獻提出了一種針對醫(yī)療數(shù)據(jù)提供用戶隱私保護的可量化風(fēng)險自適應(yīng)訪問控制。通過利用統(tǒng)計學(xué)和信息論的方法,定義了量化算法,從而實現(xiàn)基于風(fēng)險的訪問控制。但同時,在大數(shù)據(jù)應(yīng)用環(huán)境中,風(fēng)險的定義和量化都較之以往更加困難。
5.大數(shù)據(jù)服務(wù)與信息安全
5.1 基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)
由于大數(shù)據(jù)分析技術(shù)的出現(xiàn),企業(yè)可以超越以往的“保護-檢測-響應(yīng)-恢復(fù)”(PDRR)模式,更主動地發(fā)現(xiàn)潛在的安全威脅。例如,IBM推出了名為IBM大數(shù)據(jù)安全智能的新型安全工具,可以利用大數(shù)據(jù)來偵測來自企業(yè)內(nèi)外部的安全威脅,包括掃描電子郵件和社交網(wǎng)絡(luò),標示出明顯心存不滿的員工,提醒企業(yè)注意,預(yù)防其泄露企業(yè)機密。“棱鏡”計劃也可以被理解為應(yīng)用大數(shù)據(jù)方法進行安全分析的成功故事。通過收集各個國家各種類型的數(shù)據(jù),利用安全威脅數(shù)據(jù)和安全分析形成系統(tǒng)方法發(fā)現(xiàn)潛在危險局勢,在攻擊發(fā)生之前識別威脅。相比于傳統(tǒng)技術(shù)方案,基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)具有以下優(yōu)點。
(1)分析內(nèi)容的范圍更大
傳統(tǒng)的威脅分析主要針對的內(nèi)容為各類安全事件。而一個企業(yè)的信息資產(chǎn)則包括數(shù)據(jù)資產(chǎn)、軟件資產(chǎn)、實物資產(chǎn)、人員資產(chǎn)、服務(wù)資產(chǎn)和其它為業(yè)務(wù)提供支持的無形資產(chǎn)。由于傳統(tǒng)威脅檢測技術(shù)的局限性,其并不能覆蓋這六類信息資產(chǎn),因此所能發(fā)現(xiàn)的威脅也是有限的。而通過在威脅檢測方面引入大數(shù)據(jù)分析技術(shù),可以更全面地發(fā)現(xiàn)針對這些信息資產(chǎn)的攻擊。例如通過分析企業(yè)員工的即時通信數(shù)據(jù)、Email數(shù)據(jù)等可以及時發(fā)現(xiàn)人員資產(chǎn)是否面臨其它企業(yè)“挖墻腳”的攻擊威脅。再比如通過對企業(yè)的客戶部訂單數(shù)據(jù)的分析,也能夠發(fā)現(xiàn)一些異常的操作行為,進而判斷是否危害公司利益。可以看出,分析內(nèi)容范圍的擴大使得基于大數(shù)據(jù)的威脅檢測更加全面。
(2)分析內(nèi)容的時間跨度更長
現(xiàn)有的許多威脅分析技術(shù)都是內(nèi)存關(guān)聯(lián)性的,也就是說實時收集數(shù)據(jù),采用分析技術(shù)發(fā)現(xiàn)攻擊。分析窗口通常受限于內(nèi)存大小,無法應(yīng)對持續(xù)性和潛伏性攻擊。而引入大數(shù)據(jù)分析技術(shù)后,威脅分析窗口可以橫跨若干年的數(shù)據(jù),因此威脅發(fā)現(xiàn)能力更強,可以有效應(yīng)對APT類攻擊。
(3)攻擊威脅的預(yù)測性
傳統(tǒng)的安全防護技術(shù)或工具大多是在攻擊發(fā)生后對攻擊行為進行分析和歸類,并做出響應(yīng)。而基于大數(shù)據(jù)的威脅分析,可進行超前的預(yù)判。它能夠?qū)ふ覞撛诘陌踩{,對未發(fā)生的攻擊行為進行預(yù)防。
(4)對未知威脅的檢測
傳統(tǒng)的威脅分析通常是由經(jīng)驗豐富的專業(yè)人員根據(jù)企業(yè)需求和實際情況展開,然而這種威脅分析的結(jié)果很大程度上依賴于個人經(jīng)驗。同時,分析所發(fā)現(xiàn)的威脅也是已知的。而大數(shù)據(jù)分析的特點是側(cè)重于普通的關(guān)聯(lián)分析,而不側(cè)重因果分析,因此通過采用恰當(dāng)?shù)姆治瞿P停砂l(fā)現(xiàn)未知威脅。
雖然基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)具有上述的優(yōu)點,但是該技術(shù)目前也存在一些問題和挑戰(zhàn),主要集中在分析結(jié)果的準確程度上。一方面,大數(shù)據(jù)的收集很難做到全面,而數(shù)據(jù)又是分析的基礎(chǔ),它的片面性往往會導(dǎo)致分析出的結(jié)果的偏差。為了分析企業(yè)信息資產(chǎn)面臨的威脅,不但要全面收集企業(yè)內(nèi)部的數(shù)據(jù),還要對一些企業(yè)外的數(shù)據(jù)進行收集,這些在某種程度上是一個大問題。另一方面,大數(shù)據(jù)分析能力的不足影響威脅分析的準確性。例如,紐約投資銀行每秒會有5000次網(wǎng)絡(luò)事件,每天會從中捕捉25TB數(shù)據(jù)。如果沒有足夠的分析能力,要從如此龐大的數(shù)據(jù)中準確地發(fā)現(xiàn)極少數(shù)預(yù)示潛在攻擊的事件,進而分析出威脅是幾乎不可能完成的任務(wù)。
5.2 基于大數(shù)據(jù)的認證技術(shù)
身份認證是信息系統(tǒng)或網(wǎng)絡(luò)中確認操作者身份的過程。傳統(tǒng)的認證技術(shù)主要通過用戶所知的秘密,例如口令,或者持有的憑證,例如數(shù)字證書,來鑒別用戶。這些技術(shù)面臨著如下兩個問題。
首先,攻擊者總是能夠找到方法來騙取用戶所知的秘密,或竊取用戶持有的憑證,從而通過認證機制的認證。例如攻擊者利用釣魚網(wǎng)站竊取用戶口令,或者通過社會工程學(xué)方式接近用戶,直接騙取用戶所知秘密或持有的憑證。
其次,傳統(tǒng)認證技術(shù)中認證方式越安全往往意味著用戶負擔(dān)越重。例如,為了加強認證安全,而采用的多因素認證。用戶往往需要同時記憶復(fù)雜的口令,還要隨身攜帶硬件USBKey。一旦忘記口令或者忘記攜帶USBKey,就無法完成身份認證。為了減輕用戶負擔(dān),一些生物認證方式出現(xiàn),利用用戶具有的生物特征,例如指紋等,來確認其身份。然而,這些認證技術(shù)要求設(shè)備必須具有生物特征識別功能,例如指紋識別。因此很大程度上限制了這些認證技術(shù)的廣泛應(yīng)用。
而在認證技術(shù)中引入大數(shù)據(jù)分析則能夠有效地解決這兩個問題。基于大數(shù)據(jù)的認證技術(shù)指的是收集用戶行為和設(shè)備行為數(shù)據(jù),并對這些數(shù)據(jù)進行分析,獲得用戶行為和設(shè)備行為的特征,進而通過鑒別操作者行為及其設(shè)備行為來確定其身份。這與傳統(tǒng)認證技術(shù)利用用戶所知秘密,所持有憑證,或具有的生物特征來確認其身份有很大不同。具體地,這種新的認證技術(shù)具有如下優(yōu)點。
(1)攻擊者很難模擬用戶行為特征來通過認證,因此更加安全。利用大數(shù)據(jù)技術(shù)所能收集的用戶行為和設(shè)備行為數(shù)據(jù)是多樣的,可以包括用戶使用系統(tǒng)的時間、經(jīng)常采用的設(shè)備、設(shè)備所處物理位置,甚至是用戶的操作習(xí)慣數(shù)據(jù)。通過這些數(shù)據(jù)的分析能夠為用戶勾畫一個行為特征的輪廓。而攻擊者很難在方方面面都模仿到用戶行為,因此其與真正用戶的行為特征輪廓必然存在一個較大偏差,無法通過認證。
(2)減小了用戶負擔(dān)。用戶行為和設(shè)備行為特征數(shù)據(jù)的采集、存儲和分析都由認證系統(tǒng)完成。相比于傳統(tǒng)認證技術(shù),極大地減輕了用戶負擔(dān)。
(3)可以更好地支持各系統(tǒng)認證機制的統(tǒng)一基于大數(shù)據(jù)的認證技術(shù)可以讓用戶在整個網(wǎng)絡(luò)空間采用相同的行為特征進行身份認證,而避免不同系統(tǒng)采用不同認證方式,且用戶所知秘密或所持有憑證也各不相同而帶來了種種不便。
雖然基于大數(shù)據(jù)的認證技術(shù)具有上述優(yōu)點,但同時也存在一些問題和挑戰(zhàn)亟待解決。
(1)初始階段的認證問題。基于大數(shù)據(jù)的認證技術(shù)是建立在大量用戶行為和設(shè)備行為數(shù)據(jù)分析的基礎(chǔ)上,而初始階段不具備大量數(shù)據(jù)。因此,無法分析出用戶行為特征,或者分析的結(jié)果不夠準確。
(2)用戶隱私問題。基于大數(shù)據(jù)的認證技術(shù)為了能夠獲得用戶的行為習(xí)慣,必然要長期持續(xù)地收集大量的用戶數(shù)據(jù)。那么如何在收集和分析這些數(shù)據(jù)的同時,確保用戶隱私也是亟待解決的問題。它是影響這種新的認證技術(shù)是否能夠推廣的主要因素。
5.3 基于大數(shù)據(jù)的數(shù)據(jù)真實性分析
目前,基于大數(shù)據(jù)的數(shù)據(jù)真實性分析被廣泛認為是最為有效的方法。許多企業(yè)已經(jīng)開始了這方面的研究工作,例如Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件;Yelp等社交點評網(wǎng)絡(luò)用大數(shù)據(jù)分析來識別虛假評論;新浪微博等社交媒體利用大數(shù)據(jù)分析來鑒別各類垃圾信息等。
基于大數(shù)據(jù)的數(shù)據(jù)真實性分析技術(shù)能夠提高垃圾信息的鑒別能力。一方面,引入大數(shù)據(jù)分析可以獲得更高的識別準確率。例如,對于點評網(wǎng)站的虛假評論,可以通過收集評論者的大量位置信息、評論內(nèi)容、評論時問等進行分析,鑒別其評論的可靠性。如果某評論者為某品牌多個同類產(chǎn)品都發(fā)表了惡意評論,則其評論的真實性就值得懷疑;另一方面,在進行大數(shù)據(jù)分析時,通過機器學(xué)習(xí)技術(shù),可以發(fā)現(xiàn)更多具有新特征的垃圾信息。然而該技術(shù)仍然面臨一些困難,主要是虛假信息的定義、分析模型的構(gòu)建等。
5.4 大數(shù)據(jù)與“安全一即一服務(wù)(Security-as-a-Service)”
前面列舉了部分當(dāng)前基于大數(shù)據(jù)的信息安全技術(shù),未來必將涌現(xiàn)出更多、更豐富的安全應(yīng)用和安全服務(wù)。由于此類技術(shù)以大數(shù)據(jù)分析為基礎(chǔ),因此如何收集、存儲和管理大數(shù)據(jù)就是相關(guān)企業(yè)或組織所面臨的核心問題。除了極少數(shù)企業(yè)有能力做到之外,對于絕大多數(shù)信息安全企業(yè)來說,更為現(xiàn)實的方式是通過某種方式獲得大數(shù)據(jù)服務(wù),結(jié)合自己的技術(shù)特色領(lǐng)域,對外提供安全服務(wù)。一種未來的發(fā)展前景是,以底層大數(shù)據(jù)服務(wù)為基礎(chǔ),各個企業(yè)之間組成相互依賴、相互支撐的信息安全服務(wù)體系,總體上形成信息安全產(chǎn)業(yè)界的良好生態(tài)環(huán)境。
6.小結(jié)
大數(shù)據(jù)帶來了新的安全問題,但它自身也是解決問題的重要手段。本文從大數(shù)據(jù)的隱私保護、信任、訪問控制等角度出發(fā),梳理了當(dāng)前大數(shù)據(jù)安全與隱私保護相關(guān)關(guān)鍵技術(shù)。但總體上來說,當(dāng)前國內(nèi)外針對大數(shù)據(jù)安全與隱私保護的相關(guān)研究還不充分。只有通過技術(shù)手段與相關(guān)政策法規(guī)等相結(jié)合,才能更好地解決大數(shù)據(jù)安全與隱私保護問題。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.guhuozai8.cn/
本文標題:大數(shù)據(jù)安全與隱私保護
本文網(wǎng)址:http://www.guhuozai8.cn/html/support/11121513093.html