如今,CIO們都已經接受了“大數據”的概念,另一個概念也逐漸受到關注:小數據。
這兩者看似是相對立的兩端,但是這不完全正確。小數據往往指數據量;而大數據當然也包含了數據量,但是也包含了多樣性,時效性,特定的技術或者其他概念。
Kirk Borne,是美國喬治梅森大學的天體物理學和計算機科學的教授,他認為這兩者的區別是很重要的。Borne有關大數據的課程專注于大數據的屬性和先進的分析技術,而這些也幾乎總是可以應用于小數據。但是后者卻可以使學生進行實驗,磨練他們在數據分析上的技能。而大數據則會快速把他們淹沒。
隨著CIO們斟酌著“多少數據是太多的數據”這個問題時,小數據在企業界因為類似的原因為自己樹立名聲。 Borne,前美國航空航天局員工,還曾為哈勃太空望遠鏡團隊工作10年,在接受TechTarget專訪時討論了有關什么是小數據,以及它和大數據概念如何相互融合。
問:您最近會在一些會議上討論小數據和大數據的對比。讓我們先從定義開始:什么是大數據,什么是小數據?
Kirk Borne:定義小數據相對容易點,因為它基本上就是你能在筆記本電腦上完成的數據。大數據 – 則更復雜。我現在正在推廣這樣一個定義:大數據就是一切能夠被量化和被追蹤的。關于這一點,我的意思是我們現在幾乎對于一切都在進行測量和量化 – 通過社交媒體,智能高速公路,智能城市,移動醫療,電子醫療記錄,監控攝像頭無處不在,這也涉及到大數據所帶來的隱私問題。所有可以被測量的一切,我們都在進行測量。而我們不僅只是進行一次測量,我們還跟蹤它如何隨時間而變化。
問:為什么大數據如此難以定義?
Borne:你肯定看過瞎子摸象的動畫片。每個人對于它是什么都有不同的定義,因為有人摸到的是腿,有人摸到的是鼻子,有人摸到的是尾巴。對于‘大象’,每個人都有不同的描述和定義。這就是我們的難處。人們希望大數據是一個概念,但是這是行不通的。
問:就職于Actuate公司的Allen Bonde曾經說過,小數據適合人使用,而大數據適合機器使用。這一區別定義合理嗎?
Borne:是的。這是一種概括的說法。小數據,是你學習時使用的數據。關于學習,我指的是兩件事情:第一,教育概念里的學習。所以,當我教授課程時,我一直使用小數據,我從來沒有使用過大容量意義上的大數據,因為如果這樣,學生們就會花費一整個學期學習如何移動數據,而沒有時間學習任何運算方法。第二,當你在一個企業內,你想知道使用哪些合適的數據能夠,追蹤客戶,或者向客戶提供推薦,或者知道客戶的偏好。或者說,有一個網絡安全分析問題,你需要檢測出漏洞或黑客攻擊。所以,你進行這些實驗,找出你所需要測量的數據 - 這就是小數據。
一旦你學會了這一模型……那么你使用它,在機器上運行完整的數據流。機器,本質上,使用你通過小數據得出的模型或者技能,在大數據流上進行運算。所以,小數據適合人使用,而大數據適合機器使用。
問:可視化技術在小數據與大數據的討論中如何起到作用?
Borne:讓我給你舉個例子。當你第一次使用谷歌地圖或者其他任何地圖服務時,你會先看到一個世界地圖。你沒有真正獲得任何數據;你只是看到了地球的圖片。當你不斷放大到一個特定的地點,它只提供給你這個特定地點的信息。當你不斷放大,你將獲得越來越高分辨率的數據。當你放大到分辨率最大可能值時,你就能看到自家的后院。這只不過是大數據的一個子集。是的,這一部分是‘小數據’,但是你真正所作的是,建立了一個分級數據結構,使你能夠一層一層的放大。你可以左右移動,在同樣分辨率下看到其他房子或者小區。可視化的強大就在這里。當你鍵入這個分級數據結構的某一特定數據時,可以說,你只是看到了冰山一角。 但是當你想移動到另一邊時,你就可以獲得同樣分辨率數據集下的其他特定數據。你仍然可以訪問整個數據集。
如果是小數據,你只是下載了一張地圖,比如你自己城市的一個高分辨率地圖,然后在地圖上進行數據分析。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:大數據時代的“小數據”
本文網址:http://www.guhuozai8.cn/html/consultation/10839315313.html