眾所周知,這是一個信息時代———即充滿數據的時代。隨著
物聯網的應用與發展,人們突然發現(事實上早就存在),數據量幾乎成指數級增長。有這樣一組數據:全球每天有43 億部電話和20 億位互聯網用戶在生成數據,并與300 億個RFID 標簽和數百顆人造衛星每秒都在不斷發送更多信號融合在一起,其中,Twitter 每天就會增加12 TB 的數據———全文本,且每次最多添加140 個字符,而這只是數據在數量級上對大家的一種沖擊。本文將從以下幾個部分就大數據進行討論。
1 大數據來源及數量
提到數據,相信IT從業人員首先想到的是數據庫、數據倉庫等技術,畢竟這是一種至今仍然十分流行且占據主導地位的技術。但請記住,這些技術是構建在關系型數據庫理論基礎上的,具有明顯的結構化特征,換言之,存儲在數據庫、數據倉庫中的數據是我們通過分析、建模之后篩選之后出來的、自認為有意義的數據。而在這個過程中,已經摒棄掉了許多自認為無意義的數據,真的沒有意義嗎?答案當然是否定的。但為什么要摒棄呢?原因很簡單,以前的技術條件不允許存儲如此龐大的數據量。
隨著
物聯網概念的提出、應用和發展,每天從RFID、傳感器、控制器、智能設備中都會產生海量數據。據統計,在2000 年,全球存儲了800 000 PB 的數據;預計到2020 年,這一數字會達到35 ZB[3]。所以,可以得出這樣的結論:大數據從來就是存在的,只是因為技術條件的限制而沒有重視或是故意規避而已。
2 大數據類型
以前保存的數據類型主要是結構化數據。然而,并非所有的數據都是可以結構化的,據統計,可結構化數據———即可以存儲在數據庫等傳統系統(主要是指關系型數據庫產品)中的數據占數據總量的20%左右;其他80%的數據不能至少是不便于存儲于傳統的系統中,因為其結構形式是非結構化的或者是半結構化的(如文本、傳感器數據、音頻、視頻、事務及地震模型類的動態數據等非關系型數據)。
所以,從這個角度上來講,大數據的類型從結構類型入手可以分為結構化、半結構化、非結構化數據3類。
3 大數據處理速度及方式
面對如此龐大的數據量、以及豐富(至少不再是單一的)的數據,不難想像,對于這些數據的處理速度將會成為企業應用、洞察關鍵事件的瓶頸。盡管目前還沒有得到具體的可度量的值來說明這個問題,但換個角度來考慮,就日常工作中所使用的存儲器的存儲能力、CPU 頻率的變化及不高的工作效率,就完全可以說明數據增長速率對數據處理速度的影響。
建議換個角度來考慮這個問題。隨著
物聯網時代的到來,RFID、傳感器等產生的信息流將導致產生大量的傳統系統無法處理的持續數據流。請牢記一點,現在處理的是PB 級的數據流,而非TB 級的,將來要處理的是ZB 級甚至有可能更高。所以,需要考慮針對數據產生、流動的速度而進行的數據處理方式的變革,如流數據處理;不再是單純地處理傳統系統中的批量數據。
4 大數據模型
大數據的本質構建如圖1 所示。
圖1 大數據模型
從圖1 模型不難看出,大數據從本質上來講包含數量、類型、速度3 個維度的問題,事實上,要想從根本上區別這3 個維度是不可能的。因為,大數據概念的提出是源于技術的發展:首先,以前的存儲器技術不可能支持如此海量數據的存在;隨著存儲器技術的發展,才使得海量數據的存儲逐漸成為可能,但也帶來了另外一個問題———數據存儲類型豐富起來;隨著數據存儲類型的豐富及數據的增長速度加速問題,導致了處理數據速度的問題,從而引起了處理數據技術的革命性變革。
5 大數據處理技術及策略
近年來,關于大數據處理技術的探討一直不斷,這方面最具代表性的就是Hadoop 框架 ,其本質是一個用于分析大數據集的機制,不一定位于數據存儲中,可以擴展到無數個節點,處理所有活動和相關數據存儲的協調。Hadoop 方法建立功能到數據的模型,而非傳統的數據到功能的模型,這樣就可以從可擴展性和分析的角度發現曾經幾乎不可能的大數據處理變成可能。
由于Hadoop 布署的復雜性及不穩定性,使其應用到目前為止還不是十分廣泛,但無論如何,其為大數據處理提供了一種途徑和方式。IBM在Hadoop 的基礎上發展了GPFS(General Parallel File System,通用并行文件系統)無共享集群及相關技術,提升了靜止大數據處理效率;此外,還提出了SPL(StreamsProcessing Language,流處理語言),使得對流數據的處理成為現實并大大提升了實際工作效率。
針對處理大數據技術,得出圖2 所示的大數據處理策略。
圖2 大數據處理策略
如圖2所示,對于大數據的處理策略可作如下理解:①按照類型進行分類處理;②對分類數據進行分類存儲或流處理;③對經流處理的非結構化存儲部分可轉存到傳統存儲系統,也可直接生成數據應用;④對傳統存儲系統進行批量處理生成數據應用。
6 結束語
就大數據的來源、數量、類型、處理速度、處理方式等方面對大數據進行了探討,給出了大數據模型;同時對大數據模型的3個維度進行解析,并簡單介紹了大數據處理技術。對于數據工作者,尤其是數據分析師關注的對象及處理技術和策略有一定的引導作用。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:解析大數據
本文網址:http://www.guhuozai8.cn/html/support/11121810361.html