1.引言
隨著互聯網與數字化信息獲取技術的快速發展,新的數據源不斷涌現,各種應用所產生的數據呈指數級增長。根據互聯網數據中心監測,全球數據量大約每兩年翻一番,預計到2020年,全球的數據量將達到35 ZB,預示著我們已經進入大數據時代。大數據處理可分為三個階段:數據獲取與抽取、數據存儲與管理及數據分析與挖掘。其中,數據存儲與管理負責把有潛在價值的海量數據進行表示、存儲并提供數據關聯、檢索等操作,為進一步進行數據的深度分析提供必要的支持。同時,人們可以看到,由于微博、社交網等互聯網應用以及娛樂、媒體、醫療保健的蓬勃發展,使圖像、音頻、視頻、文本等數據大量涌現。據Gartner Group統計,如今80%的數據為非結構化數據,并且仍保持高速增長態勢,非結構化數據已逐漸成為大數據的主體。因此,如何建立有效的非結構化數據管理平臺,已成為大數據處理相關研究中的一個核心問題。
非結構化數據包含復雜的內容,并具有不同的結構特點,傳統關系數據庫無論從描述能力上還是從管理數據的規模上,都無法應對非結構化數據管理的要求。因此,需要專門針對非結構化數據特點,研究建立一種新的管理技術與平臺。建立這種面向大數據的非結構化數據管理平臺的關鍵技術包括:(1)統一數據模型,該模型將各種異構非結構化數據進行統一描述,并且能夠實現各種模態信息(如語義特征、底層特征等)的集成描述,從而有效地支持大數據的檢索與關聯分析;(2)分布式存儲與并行處理模型與架構,這種架構應具有高度并行化與可擴展性,以保證大數據的處理效率。(3)查詢語言與操作。對于非結構化數據的描述,目前有三類:基數據可視化等。查詢語言和可視化數據展現,是用于關鍵字的語義描述;基于底層特征的描述;基于戶對大數據進行訪問與分析的接口。查詢語言應該能夠準確表達用戶的數據訪問意愿,支持靈活豐富的數據操作。
2.數據模型
數據模型是數據管理的核心,關系數據庫幾年來蓬勃應用與發展的基石,正是E.F.Codd于20世紀70年代初成功提出的關系數據模型與數據理論。數據模型定義了數據描述結構、數據操作方法以及數據完整性約束條件。基于數據模型,可以建立可擴展的數據存儲模型,使數據能夠以某種結構和方式進行存儲與讀取;可以建立面向上層應用的靈活多樣的數據操作模型,支持用戶對數據的高效訪問。非結構化數據管理與傳統結構化數據管理的目標是相同的,即支持數據的永久保存、快速有效的數據讀取操作,從而有效地支持上層應用和用戶的數據處理邏輯。因此,在非結構化數據管理中,建立有效的數據模型,仍然是達到數據管理目標的核心和關鍵。現有的非結構化數據模型主要有關系模型、擴展關系模型、面向對象模型、E-R模型以及分層式數據模型等,這些模型原本存在擴展性與復雜性方面的問題,而在面向大數據時這些問題更加突出,因此無法勝任大數據的管理。
非結構化數據例如文本、圖形、圖像、音頻和視頻等,從內容上沒有統一的結構,數據是以原生態形式(raw data)保存的,因此計算機無法直接理解和處理。為了對不同類型的非結構化數據進行處理,所采用的基本思路是對這些非結構化數據進行描述,基于描述性信息實現對非結構化數據內容的管理和操作。對于非結構化數據的描述,目前有三類:基于關鍵字的語義描述;基于底層特征的描述;基于概念的語義描述。因此,一個非結構化數據可以由基本屬性、語義特征、底層特征以及原始數據四個部分構成,而且四個部分的數據之間存在各種聯系。
基于上述對非結構化數據的分析,本文作者所在的課題組提出了四面體數據模型。四面體模型由一個頂點,四個刻面和刻面之間的交線組成,如圖1所示。
圖1 四面體模型示意圖
四面體模型可以通過一個六元組表示:Tetrahedron = (V,BA,SF,LF,RD,CONJS),其中,V表示四面體的頂點,并且也是BA, SF和LF的交點,它標明了四面體的唯一性;BA是指四面體的基本屬性刻面,表示數據的基本屬性,這些屬性不涉及數據的語義,包括名稱、類型、創建者、創建時間等;SF是指四面體的語義特征刻面,表示數據的語義屬性,包括作者創作意圖、數據主題說明等語義要素;LF是指四面體的底層特征刻面,描述數據的底層特征,例如圖像的顏色、紋理、形狀等;RD是指四面體的原始數據刻面,表示非結構化數據的原始存儲文件;CONJS是指一組銜接不同刻面的連接線。一條連接線表示兩個刻面之間存在的聯系。圖2是一個圖像的四面體描述示例。
圖2 圖像的四面體模型
四面體模型的特點是:語義特征與底層特征進行一體化表達的集成性;圖像、文本、視頻、音頻等多種異構數據表達的統一性;支持語義特征、底層特征動態變化的可擴展性;簡單性。基于四面體模型構建的數據管理平臺,將能夠實現異構數據的統一存儲與關聯操作,從而更好地支持大數據的深度處理。
大數據的重要價值,體現在人們可以通過對數據的分析得到有用的知識。大數據管理平臺在進行數據管理的同時,也需要對這些知識進行管理。因此,非結構化數據模型的進一步發展方向,將是引人本體技術,建立異構數據與多粒度知識一體化描述的數據一知識模型。
3.查詢語言
目前,海量非結構化數據應用(如搜索引擎)與用戶的接口,往往是通過關鍵詞輸入。這種方式簡單,但無法全面、準確表達用戶的操作意圖,也不利于用戶完成復雜的數據分析處理。因此,面向大數據的非結構化數據管理平臺,需要建立一種查詢語言,支持用戶的各種查詢需求,并使用戶能夠準確表達查詢意圖。基于四面體數據模型,我們提供一種非結構化數據查詢語言UQL。
UQL支持對非結構化數據的多種查詢,并提供數據定義和數據基本統計等功能。UQL的基本功能包括:按基本屬性或語義特征的基本數據檢索;根據用戶輸人的數據示例,如一副圖像通過底層特征匹配進行檢索;結合基本屬性、語義特征和底層特征的多模態關聯檢索;基于數據某個刻面信息檢索出相關多種類型數據的多數據關聯檢索;實現對查詢結果的聚類、分類、多維數據分析等智能檢索;以及數據定義與數據統計等。上述各種檢索可以嵌套復合,構成對數據的綜合檢索服務。
在四面體模型中,基本屬性和語義特征都是用文本進行描述的。由于XML具有良好的擴展性,因此采用XML來描述四面體模型中基本屬性刻面與語義特征刻面。XQuery是目前廣泛使用的XML數據查詢語言。然而,UQL所支持的功能如底層特征查詢、智能查詢等在XQuery查詢語言中都沒有提供,所以我們對XQuery查詢語言進行擴展,增加相應功能,并略去部分不相關文法,基于XQuery提出非結構化數據查詢語言UQLo UQL文法的定義采用擴展巴科斯-瑙爾范式(EBNF)來描述。
UQL定義了執行數據查詢、數據定義與數據統計三類操作的語句。其中查詢語句Query語句是UQL的主要語句,它的整體結構是對XQuery查詢語言中的FLWOR表達式進行改寫得到的,其中省略let語句和orderby語句,增加intelligence和filepath語句用來定義智能查詢和實例查詢。Query語句的描述如下:
QueryClause::=ForClauseWhereClauseReturnClauseIntelligenceClause? FilePathClause?
UQL的數據定義語句DefineClause,通過指定數據類別和語義項的字段信息,實現數據基本屬性與語義特征的XML模式的個性化定制。UQL的數據統計語句CountClause,指定統計的數據所屬類別以及相應基本屬性約束條件,實現按基本屬性的數據統計功能。
UQL基于四面體模型,提供語義或底層特征的單項檢索、關聯檢索,多類型數據的關聯檢索,聚類等智能化操作,能夠支持上層應用對非結構化數據的操作。
4.分布式存儲與并行處理架構
數據的分布式存儲和并行化操作處理。是大數據管理平臺的核心技術之一。MapReduce計算模型體現了分治算法的分而治之思想。Map把一個復雜的問題分解成多個子問題,每個子問題都相對簡單并可以獨立處理;Reduce把各個子問題的處理結果進行合并。MapReduce是適用于大數據存儲與并行化處理的簡單而有效的一種計算模型。我們基于MapReduce模型,提出了一種非結構化數據分布式存儲與并行處理框架,該框架由存儲引擎和檢索引擎組成,如圖3所示。
圖3 數據分布式存儲與并行處理框架
分布式存儲引擎采用MapReduce模型,并基于Hadoop的HBase和HDFS實現。它的主要功能是基于四面體數據模型提取非結構化數據的基本屬性、語義特征和底層特征信息,并將這些信息連同原始數據存儲在HDFS和HBase中。
存儲引擎由Namenode和Datanode構成。Namenode通過Map操作將存儲的數據分成若干子塊,并將這些子塊分配給各個Datanode進行特征提取和數據永久保存的操作;同時Namenode會開啟一項任務來追蹤處理過程,并在各子塊存儲完成后執行Reduce操作對結果進行合并。Namenode和Datanode的這種協同工作方式,實現了大量數據的并行與分布式存儲。
并行化檢索引擎主要負責數據的快速查詢,是基于MapReduce模型建立的Master-Slave并行化框架。Master負責管理所有Slave可分解和分配具體檢索任務,并對檢索結果進行效整合;Slave模塊負責對本地數據實行具體的檢索任務并將結果返回給Master。通過Master的有效調度,多個Slave可并行化執行檢索任務,從而實現檢索并行化的處理架構。
由于Master可以實現任務的靈活分發和結果的有效整合,多個Slave可以并行化執行任務且可靈活擴展,因此該引擎具有很好的可擴展性和高效性。
5.結語
大數據的有效管理是實現大數據檢索與分析處理的前提和基礎。本文對面向大數據的非結構化數據管理平臺的關鍵技術進行了分析,論述了非結構化數據的四面體模型,非結構化數據查詢語言UQL,以及基于MapReduce的分布式存儲與并行處理框架。上述技術在“核高基”重大專項項目研發的非結構化數據管理系統(AUDR)中得到了成功應用。AUDR目前已在航空工業、車載綜合信息服務、醫學、科技資源共享等四個重大行業和領域進行了示范應用取得了良好的效果。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:面向大數據的非結構化數據管理平臺關鍵技術
本文網址:http://www.guhuozai8.cn/html/consultation/10839613271.html