1 研究背景
當前,科技創新模式、科學研究范式、知識形態、知識獲取、知識交流及處理機制都面臨著巨大的挑戰,導致知識管理模式以及科技服務工作流的關鍵知識瓶頸發生重大變化,由此呼喚適應未來大數據處理需求的新型知識服務模式的出現,促使信息服務形態從傳統的知識分析型服務向知識預測型服務轉型。移動互聯網、傳感網、云計算、物聯網、可信計算等新興信息技術的迅速發展及數字信息環境的泛在化、移動化、智能化、虛擬化的發展趨勢,特別是海量結構化數據的復雜處理需求、海量半結構及非結構化數據多維度處理需求為探索新型知識服務模式,解決信息服務領域發展中面臨的瓶頸問題提供了新思路與新挑戰。
近幾年,在科學研究、計算機仿真、互聯網、電子商務等領域數據量呈現快速增長的趨勢,數據成本的下降,類似于傳感網絡數據、移動互聯網數據、社交網絡數據等新興數據源和數據采集技術的出現使得數據類型增多,而各類難以處理的半結構化和非結構化數據的出現又極大地增加了數據處理的難度,為了從這些數據中發現知識并加以利用,必須對大數據獲取、存儲、組織、分析和決策過程進行深入研究,從中發現具有前瞻性、挑戰性和實用性的社會問題及科學問題,從而使得科學研究第四范式和新型知識服務范式的實現成為現實。
2 大數據知識服務的內涵及典型特征
2.1 大數據知識服務的內涵
大數據知識服務是為適應信息服務業智慧化、協作化、綠色化、先覺化和泛在化的發展趨勢而衍生的一種基于網絡(包括電信網、廣播電視網、互聯網、移動互聯網等)的,用以解決結構化、半結構化及非結構化數據多維度處理的信息服務新模式,是嵌入式協作化知識服務模式的一種新發展,是現代信息服務理念的具體體現。伴隨著RFID射頻數據、傳感網數據、社交網絡交互數據、移動互聯網數據逐漸成為未來大數據的幾個主要來源,我們發現,現有的信息服務模式及信息管理技術已經無法滿足結構化、半結構化和非結構化數據的復雜處理需求,這一形勢的發展使得數據量快速增長所帶來的存儲及計算能力的挑戰,結構化、半結構化及非結構化數據的多維度數據處理需求,傳統結構化數據管理模式與非結構化數據管理模式的有機融合等逐漸成為現階段知識服務模式變革所面臨的三大挑戰。
大數據知識服務模式強調知識、能力、資源和過程以服務的形式進行有機融合,并基于網絡自由流通,對大數據獲取、存儲、組織、分析、決策和顯示等按照“將計算推向數據,而不是移動數據”的策略,實現大數據知識服務體系中的知識動態協調構建、能力智慧管理、資源按需使用、過程智能控制。大數據知識服務體系是大數據生態系統中最重要和核心的內容。一方面,全球將近87.5%的數據未得到真正利用,85%以上的是非結構化數據和半結構化數據,傳統知識服務模式僅僅能夠提供極小部分數據給用戶有效地使用,并且能提供的數據處理服務也極其有限,就使得半結構化、非結構化數據難以得到充分利用,從而無法實現知識的橫向擴展以及數據多維度、深層次的智能分析。通過大數據知識服務模式的引入,使得復雜的結構化、半結構化和非結構化數據處理變得可行和經濟高效,從而實現知識橫向擴展以滿足急劇擴張的知識服務需求,可以在為用戶提供大數據進行獲取、存儲、組織、分析和決策等服務的同時,為其提供結構化、半結構化及非結構化數據的常規、廣度及深度分析、科技創新能力智能評價、知識服務競爭力分析、知識創新預測性分析、服務態勢綜述等高附加值服務。另一方面,為滿足用戶專業化、集成化、敏捷化和個性化的知識服務需求,需要大數據知識服務平臺提供高質量、低成本、可擴展、多維度和多粒度的知識服務。通過大數據生態系統的知識服務技術,可以實現對結構化、半結構化、非結構化大數據及知識服務資源的智能、靈活的知識、服務能力、服務資源及服務過程的有效組合與分解,使其能夠利用大數據、現有資源及知識服務能力形成不同維度、不同粒度、不同功能及不同類型的大數據知識服務組合,并按需提供給用戶,以便最大限度地滿足用戶的大數據處理需求。
2.2 大數據知識服務的典型特征
與已有的信息服務模式相比,大數據知識服務模式和構建過程越來越趨向于個性化、自主化、虛擬化、智能化、透明化和體驗化,知識創造模式、組織模式、傳播模式和應用模式也呈現出規;、集約化、數字化和網絡化的趨勢,在數字化、網絡化、規;图s化等共性技術特征的基礎上,大數據知識服務模式更為突出的典型特征可以概括為以下幾點。
(1)是面向智慧服務和自主需求的知識服務。大數據知識服務模式實現的核心是知識服務全生命周期活動中用戶、技術、管理、知識、能力、資源和過程的有機集成和優化。為此,大數據知識服務體系融合了物聯網、傳感網、云計算、可信計算和信息物理融合系統[7]等新興信息技術,提出要實現大數據用戶、技術、管理、知識、能力、資源和過程的全方位、全生命周期地接入和感知,尤其是關注資源(如軟硬件資源、信息資源、網絡資源、服務資源等,包括半結構化、非結構化和結構化數據)和能力(如大數據獲取、存儲、組織、分析、決策和顯示等)的接入和智能感知。
在大數據知識服務模式下,各類資源能夠通過各種傳感器、RFID、適配器、人機交互等實現資源半自動或全自動感知,然后借助3G或4G網絡、互聯網絡、電信網、廣播電視網等傳輸信息,在對各類資源進行管理和處理的基礎上,同時匯集資源、能力、過程、知識,構建跨領域、跨行業、智能的多學科知識庫,隨著大數據知識服務體系的持續進化,并不斷擴大,從而進一步服務于大數據知識服務的業務執行過程。
(2)是不確定性服務。大數據知識服務對于用戶大數據處理需求不具備唯一解,而是用大數據生態系統中所提供的技術和方法,依據用戶大數據處理需求,形成知識服務解集合。大數據用戶通過大數據知識服務平臺提出大數據處理需求,并按用戶自主需求構建的大數據知識服務組合模型,部署服務實施方案。大數據知識服務平臺通過支持語義的知識服務匹配技術、智能優化技術,對用戶所提出的大數據知識服務進行匹配部署,從而關聯到核心服務層的具體服務,從搜索到的符合用戶需求的大數據知識服務解集合中,選擇合適的服務參與組合,并從所有可能的大數據知識服務解集合中優選與組合出最佳的一組組合來協同完成用戶請求,再通過知識服務最優化管理技術、知識服務智能優化技術,對服務組合質量進行評估,并采用智能優化算法對整個過程進行優選,在確定最優云服務組合和資源組合方式后,將服務與資源進行關聯綁定,進而部署執行。這個過程體現了大數據知識服務的不確定性特征。
(3)是強調用戶參與的知識服務。大數據的數據來源、知識服務能力、服務資源、服務過程及知識本身都是嵌入到網絡和大數據環境中的,且所有大數據主要都是來自于大數據用戶,使得大數據知識服務關注的重心應該轉移或回歸到用戶自身的需求。大數據生態系統致力于構建一個用戶、大數據制造方、大數據運營方及大數據處理方等可以充分進行大數據獲取、存儲、組織、分析和決策的公用服務環境。在大數據知識服務模式下,強調用戶參與不僅僅局限于傳統的用戶提出需求和用戶評價,而是滲透到大數據知識服務過程及大數據自身全生命周期管理的每一個環節。
(4)是支持按需使用、按需付費的知識服務模式。大數據知識服務是一種由用戶需求驅動的、按需付費的知識服務新模式。用戶往往需要通過海量非結構化、半結構化數據了解現在發生了什么,甚至需要利用數據預測未來將要發生什么,以便在行動上做出利于發展的主動準備。例如,通過預測用戶的流失預先采取行動,或預測競爭對手下一步行動以便采取主動等。在這些過程中,用戶不需要過多關注大數據處理的細節,只需要根據自身的數據處理需求調用或知識服務組合,占用大數據知識服務資源,并支付相應的費用即可。彼此之間的關系是一種按需使用、按需付費、用完即解散的關系。
(5)是共性技術目標與異性技術特征相輔相成的知識服務模式。大數據知識服務通過第三方構建服務平臺,將大數據獲取、存儲、組織、分析和決策過程中所涉及的所有資源、知識、能力及過程都虛擬化為大單項數據知識服務,再聚合成大數據知識服務虛擬資源池,進行統一的管理與處理。針對不同的行業、領域或不同需求,大數據的獲取、存儲、組織、分析和決策的管理和處理方法有共性,但必然也存在著異性,因此,針對不同行業、領域及大數據處理需求,就需要在原有共性技術體系的基礎上,形成專業性較強的專業化大數據知識服務體系,從而針對獨特的專業化要求,形成其獨有的大數據異性技術體系。以美國國防部高級研究計劃局為例,其大數據研究項目在美國政府的大數據研究與發展的共性技術目標要求之外,具備了國防部獨有的技術特征。但在國防部內部又依據不同領域的大數據處理需求,形成了具備異性技術特征的大數據知識服務體系。
(6)是基于知識、能力、資源、過程共享和交易的知識服務模式。與傳統的知識服務模式相比,大數據知識服務模式共享的不僅僅是服務資源,還有知識、能力及服務過程。隨著大數據時代的來臨,對大數據獲取、存儲、組織、分析和決策過程進行管理的基本策略不是移動數據,而是將計算、知識及服務推向數據,在相應的知識庫、專家庫、數據處理模型(如MapReduce、NoSql、Sql-MapReduce等)、數據處理框架(如Hadoop、HadoopDB、LinearDB、Dumbo等)的支持下,實現資源、知識、能力及過程的虛擬化封裝、描述、發布、配置、調用和顯示,真正實現大數據獲取、存儲、組織、分析和決策過程中的知識、能力、資源、過程的全面共享和交易。
(7)是基于群體創新的知識服務模式。正如美國國家科學基金會(NSF)的大數據研究和發展計劃所言,大數據知識服務旨在促進管理、分析、可視化和從大量多樣分散異構的數據集中提取有用信息,并充分利用群體創新的力量,創造有意義的網絡基礎設施以及一體化水平的數據和工具,以支持科學和教育。
(8)是更為綠色環保的知識服務模式。大數據知識服務的目標之一是圍繞結構化、半結構化及非結構化大數據處理需求,實現大數據獲取、存儲、組織、分析和決策過程中的知識、能力、資源和過程等的全面共享,提高大數據的利用率,實現數據、知識及服務增值。換句話說,就是實現綠色低碳的環保型大數據知識服務模式。
2.3 大數據知識服務概念模型
綜合現有的關于大數據的各種解釋與分析,并結合大數據知識服務模式下對各種類型大數據管理和處理需求,本文將大數據知識服務描述為:大數據知識服務是在大數據獲取、存儲、組織、分析和決策過程中產生,體現了在大數據管理和處理過程中對知識、服務、資源和過程等的知識服務配置和整合的能力,反映了知識服務實體或機構完成相應行業、領域、任務及預期目標的服務水平,包含了大數據知識服務全生命周期過程中所涉及的知識、服務、資源和過程等因素,其概念模型如圖1所示。
圖1 大數據知識服務概念模型圖
大數據知識服務概念模型包括數據、知識、資源、能力、服務、過程和任務七個元素。
(1)數據。數據是指通過RFID射頻數據、傳感器數據、社交網絡交互數據及移動互聯網數據等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據,是大數據知識服務模型的根本。
(2)知識。知識是指在大數據知識服務過程中所涉及的各類知識,如方法、模型、結構及流程等。知識是構建大數據的基礎,貫穿于大數據知識服務全生命周期管理的各個要素,在資源、能力、服務維中的知識是指智力資源、計算能力、服務能力的描述(如行業數據處理經驗、資源組合優化方案、服務組合方案等);在過程維中的知識主要是指各種服務設計方案、運行法則、基本規范和經驗方法等;在任務維中的知識表現為大數據知識服務完成的狀態、用戶反饋等。
(3)資源。資源是指在大數據知識服務過程中所涉及的軟硬件資源、信息資源、人力資源、服務資源、網絡資源等,反映了大數據知識服務是對大數據獲取、存儲、組織、分析和決策過程中所涉及的各類資源的有效集成與共享。
(4)能力及服務。能力是指大數據知識服務平臺所提供的計算能力、存儲能力、服務組合能力等;服務則是指大數據生態系統中所提供的技術和方法等。
(5)過程。過程是指在大數據獲取、存儲、組織、分析和決策過程中大數據知識服務體系對資源、能力及服務的優化配置過程,強調以資源、能力及服務為基礎,對所發生業務過程及其中的各類知識、大數據的描述,如大數據處理業務過程約束條件、數據處理方案、服務方案、計算模型及經驗知識等。
(6)任務。任務反映了利用大數據知識服務平臺及其他相關資源要素完成大數據管理及處理任務,主要包括兩個方面的內容:一方面,大數據管理及處理的目標任務及預期目標;另一方面,指的是實現該大數據處理任務或業務功能的情況,其中包括用戶完成該任務的一些客觀因素(如時間、人力、軟硬件、經濟成本等),還包括用戶對大數據處理任務完成情況的評估,以及完成任務情況滿意度的表現指標(如效率、性能等內在因素,服務、創新等外在因素等)。任務維是大數據知識服務體系在大數據生態系統中面向用戶的最重要的交流依據和表現形式。
3 需要解決的幾個關鍵問題
目前,大數據的研究主要是將其作為一種技術方法或一種提供知識服務的新工具,而不是把數據本身作為研究目標。作為一種技術方法和工具,它與數據挖掘、預測分析、統計分析、個性化搜索等人工智能方法有密切聯系,但也有著不同于人工智能、統計學和信息科學的本質內涵。在物聯網、傳感網及互聯網數據為各個領域帶來機遇的同時,由于數據的異質、異構、半結構化、非結構化及不可信等特征,大數據知識服務的管理和處理研究需要解決大數據的可表示性、可處理性、可融合性及可靠性四個關鍵問題。
(1)可表示性問題。當前物聯網、傳感網及互聯網中的數據正在向著異質、異構、半結構化、非結構化及不可信等方向發展,半結構化和非結構化數據占據了非常大的比例。目前已有的數據表示方法已不能完整表達已有數據的結構及數據本身的含義,要想有效地對數據進行管理和利用,必須找到最合適的數據表示方法。
(2)可處理性問題。隨著數據規模的急劇擴張,數據類型的迅速增加、數據結構的日趨復雜化,已有數據的處理需求已經遠遠超越現有計算機處理能力。而傳統數學方法和計算模式已無法使用不確定、動態大數據的獲取、存儲、組織、分析和決策的需求,因此,需要將計算機科學、數學、物理學、管理學等學科結合起來,形成新的數據處理方法。
(3)可融合性問題。數據規模的擴張、數據類型的增加及數據結構的復雜化給大數據處理帶來了前所未有的挑戰,同時也使得異質、異構、半結構化、非結構化及不可信數據的融合變得異常艱難。而大數據作為連接人類社會、物理空間和信息世界的重要紐帶,有效地實現數據融合也是無法回避的關鍵問題之一。
(4)可靠性問題。物聯網、傳感網及互聯網等網絡環境的開放性,使得大數據知識服務體系中的數據質量面臨考驗。正如美國著名咨詢公司Gartner所指出的那樣,全球1000強公司中有超過25%的關鍵數據不正確或不精確;英國British Telecom公司因使用數據質量工具而給企業創造的經濟效益每年高達6億英鎊。用戶在享受大數據所帶來價值的同時,也承擔著日益嚴重的安全威脅和隱私風險。
4 結語
隨著科學研究、傳感網絡、互聯網應用及電子商務等應用領域數據量的飛速增長,大數據正逐漸成為學術界和產業界關注的焦點,相較于Web2.0、云計算、物聯網等信息技術的發展軌跡,大數據技術似乎來得更為猛烈。當倫敦奧運會采用大數據技術監測網絡安全、《時代》周刊發文指出大數據技術為奧巴馬的連任立下汗馬功勞時,人們猛然發現,大數據原來離我們如此之近。但頗感遺憾的是,國內學術界似乎對大數據研究還沒有引起足夠的重視,研究工作遠遠落后于國外,研究成果也少得可憐。然而,值得慶幸的是,在李國杰院士、李德毅院士及李未院士的極力呼吁下,已經有越來越多的人加入到大數據研究的隊伍中來,相信在不久的將來,會出現屬于我們自己的“大數據”。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:大數據知識服務的內涵、典型特征及概念模型
本文網址:http://www.guhuozai8.cn/html/consultation/1083979970.html