引 言
隨著地理空間信息技術(shù)的飛速發(fā)展,獲取數(shù)據(jù)的手段和途徑都得到極大豐富,傳感器的精度得到提高和時(shí)空覆蓋范圍得以擴(kuò)大,數(shù)據(jù)量也隨之激增。用于采集空間數(shù)據(jù)的可能是雷達(dá)、紅外、光電、衛(wèi)星、多光譜儀、數(shù)碼相機(jī)、成像光譜儀、全站儀、天文望遠(yuǎn)鏡、電視攝像、電子顯微鏡、CT 成像等各種宏觀與微觀傳感器或設(shè)備,也可能是常規(guī)的野外測(cè)量、人口普查、土地資源調(diào)查、地圖掃描、地圖數(shù)字化、統(tǒng)計(jì)圖表等空間數(shù)據(jù)獲取手段,還可能是來(lái)自計(jì)算機(jī)、網(wǎng)絡(luò)、GPS,RS 和 GIS 等技術(shù)應(yīng)用和分析空間數(shù)據(jù)。特別是近些年來(lái),個(gè)人使用的、攜帶的各種傳感器( 重力感應(yīng)器、電子羅盤、三軸陀螺儀、光線距離感應(yīng)器、溫度傳感器、紅外線傳感器等) ,具備定位功能電子設(shè)備的普及,如智能手機(jī)、平板電腦、可穿戴設(shè)備(GOOGLEGLASS 和智能手表等) ,使人們?cè)谌粘I钪挟a(chǎn)生了大量具有位置信息的數(shù)據(jù)。隨著志愿者地理信息( VolunteerGeographic Information) 的出現(xiàn),使這些普通民眾也加入到了提供數(shù)據(jù)者的行列。
以上各種獲取手段和途徑的匯集,就使每天獲取的數(shù)據(jù)增長(zhǎng)量達(dá)到 GB 級(jí)、TB 級(jí)乃至 PB 級(jí)。如中國(guó)遙感衛(wèi)星地面站現(xiàn)在保存的對(duì)地觀測(cè)衛(wèi)星數(shù)據(jù)資料達(dá) 260 TB,并以每年 15 TB 的數(shù)據(jù)量增長(zhǎng)。比如 2011 年退役的Landsat5 衛(wèi)星在其 29 年的在軌工作期間,平均每年獲取8.6 萬(wàn)景影像,每天獲取 67 GB 的觀測(cè)數(shù)據(jù)。而 2012 年發(fā)射的資源三號(hào)( ZY3) 衛(wèi)星,每天的觀測(cè)數(shù)據(jù)獲取量可以達(dá)到 10TB 以上。類似的傳感器現(xiàn)在已經(jīng)大量部署在衛(wèi)星、飛機(jī)等飛行平臺(tái)上,未來(lái) 10 年,全球天空、地空間部署的百萬(wàn)計(jì)傳感器每天獲取的觀測(cè)數(shù)據(jù)將超過 10 PB。這預(yù)示著一個(gè)時(shí)代的到來(lái),那就是大數(shù)據(jù)時(shí)代。大數(shù)據(jù)具有“4V”特性,即數(shù)據(jù)體量大( Volume) 、數(shù)據(jù)來(lái)源和類型繁多( Variety) 、數(shù)據(jù)的真實(shí)性難以保證( Veracity) 、數(shù)據(jù)增加和變化的速度快( Velocity) 。對(duì)地觀測(cè)的系統(tǒng)如圖 1所示。
圖1.對(duì)地觀測(cè)系統(tǒng)
在這些數(shù)據(jù)中,與空間位置相關(guān)的數(shù)據(jù)占了絕大多數(shù)。傳統(tǒng)的空間知識(shí)發(fā)現(xiàn)的科研模式在大數(shù)據(jù)情境下已經(jīng)不再適用,原因是傳統(tǒng)的科研模型不具有普適性且支持的數(shù)據(jù)量受限,受到數(shù)據(jù)傳輸、存儲(chǔ)及時(shí)效性需求的制約等。為了從存儲(chǔ)在分布方式、虛擬化的數(shù)據(jù)中心獲取信息或知識(shí),這就需要利用強(qiáng)有力的數(shù)據(jù)分析工具來(lái)將數(shù)據(jù)“墳?zāi)?rdquo;變成“知識(shí)金塊”。這一需求使得數(shù)據(jù)挖掘在大數(shù)據(jù)時(shí)代再度受到人們的重視。同時(shí),大數(shù)據(jù)時(shí)代的研究方法和數(shù)據(jù)處理技術(shù)也給空間數(shù)據(jù)挖掘研究的發(fā)展帶來(lái)了新的機(jī)遇。
1 傳統(tǒng)空間數(shù)據(jù)挖掘存在的問題
1989 年 8 月于美國(guó)底特律市召開的第一屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上,首次出現(xiàn)了從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)( Knowledge Discovery in Database,簡(jiǎn)稱 KDD) 。空間數(shù)據(jù)挖掘研究比一般的關(guān)系數(shù)據(jù)庫(kù)或事務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘研究晚。1994 年在渥太華舉行的 GIS 國(guó)際會(huì)議上,李德仁院士第一次提出了從 GIS 數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)( Knowledge Discovery from GIS,簡(jiǎn)稱 KDG) 的概念,并系統(tǒng)分析了空間知識(shí)發(fā)現(xiàn)的特點(diǎn)和方法,認(rèn)為它能夠把 GIS 有限的數(shù)據(jù)變成無(wú)限的知識(shí),精煉和更新 GIS 數(shù)據(jù),促使 GIS 成為智能化的信息系統(tǒng)。從此,空間數(shù)據(jù)挖掘就成為數(shù)據(jù)庫(kù)和信息決策領(lǐng)域的一個(gè)重要研究方向,雖然取得了一定的進(jìn)展,但還有很多問題需要研究。空間數(shù)據(jù)挖掘的基本過程如圖 2 所示。
1.1 空間挖掘理論和算法研究
經(jīng)過近年來(lái)的研究,空間數(shù)據(jù)挖掘繼承和發(fā)展相關(guān)的基礎(chǔ)學(xué)科( 如機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等) 已有成果,并探索出獨(dú)具特色的理論體系,但也存在一些問題,主要表現(xiàn)為以下幾點(diǎn):
1) 多數(shù)空間數(shù)據(jù)挖掘算法是由一般的數(shù)據(jù)挖掘算法移植而來(lái),并沒有考慮空間數(shù)據(jù)存儲(chǔ)、處理及空間數(shù)據(jù)本身的特點(diǎn)。空間數(shù)據(jù)不同于關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),它有其特有的空間數(shù)據(jù)訪問方法,因而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往不能很好地分析復(fù)雜的空間現(xiàn)象和空間對(duì)象。
2) 空間數(shù)據(jù)含有隨機(jī)不確定性和模糊性,但目前的空間數(shù)據(jù)挖掘方法對(duì)空間數(shù)據(jù)的不確定性處理還存在一些問題。有的方法根本沒有考慮空間數(shù)據(jù)的不確定性;有的方法考慮了隨機(jī)不確定性; 有的方法考慮空間數(shù)據(jù)的模糊性。還沒有一種方法既能較好地考慮空間數(shù)據(jù)隨機(jī)不確定性又考慮空間數(shù)據(jù)模糊性。
3) 空間數(shù)據(jù)挖掘的智能化。目前空間數(shù)據(jù)挖掘已經(jīng)應(yīng)用了人工神經(jīng)網(wǎng)絡(luò)等智能算法,但現(xiàn)有的空間數(shù)據(jù)挖掘系統(tǒng)的智能化程度比較低,還需要進(jìn)一步提高。例如依據(jù)數(shù)據(jù)的特點(diǎn)自動(dòng)選擇合適的挖掘算法,在此過程中不需要或者需要少量的人工干預(yù)。
4) 空間數(shù)據(jù)挖掘質(zhì)量評(píng)價(jià)。空間數(shù)據(jù)挖掘的知識(shí)很多,但挖掘的程度如何、挖掘的效益如何等這些問題目前還沒有進(jìn)行研究。空間數(shù)據(jù)挖掘結(jié)果可能會(huì)發(fā)現(xiàn)數(shù)以千計(jì)的模式,其中有些模式是錯(cuò)誤的,對(duì)于給定的用戶,許多模式未必是感興趣的,因此,如何提供給用戶有用的、確定的和可表示性的知識(shí)是一個(gè)需要研究的課題。
5) 私有性、安全性與空間數(shù)據(jù)挖掘問題。知識(shí)發(fā)現(xiàn)可能導(dǎo)致對(duì)于私有權(quán)的入侵,研究采取哪些措施防止暴露敏感信息是十分重要的。當(dāng)從不同角度和不同抽象級(jí)上觀察空間數(shù)據(jù)時(shí),數(shù)據(jù)安全性將受到嚴(yán)重威脅。這時(shí)空間數(shù)據(jù)保護(hù)和空間數(shù)據(jù)挖掘可能會(huì)造成一些矛盾的結(jié)果。
1. 2 空間數(shù)據(jù)挖掘技術(shù)研究
目前,在空間數(shù)據(jù)挖掘系統(tǒng)研究過程中存在以下問題:
1) 空間數(shù)據(jù)集成問題。許多空間數(shù)據(jù)集中包含著復(fù)雜的數(shù)據(jù)類型,如關(guān)系型數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、復(fù)雜的空間數(shù)據(jù)對(duì)象、超文本數(shù)據(jù)和多媒體數(shù)據(jù)、時(shí)空數(shù)據(jù)、視頻數(shù)據(jù)、聲音數(shù)據(jù)等,局域網(wǎng)和廣域網(wǎng)、國(guó)際互聯(lián)網(wǎng)上更是連接了更多的空間數(shù)據(jù)源并形成了巨大、變化、分布式、分層、異構(gòu)的空間數(shù)據(jù)倉(cāng)庫(kù)。具有不同數(shù)據(jù)語(yǔ)義,來(lái)自不同的數(shù)據(jù)源隨時(shí)都有可能改變的空間數(shù)據(jù)集,對(duì)空間數(shù)據(jù)挖掘提出了新的挑戰(zhàn),目前并不存在一個(gè)強(qiáng)有力的空間能使數(shù)據(jù)挖掘系統(tǒng)有效地處理這些復(fù)雜的數(shù)據(jù)類型。
2) 空間數(shù)據(jù)挖掘系統(tǒng)適用范圍有限。國(guó)際上最著名且有代表性的通用 SDM 系統(tǒng)有: GeoMiner,Descartes 和ArcViewGIS 的 S_PLUS 接口。以上 SDM 系統(tǒng)的共同優(yōu)點(diǎn)是可以把傳統(tǒng) DM 與地圖可視化結(jié)合起來(lái),提供聚類、分類等多種挖掘模式,但它們?cè)诳臻g數(shù)據(jù)的操作上實(shí)現(xiàn)方式不盡相同。Descartes 是專門的空間數(shù)據(jù)可視化工具,它和 DM 工具 Kepler 兩者聯(lián)合在一起才能完成 SDM 任務(wù)。GeoMiner 是在 MapInfo 平臺(tái)上進(jìn)行二次開發(fā)而成,系統(tǒng)龐大,造成較大的資源浪費(fèi)。S_PLUS 的局限在于,它是一種解釋性語(yǔ)言( Script) ,功能的實(shí)現(xiàn)比用 C 和 C + +直接實(shí)現(xiàn)要慢得多,所以只能在非常小的數(shù)據(jù)庫(kù)中使用。
3) 沒有公認(rèn)的標(biāo)準(zhǔn)化空間數(shù)據(jù)挖掘查詢語(yǔ)言。雖然GeoMiner 在 Oracle Spatial SQL 語(yǔ)言的基礎(chǔ)上設(shè)計(jì)了GMQL( Geo - Mining Query Language) ,方便了空間數(shù)據(jù)挖掘,但畢竟 GeoMiner 只是加拿大 Simon 大學(xué)開發(fā)的,原型系統(tǒng)不夠成熟,屬于實(shí)驗(yàn)階段,并未投入實(shí)際應(yīng)用和后續(xù)開發(fā)。
4) 空間挖掘方法和用戶交互問題。由于不同的用戶可能對(duì)不同類型的知識(shí)感興趣,空間數(shù)據(jù)系統(tǒng)應(yīng)該覆蓋范圍很廣的數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)任務(wù),在相同的空間數(shù)據(jù)上發(fā)現(xiàn)不同的知識(shí),有必要提供交互式手段,開發(fā)不同的空間數(shù)據(jù)挖掘技術(shù)。而目前,空間數(shù)據(jù)挖掘知識(shí)發(fā)現(xiàn)系統(tǒng)普遍交互性不強(qiáng),在知識(shí)發(fā)現(xiàn)過程中很難充分有效地利用領(lǐng)域?qū)<抑R(shí),用戶不能很好地掌控空間數(shù)據(jù)挖掘過程。
5) 性能問題。許多現(xiàn)有的空間數(shù)據(jù)挖掘算法往往適合于常駐內(nèi)存的、小數(shù)據(jù)集的空間數(shù)據(jù)挖掘,而如今大數(shù)據(jù)時(shí)代,大型空間數(shù)據(jù)庫(kù)中存放了 TB 級(jí)的數(shù)據(jù),所有的空間數(shù)據(jù)無(wú)法同時(shí)導(dǎo)入內(nèi)存,所以有效性和可伸縮性是實(shí)現(xiàn)空間數(shù)據(jù)挖掘系統(tǒng)的關(guān)鍵問題。
在大數(shù)據(jù)時(shí)代,以上研究都會(huì)遇到數(shù)據(jù)密集( Data intensity) 、計(jì)算密集 ( Computing intensity) 、并發(fā)訪問密集( Concurrent intensity) 和時(shí)空密集( Spatiotemporal intensity) 的問題。海量的、分布的、異構(gòu)的空間數(shù)據(jù)給數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)帶來(lái)了難題。處理這些數(shù)據(jù)的復(fù)雜度很高,系統(tǒng)的存儲(chǔ)能力、計(jì)算能力、并發(fā)訪問能力很難達(dá)到要求,此時(shí)傳統(tǒng)的單機(jī)服務(wù)器所能提供的有限資源往往不能滿足要求,需要借助分布式計(jì)算技術(shù)來(lái)實(shí)現(xiàn)大規(guī)模空間數(shù)據(jù)的存儲(chǔ)和并行計(jì)算。
2 大數(shù)據(jù)時(shí)代空間數(shù)據(jù)挖掘進(jìn)展
云計(jì)算( CloudComputing) 是網(wǎng)格計(jì)算( GridComputing) 、分布式計(jì)算( DistributedComputing) 、并行計(jì)算( ParallelComputing) 、效用計(jì)算 ( UtilityComputing) 、網(wǎng)絡(luò)存儲(chǔ)
( NetworkStorageTechnologies) 、虛擬化( Virtualization) 、負(fù)載均衡( LoadBalance) 等傳統(tǒng)計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物。它旨在通過網(wǎng)絡(luò)把多個(gè)成本相對(duì)較低的計(jì)算實(shí)體整合成一個(gè)具有強(qiáng)大計(jì)算能力的完善系統(tǒng)。基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)搭建于“云”之上,透明地為各種終端的用戶提供界面服務(wù); 為基于該系統(tǒng)開發(fā)的程序提供開放接口,用戶可以通過其他應(yīng)用程序調(diào)用系統(tǒng)提供的開放接口來(lái)間接地使用系統(tǒng)提供的各種服務(wù)。用戶不需要了解系統(tǒng)是怎樣實(shí)現(xiàn)的,也不需要擔(dān)心系統(tǒng)的計(jì)算與存儲(chǔ)能力,只需要選擇合適的算法來(lái)處理數(shù)據(jù),最終以任務(wù)的方式部署給系統(tǒng)區(qū)執(zhí)行,得到數(shù)據(jù)挖掘的結(jié)果。基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)如圖 3 所示。
.
圖3.基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)
2.1 國(guó)內(nèi)進(jìn)展
1) 數(shù)據(jù)挖掘系統(tǒng)研究。中國(guó)移動(dòng)研究院研發(fā)的基于云計(jì)算平臺(tái)的并行數(shù)據(jù)挖掘工具( BC - PDM,Blue Carrierbased Parallel Data Mining) ,采用云計(jì)算技術(shù),實(shí)現(xiàn)海量數(shù)
據(jù)的存儲(chǔ)、分析、處理、挖掘。廈門大學(xué)數(shù)據(jù)挖掘研究中心與臺(tái)灣銘傳大學(xué)資訊工程系、中華資料采礦協(xié)會(huì)合作開發(fā)的一套基于云計(jì)算的數(shù)據(jù)挖掘決策支持系統(tǒng)———云端數(shù)據(jù)挖掘決策系統(tǒng)( MCU Smart Score) 。該系統(tǒng)是廈門數(shù)據(jù)挖掘研究中心統(tǒng)計(jì)與數(shù)據(jù)挖掘云端系統(tǒng)的部分階段性成果。基于 Hadoop,中科院計(jì)算所研制了并行數(shù)據(jù)挖掘工具平臺(tái) PDMiner。針對(duì)海量數(shù)據(jù),分別從數(shù)據(jù)挖掘模式和方法等方面進(jìn)行相關(guān)的研究。與此同時(shí),中科院深圳先進(jìn)技術(shù)研究院還研制了一套分布式數(shù)據(jù)挖掘系統(tǒng)AlphaMiner。以上這些云端數(shù)據(jù)挖掘系統(tǒng)只是實(shí)現(xiàn)了對(duì)事務(wù)性海量數(shù)據(jù)的挖掘,并沒有針對(duì)空間數(shù)據(jù)進(jìn)行設(shè)計(jì),還無(wú)法高效存儲(chǔ)、查詢和挖掘空間數(shù)據(jù)。
2) 數(shù)據(jù)挖掘算法研究。在一些大學(xué)和研究機(jī)構(gòu),基于 MapReduce 模式的數(shù)據(jù)挖掘算法研究較多。如大連理工大學(xué)李鈺研究了空間數(shù)據(jù) RkNN 算法,但僅限于低維空間數(shù)據(jù)。河南工業(yè)大學(xué)趙廣才研究了基于改進(jìn) K - means空間聚類算法,但存在模型簡(jiǎn)單化、聚類結(jié)果容易出現(xiàn)誤差的問題。
2.2 國(guó)外進(jìn)展
Apache 組織近年來(lái)組織了 Mahout 開源項(xiàng)目,設(shè)計(jì)用于云平臺(tái)的數(shù)據(jù)挖掘算法。但 Mahout 項(xiàng)目目前還缺少數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)展示和用戶交互,還不能完全適合海量數(shù)據(jù)挖掘并行算法的性能評(píng)估。SpatialHadoop 由明尼蘇達(dá)大學(xué)計(jì)算科學(xué)與工程系 Ahmed Eldawy 和 Mohamed F. Mokbel 兩人開發(fā),是對(duì)開源的 MapReduce 一個(gè)擴(kuò)展,專門用來(lái)在 Apache Hadoop 上處理海量的空間數(shù)據(jù)。SpatialHadoop 內(nèi)置高級(jí)空間查詢語(yǔ)言、支持基本空間數(shù)據(jù)類型( 點(diǎn)、矩形、多邊形) 和空間索引( 分為本地索引和全局索引) ,可以高效進(jìn)行一些空間操作( 范圍查詢、K 最近鄰分類、空間合并) 。但此項(xiàng)目還處在實(shí)驗(yàn)階段,存在支持的數(shù)據(jù)類型有限、交互性不強(qiáng)、功能單一的問題。以上基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)都是基于通用的云計(jì)算平臺(tái)和大數(shù)據(jù)處理工具開發(fā)的,并未在底層設(shè)計(jì)時(shí)考慮到地理空間科學(xué)的特點(diǎn),所以對(duì)于空間數(shù)據(jù)的處理,效果都不是很理想。而且大多基于 Hadoop技術(shù)開發(fā),無(wú)法完成數(shù)據(jù)流的實(shí)時(shí)挖掘處理。
3 結(jié)束語(yǔ)
從數(shù)據(jù)挖掘技術(shù)的發(fā)展歷史看,隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)的規(guī)模越來(lái)越大,從 KB 級(jí)發(fā)展到 TB 級(jí)甚至PB 級(jí)海量數(shù)據(jù); 數(shù)據(jù)挖掘的對(duì)象也變得越來(lái)越復(fù)雜,從數(shù)據(jù)庫(kù)到多媒體數(shù)據(jù)和復(fù)雜社會(huì)網(wǎng)絡(luò); 數(shù)據(jù)挖掘的需求也從分類、聚類關(guān)聯(lián)到復(fù)雜的演化和預(yù)測(cè)分析; 挖掘過程中的交互方式從單一的人機(jī)交互發(fā)展到現(xiàn)在社會(huì)網(wǎng)絡(luò)群體的交互。通過云計(jì)算的海量數(shù)據(jù)存儲(chǔ)和分布計(jì)算,為云計(jì)算環(huán)境下的海量數(shù)據(jù)挖掘提供了新的方法和手段,有效解決了海量數(shù)據(jù)挖掘的分布存儲(chǔ)和高效計(jì)算問題。但是,這些云計(jì)算平臺(tái)自誕生之日起,就不是為處理空間數(shù)據(jù)而設(shè)計(jì),所以它們都在底層對(duì)空間數(shù)據(jù)不敏感。2011年由 Yang Chaowei ( 美國(guó)喬治梅森大學(xué)制圖與地理信息科學(xué)系) ,Michael Goodchild( 加利福尼亞大學(xué)制圖系) 等多位學(xué)者在《空間云計(jì)算: 地理空間科學(xué)如何利用和塑造云計(jì)算》一文中,定義了空間云計(jì)算( Spatial Cloud Computing) ,是指由地理空間科學(xué)推動(dòng)的,并經(jīng)時(shí)空原則優(yōu)化的云計(jì)算范式,它可以進(jìn)行地理科學(xué)發(fā)現(xiàn)和在分布式環(huán)境中進(jìn)行云計(jì)算。筆者認(rèn)為,專門為地理科學(xué)設(shè)計(jì)的云計(jì)算才更適合空間數(shù)據(jù)的挖掘和處理,也是地理信息領(lǐng)域研究人員今后努力的一個(gè)方向。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.guhuozai8.cn/
本文標(biāo)題:大數(shù)據(jù)時(shí)代的空間數(shù)據(jù)挖掘綜述
本文網(wǎng)址:http://www.guhuozai8.cn/html/consultation/10819916614.html