隨著智能手機的應用,中國的移動互聯網已經步入大數據時代。社交網絡逐漸成熟、移動帶寬迅速提升,更多的移動終端、傳感設備接入網絡,產生的數據及其增長速度是前所未有的。新型應用、業務的不斷涌現(例如移動支付、移動搜索、移動社交、移動閱讀、移動購物、移動音樂視頻下載等),其產生的海量數據所帶來的價值難以估量,移動互聯網大數據對這些新興產業和業務模式也產生了強有力的幾何級數疊加效應。
移動互聯網大數據分析是針對移動互聯網中的海量數據進行分析研究,以揭示其內部隱藏的模式和數據間的相關性。通過獲得的有用信息幫助企業和機構,使其對客戶的需求和體驗、業務的發展具有更豐富、更深刻的理解,幫助其在競爭中取得優勢。
本文將分析移動互聯網大數據處理所面臨的挑戰,討論移動互聯網大數據處理的關鍵技術,希望通過對移動互聯網大數據高效率、低成本的處理,為用戶提供更好的體驗,為企業的發展提供指引。
1.移動互聯網大數據的機遇與挑戰
移動互聯網大數據是指用戶使用智能終端在移動網絡中產生的數據,主要包括:
(1)與網絡信令、協議、流量等相關的網絡信息數據。
(2)與用戶信息相關的用戶數據。
(3)與業務相關的數據。
移動網絡中產生著越來越多的數據,電信運營商在提供網絡服務的同時,也擁有了這些寶貴的數據資源。這些數據信息對于市場和業務的發展是極其寶貴的,蘊藏著巨大的、造福社會的潛力。而這些數據是運營商管理網絡的基礎,很多信息高度個人化,如何合理、有效地發揮這些數據資源的作用,為電信運營商帶來了機遇與挑戰。
1.1 移動互聯網大數據的機遇
移動互聯網大數據可以為電信行業提供海量的通信網絡運營數據,包括網絡信令、網絡運營服務質量、億萬用戶的基礎信息和位置信息、各類應用的使用信息、
物聯網和視頻網絡的使用信息等。對這些數據的處理、分析是了解網絡運營狀態、互聯網應用發展趨勢和改善客戶體驗的重要技術。
通過大數據分析超越客戶支持范疇在整個客戶生命周期中幫助客戶,能夠提升客戶體驗。大數據分析也是簡化網絡和服務管理流程,提高運營效率的重要技術。移動客戶體驗方案結合大數據分析可以提供客戶在任何時間、地點、經歷了何種體驗的完整信息,可
以幫助運營商預期、理解網絡上發生的情況和客戶體驗,同時做出適當響應。這些信息能夠幫助服務提應商優先考慮重要的問題,提供積極的技術支持、改善客戶體驗、減少客戶流失傾向。
1.2 移動互聯網大數據面臨的挑戰
移動互聯網大數據是網絡運營發展和創造新的商業模式和價值的核心。這些數據產生于網上交易、電子郵件、視頻、音頻、圖像、點擊流、日志、帖子、搜索查詢、健康檔案、社交互動、科學數據、傳感器和移動電話及其應用。由于數據量規模巨大,傳統的技術已經難以擷取、存儲、管理、共享、分析,并將結果可視化。這些是移動互聯網大數據所面臨的挑戰。
1.2.1 多源數據采集問題
大數據時代的數據存在如下幾個特點:多源異構、分布廣泛、動態增長、先有數據后有模式。舉例來說,一個用戶的一條位置信息的價值是很小的,但是很多這樣的低價值數據可以完整刻畫出用戶的運動軌跡,獲得本質上的價值提升。
然而,在已有的數據采集系統中,數據收集不全面是一個普遍的問題,如何處理來自多源的數據是移動互聯網大數據時代面臨的新挑戰。其中,迫切需要解決如下幾個問題:
●無線移動網絡結構復雜,需要在網絡中高效地采集數據。
●多源數據集成和多類型數據集成的技術。
●兼顧用戶的隱私和數據的所有權和使用權等。
1.2.2 移動互聯網海量異構數據管理問題
據統計,2003 年前人類共創造了5 艾字節(Exabytes)的數據,而今天兩天的時間就可以創造如此大量的數據。這些數據大部分是異構數據,有些具有用戶標注、有些沒有;有些是結構化的(比如數值、符號)、有些是非結構化話的(比如圖片、聲音);有些時效性強、有些時效性弱;有些價值度高、有些價值度低。
移動互聯網海量異構數據管理平臺包含以下關鍵研究和技術:海量異構大數據傳輸控制、大數據存儲、大數據
質量管理。
1.2.3 移動互聯網大數據實時數據挖掘問題
傳統意義上的數據分析(Analysis)主要針對結構化數據展開,且已經形成了一整套行之有效的分析體系。首先,利用數據庫來存儲結構化數據,在此基礎上構建
數據倉庫,根據需要構建數據立方體進行聯機分析處理(OLAP,Online Analytical Processing),可以進行多個維度的下鉆(Drill-down)或上卷(Roll-up)操作。對于從數據中提煉更深層次的知識的需求促使了數據挖掘技術的產生,并發明了聚類、關聯分析等一系列在實踐中行之有效的方法。這一整套處理流程在處理相對較少的結構化數據時極為高效。但是,對于移動互聯網來說,涉及更多的是多模態數據挖掘,這些數據包括手機上的傳感器,包括加速度計、陀螺儀、指南針、GPS、麥克風、攝像頭、以及各種無線信號(如GSM、Wi-Fi)和藍牙等。這些原始數據在不同維度上刻畫被感知的對象,需要經過不同層次的加工和提煉才能形成從數據到信息再到知識的飛躍。移動互聯網半結構化和非結構化數據量的迅猛增長,給傳統的分析技術帶來了巨大的沖擊和挑戰。
1.2.4 高效資源管理與分析問題
移動互聯網通過物理空間和信息空間的感知互動,高效靈活地為用戶提供智慧服務。移動互聯網系統存在高度的混雜性特征,諸如終端類型多樣、數量巨大,感知屬性、特征、控制與處理方法等差異巨大,使得移動互聯網的運行場景和待處理因素極為復雜多樣。
這就對移動互聯網的資源可靠性提出了要求,使其需要相應檢測方法的研究。支持移動互聯網大數據的資源管理是移動互聯網運行的基礎,為移動互聯網大數據的感知、采集、交互、處理和決策提供了重要支撐,因而移動互聯網的高效資源管理與分析機理是亟待解決的基礎科學問題。
在移動互聯網中,由于泛在業務的異構性、大規模性與時空復雜性,如何在這樣的異構非線性復雜巨型系統中建立基于Web 的無限泛在網業務環境體系架構,是目前亟待解決的問題。
2.移動互聯網大數據的關鍵技術
移動互聯網大數據的關鍵技術涉及多源數據采集、海量異構數據管理、實時數據挖掘、高效資源管理與分析等,這些技術的核心是數據的管理、分析和呈現。
2.1 海量異構數據管理技術
移動互聯網時刻都在產生海量的多源異構數據。
這些數據具有4 大特點,第一,數據體量巨大。從TB級別,躍升到PB 級別;第二,數據類型繁多,如網絡日志、視頻、圖片、地理位置信息等;第三,價值密度低,商業價值高。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒;第四,處理速度快,1 秒定律,即要求在秒級時間范圍內給出分析結果,時間太長就失去了價值。最后這一點也是和傳統的數據挖掘技術有著本質的不同。為此,業界將大數據的特點歸納為4 個“V”——Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(精確)。
針對這4 個特點給海量異構數據的管理帶來的挑戰,海量異構數據管理需重點關注如圖1 所示架構中的關鍵模塊,具體有:
圖1 移動互聯網大數據處理架構圖
(1)流處理與批處理模塊。
(2)異構數據融合與海量數據集成模塊。
(3)文件系統模塊。
(4)數據庫系統模塊。
(5)數據管理易用性模塊。
(6)為數據管理、挖掘、呈現提供接口的數據訪問層。
針對移動互聯網大數據處理的不同要求,數據探測模塊可將數據分別送給實時流處理系統和批處理系統。很多互聯網公司(如職業社交網站Linkedin)根據處理時間的要求將業務劃分為在線(Online)、近線(Nearline)和離線(Offline)。這種劃分方式是按處理所耗時間來劃分的。其中,在線的處理時間一般在秒級,甚至是毫秒級,通常采用流處理技術。離線的處理時間可以以天為基本單位,基本采用批處理方式,以便最大限度地利用系統I/O。近線的處理時間在分鐘級或小時級,對其處理模型并沒有特別的要求,可以根據需求靈活選擇,實際中多采用批處理模式。
流式處理系統主要采用Flume、Kafka、Storm 的系統架構,數據處理后存入數據庫系統,并向數據訪問層提供數據服務。其特點是具備實時處理能力。
批處理系統,是首先將數據進行存儲,再進行計算和處理,在某些場景下時延較大。其存儲系統可選用HDFS 或HBase,對于冷數據可采取存入GlusterFS 的策略,以降低成本。常用的批處理系統通過ETL(Extraction TransformationL
OAding),即數據的提取、轉換和加載,然后利用OLAP(On- LineAnalytical Processing)技術對多維異構數據進行建模分析,也可以進行更復雜的數據模型的建立。
Hadoop 批處理系統里面具體可利用組件包括最常用的MapReduce,以及Hive、Impala、Shark 等SQLon Hadoop,這些組件的靈活使用可以給下一層的數據挖掘模塊提供豐富的統一的結構化數據基礎。
隨著移動互聯網大數據處理技術的發展,相關技術也在不斷地發展和演進中。如高效的分布式計算系統Spark,將中間數據存放在內存中,提高迭代運算效率,支持實時批計算。Pregel 計算模型,用于解決分布式圖計算問題,繪制大量網上信息間的“圖形數據庫”,如網頁鏈接關系和社交關系圖等。
數據訪問層重要的功能是抽取下層處理的結果數據,屏蔽下層處理的復雜性,通過某種接口(如Restful API)提供給前端應用接口進行展現,開發應用、提供服務。
2.2 實時數據挖掘技術
移動互聯網大數據紛繁復雜,對不同的使用目的,有不同的實時數據挖掘技術。圖2 關注運營商對網絡的維護和業務推廣兩個重要功能,對無線網絡數據挖掘技術和應用數據挖掘技術進行了分析。
2.2.1 無線網絡數據挖掘技術
隨著移動網絡的發展,網絡結構變得比較復雜,體現在網元多、多種無線技術同時存在、網絡故障診斷困難、干擾用戶體驗的因素很多等方面。無線網絡數據挖掘模塊,根據對無線網絡的理解,以及網絡中能夠產生的各類日志文件、信令采集系統、計費信息、用戶簽約信息等系統,綜合大數據分析,通過統計和數據挖掘,生成報表,并對外提供數據分析能力、開放API。具體可以提供的信息包括:
圖2 實時數據挖掘技術
(1)網絡分析:包括全網的流量分析、會話和告警分析、漫游分析、網絡的使用變化趨勢分析、網絡性能KPI分析。
(2)網元分析:包括網元對比分析、網元組對比分析、網元時間變化趨勢分析、全網Cell 累計分布分析和RNC性能負載分析。
(3)終端分析:終端設備使用趨勢分析、終端設備每天小時時段變化趨勢的分析、終端設備的性能指標分析等。
(4)用戶分析:用戶比較分析、無線共享路由用戶對比分析、無線共享路由用戶的資源使用、無線共享路由用戶的設備型號/操作系統構成分析、用戶組的比較分析、全網用戶累積分布分析、單用戶時間變化趨勢分析等。
(5)應用分析:應用業務使用趨勢分析、應用業務每天小時時段趨勢變化分析、指定終端設備類型上的TopN 應用業務分析、應用業務性能分析、應用業務系統分組的性能KPI 分析、應用業務組使用趨勢分析、應用業務組每天小時時段趨勢變化分析。
(6)其他組合分析:各類QoS/QoE 指標分析;不同緯度的用戶、業務、網絡狀況分析;各類網絡安全、負等統計和告警信息分析。
2.2.2 多媒體數據挖掘技術(見圖3)
圖3 多媒體數據挖掘技術
針對移動互聯網中的用戶行為數據,多媒體信息數據挖掘技術,以典型的視頻應用為例,其關鍵技術包括精準的用戶畫像建立、視頻推薦、廣告投放等。
用戶畫像挖掘的基礎數據主要依賴用戶的視頻播放記錄、用戶注冊信息、搜索行為、社交行為數據等。其關鍵是通過大數據機器學習分類算法訓練出一系列可泛化的模型,包括行業定向模型、性別模型、年齡段模型等。使用這些分類預測模型,對注冊用戶屬性信息和行為信息的數據清洗,之后合并形成原始訓練用戶數據。對線上的匿名用戶的屬性進行預測判斷,完善用戶畫像。
視頻推薦技術基于用戶行為數據,定期計算視頻的熱度、視頻的新鮮度、用戶的長期興趣和用戶的短期反饋數據。實時計算視頻內容相似度、解析線上請求、了解推薦意圖、識別用戶ID。獲取推薦的候選列表,經過合并、重排,過濾用戶已經看過的視頻等工作,最后生成推薦給該用戶的個性化推薦結果。
通過建立更加完整的用戶畫像,實時挖掘視頻推薦的可能,為廣告主定制有針對性的人群定向模式,合理配置和優化多媒體平臺的廣告資源,這些關鍵技術可以有效提高多媒體平臺的運營能力,以及精準廣告的變現能力。
3.結束語
隨著移動互聯網的發展,與其相關的大數據成為各方關注的焦點。本文分析了移動互聯網大數據的潛在價值和面臨的挑戰,總結了使用移動互聯網大數據的關鍵技術,包括移動互聯網大數據的采集、數據存儲和分析、海量數據的深度挖掘與處理,同時分析了如何對海量數據進行整合和呈現,提供數據中的有效價值。希望這些分析能夠為移動互聯網大數據的分析和應用提供有益的借鑒。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:移動互聯網大數據關鍵技術
本文網址:http://www.guhuozai8.cn/html/solutions/14019318618.html