1、引言
大數(shù)據(jù)的3V特性(volume、variety、velocity)正在逐步改善用戶體驗和生產效率。電信運營商提供基礎通信平臺連接每一位用戶。每天數(shù)以億計的用戶在管道中留下的通信行為數(shù)據(jù)構成電信大數(shù)據(jù)。如何挖掘大數(shù)據(jù)來智能支撐運營商各項業(yè)務并進行業(yè)務轉型,是一個需要深入思考的問題。首要任務就是匯集豐富的用戶行為數(shù)據(jù),存儲在統(tǒng)一的電信大數(shù)據(jù)分析平臺,并根據(jù)業(yè)務需求靈活部署統(tǒng)計、規(guī)則和預測算法,在不改變業(yè)務人員使用習慣的情況下做到及時、多屏、準確、直白、客觀地沉淀用戶數(shù)據(jù)(例如不同時間跨度的知識標簽),幫助企業(yè)減少營銷成本的同時做到360度營銷,降低業(yè)務人員的學習成本,賦能、提高營銷效率?傮w而言,電信大數(shù)據(jù)沉淀了海量用戶7個維度的信息:1維用戶真實ID(基本信息)、1維行為數(shù)據(jù)(通信行為、互聯(lián)網行為、消費行為、投訴行為、網絡體驗、反饋行為)、1維社交數(shù)據(jù)、1維時間數(shù)據(jù)和3維空間數(shù)據(jù)(室外宏基站定位和室內微基站定位)。通過對7維用戶數(shù)據(jù)建模,可以實現(xiàn)運營商在3個數(shù)據(jù)業(yè)務方向的升級:用戶洞察、網絡洞察和數(shù)據(jù)開放。如圖1所示,電信大數(shù)據(jù)平臺的目標是實現(xiàn)用戶、網絡和數(shù)據(jù)的統(tǒng)一自動化管理,實現(xiàn)“三個了解”和“三個提升”,即了解用戶、了解產品(服務和渠道)、了解網絡,提升營銷轉化率、提升決策準確率和提升自動化率(數(shù)據(jù)化→信息化→智能化)。
圖1 電信大數(shù)據(jù)平臺的目標
全生命周期的用戶洞察是電信大數(shù)據(jù)的基礎,目標是改善用戶體驗,提升營銷效率,從而沉淀更多用戶的行為數(shù)據(jù)作為反饋。以用戶為中心的網絡洞察有助于提升運營商在網絡規(guī)劃、網絡建設、網絡優(yōu)化、網絡維護方面的投資效率,改善用戶網絡體驗,并降低運營成本。面向全行業(yè)的數(shù)據(jù)開放的重點是利用電信大數(shù)據(jù)優(yōu)勢構建數(shù)據(jù)產業(yè)生態(tài)鏈,使其能提供面向全行業(yè)的數(shù)據(jù)服務,例如幫助行業(yè)客戶進行獲客、營銷、選址分析、人流量檢測、區(qū)域價值規(guī)劃等。然而,在3個業(yè)務方向的升級都急需強有力的電信大數(shù)據(jù)分析平臺支撐,這將面臨9個方面的技術挑戰(zhàn),分別是特征工程、預測算法、根本原因分析、實時分析、時空數(shù)據(jù)挖掘、知識管理、多媒體數(shù)據(jù)挖掘、圖數(shù)據(jù)挖掘和隱私保護。本文重點描述這些技術挑戰(zhàn)的來源和可能的解決方案,討論如何構建高效的電信大數(shù)據(jù)平臺。
2、電信大數(shù)據(jù)分析
電信大數(shù)據(jù)平臺是一個提供統(tǒng)一數(shù)據(jù)存儲、分析處理、數(shù)據(jù)服務的
云計算平臺。如圖2所示,平臺需要融合并存儲來自BSS(B域)和OSS(O域)系統(tǒng)的數(shù)據(jù),提供6種通用數(shù)據(jù)的處理。BSS是商業(yè)支撐系統(tǒng),包括客戶關系、計費、營銷和傳統(tǒng)商業(yè)智能系統(tǒng),記錄用戶的話單、賬單、基礎信息和營銷反饋記錄。BSS數(shù)據(jù)特點是量。s占電信大數(shù)據(jù)總量的3%)、匯總、離線(非實時更新)、貼近用戶行為。OSS是網絡運營支撐系統(tǒng),包括基站、傳輸、固網和核心網等網絡單元(CS系統(tǒng)負責語音/短信、PS系統(tǒng)負責上網流量),記錄大量信令數(shù)據(jù),包括用戶聯(lián)接網絡體驗、互聯(lián)網內容和位置信息。OSS數(shù)據(jù)特點是量大(約占電信大數(shù)據(jù)總量97%,主要是位置數(shù)據(jù)和互聯(lián)網內容數(shù)據(jù))、精細、實時和貼近網絡行為。以600萬個活躍用戶為例,每天產生大約14 TB數(shù)據(jù),這些數(shù)據(jù)大部分來自OSS,通過擴展,可估算中國12億用戶每天產生的數(shù)據(jù)量。盡管數(shù)據(jù)來源不同,但所有數(shù)據(jù)可抽象為六大通用數(shù)據(jù)類型,分別是時空數(shù)據(jù)、圖數(shù)據(jù)、表數(shù)據(jù)、流數(shù)據(jù)、多媒體數(shù)據(jù)和文本數(shù)據(jù)。建模算法可以面向這六大類通用數(shù)據(jù)類型進行設計和部署。
圖2 融合BSS和OSS數(shù)據(jù)
電信大數(shù)據(jù)核心資產是海量用戶的7個維度信息。如圖3所示,這些數(shù)據(jù)可以支撐對內和對外服務優(yōu)化,如全生命周期的用戶管理和基于位置的服務。用戶洞察的核心是圍繞用戶回答7個W的問題:who(用戶ID)、when(時間)、where(空間)、what(行為結果)、how(行為過程)、why(行為根本原因)、Web(社交)。通過7D用戶數(shù)據(jù)建模實現(xiàn)7W洞察是電信大數(shù)據(jù)分析的核心需求。
圖3 7維度用戶數(shù)據(jù)建模和7W洞察
大數(shù)據(jù)時代,建模思維逐漸從研究各種映射算法到研究數(shù)據(jù)本身,如從豐富的數(shù)據(jù)中抽取更加合理的特征表示、從數(shù)據(jù)中根據(jù)業(yè)務規(guī)則自動定義標簽和訓練數(shù)據(jù)以及利用用戶營銷反饋數(shù)據(jù),自動化整個營銷流程等。從數(shù)據(jù)出發(fā),尋求合適、好用的算法是建模的核心。清晰定義訓練數(shù)據(jù),熟悉業(yè)務流程,才能將挖掘算法的價值發(fā)揮到最大。用戶和基站聯(lián)接行為將BSS和OSS數(shù)據(jù)打通,因此通用的用戶模型可以用二分圖表示,即一層節(jié)點是用戶,另一層節(jié)點是網絡,兩層節(jié)點之間的邊表示用戶聯(lián)接網絡的時間。總體而言,可以通過電信大數(shù)據(jù)的二分圖表示實現(xiàn)用戶洞察、網絡洞察和數(shù)據(jù)開放3個業(yè)務目標。
3、數(shù)據(jù)融合中的模式轉換
電信大數(shù)據(jù)分析面臨9個關鍵的挑戰(zhàn),分別是特征工程、預測算法、根本原因分析、實時分析、時空數(shù)據(jù)挖掘、知識工程、多媒體挖掘、圖挖掘和隱私保護。
3.1、以時空數(shù)據(jù)為核心的特征工程
隨著移動設備和移動互聯(lián)網的普及,隨時隨地使用移動終端已經成為人們的一種基本生活習慣。因而電信數(shù)據(jù)成為獲取城市用戶、區(qū)域細粒度時空行為信息的重要數(shù)據(jù)源。這些細粒度行為信息可以被用作建模的重要特征,從而大幅提升電信數(shù)據(jù)挖掘效果[1]。因為電信數(shù)據(jù)來自多個數(shù)據(jù)源,如BSS(B域)的數(shù)據(jù)來自
CRM(customer relationship management,
客戶關系管理)、賬單、BI(business intelligence,商業(yè)智能)、客服和渠道等系統(tǒng),OSS(O域)的數(shù)據(jù)來自于MR(measurement report,測量報告)、Gn口和Mc口等系統(tǒng),時空和用戶ID關聯(lián)是把這些數(shù)據(jù)整合成統(tǒng)一特征集合的關鍵因素。以時空數(shù)據(jù)為核心的特征工程需要結合B域和O域進行關聯(lián)分析,找出網絡和用戶特征的關聯(lián)性。如圖4所示,復雜的特征工程可以在以時空數(shù)據(jù)為核心的各種數(shù)據(jù)類型上構建。如人的社交關系可以表述為電話網絡、短信網絡和接觸網絡(兩個人在相近時間、相近地點出現(xiàn)算是一次有效接觸)。每個電話、短信或接觸都有發(fā)生的時間和地點。需要設計有效的算法研究如何在這種有時空約束的圖中提取反映用戶復雜社會關系的特征。另一個例子是將用戶的賬單、影響力或者離網行為映射到每個位置上來評估每個位置的價值,從而可以得到高價值用戶或者離網用戶聚集的位置,開展基于位置的服務和營銷。同時也可以構建基于用戶行為的基站投資分析,得出精確基站選址目標。將通信行為、互聯(lián)網行為、消費行為、營銷反饋行為映射到時空位置坐標,也可以開放給其他行業(yè),輸出專業(yè)性的評估報告,有助零售業(yè)或者旅游業(yè)掌握移動用戶的行為。例如,西班牙電信Telefonica的SmartSteps洞察方案將時空數(shù)據(jù)脫敏后開放給行業(yè)客戶,每年有數(shù)千萬歐元營收。其他的多媒體數(shù)據(jù)(客服語音記錄)、文本數(shù)據(jù)(服務記錄和移動搜索記錄)和用戶軌跡數(shù)據(jù)等都需要設計有效的特征提取算法。所以電信大數(shù)據(jù)挖掘的第一個核心挑戰(zhàn)是以時空數(shù)據(jù)為核心的異構特征工程。
圖4 以時空數(shù)據(jù)為核心的特征工程
3.2、更加精準的預測算法
當特征工程完成以后,下一步需要做的是預測(如離網預測[1]),并根據(jù)預測結果做決策。業(yè)務價值通常取決于預測的精度,精度越高越好。圖5對比了傳統(tǒng)數(shù)據(jù)挖掘的預測流程和大數(shù)據(jù)下的預測流程,主要區(qū)別之一是傳統(tǒng)數(shù)據(jù)挖掘采用的預測模型較簡單(參數(shù)少),無法刻畫數(shù)據(jù)統(tǒng)計分布的細節(jié),而大數(shù)據(jù)背景下,通常采用大規(guī)模參數(shù)學習(如支撐十億級別的模型參數(shù)處理百萬級別的稠密連續(xù)特征向量),從而充分刻畫統(tǒng)計細節(jié)和數(shù)據(jù)的相互依賴關系,達到更高的預測精度和更好的解釋。傳統(tǒng)的梯度下降(上升)算法在并行架構下可以優(yōu)化大規(guī)模參數(shù)的神經網絡模型,是未來高精度預測算法發(fā)展的主要方向之一。但是,電信領域的數(shù)據(jù)種類相對互聯(lián)網領域數(shù)據(jù)種類較少,通常使用較少的特征也能帶來業(yè)務性能的提升。未來需要更多的實驗驗證高維豐富的特征對電信業(yè)務的有效性和必要性。
圖5 精確的預測算法
3.3、根本原因推斷輔助商業(yè)決策
商業(yè)智能的核心競爭力是分析用戶行為的根本原因,即明確哪些主要變量影響用戶最終的行為。如圖6所示,運營商關心的是何種原因(如網絡質量體驗、資費、服務體驗不好)導致用戶離網行為,從而可以針對性地改進產品和服務,持續(xù)改善在網用戶體驗。未來個性化的營銷也需要對用戶多個行為變量進行排序,從而匹配到最為需要的產品。根本原因推斷技術的主要方向仍然是特征變量的排序和變量之間相關性分析。由于大部分特征變量僅僅反映表象,根本原因分析需要對隱藏變量進行推斷,然而目前大部分統(tǒng)計學習算法仍然難以有效地產生可以解釋的隱藏變量,需要持續(xù)探索。
圖6 根本原因推斷算法輔助商業(yè)智能
3.4、實時分析能力逐步成為基本需求
OSS數(shù)據(jù)的一個特點是更新速度快,如用戶對網絡的體驗、網絡故障診斷和位置更新信息,都是在秒級或者分鐘級采集產生的。這些數(shù)據(jù)一旦不及時處理分析,將失去商業(yè)價值。例如,客戶當時上網體驗不好(例如無法使用支付寶或者微信支付出租車費),很有可能會即時撥打投訴電話,因此需要即時得到分析結果,并做一些補償措施,給用戶良好的體驗。又例如網絡故障診斷,需要在故障發(fā)生之后,立即分析并隔離相關的網絡單元,啟動備用方案;谖恢玫臓I銷需要及時判斷用戶的當前位置,推送附近商鋪的合理產品,或者是當用戶靠近營業(yè)廳附近時,推送合適的業(yè)務服務。實時分析能力需要流處理架構和在線學習算法,通過統(tǒng)計、預測一個短時間窗口內的數(shù)據(jù)流,迅速更新模型參數(shù),并做出決策。之后的決策都基于模型,不需要重新學習歷史數(shù)據(jù),因此大大加快了模型的更新速度和分析速度,達到實時處理的目標。尤其對于海量OSS數(shù)據(jù),流處理和在線學習技術是非常必要的。另一個挑戰(zhàn)的技術方向是時間序列的挖掘,如何在數(shù)據(jù)流中快速捕捉數(shù)據(jù)在時序上的依賴關系(上下文關系),做出準確的預測,仍然十分困難,需要持續(xù)研究。
3.5、時空數(shù)據(jù)挖掘
電信數(shù)據(jù)相較于其他數(shù)據(jù)的一個核心優(yōu)勢就是含有用戶細粒度的時空行為信息。有效的挖掘并利用這些時空數(shù)據(jù)可以充分地發(fā)揮電信數(shù)據(jù)的價值。但是,電信時空數(shù)據(jù)的挖掘面臨4個核心挑戰(zhàn):數(shù)據(jù)的不精確性、數(shù)據(jù)的超稀疏性、數(shù)據(jù)的強依賴性和異構性,如圖7所示。數(shù)據(jù)的不精確性是指通過電信數(shù)據(jù)計算的用戶位置精度遠低于GPS精度(但是電信位置數(shù)據(jù)的好處是不需要客戶端任何負擔,位置數(shù)據(jù)天然存在于網絡側)。如圖7中淺色圓圈是某區(qū)域用戶真實GPS位置,淺色圓圈是使用基于距離的定位算法從電信記錄恢復的用戶位置[2]?梢钥吹街苯邮褂煤唵蔚幕谖恢玫亩ㄎ凰惴,數(shù)據(jù)存在很大的不精確性。如何設計更好的定位算法,如充分利用指紋和地圖等信息,降低位置數(shù)據(jù)的不確定性,是第1個挑戰(zhàn)。第2個挑戰(zhàn)是數(shù)據(jù)的超稀疏性。每個用戶只會出現(xiàn)在城市的一個很小的區(qū)域和一些小的時間片段中。如果把所有用戶的時空數(shù)據(jù)放在一起,把每個小時間片段和地點的組合看成一個記錄點,一個用戶在絕大多數(shù)的記錄點都是沒有信息的。所以時空數(shù)據(jù)是一個超稀疏的數(shù)據(jù)集,如何處理并清洗這種超稀疏的數(shù)據(jù)集是一個技術挑戰(zhàn)。時空數(shù)據(jù)有很強的時間和空間關聯(lián)關系,如果按照時間切片或者地點切分將時空數(shù)據(jù)輸入數(shù)據(jù)挖掘模型,這種關聯(lián)關系就無法被有效地使用[3]。如何有效地組合使用有效的算法,如時間序列和神經網絡來有效地表述時空數(shù)據(jù)的時空強依賴性,是第3個技術挑戰(zhàn)。第4個技術挑戰(zhàn)是時空數(shù)據(jù)和其他數(shù)據(jù)結合時導致的數(shù)據(jù)異構性,如圖、文本挖掘都需要考慮相關數(shù)據(jù)產生的時間和地點才能進行更有效的信息提取。
圖7 電信時空數(shù)據(jù)挖掘的4個核心挑戰(zhàn)
3.6、知識管理是智慧延展的基礎
運營商每年有大量業(yè)務人員沉淀經驗知識用于營銷、網絡優(yōu)化和客服。大部分知識都是通過文本的形式保存下來,但是這并不方便查詢和尋找知識之間的關系。文本挖掘的一個重要方向是自動構建知識圖譜,通過發(fā)現(xiàn)文檔中知識單元之間的相互關系,方便用戶查詢和學習。如圖8所示,左邊是從幾十萬份網絡故障相關的文本中提出的關鍵詞(知識單元)和相互之間的關系,通過點擊相關的知識單元,可以查到對應的文本摘要,大大縮短定位問題的時間。類似地,客服系統(tǒng)每年都存有大量用戶投訴咨詢記錄,通過構建知識圖譜,可以容易地發(fā)現(xiàn)投訴熱點,并做出持續(xù)改進,節(jié)省大量人力、物力。
圖8 知識圖譜用于沉淀并管理業(yè)務知識
3.7、多媒體數(shù)據(jù)挖掘
電信數(shù)據(jù)中的多媒體數(shù)據(jù)主要指客服的語音記錄。語音記錄中包含了客戶關注的問題和客服服務質量和有效性信息。與客服人員手工記錄的文字信息相比,客服語音信息包含更原始和真實的信息,如客戶的情緒、關注點和客服的效率等信息。有效地挖掘這些信息可以自動化地發(fā)現(xiàn)咨費、網絡、服務和競爭對手的問題,提升服務質量。語音數(shù)據(jù)中提取的特征也可以被有效地應用于其他數(shù)據(jù)挖掘模型。語音數(shù)據(jù)的處理包含兩個部分,語音識別和文本自然語言處理。語音識別主要有兩個挑戰(zhàn),一個是當前電信記錄系統(tǒng)很多是8音道數(shù)據(jù),數(shù)據(jù)質量較差;另一個挑戰(zhàn)是語音中含有很多方言和電信業(yè)務相關專用詞匯,需要特殊的算法提升識別精度。語音識別為文本后,需要自然語言處理算法準確地提取關注主題、客戶情緒和服務質量等信息。當前深度學習技術已經在百度和谷歌等公司的語音識別和自然語言處理方面顯示出強大的能力。如圖9所示,如何針對電信語音數(shù)據(jù)設計合適的深度學習算法是多媒體數(shù)據(jù)挖掘的技術挑戰(zhàn)。
圖9 深度學習技術應用于多媒體數(shù)據(jù)挖掘
3.8、圖數(shù)據(jù)挖掘與社交分析
電信數(shù)據(jù)包含3種基本的用戶社交網絡:電話網絡、短信網絡和用戶接觸網絡。圖挖掘技術已經在很多數(shù)據(jù)挖掘場景(如推薦系統(tǒng))中取得了很好的效果。電信圖數(shù)據(jù)的主要特點是每個圖不僅包含社交信息,還包含社交發(fā)生的時間和地點信息。含有時間和地點的圖的分析算法需要新的設計[4]。如何在時間和地點都有約束的網絡中構建有效的并行分析算法,并將算法結果轉化為模型分析的重要特征是一個技術挑戰(zhàn)。如圖10所示。
圖10 電信圖數(shù)據(jù)挖掘與社交分析
3.9、隱私保護
電信數(shù)據(jù)含有用戶的通信行為、消費行為、互聯(lián)網行為、社交行為和時空行為等高隱私信息。隱私保護是需要考慮的一個核心技術。當前隱私保護最有效的方法是差分隱私保護[5]。差分隱私將數(shù)據(jù)分析人員和分析數(shù)據(jù)隔離,保證攻擊者在有任何背景知識的情況下,都只能以極小的概率區(qū)分某個特定用戶是否在數(shù)據(jù)集中。如何將差分隱私保護緊密地結合在電信挖掘的算法中是一個值得研究的課題。從當前實際系統(tǒng)需求分析,另外一個更加重要的隱私問題是防止數(shù)據(jù)濫用技術的研發(fā)。當前數(shù)據(jù)挖掘都是經過用戶授權使用數(shù)據(jù),但是電信運營商為了保障數(shù)據(jù)隱私安全,要求分析人員只能在嚴格控制的內網分析匿名數(shù)據(jù),從而隔絕分析人員和分析數(shù)據(jù)。而推薦系統(tǒng)等應用需要不斷迭代的特征工程以保證最優(yōu)的挖掘效果,在這種場景下的分析技術尚不成熟,例如無法不斷迭代特征工程來保證推薦系統(tǒng)等應用的最優(yōu)挖掘效果。實際商業(yè)中最緊迫的場景是和第三方合作,即授權第三方使用數(shù)據(jù)完成某項數(shù)據(jù)挖掘任務(用戶授權情況下)時,如何限制分享的數(shù)據(jù)只能被用在這個特定的數(shù)據(jù)挖掘任務而不被使用在任何其他場景,即閱后即焚的功能。
4、結束語
電信大數(shù)據(jù)沉淀于通信管道內,覆蓋12億中國用戶,需要運營商、設備商和大數(shù)據(jù)產業(yè)鏈共同努力以發(fā)揮其巨大的商業(yè)價值。本文提出的9個技術挑戰(zhàn)中,一部分已經有相對完善的解決方案,但大部分還需要研發(fā)人員和市場人員的努力,在數(shù)據(jù)挖掘和商業(yè)模式方面做進一步突破。2014年是中國電信大數(shù)據(jù)元年,到2015年,電信大數(shù)據(jù)已經在用戶洞察、網絡洞察和數(shù)據(jù)開放3個業(yè)務方向上積累了不少成功的經驗。隨著技術進步,電信大數(shù)據(jù)將逐漸釋放巨大的商業(yè)價值,提升用戶體驗,降低運營成本,催熟整個大數(shù)據(jù)產業(yè)鏈。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:電信大數(shù)據(jù)關鍵技術挑戰(zhàn)
本文網址:http://www.guhuozai8.cn/html/solutions/14019319779.html