當今社會已經進入了信息時代,其主要表現形式為互聯網帶來的信息爆炸:互聯網作為第四大媒體不僅打破了廣播、電視、報紙的壟斷,而且還融合了廣播、電視、報紙的功能,甚至有取代的趨勢:隨著移動智能終端和3G業務的快速普及,移動互聯網悄然而至,帶給人們更加便捷的視頻、游戲、定位等體驗。
目前,移動互聯網在全球已經成為最具潛力的市場之一,隨之而來的移動互聯網領域的信息挖掘也顯得日益重要。電信運營商通過對移動互聯網中各項數據進行挖掘和分析,能夠對用戶的使用行為、興趣愛好、發展趨勢等進行全面了解,從而指導運營商進行有效的價值拓展。
1.需求分析
3G網絡的不斷優化,讓用戶可以隨時、隨地高速訪問無線數據業務:電信運背商抓住了這個契機,為3G用戶提供豐富多彩的移動互聯網數據業務,如手機音樂、手機電視、手機閱讀、手機郵箱等,數據流量也隨之與日俱增,這是增值業務收入提高的重要來源。面對如此眾多的增值業務,如何讓用戶快速找到自己感興趣的業務,運營商又如何去對用戶進行分類,根據用戶的興趣愛好有效地推薦業務,這將是各大運營商面臨的一個重大問題。因此,只有知道用戶在什么地方,什么時間,訪問了什么內容,才能及時準確地把握用戶需求。要做到這一點,就需要對移動互聯網信息進行深度挖掘和分析,了解用戶興趣點和訪問習慣等,再通過有針對性的營銷手段,通過合適的渠道,快速將業務信息有效地推廣到用戶終端,促使用戶訪問所感興趣的內容,同時避免對用戶的重復打擾,這樣才能真正實現移動互聯網時代精細化運營的目標。
2.移動互聯網信息挖掘方式
信息挖掘是通過分析用戶數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示等步驟。移動互聯網數據具有數據量大、數據結構復雜、數據內容分散等特點,呈現出爆炸性增長的趨勢。因此,為了從浩如煙海的數據中提取出有效信息,必須選擇合適的數據挖掘策略。
2.1 信息挖掘流程
信息挖掘是一個復雜的過程,需要進行大量的數據采集和運算等。按照基本功能,可以將整個信息挖掘流程劃分成內容采集、內容挖掘和行為分析3個環節(見如圖1)。
圖1 信息挖掘流程
2.1.1 內容采集
不論是在政府、商業領域,還是在個人領域,進行數據分析和數據挖掘的基礎都要基于信息的真實性和有效性。運營商可以將網絡流量與用戶的真實身份進行對應。從而進行有效的數據挖掘和分析,有利于后續運營活動、網絡優化的開展。內容采集主要包括以下3個方面。
a)垃圾頁面過濾。系統每天從分組域網絡中獲取了TopN的數據,而真正有效的內容只有一部分,需要在前端排除過濾掉那些不關心的干擾信息、產品的垃圾頁面等。
b)頁面內容爬取。這是將網頁的內容通過爬詞引擎獲取的部分,分析頁面代碼格式,清除標簽,盡可能獲取內容的標題、正文、段落、字體、顏色等信息。
c)頁面垃圾過濾。頁面中不可避免地會存在大量的垃圾信息,這些信息嚴重干擾到聚類的準確度,頁面垃圾過濾機制會找出包括廣告在內的段落,并將其清除,不進入內容挖掘部分。
2.1.2 內容挖掘
內容挖掘包括以下3個方面。
a)頁面內容分析。把前置工作過濾完成的真實頁面內容,交給內容分析引擎,該引擎分析出信息的標題和正文,并將它們進行分詞處理,獲取整篇內容的關鍵詞條,為內容聚類提供基礎數據。
b)頁面內容聚類。這是互聯網信息挖掘引擎的核心部分,把所有經過內容分析的頁面進行聚類分析,把若干相似度高的內容聚類成一組,然后交給信息處理引擎分析各組內容的相同與不同信息。
c)頁面信息處理。對聚成相同類別的各個頁面的信息,進行比對和統計,統計出這些相同或相似頁面之間的共性與異性,再結合頁面訪問信息、客戶信息等計算出相應的報表用于展示。
2.1.3 行為分析
客戶行為分析為內容挖掘與客戶關聯部分提供數據支持,其包括以下2個部分。
a)客戶畫像。客戶畫像是對客戶的多維度描述,是一個客戶的信息與標簽,為相關數據分析提供依據,同時也是一個個客戶群建立的基礎。客戶畫像的維度越多、越精準.就越能夠反映出用戶的興趣、習慣等。客戶畫像的維度可以包括基本信息維度、終端維度、流量維度、訪問維度、搜索維度、專題維度、應用維度、產品維度、消費維度等。
b)客戶洞察。客戶洞察是對單一客戶或客戶群的深度描述。洞察訪問是在個體的客戶畫像的基礎上,洞察客戶訪問“熱點內容”或“熱點標題”的客戶特征。客戶洞察要求從不同的角度進行,包括基本屬性、社會屬性、業務屬性、電信屬性、消費能力等方面。根據洞察條件,對客戶進行深度挖掘,挖掘出“熱點內容”或“熱點標題”的客戶特征,即要洞察出客戶的基本流量、趨勢、習慣、終端、訪問、搜索、音樂、視頻、圖片、下載、游戲、閱讀、房產、汽車等特征。
2.2信息挖掘熱點技術
2.2.1頁面過濾
在一個網站中,存在很多如廣告、導航頁面、功能頁面、提示頁面等沒有實際主題的頁面,這些頁面不應該參與到內容(熱點內容)挖掘中來,否則將會給分析帶來巨大的誤差。因此,必須預先對這些頁面進行過濾:實際上,過濾過程是一個知識積累的過程。因此,需要建立內容過濾的知識庫,在知識庫中保存了需要過濾內容的規則。如:廣告頁面直接過濾掉即可,而導航頁面則不進行內容的文本切詞等后續挖掘,但需要提取頁面上的所有鏈接以獲取下一級頁面等。對于一個有效頁面,依然需要對其進行內容清洗,去掉頁面中的廣告、格式等無效數據,僅保留主題內容。
2.2.2 文本切詞
文本切詞,就是對過濾和清洗后的主題內容迸行詞組劃分,獲取i亥主題的所有關鍵詞,即將一個文章的主題內容漢字序列切分成一個個單獨的詞。目前的分側箅法可以分為三大類,分別是基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。目前并不能斷言哪種方法的準確率更高,因此對于任何一個成熟的分詞系統來說,不可能單獨依靠某一種算法來實現,都需要綜合不同的算法。
a)字符串匹配分詞:又被稱為機械分詞方法,是按照一定的策略將待分析的漢字串與一個充分大的機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。目前,該種方法已經存在多種較為成熟的算法和模型。應用較為廣泛。
b)基于理解的分詞:通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。由于漢語語言的復雜性,目前基于理解的分詞系統還處住研究階段。
c)基于統計的分詞:這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,但這種方法也有一定的局限性,會經常抽出一些出現頻度高,但并不是詞的常用字組等。
2.2.3 內容聚類
聚類分析是人們認識和探索事物內在聯系的一種手段,其目的就是將一個數據集劃分為若干聚類并使得同一個聚類內的數據對象具有較高的相似度。而不同聚類中的數據對象則是不相似的。
不同于內容(頁面)分類的把各個貝面分成各個類別。內容聚類是將相同類別,相同內容或相似內容的頁面聚合在一起。把其作為比較的對象,提供最終的內容展示基礎。聚類分析是面向實際應用的技術,因此聚類的定義與待處理的數據類型有關。基于不同的模型構造思想,目前學術界提出了一系列很具體化的定義,如距離模型、質心模型、連接模型、密度模型、相似性模型等。以相似性模型為例。相同類別的頁面,通過對內容標題或正文的分詞,比較不同文章分詞的相似度,通過聚類算法,滿足條件的文章,被認為是聚合的。這里,數據(內容)對象之間的相似度由相似系數確定,而對象之間是否相似則必須通過預設的閾值來加以規定,相似系數大于閾值的對象之間是相似的,否則就是不相似的。
2.2.4 熱點挖掘
熱點挖掘除了對熱點網站、熱點內容、熱點標題等通過聚類分析等進行挖掘,還需要對一些未知的熱點信息和熱點關聯信息進行分析。
a)不確定網絡熱點主題發現。數據挖掘的魅力在于“發現”,“發現”即為事先不可預知的事物。在網絡上,發現新的熱點主題是系統實現的一項重要技術特征。“不確定網絡熱點主題發現”不事先定義主題,也不事先定義任何關鍵字,是一種無監督、無指導的自然聚類過程。通過無指導的自然聚類,得到一系列網絡主題,然后提取代表詞,呈現給用戶,用戶通過觀察再賦予主題名。
b)熱點關聯分析。關聯規則挖掘是數據挖掘中最活躍的研究方向之一,它反映了大量數據中項目之間有趣的關聯或相關關系。通過應用數據挖掘技術中的關聯分析技術,給出關鍵詞之間的關聯關系。計算任兩個關鍵詞存在關聯的支持度和置信度,從而當某一關鍵詞出現時可以預測到與其存在關聯關系的其他關鍵詞出現的概率。這點在敏感信息監控方面尤其重要,可以提前預判到敏感信息的出現,從而提前做出相應的處理措施。
3.業務應用
目前,基于移動互聯網的信息挖掘,結合運營商的業務發展情況,可以開展針對性業務推薦和定向廣告的應用探索。其巾,針對性業務推薦是根據用戶特征推薦可能感興趣的業務。可以涵蓋運營商的自有業務、合作業務以及第三方業務等;定向廣告是基于用戶信息的挖掘分析進行精確投放,既節約,資源,又可以達到良好的投放效果。
3.1 針對性業務推薦
移動互聯網時代。用戶對信息的獲取需求更為迫切,為用戶推薦合適的內容,有利于增加用戶黏性,降低流失率。如用戶訪問門戶網站時,為其推薦適合的書籍、游戲、視頻等。國外運營商很早就重視將用戶行為分析技術應用于針對性營銷,并開展了多種嘗試。例如,Vodafone通過用戶信息挖掘進行精確營銷,對產品銷售提升最高可達400%?
國內運營商也建設了相關平臺,通過信息挖掘,對用戶進行細分,營銷人員根據營銷目標,結合產品匹配模型,實現針對性業務推薦和精確營銷的目的,此外,存新產品開發過程中,也逐漸重視用戶分析的應用和實踐,針對不同的用戶群體,開發不同的產品,制定不同的套餐標準等,并及時發現現有產品或業務流程的小合理之處。進行優化和改進,提高客戶體驗。
針對性業務推薦可以基于多種方式。如營業廳實體渠道、門戶個性化展現、電話營銷、以及傳統的短信、彩信和WAP PUSH推廣等。以下是某省通過WAP PUSH推送炫鈴“音樂盒”的營銷案例,采用相同的推廣內容和渠道。但隨著目標用戶群提取方式的不同,營銷效果和營銷成本都有巨大差異。
方式一:隨機選取10000個3G手機上網的出賬用戶,推送“音樂盒”業務,用戶訂購率為0.8%。
方式二:根據訪問和搜索“興趣點”,選取標有“音樂類”特征的3 000個3G用戶進行推送,用戶訂購率為7.6%。
對比以上2種方式發現.經過用戶信息挖掘后的針對性營銷,可以大幅提升成功率,節約營銷資源。
3.2 定向廣告
通過對用戶瀏覽、搜索內容的分析,有針對性地投放廣告。以達到最好的廣告效果。目前這種定向廣告在互聯網領域應用非常廣泛,例如Google的Adwords,根據用戶當前閱讀的內容投放精確廣告;騰訊利用其QQ用戶的行為和偏好信息開展游戲等相關業務的精準營銷。
以手機終端或業務為載體的移動廣告形式多種多樣,如短信廣告、彩信廣告、WAP廣告、程序嵌入式廣告、位置廣告、手機視頻廣告、搜索廣告等。因此,利用手機用戶的信息挖掘和行為分析,基于移動廣告的多種形式,結合相應的推薦模型。可以通過精準友好的方式及時推送有效的手機廣告。
在移動通信領域,很多國外運營商都開展了定向廣告服務,如美國spint通過對用戶位置信息分布的分析,為廣告商,商場提供最佳廣告/開店位置服務;新加坡電信業也通過用戶信息和位置信息提供廣告服務;英國新興運營商Blyk通過精準營銷廣告運作,使最高用戶響應率達51%(普通方式投放的響應率不足1%)。
4.結束語
移動互聯網是目前移動通信發展的趨勢。是運營商需要重點關注的領域。借助有效的信息挖掘技術。提取用戶信息,分析用戶的特征,從而有針對性地開展運營和服務,并根據營銷結果進行進一步的信息挖掘和分析,從而形成良性的閉環營銷體系。如何開展好高效的信息挖掘工作,充分發揮運營商的智能管道優勢,持續做好流量和業務運營將是運營商探索的一個方向。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:移動互聯網信息挖掘的實現及應用淺析
本文網址:http://www.guhuozai8.cn/html/consultation/10839511094.html