二十年前,關心所謂的“大數據”的人只是一些科學團體的成員—只有他們有大量的數據集和有動機試圖處理這些數據,計算機械協會(ACM)在知識發現和數據挖掘方面的特殊利益集團執行主席和雅虎前任的首席數據官Usama Fayyad說。即使在那時,數據挖掘的結果也是引人注目的。“我們能夠解決重大科學問題,立于這個領域30多年,”Fayyad說。
然而,互聯網的爆炸性增長改變了一切。不管喜歡與否,企業發現他們自己在線運營并且積累了大量有關顧客和他們的行為的數據。Fayyad說,數據挖掘的力量變得清晰,投資在這個領域的經濟動機也同樣變得清晰。
例如,Netflix,對可能挖掘出有關它的用戶信息的任何團隊提供了一筆100萬美元的獎金,并建立了一個比它已有的一個建議系統更為精確的系統。像這樣備受矚目的例子只觸及了數據挖掘應用系統的表面。
“企業和產業越來越有興趣利用他們通過業務流程獲得的數據,”IBM的分析研究主任和大會主席Chid Apte說。他特別指出了醫療保健、社交媒體和任何發生在網站上的事情。
目前,互聯網巨頭從他們收集的用戶信息和他們通過對其挖掘獲得的洞察力上賺錢。零售商可以訪問復雜的購物者行為模式來幫助他們更有利地對商店進貨。產業研究人員能基于交流擁堵、天氣、一年之間的時間段來預測汽車的交通模式,并提供優質的路線。
然而,當今的數據,不需以常見的數據庫的形式而存在。“信息不是以一種清晰的表格形式出現在你面前,”Apte說。“它以一種網絡的形式出現在你面前。”他解釋道,數據經常以一種圖形形式出現,就像在社交媒體上使用的信息。這些圖形常常記錄的不僅是節點之間復雜的連接關系,還有其他類型的多元化格式的信息,例如視頻、圖片和人們貼在社交網絡上的評論。
Apte說,社交媒體可能已開始趨于對這樣圖形的分析,但是網絡數據也可以來自其他數據源—例如,來自諸如電網、配水系統、交通管理系統這樣一些復雜的工程系統。這些系統中的分布式傳感器網絡產生的數據集,在其中位置之間的連接與社交網絡中人與人之間的友好關系一樣的重要。理解這些連接是優化系統和使他們得以持續的關鍵,Apte說。
人們和圖形數據打交道已有數百年,但目前來自于社交網絡或傳感器網絡規模的圖形規模空前,Apte說。“這些是龐大的圖形,”他說。“你正在談論數以萬計的節點和數以千萬計的鏈接。”
要處理這種規模和范圍的圖形,并且對它們運用現代分析工具,就要求更好的算法與其他創新。Apte說,大會的目標之一就是為有意向的企業帶來學術界和產業界研究實驗室的頂尖技術,這樣他們可以更快地應用它們。同時,會議的組織者們希望,學者們將感知到大多數極其需要被考慮到的業務挑戰。
Fayyad說數據中的強大商業利益已經改變了數據挖掘的領域。他說,科學家主要處理整齊的,結構形式存儲的數據。但大多數企業產生的數據是一種混亂的非結構化的形式。
“當科學家們正很好地避免了那些混亂無結構的數據時,企業卻被迫與它們正面交鋒,”Fayyad說。“這驅使企業開始開發沒有人嘗試過的技術。”
當然,挑戰依然存在,但是Fayyad說:“人們可以想出更多的預測模型,而且更重要的是評價他們以確定他們工作的如何……它將分析帶入到一種真正超越人類大腦理解能力的水平上。”
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:新的大數據的知識發現和數據挖掘