大數據已被提升到國家戰略高度。美國啟動了“大數據研究和發展計劃”,動用美國國家科學基金、國家衛生研究院、能源部、國防部、國防部高級研究計劃局和美國地質勘探局等6個聯邦政府部門的資源,大力推動大數據相關收集、組織和分析工具及技術的研發,致力于開放型、共享型政府建設。
大數據已被定義為科學探索的第四范式。繼幾千年前的實驗科學、數百年前的理論科學和數十年前的計算科學之后,當今的數據爆炸孕育了數據密集型科學,將理論、實驗和計算仿真等范式統一起來。大數據已被譽為“非競爭性”生產要素。
大數據具有“取之不盡,用之不竭”的特性,在不斷的再利用、重組和擴展中持續釋放其潛在價值,在廣泛的公開、共享中不斷創造著新的財富。
然而,大數據的3V特征也好,4V特征也罷,仍然沒有撇清與海量數據、超大規模數據的關系;為數不多的應用案例,依然難逃傳統數據分析和數據挖掘的嫌疑;大數據的實時分析、產品的關聯度分析,很難抹去精準營銷、精益管理的傳統思維定式。這更像是一種“新瓶裝舊酒”的困局,一種“唐·吉訶德式”的悖論——越是強調大數據的實踐應用,就越扼殺大數據的潛在價值。
為何如此?根源在于,大數據的價值在于預測未知領域、非特定因素的未來趨勢,在于破解長期的、普遍的社會難題。而目前的大數據技術和應用,依然局限于歷史和實時數據的關聯分析,局限于滿足短線的、特定的市場需求。
“解決我,不然我將吞掉你的體系”。正如當年羅素悖論試圖顛覆現代數據基礎——集合論一樣,破解社會難題與茍安于市場需求的悖論正在向大數據宣戰。解決悖論的過程,恰恰是理論和方法應運而生的過程。而人們試圖解決悖論的努力,正好是大數據落地生根的推動力。
方法論缺位
大數據與海量數據、超大規模數據有何不同?如何跨越學術與產業、技術與應用的鴻溝?
自2008年《自然》雜志推出“大數據”專刊以來,大數據概念就從學術大討論,轉向了企業的數字化轉型,進而上升到“開放政府數據”的戰略布局。然而,單純的數量上的規模龐大,并不能輕易地將大數據與以往的“海量數據”、“超大規模數據”等區別開,因為三者均沒有設置數量級等門檻。
概念的模糊,沒有影響到大數據概念的炒作,卻著實影響到了大數據應用的推廣。IBM對全球95個國家和地區、26個行業的144名業務人員或IT專業人士做了調研,該調研發現,大多數企業已經認識到大數據的決策價值和業務優化的潛能,但是他們對布局企業數據戰略卻束手無策,甚至多數企業不確定如何推進大數據應用。這一現象可以歸因于企業管理者對于大規模投資大數據和高級分析工具,特別是對數據科學家等人才的需求,表示懷疑。因為他們還沒有認識到從哪里獲取數據,一些企業還沒有抹去數據倉庫與業務無法融合的陰影。
老生常談的大數據3V或4V特征,更是讓CEO們望而生畏。“大數據是指利用廣泛信息源來推動實時決策的做法。”哈佛商學院客座教授托馬斯·達文波特在接受媒體采訪時的闡述可能曾讓企業家們怦然心動,但他接下來的解釋卻與IT企業的說辭沒太大區別。在達文波特看來,大數據的特征可以用3個'V'來描述:數量(Volume,大量數據)、速度(Velocity,數據變化很快)以及多樣性(Variety,數據源內部的和外部的,系統的和散亂的)。有時還有第4個V:真實性(Veracity,反映數據質量)。加上IDC和Teradata給出的另一個V——價值性(Value,數據的使用價值和潛在價值),這些概念和定義均沒有回答大數據與業務融合的問題。
方法論缺位是最大的障礙。大數據發展的核心動力源于人們測量、記錄和分析世界的渴望,滿足這些渴望需要數據、技術和思維三大要素。在計算技術、通信技術日益成熟的今天,在廉價的、便捷的數字化存儲普及的當下,數據無處不在,技術正以標準化、商品化的方式提供,事實上思維和方法論才是決定大數據成敗的關鍵。但目前來看,跨越學術與產業、技術與應用之間鴻溝的方法論依然不完善,以至于被大數據暢銷書和大數據技術服務公司反復借用的大數據應用案例,均是一些蹩腳的例證。
預測能力待考
憑什么說大數據預測是準確的?有什么依據證明數據推動型戰略有利于提升企業業績?
“運用大數據做決策的那些行業前三名企業,比其競爭對手在產能上高5%,在利潤上高6%。”這是麻省理工學院的數字商業中心最近完成的一個調查的數據。該調研還發現:越是自定義為數據驅動型的公司,越會客觀地衡量公司的財務與運營結果。
的確,被譽為大數據應用楷模的谷歌、亞馬遜等數據型公司在2013年第一季度確實取得了不俗的業績。其中谷歌營業收入增長了31%,亞馬遜增長了22%。但是,一些大數據技術和解決方案服務的公司并沒有取得如此的業績。比如IBM第一季度營業收入下滑5.1%,凈利潤下滑1.1%;微軟第一季度營業收入下滑8%,凈利潤下滑22%;英特爾營業收入下滑2%,利潤下滑25%。
“幾家歡樂幾家愁”的業績表現,與大數據有關還是無關呢?這與大數據預測是否精準的問題同樣難以回答。學術界、企業界都不會質疑大數據的預測功能。《大數據時代》一書的作者維克托·邁爾-舍恩伯格說,大數據的核心就是預測。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機器學習。他認為,大數據大大解放了人們的分析能力。一是可以分析更多的數據,甚至是相關的所有數據,而不再依賴于隨機抽樣;二是研究數據如此之多,以至于我們不再熱衷于追求精確度;三是不必拘泥于對因果關系的探究,而可以在相關關系中發現大數據的潛在價值。因此,當人們可以放棄尋找因果關系的傳統偏好,開始挖掘相關關系的好處時,一個用數據預測的時代才會到來。
遺憾的是,無論是IBM的大數據接受程度調研,還是麻省理工學院的大數據戰略效果評估,都是傳統的隨機抽樣,甚至是結構性訪談,而非大數據的全體數據、模糊數據采集。被廣泛引用的谷歌預測H1N1流感傳播軌跡、沃爾瑪將啤酒和尿布擺放在一起的故事,無非是產品和詞匯的關聯性分析。同樣,《少數派報告》講述的華盛頓特區警局預測犯罪的故事,也不過是電影的情節,而且與“無罪推定”、“犯罪的四個要件(犯罪主體、犯罪的主觀方面、犯罪的客觀方面、犯罪客體)”等常識相悖。
馬克·吐溫說:歷史不會重演,但自有其規律。技術的進步讓人類揭示歷史規律更加便捷和更有可能,大數據技術的進步就是其中之一。因此,與其說大數據的核心價值是對未來的預測,不如說是對過去沉睡的規律的揭示。在“自證預言”等復雜因素的作用下,大數據對社會的一些預測和判斷,很可能到后來只是“事實證明”。
數據并非萬能
怎樣做決策?誰來做決策?這樣的問題只能由企業家回答,大數據充其量是“用數據說話”的旁證。
數據之于信息社會就如燃料之于工業革命,是人們進行創新的力量源泉。沒有大量鮮活的數據和健全的服務市場,這些創新就實現不了。這是維克托·邁爾-舍恩伯格的觀點。一些學者更進一步,將大數據視作第三次工業革命的戰略資源。
不可否認,大數據標志著人類在尋求量化和認識世界的道路上前進了一步。這是計算技術的進步,是人類決策工具的進步。但正如《哈佛商業評論》所批評的:“高管們明明還是按照傳統的方式做決定,以那些高薪人士的意見為主,卻拿出一份香艷的數據報告證明自己的決定是多么英明。其實那不過是吩咐下屬四處尋找的專為這個決定做辯護的一堆數字。”這些所謂的“偽大數據決策”也許是一種常態,“高價智囊請閉嘴”、“讓數據做主”很可能只是大數據倡導者的理想。
《點球成金》的故事經常被大數據概念的倡導者拿來佐證“專家的消亡和數據科學家的崛起”。改編自邁克爾·劉易斯的《魔球:逆境中制勝的智慧》的影片《點球成金》,講述了一個真實的故事,介紹了奧克蘭運動家棒球隊總經理比利·比恩的經營哲學,描述了他拋棄幾百年延續的選擇球員的慣常做法,采用了一種依靠電腦程序和數學模型分析比賽數據來選擇球員的方法。比利·比恩的成功稱得上是對球探們經驗決策的顛覆,是讓數據說話的成功范例。但是,其所分析的數據根本稱不上大數據,甚至連海量數據也夠不上。比利·比恩成功的關鍵不在于“讓數據說話”,而是為“球隊為贏球而建,不是為球星而建”的經營常識找到了數據注腳。
正如維克托·邁爾-舍恩伯格將大數據視為人工智能的一部分,視為機器學習的一種應用一樣,數據決策和數據旁證的博弈其實是人和機器的博弈。熟稔經營之道的企業家們并不情愿輕易將決策權交給大數據、放任服務器。而且,數據有時候也可能是企業管理的“絆腳石”。
直覺主義讓位于數據分析,專家決策讓位于群眾智慧,只能是大數據倡導者的一廂情愿。一個折中的辦法是,數據做分析,專家做判斷,數據給答案,專家做選擇。但對企業家而言,專家可以找,思想家必須自己做。從數據戰略的構建,到群體智慧的萃取;從社會關系網絡的解析,到復雜的自組織系統的發現,均依賴于企業家的智慧,而不能完全依賴于機器。即便是有一將難求的數據科學家的協助,大數據決策依然是輔助系統。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:中國計算機報觀察:大數據五大悖論