你在數字方面很拿手?數據令你感到著迷?那么你聽到的聲音是機會正在敲門。因為“大數據時代”已經降臨,在這一領域擁有專長的人士正面臨著許多新的機會。李浩,作為一名剛剛從清華大學畢業的MBA,在今年年初被EMC搶聘,加入了該公司迅速增長中的數據顧問團隊。EMC數據顧問的職責是幫助企業弄明白數據爆炸背后的意義——網絡流量和社交網絡評論,以及監控出貨量、供應商和客戶的軟件和傳感器等——用來指導決策、削減成本和提高銷售額。
為了開發大數據,類似EMC這樣的企業將需要許多象李浩一樣的人。值得關注的是,這些IT新貴們——最初是在谷歌、IBM,現在是在Facebook、EMC——都精通于駕馭網絡數據(網絡搜索、帖子和信息等)與互聯網廣告之間的關系。這意味著,這些IT、互聯網企業也面臨著一些新的商業機會——大數據改變了數據行業的生態系統。
所謂大數據的生態系統,就是數據的生存周期。數據從產生,到處理,再到價值提取,最后被消費掉,這整個過程就構成了大數據的生態系統。在這個生態系統中,無論是數據的存儲、數據的處理、數據的分享、數據的檢索、數據的分析,還是數據的可視化,都存在著不同的商業需求。需求的出現必然會導致創新的產生。所以,在每個步驟都有不少初創公司在深耕自己所在的領域,試圖通過新技術和新方法來實現新的商業模式。
百度:大數據時代的自主路線
數據充斥所帶來的影響遠遠超出了預想。
“生命中的一天”(Day in the Life)系列攝影作品的創作人里克·斯莫蘭(Rick Smolan)正計劃在今年晚些時候推出一個新項目,這個名為“大數據的人類臉孔”(The Human Face of Big Data)的項目將記錄數據的采集和使用。斯莫蘭是一名狂熱分子,他認為“大數據”有成為“人性儀表盤”的潛力,也就是一種能幫助人類與貧窮、犯罪和污染等現象展開斗爭的智能工具。
事實上,數據不僅僅正在變得更加可用,同時也正在變得更加容易被計算機所理解。“大數據”發展趨勢中所增加的大部分數據都是在自然環境下產生的,比如說網絡言論、圖片和視頻等不受控制的東西,以及來自于傳感器的數據等。這些是所謂的“非結構化數據”,通常不能為傳統的數據庫所用。但是,旨在從互聯網時代非結構化數據的龐大“寶藏”中獲得知識和洞察力的計算機工具正在迅速發展中。在這種工具發展的最前沿是迅速取得進步的人工智能(AI)技術,比如說自然語言處理、模式識別和機器學習等。
這些人工智能技術能應用于許多領域。舉例來說,國內的搜索巨頭百度,其搜索和廣告業務及都利用了很多的人工智能技術。百度的這兩項業務都讓“大數據”時代的挑戰變得真實起來,它們對數量龐大的數據進行分析,并作出瞬時的決策。
數據洪流
作為互聯網公司,百度每天都要面對海量數據。其每天收集幾千億網頁,系統每天都產生海量日志,其容量達到百PB級,需要數萬臺服務器存儲,這還不算用戶在使用百度產品中自己生成的內容(UGC)和百度客戶的數據,這部分數據加起來就有幾個PB,僅這些數據就比傳統企業的大上成千上萬倍。并且隨著網頁資源增加和搜索質量提升,網頁和超鏈數據將隨之急劇增加。
對此,百度技術總監陳尚義表示,百度數據呈現海量、高增長,結構化和非結構化大量并存,記錄大小差距巨大,數據一致性強弱不一,數據冷熱不均,突發事件常導致數據訪問波峰等特點。與此同時,百度業務對數據存儲和處理提出極高要求。要求數據高可用、高可靠、高通量、高時效、高并發、高可擴展(簡稱“六高”),要求百度的數據存儲能力和處理能力必須以非常簡單的方式獲得擴容,以降低維護升級的代價。
按照陳尚義的說法,面對這些特點和要求,百度必須開發自己的大數據存儲系統。不過,在百度最早上線數據存儲系統時,類似Hadoop和HDFS等開源系統還沒有發布,而且還由于開源系統的性能受限、無法充分利用機器的各種資源尤其是新硬件(flash/SSD)資源為特定的訪問模式做優化、缺乏滿足工業界的穩定性等諸多原因,百度不能使用開源系統。不僅開源系統的用不上,而且市場上也無現成商業化產品可供百度使用,因為任何一個廠商都沒有如此海量、如此復雜的數據。
自主開發
百度一開始就自主開發了大數據存儲系統,用于存儲網頁和超鏈、客戶信息和用戶產品、系統日志等海量數據,支持Table、Pipe、File和KV等數據類型,滿足百度業務的流式和觸發式計算、文件存儲和訪問、低延遲、高并發的需求。在此基礎之上,百度還面向廣大網民推出云存儲系統,在前不久發布的百度易手機上,每個用戶可擁有100G的免費存儲空間。
陳尚義介紹,為了應對上百PB的數據,滿足諸多近乎苛刻的要求,百度作出了巨大努力,“開發了網頁更新模型,將對磁盤的隨機寫轉化為批量的順序寫,大大提高了數據的寫入速度,縮短了網頁數據的更新周期,提高了搜索引擎等產品的時效性;對涉及數據存儲和訪問的各個方面進行了全局優化;定制Flash,使存儲系統直接對Flash的多通道(Multiple Chanel)編程,既提高了并發性,又提高了存儲資源的容量;采取多副本存儲,以提高系統的可靠性和可用性;創造性地開發了自主知識產權的復制協議(Replication Protocol);采取數據分治策略,保證數據存儲的各個部件可以水平擴展,即通過簡單地增加服務器就可以達到擴展的目的;采用拆片存儲技術,避免單機存儲熱點記錄或大記錄所帶來的性能瓶頸;運用局部更新大記錄的策略,對于大記錄分塊存儲,只有修改了的塊才被更新,而不是對整個大文件都重寫;采用三層數據存儲模型,將熱點數據存放于內存,較熱的數據存放于flash, “冷”數據存放于磁盤,針對數據訪問的特性充分利用各種資源的優勢。
陳尚義透露,未來,百度還將開發跨數據中心的存儲系統,面臨帶寬、通信穩定性所帶來的壓力;在數據量、吞吐量急劇增大的背景下,不斷提高時效性、一致性、減低延遲、提高并發;在新的Flash/SSD硬件和萬M網絡的引入、數據存儲和處理瓶頸發生轉移的情況下,百度原來積累的存儲體系將面臨變革。
亞馬遜:創新者的機會
面對“大數據”的洪流, 亞馬遜的成功不僅僅在于它的敏銳,更在于能夠把商業機會變成商業現實。規模擴張之后,亞馬遜還一次次在模式上“無中生有”,培育出新增長點;這家公司何以能有效創新?不斷蛻變的幕后邏輯到底是什么?
數據改變了什么
一方面是,亞馬遜是大數據技術的受益者,另一方面亞馬遜把這種技術迅速產品化,并延伸成為了一系列服務的支撐力。
數據化運營是亞馬遜成功的秘訣之一,已經得到了廣泛的認同。事實證明,亞馬遜會用數據來為平臺上的商家提供服務,比如在某天某個時間段,監測到網球拍賣得不錯,亞馬遜會去搜索看哪些商家在賣網球拍,如果該商家還只是在線下,他們會主動去問,你需不需要把業務搬到亞馬遜平臺上去?亞馬遜全球商戶服務高級副總裁Sebastian說,亞馬遜還會根據實時的銷售數據,幫助商家制訂未來銷售計劃。
當然,基于自身的特點創新,亞馬遜還是大數據和云計算的先行者,它推出的S3云服務也早已成為云端存儲的業界標準。通過易于使用的API,用戶可以很方便地將各種數據對象放在云端,然后再像使用水電一般按用量收費。S3根據用戶所占用的存儲空間、請求數和數據流量進行階梯定價收費。同時,S3還為對數據可靠性的要求并不高的用戶提供了更為便宜的去冗余存儲模式。S3服務是典型的付費服務商業模式,增長十分迅速。2010年四季度共有2620億個對象儲存在S3上,而2011年四季度這個數字已經翻了一倍,達到5660億。更難得的是,Amazon S3的云服務真正讓許多創業公司享受到了云計算帶來的便捷。使用S3作為存儲支持的文件分享服務Dropbox進行的最近一輪融資,估值高達80億美元,每天上傳的文件多達2億個。
數據至上
有很多的軼事證據表明,數據至上的思考方式將帶來很高的回報。沃爾瑪(WMT)和Kohl’s等零售商也已經開始對銷售額、定價以及經濟學、人口統計學和天氣數據進行分析,藉此在特定的連鎖店中選擇合適的上架產品,并基于這些分析來判定商品減價的時機。UPS等貨運公司也正在對卡車交貨時間和交通模式等相關數據進行分析,以此對其運輸路線進行微調。
從另一個角度來看,大數據為云計算大規模與分布式的計算能力提供了應用的空間,解決了傳統計算機無法解決的問題。同時這個領域的計算標準與軟件均剛剛起步,為全世界新型軟、硬件及應用創新提供了前所未有的機會。這一點,在寬帶資本CEO田溯寧那里得到了印證,他表示,“數據中心正在成為新時代的‘信息電廠’,成為知識經濟的基礎設施。從海量數據中提取有價值的信息,數據分析使數據變得更有意義,并將影響政府、金融、零售、娛樂、媒體等各個領域,帶來革命性的變化”。
亞馬遜正在成為各種“信息電廠”鏈條上最重要的合作伙伴。最近,美國最大的共同基金公司Fidelity表示,他們將攜手亞馬遜在其網站上推出一個新的金融服務欄目,Fidelity將成為“主要”的內容贊助商。
亞馬遜公司發言人Craig Berman表示,這項合作是亞馬遜繼續擴張其業務范圍的一個舉措。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:大數據下的生態系統
本文網址:http://www.guhuozai8.cn/html/consultation/1083936580.html