目前人人都在談大數據,談DT時代,但是,大數據是什么,每個人都有自己的一個看法,好比盲人摸象,每個都認為自己摸到是真正的大象。我也擔心我所看到的,只是大數據的冰山一角,畢竟,將引領整個人類下一次變革的大數據,不是幾篇文章就能說清楚的。
一,DT時代
大數據這個概念,其實在上世紀九十年代就有人提出來了,當時希望通過將所有零散的數據歸并起來,然后進行數據挖掘,以看到以前存在的問題,去預測未來幾年的趨勢,來指導商業決策。比如保險行業,人壽保險會通過大數據的統計計算,根據人均壽命來計算保費與回報率。 這是在特定的環境,特定的時間下,對數據做一些商業化的嘗試,還算不上真正的大數據。
我們再看國內大數據的領導者——阿里巴巴,早在2010年就在開始談大數據戰略,同年,Maxcompute(原ODPS)開始布局,螞蟻小貸開始創業 。
2012年,阿里設立了CDO這個崗位以及成立CDO事業部,全面負責阿里集團的“數據分享平臺”的大數據戰略。同年,一本《大數據時代》也開始在國內外暢銷,國內大數據時代拉開序幕。
2014年,馬云再次提出,“人類正從IT時代走向DT時代”,人類已經從IT時代走向DT時代,IT時代是以自我控制、自我管理為主,而DT(Datatechnology)時代,它是以服務大眾、激發生產力為主的技術。這兩者之間看起來似乎是一種技術的差異,但實際上是思想觀念層面的差異。
講了這么多,那大數據是什么呢?我們先看看大數據不是什么。
大數據不是什么?
1,大數據≠擁有數據
很多人覺得擁有數據,特別是擁有大量的數據,這就是大數據了,這個是肯定不對的,數據量大不是大數據,比如氣象數據很大,如果僅僅用于氣象預測,只要計算能力跟上就行,還遠遠沒有發揮它的價值。但是保險公司根據氣象大數據,來預測自然災害以及調整與自然災害相關的保險費率,它就演化出其它的商業價值,形成了大數據的商業環境。所以,大數據要使用,甚至關聯,交換才能產生真正價值,形成DT時代特有的大數據商業。
2,大數據≠報表平臺,
有很多企業,建立了自己業務的報表中心,或者是大屏展示中心,就馬上宣布他們已經實現了大數據,這是遠遠不夠的。報表雖然也是大數據的一種體現,但是真正的大數據業務,不是生成報表靠人來指揮,那是披著大數據外表的報表系統而已。在大數據閉環系統中,萬物都是數據產生者,也是數據使用者,他們通過自動化,智能化的閉環系統,自動學習,智能調整,從而提升整體的生產效率。
3,大數據≠計算平臺
之前看過一個報道,說某某金融機構建立了自己的大數據系統,后來仔細一看,就是搭建了一個幾百臺機器的Hadoop集群而已。大數據計算平臺,是大數據應用的技術基礎,是大數據閉環中非常重要的一環,也是不可缺少的一環,但是,不能說有了計算平臺就有了大數據。比如我買了鍋,不能說我已經有了菜,從鍋到菜還缺原料(數據),刀具(加工工具),廚師(數據加工)才能最終做出菜來。
4,大數據≠精準營銷
見過很多創業公司在做大數據創業,仔細一看,人家做的是基于大數據的推薦引擎、廣告定投等等。這是大數據嗎?他們做的是大數據的一種應用,可以說已經是大數據的一種了。只是大數據整個生態,不能通過這一種就來表達而已。正如大象的耳朵是大象的一部分,但是,它不能代表大象。
那大數據到底是什么?
簡單講,大數據需要有大量能互相連接的的數據(不管是自己的,還是購買,交換別人的),他們在一個大數據計算平臺(或者是能互通的各個數據節點上),有相同的數據標準能正確的關聯(如ETL,數據標準),通過大數據相關處理技術(如算法,引擎,機器學習),形成自動化、智能化的大數據產品或者業務,進而形成大數據采集,反饋的閉環,自動智能的指導人類的活動,工業制造,社會發展等。
數據正在金融,廣告,零售,物流,影視等行業,悄悄地改變我們的生活。隨著手機的更大規模的普及,還是日新月異的可穿戴設備、智能家居、甚至無人駕駛汽車,都在提醒我們,以互聯網(或者
物聯網)、
云計算、大數據為代表的這場技術革命正引領人類社會加速進入農業時代、工業時代之后的一個新的發展階段 -- 數據時代(DT時代)。
前兩個時代分別以土地、資本為生產要素,而正在我們面前開啟的數據時代,正如其名,數據將成為最核心的生產要素。
在未來,數據將成為商業競爭最重要的資源,誰能更好的使用了大數據,誰將領導下一代商業潮流。所謂無數據,不智能;無智能,不商業。下一代的商業模式就是基于數據智能的全新模式,雖然才開始萌芽,雖然才幾個有限的案例,但是,其巨大的潛力與力量,已經被人們認識到。
在下一代的革命中,不管是工業4.0(中國叫中國制造2025),還是
物聯網(甚至是一個全新的協議與標準),隨著數據科學與云計算能力(甚至是基于區塊鏈的分布式計算技術),唯獨數據是所有系統的核心。萬物互聯,萬物數據化之后,基于數據的個性化、智能化將是一次全新的革命,將超越100多年前開始的自動化生產線的工業3.0,給人類社會整體的生產力提升帶來一次根本性地突破,實現從0到1的巨大變化。
正是在這個意義上,這是一場商業模式的范式革命。商業的未來、知識的未來、文明的未來,它們本質上就是人的未來。而基于數據智能的智能商業,就是這未來的起點。
二,數據來源
大數據的第一要務就是需要有數據,否則,何來“數據是DT時代的第一生產要素”。
數據來源于哪里,哪里會產生數據?
數據無處不在,人類自從發明文字開始,就開始記錄各種數據,只是保存的介質一般是書本,而且難以分析、加工。隨著計算機與存儲技術的快速發展,以及萬物數字化的過程(音頻數字化,圖形數字化等),出現了數據的爆發,而且數據爆發的趨勢,隨著萬物互聯的
物聯網技術的發展,會越來越迅速。同時,對數據的存儲技術,處理技術的要求也會越來越高。
據IDC出版的數字世界研究報告顯示,2013年人類產生、復制和消費的數據量達到4.4ZB。而到2020年,數據量將增長10倍,達到44ZB。大數據已經成為當下人類最寶貴的財富,怎樣合理有效的運用這些數據,發揮這些數據應有的作用,這是大數據將要做到的。
早期的企業也比較簡單,關系型數據庫中存儲的數據,往往是他們全部的數據來源,這個時候他們對應的大數據技術,也就是傳統的OLAP
數據倉庫解決方案。因為關系型數據庫中基本上是他們的所有數據,往往大數據技術也比較簡單,直接從關系型數據庫中獲得統計數據,或者最多建一個統一的OLAP數據倉庫中心。
通過淘寶的歷史來看,早期的數倉數據基本來源于主業務的OLTP數據庫,數據不外乎用戶信息(通過注冊、認證獲取),商品信息(通過賣家上傳獲得),交易數據(通過買賣行為獲得),收藏數據(通過用戶的收藏行為獲得)。從公司的業務層面來看,關注的也就是這些數據的統計,比如總用戶數,活躍用戶數,交易筆數、金額(可鉆取到類目,省份等),支付寶筆數、金額等等。因為這個時候沒有營銷系統,沒有廣告系統,公司也只關注用戶,商品,交易的相關數據,這些數據的統計加工,就是當時淘寶大數據的全部。
但是,隨著業務的發展,比如個性化推薦,廣告投放系統的出現,會需要更多的數據來做支撐,而數據庫的用戶數據,除了收藏,購物車是用戶行為的體現,但是,用戶的其它行為,如瀏覽數據,搜索行為等,這個時候是完全不知道的。
這里就需要引進另外一個數據來源,日志數據,記錄了用戶的行為數據,可以通過cookie的技術,只要用戶登錄過一次,就能跟真實的用戶取得關聯。比如通過獲取用戶的瀏覽行為,購買行為,進而可以給用戶推薦他可能感興趣的商品,看了又看,買了又買就是基于這些最基礎的用戶行為數據做的推薦算法。這些行為數據還可以用來分析用戶的瀏覽路徑,瀏覽時長,這些數據是用來改進相關淘寶產品的重要依據。
2009年,無線互聯網飛速發展,隨著基于native技術的App大規模的出現,用傳統日志方式獲取無線用戶行為數據已經不再可能,這個時候也涌現了一批新的無線數據采集分析工具,比如友盟,Talkingdata,淘寶內部的無線數讀等等,通過內置的SDK,他們可以統計到native上的用戶行為數據。
數據是統計到了,但是,新的問題也誕生了,比如我在PC上的用戶行為,怎么對應到無線上的用戶行為,這個是脫節的,因為PC是PC上的標準,無線又采用了無線的標準,如果有一個統一的用戶庫,比如不管是登錄名,郵箱,身份證號碼,手機號,imei地址,mac地址等等,來唯一標識一個用戶,不管是哪里產生的數據,只要是第一次關聯上來,后來就能對應上。
這就涉及到了一個重要的話題 -- 數據標準,數據標準不僅僅是解決企業內部數據關聯的問題,比如一個好的用戶庫,可以解決未來大數據關聯上的很多問題,假定公安的數據想跟醫院的數據進行關聯打通,發揮更大的價值。但是,公安標識用戶的是身份證,而醫院標識用戶的數據則是手機號碼,有了統一的用戶庫,就可以通過idmapping技術簡單的把雙方的數據進行關聯。
數據的標準不僅僅是企業內部進行數據關聯非常重要,跨組織,跨企業進行數據關聯也非常重要,而業界有能力建立類似用戶庫等數據標準的公司并不多,阿里巴巴就是其中之一。
大數據發展到后期,當然是數據越多越好,企業內部的數據已經不能滿足公司的需要,比如還是淘寶,想要對用戶進行一個完整的畫像分析,比如想獲得用戶的實時地位位置,愛好,星座,消費水平,開什么樣的車等等,用于精準營銷。淘寶自身的數據是不夠的,這個時候,很多企業就會去購買一些數據(有些企業也會自己去爬取一些信息,這個相對簡單一點),比如阿里購買高德,友盟,又另外采購微博的相關數據,用于用戶的標簽加工,獲得更精準的用戶畫像。
但是,數據交易并沒有這么簡單。因為數據交易涉及到幾個非常大的問題:
1)是怎么保護用戶隱私信息
歐盟已經出臺了苛刻的數據保護條例,美國也對出售客戶數據的運營商施以重罰,還處在萌芽狀態的中國大數據行業,怎么確保用戶隱私信息不被泄漏呢?對于一些非隱私信息,比如地理數據,氣象數據,地圖數據進行開放、交易、分析是非常有價值的,但是一旦涉及到用戶的隱私數據,特別是單個人的隱私數據,就會涉及到道德與法律的風險。
數據交易之前的脫敏或許是一種解決辦法,但是,并不能完全解決這個問題,因此,阿里也提出了另外一種解決思路,基于平臺擔保的“可用不可見”技術。比如阿里云作為交易平臺,跟支付寶一樣是一個中間擔保機構,雙方的數據上傳到阿里云大數據交易平臺,雙方可以使用對方的數據,以獲得特定的結果,比如通過上傳一些算法,模型而獲得結果,雙方都不能看到對方的任何詳細數據。
2)是數據的所有者問題
數據作為一種生產資料,跟農業時期的土地,工業時期的資本不一樣,使用之后并不會消失,如果作為數據的購買者,這個數據的所有者到底是誰?怎么確保數據的購買者不會再次售賣這些數據?或者購買者加工了這些數據之后,加工之后的數據所有者是誰?
3)是數據使用的合法性問題
大數據營銷中,目前用得最多的就是精準營銷。數據交易中,最值錢的也是個人數據。我們日常分析中做的客戶畫像,目的就是給海量客戶分群、打標簽,然后針對性地開展定向營銷和服務。然而如果利用用戶的個人信息(比如年齡、性別、職業等)進行營銷,必須事先征得用戶的同意,才能向用戶發送廣告信息呢,還是可以直接使用?
所以,數據的交易與關聯使用,就必須解決數據標準,立法以及監管的問題,在未來的時間里,不排除有專門的法律,甚至專業的監管機構,如成立數監會來監管數據的交易與使用問題。如果真的到了這一天,那也是好事,數據要流通起來才會發揮更大的價值,如果每個企業都只有自己的數據,就算消除了企業內部的信息孤島,還有企業外部的信息孤島。
如果能合理,合適的使用多方數據,就會發生所謂“羊毛出在豬身上”的事情,比如阿里小貸,使用的是B2B以及淘寶的數據。這樣情況下,對豬(B2B,淘寶來)說,這是一種商業場景中的海量數據的溢出效應,而對羊(螞蟻小貸)來說,是在較低的成本下、不同維度的數據集合后,發生化學反應的價值躍升的過程,這是大數據時代智能商業的典型特征。
這才是大數據的價值,正是我們正在迎來的這個新時代以“數據”命名的理由。
阿里大數據發展歷程
三,數據技術
大數據技術,個人認為可以分成兩個大的層面,大數據平臺技術與大數據應用技術。
要使用大數據,你先必須有計算能力,大數據平臺技術包括了數據的采集,存儲,流轉,加工所需要的底層技術,如hadoop生態圈,數加生態圈。
數據的應用技術是指對數據進行加工,把數據轉化成商業價值的技術,如算法,以及由算法衍生出來的模型,引擎,接口,產品等等。這些數據加工的底層平臺,包括平臺層的工具,以及平臺上運行的算法,也可以沉淀到一個大數據的生態市場中,避免重復的研發,大大的提高大數據的處理效率。
大數據首先需要有數據,數據首先要解決采集與存儲的問題,數據采集與存儲技術,隨著數據量的爆發與大數據業務的飛速發展,也是在不停的進化過程中。
在大數據的早期,或者很多企業的發展初期,是只有關系型數據庫用來存儲核心業務數據,就算數據倉庫,也是集中型OLAP關系型數據庫。比如很多企業,包括淘寶早期,就用Oracle作為數據倉庫來存儲數據,當時建立了亞洲最大的Oracle RAC作為數據倉庫,按當時的規模來說,可以處理10T以下的數據規模 。
一旦出現獨立的數據倉庫,就會涉及到ETL,如數據的抽取,數據清洗,數據校驗,數據導入甚至數據安全脫敏。如果數據來源僅僅是業務數據庫,ETL還不會很復雜,如果數據的來源是多方的,比如日志數據,APP數據,爬蟲數據,購買的數據,整合的數據等等,ETL就會變得很復雜,數據清洗與校驗的任務就會變得很重要。
這時的ETL必須配合數據標準來實施,如果沒有數據標準的ETL,可能會導致數據倉庫中的數據都是不準確的,錯誤的大數據就會導致上層數據應用,數據產品的結果都是錯誤的。錯誤的大數據結論,還不如沒有大數據。由此可見,數據標準與ETL中的數據清洗,數據校驗是非常的重要。
最后,隨著數據的來源變多,數據的使用者變多,整個大數據流轉就變成了一個非常復雜的網狀拓撲結構,每個人都在導入數據,清洗數據,同時每個人也都在使用數據,但是,誰都不相信對方導入,清洗的數據,就會導致重復數據越來越多,數據任務也越來越多,任務的關系越來越復雜。要解決這樣的問題,必須引入數據管理,也就是針對大數據的管理。比如元數據標準,公共數據服務層(可信數據層),數據使用信息披露等等。
隨著數據量的繼續增長,集中式的關系型OLAP數倉已經不能解決企業的問題,這個時候出現了基于MPP的專業級的數據倉庫處理軟件 ,如GreenPlum。greenplum采用了MPP方式處理數據,可以處理的數據更多,更快,但是本質上還是數據庫的技術。Greenplum支持100臺機器規模左右,可以處理PB級別數據量。Greenplum產品是基于流行的PostgreSQL之上開發,幾乎所有的PostgreSQL客戶端工具及PostgreSQL應用都能運行在Greenplum平臺上,在Internet上有著豐富的PostgreSQL資源供用戶參考。
隨著數據量的繼續增加,比如阿里每天需要處理100PB以上數據,每天有100萬以上的大數據任務。以上的解決方案發現都沒有辦法來解決了,這個時候,就出現了一些更大的基于M/R分布式的解決方案,如大數據技術生態體系中的Hadoop,Spark和Storm。他們是目前最重要的三大分布式計算系統,Hadoop常用于離線的復雜的大數據處理,Spark常用于離線的快速的大數據處理,而Storm常用于在線的實時的大數據處理。以及阿里云推出的數加,它也包括了大數據計算服務MaxCompute(前ODPS),關系型數據庫ADS(類似Impala),以及基于Java的Storm系統JStorm(前Galaxy)。
我們看看大數據技術生態中的不同解決方案,也對比看看阿里云數加的解決方案,最后我也會單獨介紹數加。
1、大數據生態技術體系
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。Hadoop作為一個基礎框架,上面也可以承載很多其它東西,比如Hive,不想用程序語言開發MapReduce的人,熟悉SQL的人可以使用Hive開離線的進行數據處理與分析工作。比如HBase,作為面向列的數據庫運行在HDFS之上,HDFS缺乏隨即讀寫操作,HBase正是為此而出現,HBase是一個分布式的、面向列的開源數據庫。
Spark也是Apache基金會的開源項目,它由加州大學伯克利分校的實驗室開發,是另外一種重要的分布式計算系統。Spark與Hadoop最大的不同點在于,Hadoop使用硬盤來存儲數據,而Spark使用內存來存儲數據,因此Spark可以提供超過Hadoop100倍的運算速度。Spark可以通過YARN(另一種資源協調者)在Hadoop集群中運行,但是現在的Spark也在往生態走,希望能夠上下游通吃,一套技術棧解決大家多種需求。比如Spark Shark,是為了VS hadoop Hive,Spark Streaming是為了VS Storm。
Storm是Twitter主推的分布式計算系統,它由BackType團隊開發,是Apache基金會的孵化項目。它在Hadoop的基礎上提供了實時運算的特性,可以實時的處理大數據流。不同于Hadoop和Spark,Storm不進行數據的收集和存儲工作,它直接通過網絡實時的接受數據并且實時的處理數據,然后直接通過網絡實時的傳回結果。Storm擅長處理實時流式。比如日志,比如網站購物的點擊流,是源源不斷、按順序的、沒有終結的,所以通過Kafka等消息隊列來了數據后,Storm就一邊開始工作。Storm自己不收集數據也不存儲數據,隨來隨處理隨輸出結果。
其上的模塊只是大規模分布式計算底層的通用框架,通常也用計算引擎來描述他們。
除了計算引擎,想要做數據的加工應用,我們還需要一些平臺工具,如開發IDE,作業調度系統,數據同步工具,BI模塊,數據管理,監控報警等等,他們與計算引擎一起,構成大數據的基礎平臺。
在這個平臺上,我們就可以基于數據做大數據的加工應用,開發數據應用產品了。
比如一個餐廳,為了做中餐,西餐,日料,西班牙菜,它必須食材(數據),配合不同的廚具(大數據底層計算引擎),加上不同的佐料(加工工具)才能做出做出不同類型的菜系;但是為了接待大批量的客人,他必須配備更大的廚房空間,更強的廚具,更多的廚師(分布式);做的菜到底好吃不好吃,這又得看廚師的水平(大數據加工,應用能力)。
2、阿里大數據體系
我們先看一下阿里的計算引擎三件套。
阿里云最早先使用Hadoop解決方案,并且成功的把Hadoop單集群規模擴展到5000臺規模。2010年起,阿里云開始獨立研發了類似Hadoop的分布式計算平臺Maxcompute平臺(前ODPS),目前單集群規模過萬臺,并支持多集群聯合計算,可以在6個小時內處理完100PB的數據量,相當于一億部高清電影。
分析型數據庫服務ADS(AnalyticDB) ,是一套RT-OLAP(Realtime OLAP,實時 OLAP)系統。在數據存儲模型上,采用自由靈活的關系模型存儲,可以使用 SQL進行自由靈活的計算分析,無需預先建模;而利用分布式計算技術,ADS可以在處理百億條甚至更多量級的數據上達到甚至超越MOLAP類系統的處理性能,真正實現百億數據毫秒級計算。ADS是采用搜索+數據庫技術的數據高度預分布類MPP架構,初始成本相對比較高,但是查詢速度極快,高并發。而類似的產品Impala,采用Dremel數據結構的低預分布MPP架構,初始化成本相對比較低,并發與響應速度也相當慢一些。
流計算產品(前Galaxy),可以針對大規模流動數據在不斷變化運動過程中實時的進行分析 ,是阿里巴巴開源的基于Storm采用Java重寫的一套分布式實時流計算框架,也叫JStorm,對比產品是Storm或者是Spark Streaming。最近阿里云會開始公測stream sql,通過sql 的方式來實現實時的流式計算,降低了使用流式計算技術的使用門檻。
除了計算引擎部分,整個阿里大數據技術生態,我在數加的文章中再詳細介紹。
未來的大數據底層技術又將會怎么發展呢,個人覺得,會有如下兩個要點發展:
1、數據處理云端化與生態化
數據未來一定是互聯互通才有價值,目前的私有云大數據解決方案是一個過渡階段,未來大數據需要的是更大型,更專業的平臺。這里才可以實現整個大數據的生態體系(后面的文章會介紹到)。包括了數據本身的交易市場(大數據交易平臺),以及加工數據的工具,算法(或基于算法的引擎,接口,產品)的交易市場,類似目前的App Store。
數據生態是一個非常大的市場。
2、云端數倉一體化
未來很多企業將受益于云端數據庫/數據倉庫一體化的解決方案中,從現在的技術看來,大數據平臺越來越具備實時的能力;在線的業務數據庫越來越具備分布式計算的能力。當這些能力整合,統一的時候,在線/離線的界限又將變得不再清晰,整個數據技術體系又會回到當初的數據庫/數據倉庫一體化。
四,數據應用
講了這么多的大數據相關定義與相關技術了,那大數據怎么轉變為商業價值呢,這又是一個大的話題。阿里在大數據的應用上,最早的提出了存、通、用三個概念,而現在大數據應用更多是在談數據反饋閉環。根據數據反饋閉環,我們又把數據使用分成如下幾個層面來描述:
一、數據化
所謂存,其實就是大數據的采集與存儲,必須先有數據,其實前幾篇已經介紹過了。很多時候,如果我們連數據都沒有,大數據只能是空中樓閣。所以,一個想要做大數據的企業,必須先想辦法擁有數據,或者采集、爬取、購買數據。
關于通,前面也講過了,主要是兩個層面的問題:
其一是指數據的互通,比如一個企業內部存在很多信息孤島,信息孤島之間必須打通,形成統一的大數據平臺。關于通,最好的辦法其實就是企業建立一個統一的大數據平臺,不管這個大數據平臺是基于私有云(如Hadoop生態的解決方案),還是基于公共云(如阿里云數加的解決方案),當所有的數據上傳到這個大數據平臺,數據天然就打通了。
其二是數據的標準,如果想讓不同的數據源可以相互關聯,形成更大的效應,就跟我在上文講到的一樣,就得有數據標準。如上文所言,數據標準不僅僅可以指導ETL過程中的數據清洗,數據校驗,好的數據標準還可以使得無線的數據跟PC的數據相互關聯互通,甚至企業之間的數據關聯互通。
這些過程,我們可以把它叫做數據化的過程,也就是大數據的基本要素 -- 數據的形成。
二、算法
用,就是大數據的加工使用,指采用數據科技的相關技術,對大數據進行加工,分析,并最終創造商業價值的過程。這個過程中,最核心就是算法。我們提到算法時,往往也會談到引擎,僅僅提引擎一詞,更多想到的可能是汽車的發動機。汽車引擎不管多復雜,其實輸入輸出是很簡單的,需要的是汽油+空氣,輸出動力(汽油的能量)。大數據的引擎可能是一組算法的封裝,數據就是輸入的汽油,通過引擎的轉換,輸出數據中的能量,提供給更上層的數據產品或者服務,從而產生商業價值。
算法也是“機器學習”的核心,機器學習又是”人工智能“的核心,是使計算機具有智能的根本途徑。在過去十年,機器學習促成了無人駕駛車、高效語音識別、精確網絡搜索及人類基因組認知的大力發展。
如果你不去利用數據,世界上的數據就不會有用。算法其實指的是如何在業務過程中有效拓展人為管理,利用數據。
從根本上來說,數據是不會說話的,只有數據沒有任何價值。如果擁有大量的數據,而不知道怎么使用 ,阿里曾經做過一個比喻,“坐在金山上啃饅頭”。大數據真正的價值在算法,算法決定行動。在不遠的未來,“所有業務都將成為算法業務”,算法才是真正價值所在,世界上所有大規模的東西都將被數據和算法所管理。
DT時代的智能商業對算法提出了全新的要求:算法的迭代方向、參數工程等等,都必須與商業邏輯、機制設計、甚至是價值觀取向融合為一。當算法迭代優化時,決定其方向的不僅是數據和機器本身的特性,更包含了我們對商業本質的理解、對人性的洞察和創造未來商業新樣貌的理想。 這就是我們稱算法為智能商業的“引擎”而非“工具”的關鍵理由,它是智能的核心。 基于數據和算法,完成“機器學習”,實現“人工智能”。
三、數據產品(或數據應用)
把用戶,數據和算法巧妙地連接起來的,是數據產品(或數據應用),這也是互聯網時代特別強調產品重要性的根本原因。因此,智能商業的成功,最關鍵的一步往往是一個極富想象力的創新產品,針對某個用戶問題,定義了全新的用戶體驗方式,同時啟動了數據智能的引擎,持續提升用戶體驗。
智能化數據產品的要求是非常高的,不僅僅是與最終用戶形成個性化,智能化的交互,有完好的用戶體驗與突破的技術創新之外,最重要的,同時需要再次記錄數據,使得用戶反饋的閉環得以發生。
整個過程是自動的、智能的、可學習提升的,它是大數據時代的靈魂,是智能商業的根基。智能商業的核心特征就是能主動地了解用戶,通過學習不斷提升用戶體驗。智能商業的成功,最關鍵的一步往往是一個極富想象力的創新產品,針對某個用戶問題,定義了全新的用戶體驗方式,同時啟動了數據智能的引擎,持續提升用戶體驗。智能模塊和學習功能將成為應用的大腦
比如螞蟻小貸,通過數據和產品的緊密融合,基于算法的數據智能實時發揮作用,最終能實現秒級放貸,這個是傳統的金融服務沒法想象的。同時,獲貸后的用戶產生的數據,又被源源不斷的采集起來,作為未來更多判斷的基礎。
再比如搜索系統,用戶的任何一次點擊行為,都被實時記錄并反饋到智能化的算法引擎,不僅優化了你的搜索結果,而且優化了任何搜索這個關鍵詞的人得到的搜索結果。
這樣的智能商業,才是對傳統商業的顛覆,才是真正的“降維”攻擊,勝者一騎絕塵。
四、反饋閉環
上面已經談到自動化、智能化、可學習提升的反饋閉環,閉環的形成決定了智能化商業的形成,但是,閉環的效率決定了大數據的使用效率。所以說,一個好的大數據產品,不僅僅是有用戶反饋閉環,而且需要一個高效的用戶反饋閉環。
用戶行為通過產品實時反饋到數據平臺,通過數據智能算法,優化結果又通過數據產品實時提升用戶體驗,在這樣的反饋閉環中,數據既是高速流動的介質,又持續增值;算法既是推動反饋閉環運轉的引擎,又持續優化;產品既是反饋閉環的載體,又持續改進功能,在為用戶提供更贊的產品體驗的同時,也促使數據反饋更低成本、更高效率地發生。
五,數據生態
DT時代將催化出大數據生態。DT時代的數據生態,我從如下兩個方面來定義:
一、數據交換/交易市場
智能商業的基石就是數據,作為智能商業的第一要務,數據是最重要的。
數據作為生產資料,大數據時代的血液,好比汽車的汽油,沒有汽油,再精美高端的汽車也無法運轉。而數據的來源往往是多方面的,未來一個企業所用到的數據往往不僅僅是自身的數據,甚至是多個渠道交換、整合、購買過來的數據。對于“羊毛出在豬身上”的大數據商業形態,數據一定是流動的,數據只有整合關聯,才能發揮更大的價值。
但是數據要實現交換,交易,正如我上文所言,我們最終所必須解決的是法律法規,數據標準等一系列問題。
二、算法經濟/生態
Gartner分析認為,算法將形成一個全球性的交易市場,就像當年的App,催生出全新一代的專業技術初創企業,并且革新機器與機器之間的交互方式。
同時,更多的數據將生成更好的模型和用戶體驗,進而吸引更多的用戶以及更多的數據,而這將導致儲存和計算數據的成本持續降低。
Gartner曾發表報告,對算法經濟可能帶來的市場影響做出評估。
Gartner認為,無可避免地,算法經濟將創造一個全新的市場。人們可以對各種算法進行買賣,為當下的公司匯聚大量的額外收入,并催生出全新一代的專業技術初創企業。
想象這樣一個市場:數十億的算法都是可以買賣的,每一個算法代表的是一種軟件代碼,能解決一個或多個技術難題,或者從物聯網的指數級增長中創造一個新的機會。
算法是創造智能應用的基石,是大數據的核心價值。
也就是說,多個機器學習算法可以結合起來成為更強大的算法,從而更好地分析數據,充分挖掘數據里的價值。
在算法經濟中,前沿的技術項目,無論是先進的智能助理,還是能夠自動計算庫存的無人機,最終都將落實成為實實在在的代碼,供人們交易和使用。
廣義的算法存在于大數據的整個閉環之中,從大數據平臺、ETL(數據采集,數據清洗,數據脫敏等)、數據加工、數據產品等的每一個層面都會有算法支持。算法可以直接交易,也可以包裝成產品、工具、服務,甚至平臺來交易,最終形成大數據生態中的一個重要組成部分。
甚至有人認為好的算法能夠擺脫很多公司對大數據的過度依賴。盡管數據在DT時代可能是最昂貴的生產資料,但若算法足夠強大,大數據并非必須。如遷移學習能讓計算機擺脫對大數據的嚴重依賴,從而讓人工智能不再只是“富人的游戲”。
正如App經濟變革了人類與機器的交互方式一樣,我們將會看到,算法經濟將會促進下一代機器對機器互動演進的巨大飛躍。
人們將會通過產品使用的算法來評價它的性能好壞。企業的競爭力也不僅僅在于大數據,還要有能夠把數據轉換為實際應用的算法。因此,CEO應該關注公司有產權的算法,而不僅僅是大數據。
正在涌現的機器智能平臺可憑借“模型作為服務”的方式,托管預訓練過的機器學習模型,從而令企業能夠更容易地開啟機器學習,快速將其應用從原型轉化成產品。當企業們采用了微服務(microservice)發展范式后,接入并使用不同的機器學習模型和服務以提供特定功能的能力將變得越來越有價值。
所有的這一切,最終也離不開云計算,數據平臺天然就是基于云計算來實現。而數據交換,算法交易則需要一個商店,云端就是目前最好的商店。不管是數據的互通,還是基于云端預訓練、托管的機器學習模型,將促使每個公司的數據產品都能大規模地利用算法智能。
六,數加平臺
2016年1月20日,阿里云在2016云棲大會上海峰會上宣布開放阿里巴巴十年的大數據能力,發布全球首個一站式大數據平臺“數加”。
這一平臺承載了阿里云“普惠大數據”的理想,即讓全球任何一個企業、個人都能用上大數據。數加平臺首批集中發布了20款產品,覆蓋數據采集、計算引擎、數據加工、數據分析、機器學習、數據應用等數據生產全鏈條。
“這是一個人人都在談大數據的時代,但只有極少數人在用大數據。” 阿里云大數據事業部資深總監徐常亮特別強調“這些技術至少領先業界三年”,在輸出自身大數據能力的同時,“數加”還向有數據開發能力的團隊開放。這些團隊可入駐“數加”,借助數加上的工具為各行業提供數據服務。“就像在淘寶開店一樣,只是他們售賣的是專業能力。”
那數加到底是什么呢?我們從如下幾個方面來分析一下:
一、數加的來世今生
我覺得阿里對數據的重視非常早,而且也是非常愿意投入的。
早在阿里云成立之前,應該是06、07年左右,七公就組建了一只數據平臺部的團隊,它就是數據事業部(CDO)的前身。在云端、數據魔方、淘寶時光機、淘寶指數、TCIF、阿里媽媽DMP、全景洞察等都是出自這個團隊之手 ,這個團隊專業解決淘寶早期數據倉庫、數據集市、以及數據分析相關的專業問題。
09年的時候,王堅來到阿里,講了云計算、大數據未來的愿景,可是當時沒有幾個人能聽懂,但是,我覺得馬總還是很厲害的,他信了。然后,阿里提出了云計算、大數據相關戰略,阿里云也就在那時成立了。
數據平臺事業部最早使用的并不是現在在用的MaxCompute(原ODPS),而是Hadoop,原hadoop集群令名為云梯1,當時阿里也在研發自己的計算平臺,就是原ODPS,并令名為云梯2。
云梯2在開始的時候,并不是很好用,不過,拿到了內部一個很大的客戶,就是阿里金融的螞蟻小貸。基本上也可以這么說,沒有螞蟻小貸的磨合,基本很難有現在的MaxCompute。
云梯1、云梯2在內部爭吵了很長一段時間,后來,出于各方的考慮,公司決定,啟動登月項目,從云梯1全部遷移到云梯2。
不管是云梯1,還是云梯2,其實,都只是整個大數據技術生態系統中很小的一塊,也就是計算引擎那一塊,正如我上面所講的,一個屬于hadoop生態系統,一個屬于阿里云自建的數加生態系統。
云梯1當時在內部使用也很廣泛,所有內部的數據加工,數據應用基本上都是基于云梯1的,而且,云梯1通過5K項目,成功使單集群的規模擴展到了5000臺。而云梯2的生態是后來慢慢建立起來的,包括底層計算平臺,開發工具/組件,基于各自算法的計算引擎/服務,以及最上層的各種數據應用/產品,是在云梯1遷移到云梯2的過程中,這些工具,引擎,應用才慢慢完善,統一。
當然,現在阿里云的整個系統,包括內部系統,都是應用在數加的技術之上,這個也是阿里歷來的習慣,把內部使用、驗證過的東西,提供給社會使用。這樣的好處在于與單純做產品的大數據公司相比,勝在有場景,有需求,成熟度更高。
二、數加平臺生態的組成
數加平臺生態
個人覺得,可以用如下幾個層面來描述整個數加生態體系:
1、數加底層技術平臺
主要包括:
Maxcompute(原名ODPS)是“數加”底層的計算引擎。有兩個維度可以看這個計算引擎的性能,1)6小時處理100PB數據,相當于1億部高清電影。2)單集群規模過萬臺,并支持多集群聯合計算。
Analytic DB是實時多維分析引擎,可以實現百億量級多維查詢只需100毫秒。阿里巴巴內部很多面向海量互聯網用戶的產品的在線大數據查詢,很大程度上依賴于Analytic DB。
流計算(StreamCompute)具有低延時、高性能的特點。每秒查詢率可以達到千萬級,日均處理萬億條消息、PB量級的數據。
計算引擎之上,“數加”提供了最豐富的云端數據開發套件,開發者可一站式完成數據加工。這些產品包含:數據集成、數據開發、調度系統、數據管理、運維視屏、數據質量、任務監控。
整體來看,大數據開發套件的優勢包括:支持100人以上協同設計、開發、運維;具有良好的擴展性;提供各個產品功能模塊的Open API,可二次開發;多個數據實例之間的數據授權機制,確保數據只能使用卻不可見;提供白屏化的運維能力,以及字段級數據質量監控、機器預警、資源使用率監控等功能,讓用戶更好的掌控自己的數據及數據任務。
計算引擎與大數據開發套件相互依賴,組成了數加的底層技術平臺,對應到我上文提到的Hadoop技術平臺。
阿里云的主要目標應該是做好這個技術平臺,并將平臺的能力更多更快更好地開放出來,這一層才是阿里云大數據的核心競爭力。
2、數加應用平臺生態體系
基于上面的技術平臺,阿里在數加上還開放了規則引擎、推薦引擎、文字識別、智能語音交互、DataV可視化等數據引擎、服務、產品。這些產品很多都是從阿里自身的業務中提煉出來的,可以直接提供給企業使用,并組合成各種不同的解決方案。
比如:
“數加”發布的機器學習,可基于海量數據實現對用戶行為、行業走勢、天氣、交通等的預測。圖形化編程讓用戶無需編碼、只需用鼠標拖拽標準化組件即可完成開發。產品還集成了阿里巴巴核心算法庫,包括特征工程、大規模機器學習、深度學習等。
規則引擎是一款用于解決業務規則頻繁變化的在線服務,可通過簡單組合預定義的條件因子編寫業務規則,并做出業務決策。比如,銀行會設置如果10分鐘內用戶在兩個省份交易,則需要電話確認。
推薦引擎是一款用于實時預測用戶對物品偏好的數據工具,它能夠幫助客戶發現眾多物品中用戶最感興趣什么。
文字識別提供自然場景下拍攝的圖片中英文文字檢測、識別以及常見的證件類檢測和識別。
智能語音交互基于語音和自然語言技術構建的在線服務,為智能手機、智能電視以及物聯網等產品提供“能聽、會說、懂你”式的智能人機交互體驗。
數加最終的目的,不是阿里云自己來研發所有這些數據服務,重點是“數加”大數據平臺也將向有數據開發能力的團隊開放。這些團隊可入駐“數加”,借助數加上的工具為各行各業提供數據服務。阿里云計劃用3年時間吸引1000家合作伙伴入駐,共同分享1萬億的大數據蛋糕。
基于底層的技術平臺,上層開放則可以形成豐富的生態 。通過開放式的平臺,凝聚行業的力量,為更多的企業和個人提供大數據服務,這就是普惠的時代。大到行業的數據分析,預測行業發展方向;小到我們每一個個體,都可以享受大數據的服務,方便個人生活。
3、數加交易生態體系
基于技術平臺與應用平臺,個人覺得,未來可以在數加上構建一個大數據的交易市場,可以包括:
應用交易:上文中,我重點描述了數據生態以及算法經濟,算法作為大數據時代的另外一個重要要素,未來也是可交易的。基于算法的各種引擎,服務,應用等,既然可以基于數加來開發,就可以不僅僅是自己用,甚至作為一個公共的服務或者產品來出售。
數據交易:數據是大數據時代的重要基本要素之一,也是大數據時代的基礎生產資料,大數據時代的血液。作為如此重要的生產資料,必須流通才能發揮大數據最大的價值。數加通過多租戶,可用不可見,擔保交易等設計,未來可以解決數據交易上的各種問題。
當然,如果要實現大數據的交易,必須先解決數據的隱私、安全、法律法規、監管等問題。在這些問題沒解決之前,仍有很長的路需要嘗試。
三、為什么選擇數加
小企業不僅自身缺乏數據,自建大數據平臺更是折騰不起,往往周期很長,成本非常之高。很多自建的大數據平臺又因為沒有經過各種實戰的檢驗,沒有相應開發工具或者工具偏少而出現各種問題。
不過數加的出現將有望改善這一現狀。
根據阿里云披露的測算數據:自建Hadoop集群的成本是數加的3倍多,國外計算廠商AWS的EMR成本更是數加的5倍。
從運算效率來看,去年10月28日,Sort Benchmark在官方網站公布了2015年排序競賽的最終成績。其中阿里云用377秒完成了100TB的數據排序,打破了此前Apache Spark創造的23.4分鐘紀錄。
在含金量最高的GraySort和MinuteSort兩個評測系統中,阿里云分別在通用和專用目的排序類別中創造了4 項世界紀錄。
數加承載了阿里巴巴EB級別的數據加工計算,經歷了上萬名工程師的實戰檢驗。
借助大數據技術,阿里巴巴取得了巨大的商業成功。通過對
電子商務平臺上的客戶行為進行分析,誕生了螞蟻小貸、花唄、借唄;菜鳥網絡通過電子面單、物流云、菜鳥天地等數據產品,為快遞行業的升級提供技術方法。
可以看到,通過數加,企業能獲得的不僅僅是可以更方便、更便宜地使用各種開發工具。其實,比開發工具更重要的是未來大數據的生態,在數加上面,他們可以很方便地獲取各種自己想要的數據與服務。
“數加”的發布顯然降低了大數據的應用門檻。通過 “數加”,任何一個企業、個人都能極為方便地進行大數據的開發和應用,最起碼,從速度、成本、開發效率上,有很大提升。
四、數加需要面對的問題
1、基于公共云數加的安全問題
有人擔心阿里是否會偷看或利用這些數據,其實就是不相信阿里云。當然阿里云官方的回答是斬釘截鐵的:不會!
阿里云大數據事業部資深總監徐常亮強調,數據是客戶的寶貴資產,任何云計算平臺都不能移作他用。阿里云將嚴格遵守去年7月份發起的《數據保護倡議書》,也希望全行業能夠自律,共同迎接大數據產業的爆發。
2、基于專有云數加的規模問題
如果企業實在擔心數據的安全問題,想要建立自己的專有云解決方案,那么目前,基于數加的解決方案尚且過于復雜,沒有大量預算,基本上沒有辦法實現專有云的解決方案,所以,對中小企業來說,采用基于專用云數加的解決方案是不現實的。
就我個人的看法來說,未來的趨勢,一定是公共云解決方案。
因為:
1,數據需要流動,互相關聯才有最大的價值,所以,數據一定要交換、交易,這個要靠公共云來實現。,
2,數據加工的工具、算法、產品等等,也是一個共享的生態,不能指望所有的東西都由自己來研發。跟工業社會一樣,未來的大數據時代,是一個全球化分工的時代,不能指望自己的工廠解決所有的問題。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:從數據來源、數據生態、數據技術、數加平臺等方面,漫談阿里大數據
本文網址:http://www.guhuozai8.cn/html/solutions/14019320145.html