那些想要弄清楚“大數據”概念的組織需要做出一個選擇,是要采用傳統的數據倉庫概念和現有的數據倉庫架構,還是不熟越來越流行的開源Hadoop分布式處理平臺,或者使用這二者的結合。
那些想要從簡單的BI報表轉向深度數據挖掘與預測分析的企業,第三種選項看上去是最靠譜的。最近采訪了Forrester機構的高級數據管理分析師James Kobielus,他向我們分析了企業如何從快速變化的海量數據中獲取有價值的洞察力。在本文中,您將了解到如何將現有數據倉庫架構的功能發揮到最大,Hadoop的優勢與劣勢,以及大數據時代中每一個數據倉庫廠商的發展等。
我看到了對大數據幾個不同的定義,請問Forrester是如何理解時下這一流行概念的?
James Kobielus:大數據事實上是引用極限可擴展分析的概念,“極限可擴展分析”這個詞在我看來是人們所說大數據的核心。在某種程度上,是可以用三個V來概括的:Volume,數據量,可以使TB可以是PB甚至更大;Velocity,數據流動速度,實時的獲取、轉換、查詢與訪問數據;Variety,數據的種類,包括各種結構化數據、非結構化數據以及半結構化數據。在分析方面,它是指所有能夠挖掘并獲取意義的數據集。
企業對數據倉庫概念應如何理解,才能夠搞清大數據的意義?
Kobielus:我認為數據倉庫能夠通過三種方式來幫助企業處理好數據問題:第一、在一個企業數據倉庫中,你按照主題領域來劃分組織你的數據,而這些主題領域往往是比較穩定的,很長一段時間內都不會有任何改變,比如數據倉庫架構中的OLAP cube,無論是物理上實現還是邏輯上的劃分。換句話說,你的客戶數據在一個分區里,財務數據在另一個,HR數據在第三個,以此類推。這樣做的好處就是有利于你根據數據的關聯性來匹配下游的應用和用戶。這就是數據倉庫數據庫管理的核心所在,也是通過數據倉庫來處理大數據的最重要的方式。
那么第二種方式是什么?
Kobielus:第二種方式是數據庫內分析的概念以及利用數據倉庫執行數據剖析、數據清洗以及數據挖掘或者回歸分析。換句話說,就是做全套的數據挖掘,但是是在數據倉庫內部執行。這能夠幫助你處理好數據,因為你使用數據挖掘或者回歸分析來從根本上了解數據集模式。然后使用數據庫內挖掘(in-database data mining)來填充下游的分析數據集市,數據挖掘和統計模型專業人士可以利用它將復雜的模式實現可視化。舉例來說,他們使用那些模式來辨別潛在的大客戶,這樣可以有限將他們設定為銷售的目標。使用數據庫內分析以及像MapReduce這樣的技術,可以在一個高并發高擴展的數據庫架構內將數據挖掘自動化。
數據庫內分析目前的應用狀況如何?是不是每個企業都會用到它?
Kobielus:雖然不是所有人都會用到數據庫內分析技術,但是我們可以看到越來越多的企業已經對它產生了濃厚的興趣。如果你的數據挖掘規模很大,數據庫內分析已經被視為是最佳實踐。眾所周知,目前大量實際生產中的數據倉庫都是面向操作型商業智能的,它們更多的是在生產報表、執行即席查詢(ad hoc query)等,很少進行數據挖掘。但隨著數據量的增長,數據挖掘的必要性也就凸現出來,而數據庫內分析的價值也將體現。利用這一技術的目標就是加速并擴展你的數據挖掘項目,同時根據一組通用的參考數據使所有的挖掘在數據倉庫中保持一致。
第三種最佳實踐是什么?
Kobielus:第三就是將數據倉庫作為數據治理的核心,主數據可以合理地在數據倉庫中進行維護。當你的數據倉庫作為數據治理與數據清洗的核心時,它能夠幫助你搞清楚所有的信息。在整個企業架構中,也許會有成百上千個應用在向數據倉庫中添加數據。數據就像洪水一般實時地流動,數據倉庫就是其中的樞紐,確保大數據集可靠恰當地用在下游的消費當中。
在大數據蔓延的今天,傳統的數據倉庫廠商都為客戶做了哪些努力?
Kobielus:Teradata、Oracle-Exadata、IBM-Netezza、HP-Vertica等等都在做大數據。絕大一部分數據倉庫廠商能夠利用網格或者云架構將他們的產品擴展到PB級別,而且也有絕大一部分能夠完成數據庫內分析,即在大規模并行數據倉庫網格或者云環境中實現。他們還可以在企業數據倉庫之內來支持數據轉化和數據清洗功能。
從現在大多數的媒體報道來看,處理大數據挑戰,Hadoop似乎是最好的辦法,您怎么認為?
Kobielus:如果你想要處理好大數據,你需要企業數據倉庫和Hadoop的組合來完成。我不同意人們把Hadoop看作是處理大數據問題唯一的救命稻草。其實現在的企業數據倉庫基本上已經能夠做到Hadoop可以實現的任何功能。Hadoop同傳統的企業數據倉庫系統相比,優勢就是開源,它是免費的,但是需要提醒企業用戶不要忽視開源Hadoop的許多無形維護費用。可以說Hadoop是未來五到十年內下一代企業數據倉庫發展的最大動力。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/