在企業(yè)級大數(shù)據(jù)領(lǐng)域,明略數(shù)據(jù)在過去幾年服務(wù)客戶的過程中,創(chuàng)造性地引入大數(shù)據(jù)+知識圖譜的思路,開發(fā)了一款名為SCOPA的大數(shù)據(jù)知識圖譜產(chǎn)品,并且在公安、金融等多個領(lǐng)域取得了良好的實踐效果。本分享將系統(tǒng)地介紹SCOPA產(chǎn)品的設(shè)計理念、總體功能以及核心技術(shù)優(yōu)勢,并闡述SCOPA產(chǎn)品如何應(yīng)對客戶的具體應(yīng)用場景以及圍繞SCOPA如何打造先進(jìn)的大數(shù)據(jù)整體解決方案。
明略數(shù)據(jù)技術(shù)合伙人黃樺在ArchSummit深圳2016大會上和我們分享了:
1,企業(yè)級大數(shù)據(jù)簡析;
2,構(gòu)建大數(shù)據(jù)知識圖譜產(chǎn)品;
知識圖譜是什么?
一個簡單的工商企業(yè)的知識圖譜;
如何落地知識圖譜產(chǎn)品?
圖數(shù)據(jù)庫及其選型;
3,應(yīng)用淺談。
黃樺,四年大數(shù)據(jù)領(lǐng)域從業(yè)經(jīng)驗,大數(shù)據(jù)技術(shù)和大數(shù)據(jù)產(chǎn)品開發(fā)的深度實踐者。
問:各位網(wǎng)友大家好!作客我們現(xiàn)場的是明略數(shù)據(jù)技術(shù)合伙人黃樺。從最開始的語義網(wǎng)等概念,到現(xiàn)在的知識圖譜,您覺得為什么現(xiàn)在知識圖譜的概念能夠火起來?
黃樺:語義網(wǎng)是一個宏觀的概念,想把網(wǎng)絡(luò)上的東西、電腦、手機(jī)更多的連起來,讓他們互相能夠認(rèn)知到、能夠識別,當(dāng)初設(shè)計非常復(fù)雜,貌似也有個協(xié)議,跟網(wǎng)絡(luò)通信協(xié)議類似,但是很難落地,只是有它的概念。但是知識圖譜不一樣,比較簡單,就是點邊屬性這樣的三維屬性的圖譜,所以可以落地。再加上這個數(shù)據(jù)越來越大,大數(shù)據(jù)時代,總量比較多,數(shù)據(jù)類別也比較多,這個時候非常自然想到,這么多數(shù)據(jù)以后如果還是孤立的看數(shù)據(jù)源,產(chǎn)生價值,實際上是線性累加的過程,把孤立的串在一起創(chuàng)造的價值可能是更大的效果。
問:您所了解的業(yè)界現(xiàn)在知識圖譜的落地應(yīng)用有哪些?
黃樺:落地應(yīng)用挺多的,我們認(rèn)識當(dāng)中最早是在互聯(lián)網(wǎng)搜索里面,讀書的時候?qū)嵙?xí),微軟亞洲研究院做了一個人立方,人立方是一個搜索引擎,剛開始落地的時候找的是學(xué)術(shù)圈發(fā)表論文的數(shù)據(jù),跟學(xué)校之間的關(guān)系找到,把作者跟作者之間一起合作論文的關(guān)系刻劃出來,然后帶出來相關(guān)領(lǐng)域的合作者。最早的知識圖譜是這樣。慢慢的,谷歌在2012年、2013年放到他自己的算法里,增強(qiáng)他搜索的性能和準(zhǔn)確度,慢慢的國內(nèi)百度也在用,也是把圖譜放到搜索里提高搜索的準(zhǔn)確性。企業(yè)用的還是不多,剛剛開始興起,我們公司算是比較前列的,探索一些場景,特別是在公安,昨天的分享中我也提到了,公安特別想知道一個真實的世界網(wǎng)絡(luò)是什么樣子的,因為他要抓嫌犯,很多時候犯罪分子不是孤立的個體或事件,是團(tuán)伙性,團(tuán)伙性的趨勢越來越重,所以一定是需要關(guān)系網(wǎng),才能更好的讓公安去研判。
問:金融領(lǐng)域呢?
黃樺:金融領(lǐng)域更加關(guān)注一些風(fēng)險的問題,像銀行最大的問題就是風(fēng)險問題,如果把風(fēng)險控制好是可以賺很多錢的,更加希望在交易和帳戶層面做一些風(fēng)險控制,如果把交易的數(shù)據(jù)做一個比較好的Study的話,可以把帳戶之間的關(guān)系連接起來,然后帳戶之間的屬性企事業(yè)能夠建立一些關(guān)系。舉個簡單的例子,我開了一個帳戶,沒有用身份證,但是我填的時候一些信息相似度非常高,比如說某街某道,這些是有關(guān)聯(lián)的。
問:SCOPA的知識圖譜應(yīng)用是結(jié)合什么數(shù)據(jù)庫進(jìn)行的?
黃樺:用的是Titan。
問:為什么會選擇這種數(shù)據(jù)?
黃樺:這是一個很好的問題,我們做企業(yè)級市場的在技術(shù)選型包括用一些什么樣的技術(shù)方面還是比較慎重,不會貿(mào)然,之所以選Titan是有選型的。
第一點是看這個數(shù)據(jù)庫的整合度高不高,因為現(xiàn)在很多大公司已經(jīng)有大數(shù)據(jù)平臺,如果你跟他說部署這樣一種產(chǎn)品地要增加什么什么這樣的組件,跟大數(shù)據(jù)平臺不是完全耦合化,對方很難答應(yīng)的,對方說已經(jīng)做了這個東西,已經(jīng)有這個平臺了,所以第一點一定是跟它平臺的整合度、成熟度、對接度高不高,這是很關(guān)鍵的一點。
第二點,這個產(chǎn)品的性能問題,數(shù)據(jù)量大的情況下性能是很關(guān)鍵的,我們對Titan做過一些壓測,還不錯。
三是可擴(kuò)展性。對于我們來說,我們很多產(chǎn)品都開了工具,Lisence就很好。
問:在應(yīng)用知識圖譜的過程中,您們是不是從零開始研究,還是以前就具有相關(guān)項目經(jīng)驗?
黃樺:我們公司是2014年成立的,開始是一些普遍的需求,慢慢數(shù)據(jù)量多了以后,平臺搭起來以后,客戶希望創(chuàng)造更大的用戶價值,這時候傳統(tǒng)的方式就玩不轉(zhuǎn)了,我們后來做了一些調(diào)研,看其它同行和國外的公司是解決什么問題的,后來發(fā)現(xiàn)他們或多或少通過關(guān)聯(lián)數(shù)據(jù)這樣的路子,才能解決問題。我們2015年的時候嘗試這樣一個方向,正好我們有公安客戶,他跟我們交流過程當(dāng)中,發(fā)現(xiàn)關(guān)系網(wǎng)非常重要,基于他的場景慢慢在2015年開發(fā),2016年已經(jīng)有一套比較成熟的產(chǎn)品。
問:對于一個公司如果初次開始使用知識圖譜,如何降低成本?
黃樺:降成本這塊,我覺得盡量采用開源的技術(shù),做這個產(chǎn)品的時候先想清楚要解決什么樣的問題,很多技術(shù)人員很多時候為了驗證我懂這個技術(shù)、我很強(qiáng)就做這個事情,但我建議在做圖譜產(chǎn)品的時候最好還是發(fā)現(xiàn)問題,不用太大、太多,先找到一個問題,根據(jù)領(lǐng)域內(nèi)的知識,需要哪些實體,要構(gòu)建那些實體關(guān)系,有哪些屬性和事件,這樣出來以后基于開源的工具再去把這個系統(tǒng)搭起來。
問:跟業(yè)務(wù)是不是也有關(guān)系?您之前沒有接公安項目的時候并不知道未來數(shù)據(jù)庫選型是怎么樣的,一個新的公司,假如他是電商領(lǐng)域的,肯定跟金融領(lǐng)域的做法不一樣,您這方面有差異嗎?
黃樺:有差異,圖譜按照我們的理解是比較強(qiáng)屬性的東西。
問:降低成本的話還是考慮行業(yè)的業(yè)務(wù)屬性?
黃樺:對。比如你在工商行業(yè),你關(guān)注的企業(yè)、法人、產(chǎn)品、行業(yè)這樣一些實體的投入,但是在公安層面,他可能關(guān)注的是機(jī)構(gòu)這樣一些數(shù)據(jù)。
問:把原始數(shù)據(jù)轉(zhuǎn)為知識圖譜可用數(shù)據(jù),在實踐上您們遇到最大的困難是什么,如何解決的?
黃樺:剛才也講了這樣一個過程,我們碰到的最大的問題是對非企業(yè)化數(shù)據(jù)的處理,包括視頻、圖片,這是挺大的一個問題,我們現(xiàn)在文本做的比較好,有一套比較成熟的IOP的工具,它可以自動化的做一些文本。但是我們對視頻、圖像這塊的處理做的并不太好,這塊也在摸索,我覺得可能會采用業(yè)內(nèi)其它同行的玩法。但是視頻、圖片對公安來說是非常重要的一個方面,光有文本的話不夠,未來我們會往視頻圖片這方面整合。
問:學(xué)術(shù)界對圖像識別處理比較超前,你們跟學(xué)術(shù)界有沒有合作?
黃樺:有,我們公司的CTO是北大畢業(yè)的,他在學(xué)術(shù)界人脈挺廣的,跟北大、清華、上交也有些合作。
問:據(jù)說您們的應(yīng)用規(guī)模已經(jīng)是在億級實體、幾十億級關(guān)系了,那么在這樣的應(yīng)用規(guī)模下,準(zhǔn)確度和實時性能如何?效果如何?
黃樺:效果還不錯。你剛剛提到的億級實體、幾十億級關(guān)系,這樣的規(guī)模是我們在現(xiàn)實項目當(dāng)中有碰到過的,公安的一些場景,公安處量還是非常大的,比如對省級的一個公安部門,有全省的信息,國內(nèi)稍微大的一個省接近上億人嘛,還有外來的,上億的人和上億的事件確實構(gòu)成很大的規(guī)模,我們是可以提供他平常研判所需的,從一個實體人擴(kuò)展他一些關(guān)系的話都是可以在兩三秒左右得到結(jié)果,是非常好的體驗。
問:這個關(guān)系鏈?zhǔn)遣皇怯悬c像六度空間模型?
黃樺:對。六度空間模型更強(qiáng)調(diào)兩個人之間通過不超過六個人認(rèn)識,其實業(yè)務(wù)需求比較多樣,有些是交互式的需求,看一個case的時候需要非常快的調(diào)出這個case的屬性、關(guān)系人。還有一種是需要挖掘的業(yè)務(wù)模型的,比如說用一些圖、算法和應(yīng)有的知識做Offline的。
問:您們的產(chǎn)品主要應(yīng)用公安,金融,那么對安全性的要求應(yīng)該比較高,在安全性方面有哪些舉措呢?
黃樺:我們最開始做公安的時候意識到安全確實是很大的問題,我們采取的方案從兩方面入手:一個是從平臺本身,把數(shù)據(jù)庫做到極致,所有登錄我們這個產(chǎn)品的用戶都做到非常高的級別;二是對應(yīng)用權(quán)限做的比較好,我們這個產(chǎn)品每個模塊誰可以訪問、做什么操作,都是可以控制的。比如我是市局的人登錄省廳的,只能看到市里相關(guān)人員的屬性,不太可能看到別的市的相關(guān)人員的信息,他要看的話需要申請。
問:大數(shù)據(jù)技術(shù)這兩年跟早年
云計算一樣談的比較多,但發(fā)展方向在我看來沒有那么明晰,比如具體的業(yè)務(wù)領(lǐng)域上有些case跟大家講,但是不像運算里就是SD技術(shù)就是一個趨勢,大數(shù)據(jù)里沒有這個,在您看來大數(shù)據(jù)以后的發(fā)展方向或趨勢是往哪里走?
黃樺:趨勢方面,我們還是把知識圖譜或關(guān)系鏈這套理念用于更多的場景,因為我們現(xiàn)在在公安和金融做的比較多,但是我們也在調(diào)研,也在做思考,其它行業(yè)通過數(shù)據(jù)關(guān)聯(lián)做事情也能產(chǎn)生更大的價值。在技術(shù)層,把我們的技術(shù)架構(gòu)做的更細(xì)、更深。我們這套數(shù)據(jù)量可能上億,幾十億,還不錯的量,但是有更大的數(shù)據(jù)量在等著我們,我們跟其他人聊的時候,知道有些涉及到的數(shù)據(jù)量非常大,在技術(shù)方面怎么做更大的數(shù)據(jù)量,在數(shù)據(jù)量更大的情況下保證我們的關(guān)聯(lián)計算、所有查詢、交互都是很好的體驗。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.guhuozai8.cn/
本文標(biāo)題:企業(yè)級大數(shù)據(jù)知識圖譜產(chǎn)品構(gòu)建與應(yīng)用
本文網(wǎng)址:http://www.guhuozai8.cn/html/news/10515519999.html