時下大數據市場越發火爆,各行各業趨之若鶩投入其中。然而隨之產生的問題也越來越多,除去數據清洗、整理、存儲等枯燥的事情外,大數據變現是廠商們最為關注的難點之一。實際上大數據很難通過直接途徑來變現,業務智能化抑或是內容推薦都是一些間接的變現場景,而廣告則是大數據能夠真正變現的場景之一。
依托于強大的MIUI系統、2億手機用戶和完善的生態鏈布局,小米在過去幾年積累了海量用戶數據。本次CSDN有請到小米商業產品部技術總監宋強,請他來分享大數據在小米廣告平臺的各種實踐。
小米商業產品部技術總監 宋強
以下為采訪實錄
CSDN:請介紹下自己和目前從事的工作,以及關注哪些技術領域?
宋強:我是宋強,2014年加入小米,目前在小米商業產品部擔任架構師和研發主管,主要負責小米自有流量和移動網盟業務的變現,包括系統架構、算法策略和數據平臺相關的工作。之前在微軟中國必應廣告部門從事大數據分析、反作弊相關工作。再之前在IBM中國開發中心從事數據庫和查詢優化相關的工作。我個人比較關注的技術包括分布式高并發的系統架構、海量數據分析與處理、數據挖掘和機器學習等。
CSDN:依托于強大的MIUI系統、2億手機用戶和完善的生態鏈布局,小米在過去幾年積累了海量用戶數據。那么與社交網絡、搜索和游戲等網站相比,小米的用戶流量有哪些特點?
宋強:小米是一家硬件公司,也是一家移動互聯網公司,但我更愿意把小米看成一家大數據公司。硬件方面,在過去幾年中,小米一共售出了超過兩億部手機和1500萬臺電視和盒子,另外路由器和手環等生態鏈產品的銷量也非常好。軟件方面,深受用戶喜歡的MIUI是一個深度定制的安卓系統。依托于強大的硬件銷量和MIUI等軟件系統,小米在過去幾年積累了大量的用戶數據,包括APP使用、搜索、購物、社交、娛樂等。小米是一家真正的大數據公司,小米的大數據和其他公司相比,最大的特點和優勢是“全生態、多樣性”。
CSDN:在時下這個業務變更頻繁的背景下,可否為我們分享下小米大數據的實踐經驗?
宋強:小米大數據在小米多個業務中得到了充分的應用和實踐。首先是廣告營銷,通過點擊預估算法提升廣告收入,通過營銷DMP幫助廣告主進行精準營銷等等。其次,大數據在小米金融業務中也廣泛應用,包括風控和征信分析、反欺詐等。在搜索和推薦業務中,大數據對各種算法的提升也起到了至關重要的作用,包括查詢理解、相關性模型和點擊預估等。
CSDN:目前小米廣告大數據已發展較為成熟,您覺得未來會朝著哪些趨勢發展?
宋強:未來的趨勢應該是更加智能化。首先是算法的智能化,隨著機器學習和人工智能的進一步發展,大數據的價值將得到更加充分的挖掘。其次是營銷的智能化,通過多維立體的用戶標簽數據,從性別、年齡等基礎數據,到APP使用頻次和時長、運動軌跡、手機信號等數據形成的興趣標簽,再到精準的時間、位置、場景化標簽,幫助廣告主進行更加智能化的廣告營銷。
CSDN:數據應用場景是數據商業化過程中重要的方面之一。小米的廣告大數據有哪些應用場景?
宋強:小米廣告大數據的應用場景有很多,首先是廣告算法優化,包括點擊率預估、反作弊、用戶體驗優化、廣告主ROI優化等多個方向。其次是營銷DMP,小米的營銷DMP通過整合媒體、投放平臺以及廣告主的各方數據,使用大數據技術對用戶的特征進行挖掘,為廣告主提供了20多個維度、上百個標簽的實時用戶畫像管理。
CSDN:與搜索的基礎架構相比廣告平臺要求更高的實時性反饋,小米廣告平臺的架構是怎樣的?
宋強:小米廣告平臺負責小米應用商店、瀏覽器、一點資訊、小米電視等全線軟硬件幾十個業務的變現。支持應用游戲下載、信息流、搜索、開屏、視頻貼片、電視畫報等十余種主流和創新的移動廣告形式。總的說來,小米廣告的業務比較復雜和多樣化,小米廣告平臺的架構也是隨著業務的發展不斷的迭代和優化。
目前整個系統架構包括接入層、服務層、算法層和存儲層。接入層負責流量的接入、管理、配置和運營。服務層是廣告檢索的核心,包含廣告選取、過濾、排序等核心邏輯,主要的服務有廣告交易平臺、效果和排期廣告服務等。算法層負責點擊率預估、預算平滑、精準定向等算法,存儲層則是各種廣告和用戶數據訪問層。
廣告平臺架構在演化過程中,我們一直秉承以下幾個思路:
首先,架構為業務服務,每一次架構的迭代都是業務驅動的。我們的團隊也是按照業務進行劃分的,每個業務團隊有明確的目標,通過目標驅動架構的微調和迭代,也許架構并不是完美的但卻是最有效的。
其次,業務邏輯配置化+公共邏輯服務化。不同廣告業務在產品形態、素材規格、競價方式方面會有所不同并且會隨著時間不斷變化,架構必須足夠靈活來支持業務的變化和差異化。通過資源管理平臺對廣告位進行自動化的管理,使得業務邏輯配置化。同時,不同業務總是有一些共性的需求,通過對公共邏輯的模塊化和服務化,減少耦合和重復建設,提高系統的穩定性和可靠性。
CSDN:準確的廣告點擊率預估可以提高真實的廣告點擊率,增加收益。能否為我們詳細介紹下小米的點擊預估實踐?
宋強:點擊預估是廣告算法的核心,我們的點擊預估工作大部分時間都是在做特征挖掘和模型優化。特征挖掘更像是一門藝術,需要熟悉業務,更需要靈感。算法工程師每天的工作就是搜腸刮肚找出跟用戶點擊廣告相關的信號。大部分可能是弱信號,組合起來才能發揮威力。模型則是兵器庫,過去兩年我們嘗試了離線LR,在線FTRL,非線性模型FM和GBDT,以及正在實驗中的深度模型等,有很多收獲,也碰到了很多坑。由于小米廣告的業務比較多,我這里分別介紹應用分發、搜索和信息流廣告的點擊預估工作。
應用分發:移動互聯網發展到今天,應用推廣仍然是效果廣告主的首要訴求。依托于小米應用商店、瀏覽器和小米視頻等app,應用分發成為了小米廣告平臺收入的重要組成部分,算法優化則是不斷提升收入的利器。
特征工程方面,我們嘗試了以下幾大類的特征:用戶特征(人口屬性、系統信息等)、廣告特征(id、類別、位置等)、用戶行為特征(app歷史安裝、近期下載、近期使用等)、用戶廣告行為特征(廣告的曝光、點擊、下載等)、組合特征(用戶特征X廣告特征等)。其中,用戶行為特征被證明為最有效,這也是和業務/產品形態最最密切相關的特征。模型方面,從最開始的LR到天級的FTRL,再到小時級的FTRL,效果逐步提升。
搜索:這里的搜索指的也是應用搜索,主要依托于應用商店和瀏覽器龐大的搜索流量進行變現。在模型優化方面,最初的模型是一個純文本相關性的模型,主要考慮搜索關鍵詞和廣告文本(包括app的名稱、描述等)的相關性。接著我們嘗試了行為相關性模型,主要是基于協同過濾的思想來計算兩個app的相似性(item-based)。今年開始正式采用了點擊率模型,收入也是取得了大幅度的增長。
特征工程方面,和應用分發類似,也是這么幾大類的特征。需要重點highlight的是搜索上下文特征在搜索場景最有效,比如搜索關鍵詞、搜索自然結果及分類、搜索來源等。
信息流:信息流廣告起源于Facebook,在國內多家廣告平臺取得成功(如今日頭條,微博等)。信息流的廣告形式有大圖、小圖、組圖等形式,廣告類型包括應用分發、H5和視頻等。競價方式也是多種多樣,CPC/CPD/CPM/CPT要啥有啥。小米信息流廣告的主要載體是一點資訊和瀏覽器,也是我剛進小米之后接手的第一塊業務。
信息流廣告的算法優化和應用分發類似,也有一些不同的地方。信息流廣告的素材更新頻繁,廣告數量也比較多。反應到模型方面,小時級的FTRL模型比天級模型有大幅度的提升。
CSDN:時下機器學習、人工智能等新技術越發火爆,小米毋庸置疑也應用了這些技術。請問小米應用的機器學習反作弊功能是怎樣實現的?
宋強:首先,移動端的作弊和刷量現象非常嚴重。據統計,70%的推廣渠道存在刷量作弊行為。移動端的作弊手段也是多種多樣,主要表現在:
-
刷機:通過特殊的刷機軟件,篡改手機的環境參數,如IMEI/MAC等,模擬多用戶下載、激活和使用。
-
模擬器:通過虛擬機軟件(bluestacks,Virtual Box等)自動運行腳本,模擬用戶點擊、下載、激活、留存等數據。
-
程序化點擊:通過雇傭或者劫持的方式,利用大量真實設備進行程序化的點擊、下載、激活等。
反作弊的關鍵技術:
-
設備真偽識別:一般是通過SDK的方式采集硬件信息,為每臺設備生成唯一的設備id,后續即使刷量者對設備的硬件信息進行修改,唯一的設備id也不會變。市場上有多家公司提供了類似的解決方案,比如數盟、量江湖、maxent等。小米與其中幾家公司有緊密的合作,并且自己也開發了一套基于硬件標識的設備真偽識別方案。
-
用戶行為分析:不管是哪種作弊手段,都是有規律可循的,通過大數據分析和機器學習一定能找到蛛絲馬跡(正所謂“魔高一尺,道高一丈”,“天網恢恢,疏而不漏”……)。比如用戶IP分布異常、機型分布異常、點擊率異常、下載激活時間間隔異常、留存率和使用時長異常等等。作弊的仿真度越高,異常特征就越不明顯,對應的反作弊技術和代價也就越高。
CSDN:對于服務商而言用戶體驗非常關鍵,基于廣告大數據的小米在用戶體驗優化上做了哪些努力?
宋強:首先,用戶體驗優化的目標是通過減少廣告展現來提升用戶體驗,但這里有兩個問題需要解決:用戶體驗的指標是什么?如何平衡廣告收入和用戶體驗?對于用戶體驗,不同的產品有不同的定義:下滑率,搜索次數,頁面點擊率等。為了簡化優化目標,我們挑選了以下幾個對于大部分產品都適用的指標:主要指標是留存率和日活率,次要指標是使用次數和時長。
用戶體驗模型綜合考慮了幾個方面的因素來決定廣告最終是否展現給用戶:首先是廣告質量分模型。最簡單的質量分模型只考慮廣告效果,比如CTR,RankScore(綜合考慮CTR/CVR和出價的廣告排序分數)等。基于這些數據可以做簡單的“斷尾計劃”(也就是對于CTR或者RankScore做一個閾值控制)。這種方案實現簡單,但效果一般。目前我們正在實驗用戶容忍度模型和用戶影響力模型,以后有機會再展開來講。
CSDN:為了獲取真實可用的數據從而提升收益,小米提出了廣告主ROI算法模型。那么能否詳細介紹下這一模型?
宋強:點擊預估模型的優化目標是eCPM和收入,但是廣告主的投放目標是ROI,兩個目標是不完全一致的。另外,不同的廣告主對于R的定義也不一樣,有的是激活/留存(新聞資訊),有的是用戶注冊(金融理財),有的是下單/消費(電商購物)。
廣告主ROI優化牽涉兩方面的工作:數據收集和模型優化。
數據收集:廣告數據的完整生命周期包括曝光、點擊、下載、激活、留存、注冊、消費等。其中曝光/點擊/下載是發生在流量方的數據,可以很容易獲取并用于點擊預估模型,提升廣告收入。激活和留存是廣告主app的使用數據,通過MIUI系統可以獲取。注冊和消費則是廣告主app內部使用數據,很難通過系統的方式獲取,需要和廣告主進行數據合作。
模型優化:以激活率模型為例,可以結合CTR模型進行,通過激活數據修改CTR模型的正樣本來調整點擊預估結果。也可以單獨訓練激活率模型,然后在廣告排序中同時考慮CTR和CVR。
CSDN:前面講了很多大數據在廣告算法中的應用,能否總結一下經驗?
宋強:我們的算法團隊在過去將近兩年的時間里,從點擊預估開始,逐步拓展到反作弊、用戶體驗優化、廣告主ROI優化、智能出價、預算平滑等方向。取得了一些成績,也踩過了很多坑。由于人力有限,我們的算法工作絕大部分時間都是在特征工程和模型優化兩方面,我這里就圍繞這兩塊做一些經驗總結:
特征工程:首先,和業務本身相關的行為特征是最有效的,比如“用戶在商店的安裝列表”相比用戶屬性(比如年齡性別),對點擊預估更有效。其次,保持數據的“原汁原味”,二次加工反而容易丟失信息。比如將用戶的歷史瀏覽加工成用戶的靜態興趣分布,還不如直接用原始的歷史瀏覽有效。最后,組合特征才能發揮最大威力。
模型優化:首先,不要輕易放棄線性模型,通過適當的組合特征一般來說效果會非常好。離線實驗了FM等非線性模型,效果并不明顯。其次,線性模型+深度模型可能是未來的方向,比如Google最近的Wide&Deep Learning,我們正在線下實驗,已經看到一些效果。
CSDN:您在分布式系統架構、大數據分析、數據庫和查詢優化方面都有著豐富的經驗,可否分享下您學習新知識或技能的方法?以及在日常生活中是通過哪些方式來提升個人技能的?
宋強:我個人對技術比較有熱情,以前學習新知識和提升技術的主要方式就是看書和寫代碼,現在有一部分時間花在了團隊管理上面,但仍然保持著“學習-實踐-交流”這樣一種方式來不斷提升自己的技術。
學習:活到老學到老,主動學習仍然是獲取新知識最重要的方式。現在技術的發展日新月異,每天都有新的東西出來。當然不需要也沒有精力都去學,但是和業務相關的技術,我一般都會花一些時間去了解和學習。
實踐:最好的技術提升在實踐中,離開了業務實踐,空談系統架構和算法優化都是沒有意義的。我每天會花大量的時間和同事一起討論系統設計并進行代碼review,讓自己保持對業務和技術的敏感性。
交流:我們團隊內部定期會有技術交流,比如druid實時數據分析,redis優化等。我們團隊有很多技術大牛,他們對技術非常熱衷并樂于分享,每次技術交流都讓我受益匪淺。另外,我也參加一些業界的技術交流,向大牛學習的同時也分享自己的一些經驗。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:小米宋強:生態化大數據平臺的深度應用實踐
本文網址:http://www.guhuozai8.cn/html/news/10515520224.html