近些年來,機器學習技術取得了巨大的進步,使得計算機系統能夠解決復雜的現實問題。其中一項先進技術就是由Google研究院的Expander組開發的大規模、基于圖的機器學習平臺。基于圖的機器學習是一款功能強大的工具,被廣泛用于我們日常接觸到的Google產品和功能,比如用于收件箱的提醒功能和Allo的智能消息,或是用于深度神經網絡來支持Google Photos的最新圖像識別系統。
最少監督的學習
近期大多數在深度學習和機器學習領域取得的進展,都可以歸因于較好預測能力的模型,這些模型是在大量有標記數據集上訓練得到,通常有上百萬的訓練樣本。由于需要監督式的訓練機器學習模型,即用人工標記過的訓練數據,因此這種方法也被稱為“監督式學習”。(相反的,有些機器學習方法直接處理原始數據,不存在監督,它們被稱為非監督式學習。)
然而,待完成的任務越復雜,則越難獲取足夠多的高質量標記數據。每遇到一個新問題,往往需要投入大量的人力和時間來標記數據。這促使了Expander團隊投入研發新的技術來驅動大規模的機器學習應用,以盡可能減少人工監督。
Expander團隊的技術是受到人類概況和推演的啟發,將已知的知識(已標記數據)與新鮮的、不熟知的觀察內容(未標記數據)相聯系。這個強大的技術稱作“半監督式學習”,它可以讓我們利用稀疏的訓練數據搭建系統。基于圖的半監督式學習的主要優勢之一就是(a)它可以在學習階段對已標記的數據和未標記的數據共同建模,利用數據的底層結構,(b)可以便捷地組合多類信號(例如原始特征與知識圖譜的關系信息相結合)形成一個獨立的圖表示,基于此來學習。這有別于與其它的傳統機器學習方法,比如神經網絡方法,后者是先用標記的訓練數據和特征訓練得到一個模型,然后將模型用于預測未標記的數據。
圖學習的原理
在其核心部分,Expander的平臺構建了數據的一個多圖表達,各個節點對應于物體和概念,相似的概念節點之間有邊相連,因此它將半監督式學習與大規模基于圖的學習結合在一起。圖往往包含了標記數據(輸出類別或標簽已知的節點)和未標記數據(沒有標簽的節點)。接著,Expander的框架在圖上傳播標簽信息,用半監督式的學習方法給所有節點打上標記。
然而,說起來容易做起來難!我們需要:
(1)用最少的監督來有效率地學習(即極少量的標記數據);
(2)處理多種形態的數據(即數據的異形表達和多種數據源);
(3)解決高維數據的預測難題(高維、復雜的輸出空間),數據可能還含有噪音。
整個學習過程中的關鍵成分就是圖與節點的連接方式。圖的形狀、尺寸千變萬化。我們注意到,用多種數據源的不同表達形式組合而成的信息構建多圖結構,這樣的效果比較好(比如,Allo的PhotoReply采用了圖片像素、物體類別和對話反饋信息等)。Expander團隊的圖學習平臺基于數據間推測或已知的關系直接自動地生成關系圖。數據可以是結構化的(如關系型數據)或是非結構化數據(如,從原始數據中提取的稀疏或稠密特征表達)。
為了理解Expander的系統如何學習,我們來看一下下圖所示的例子。
圖中有兩類節點:“灰色”表示未標記數據,彩色的是標記過的數據。節點之間的關系用邊來表示,邊的粗細表示關系的強弱。我們可以這樣來刻畫這個半監督式學習問題:預測圖中每個節點的顏色(“紅色”或“藍色”)。注意,圖的結構和節點顏色需要根據實際任務而定。舉個例子,在我們最近發表的一篇文章中,我們為收件箱智能回復功能設計的圖的節點是郵件信息,顏色表示用戶回復的語義類別(比如,“是的”,“好棒”,“有意思”)。
Expander圖學習框架把這類標記問題當做優化問題來處理。在最簡單的層面,它學會根據每個節點的周邊節點顏色和連接強度來給所有節點指定顏色。一種簡單的方法是一次性處理所有的節點數據 —— 這種方法無法擴展到大圖上。我們可以對此問題做優化,將已標記節點的顏色信息傳播到它們的鄰居節點,然后重復這個過程。在每一步中,未標記節點會根據其鄰居節點中的顏色標記上顏色。我們可以反復迭代這個過程,直到所有的節點都被打上標記。這個方法的效率非常高,在本例中,迭代的結果最終是收斂的。
基于圖的半監督式學習
實際上,我們基于圖結構設計了復雜的優化函數,其中包括了額外的信息和限制,形成了復雜的非凸問題。然而,正在的挑戰在于將這種方法高效地推廣到包含幾十億節點、幾百億邊的大規模圖模型中,乃至包含上億種不同標簽的復雜問題。
為了解決這一問題,我們創造了一種分布式流式方法,去年發表了論文Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation。此文介紹的流式算法可以快速處理非常大的圖數據。此文,它還解決了其它實際問題,它保證了系統的空間復雜度和內存需求保持恒定,與任務的難度無關,即無論是兩個標簽還是成千上萬個標簽,整個系統使用的內存量都不變。它推動了圖技術廣泛地應用與自然語言理解、機器感知、用戶建模,甚至文本、圖像、語音糅合的多態學習任務。
言語幽默的圖表達
我們舉一個基于圖的機器學習方法在語言理解方面的應用案例,比如收件箱智能回復功能中的情感識別,它的目標是給文本中的詞語標記上細粒度的情感類別。首先,使用神經網絡模型在文本集上訓練得到詞向量表達,即每個詞的意思都用一個向量表示。然后,用詞向量構建一個稀疏的圖,每個節點表示一個詞語,邊表示詞語之間的語義聯系。邊的權值通過詞向量的相似度計算得到 —— 舍棄相似度過低的邊。我們先給其中一小部分節點打上情感標記(比如,“笑”被標記為“有趣”),然后在整個圖上應用半監督式學習方法,給剩余的詞語都標記上合適的類別(ROTFL由于與“笑”語義上比較接近,也被標記為“有趣”的類別)。
用詞向量和圖結構方法學習詞語的情感關系
對于大數據集的應用產品,比如觀察到的數據(如圖像的像素值)或者通過神經網絡學到的表達(如詞向量),不可能直接計算圖上兩兩節點之間的相似度。Expander團隊采用近似計算的方法來解決這一問題。
基于圖方法的實踐應用
Expander團隊的機器學習系統如今已經被廣泛應用于大規模的圖數據上(十億級節點和百億級邊),用于識別和理解自然語言、圖像、視頻、搜索詞等,支持Google的眾多產品,比如問答、翻譯、物體識別、對話理解等等。
隨著最近Allo的版本升級,幾百萬的聊天用戶都能體驗到由Expander團隊的系統所支持的對話助手功能。而且,這種技術不僅僅用于云端的大規模模型,也能用于安卓系統的智能移動設備。我們期待未來幾年內Expander能夠解決更多挑戰性的問題。
評論
基于圖的傳播方法早在十多年前就被人廣為使用。Google的貢獻在于將這一的方法推廣到海量數據集,使得用有限的空間和計算資源能夠處理幾十億節點和幾百億關聯的巨型圖。而且,半監督式的學習方法只需要少量的標記數據,解決了傳統機器學習方法面臨的人工標注大量數據的問題。因此,我們可以充分利用大數據時代在各個渠道生產的各種結構和類型的數據。
文中介紹了這套系統已經應用于Allo的智能回復功能,它可以自動分析前后對話和對方發送的圖片,自動幫用戶生成要回復的話語。本人比較好奇的是基于圖的方法在個性化回復方面有什么改進,系統如何針對用戶的聊天習慣生產回復內容,在龐大數據的前提下它能多像使用者。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:Goolge圖學習技術揭秘
本文網址:http://www.guhuozai8.cn/html/solutions/14019320187.html