一、商務智能(BI),商業智慧(BI)的發展方向:
BI新走向之一:融合加強,演變成門戶化
BI新走向之二:日趨“傻瓜”,體現人性化
BI新走向之三:移動BI將成為新戰場
BI新走向之四:在云中部署BI,成為主流方向
BI新走向之五:SaaSBI日漸雄起,受中小企業青睞
BI新走向之六:可視化技術呈亮點,交互式分析助推BI
BI新走向之七:外部信息將整合到內部BI中,內外網信息并聯互動
二、智能的搜索引擎研究方向:
查詢聚類(Query clustering)
查詢意圖識別(Query intent recognition)
查詢推薦(Query suggestion)
查詢改寫(Query rewriting),具體包括:
查詢同義變換(Query paraphrasing)
查詢擴展(Query expansion)
查詢縮略(Query reduction)
查詢糾錯(Query error correction)
學習排序(Learning to rank)
個性化搜索(Personalized search)
命名實體挖掘(Named entity mining)
本體知識庫構建(Ontology construction)
三、商務智能(BI),人工智能(AI)的研究方向:
1.基于大規模機器學習的排序算法(Machine Learning to Rank)
排序算法是搜索技術的核心之一,基于機器學習排序算法將機器學習技術應用于排序問題。研究內容包括但不限于:
排序算法的分布式訓練;
排序算法的在線學習(online learning);
排序算法的在線預測速度提升;
多目標優化的排序算法。
2.海量特征設計(large scale feature engineering)
特征設計在機器學習系統中扮演著至關重要的作用。但當面臨海量數據時,往往特征數量也會是海量的,這時如何做好特征選擇、特征組合等工作,與小規模時相比會復雜很多。研究內容包括但不限于:
海量特征自動選擇;
海量特征自動組合。
3.高效訓練樣本獲取(Label Complexity Reduction)
機器學習算法要求大量的高質量的標注樣本,然而標注樣本耗時耗力,并且在樣本到達一定量后,對樣本量的需求增幅遠大于訓練效果提升,如何高效地獲取良好樣本是一個挑戰。海量互聯網數據下的LTR的樣本獲取、多語言學習任務背景下標注樣本的獲取、網頁/網站/query等的分類或聚類所需樣本等是高效樣本獲取方法的應用場景。本方向的問題包括但不限于:
通過主動學習(Active learning)加速標注流程。
通過遷移學習/多任務學習(Transfer learning/multi-task learning) 利用其他領域的知識和標注樣本來提升另一領域的學習效果。
通過半監督學習(Semi-supervised learning),考慮如何利用少量的標注樣本和大量的未標注樣本進行分類和聚類,相關問題有半監督學習的算法改進、半監督學習的在線學習(Online-learning)或者增量學習(incremental-learning)算法等。
4.規則系統與機器學習系統的整合 (Integration of rule-based system and learning-based system)
規則系統和學習系統一直是人工智能實現方法的兩個分支,二者各有優劣。規則系統更擅長高頻和訓練數據稀疏部分,而學習系統的泛化能力更出色。如何結合兩者的優勢,規避各自的缺點,是我們希望探討的地方。研究內容只要與兩個系統的整合相關即可。
5.海量數據的主題模型(Topic-model on large scale data)
主題模型主要使用大規模的文檔—詞匯共現(co-occurrence) 矩陣,例如1億*100萬的矩陣來建模文檔和詞匯間的潛在聯系。研究內容包括但不限于:
主題模型的建模改進;
主題模型的在線學習(Online learning)或者增量學習(incremental learning);
主題模型訓練過程的大規模并行優化;
主題模型的應用。
6.推薦系統(recommender system)
推薦系統有著廣泛的應用,如搜索引擎和電子商務網站以各種方式使用著推薦系統。在百度的應用即包括在搜索、知道、音樂、貼吧等用戶產品內及產品間的推薦,也包括面向搜索請求推薦廣告、面向廣告商推薦關鍵詞等。不同應用場景的應用目標和數據量存在較大差異,對于推薦算法本身也存在不同要求。在本領域的研究包括但不限于:
推薦系統的設計;
推薦算法的改進;
推薦效果的評估;
個性化推薦。
7.點擊模型(Click Model)
百度擁有中國搜索引擎市場上最豐富的用戶數據,點擊模型將極大提升用戶對搜索的需求滿意度。研究內容包括但不限于:
用戶行為數據清洗;
用戶行為分析和建模;
用戶行為用于評測。
8.網頁多分類學習
互聯網中網頁資源可以按照不同的維度劃分成不同的類型,而且一個網頁可能兼有多個維度的類型標記。該方向的主要目標就是:如何自動高效地為網頁進行分類標記。研究內容包括但不限于:
網頁分類的機器學習模型研究:二分類/多分類/多標記學習/無監督學習等;
主題/資源/結構分類特征挖掘;
模型的跨語言通用性研究。
9.基于海量網頁的結構化信息自動抽取研究
WEB結構化信息抽取就是將網頁中的非結構化數據按照一定的需求抽取轉換成結構化數據。研究內容包括但不限于:
結構化信息自動抽取方法改進;
抽取規則生成表示優化。
10.觀點挖掘、情感分析(opinion mining and sentiment analysis)
觀點挖掘、情感分析主要是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。研究內容包括但不限于:
情感分析的算法改進;
情感分析在大規模數據(博客、微博、新聞評論、商品評論)中的應用;
情感分析在推薦中的應用。
11.基于機器學習的反作弊研究(fraud detection based on machine learning)
基于機器學習的反作弊研究內容包括但不限于:
自動訓練數據標注;
作弊特征分析;
在線實時作弊檢測;
離線批量數據評估。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:商務智能的發展——未來的研究方向