第四范式涂威威：AutoML 回顧與展望

本文作者：汪思穎

2019-03-25 10:19

導語：全面介紹~

雷鋒網 AI 科技評論按，本文作者第四范式涂威威，該文首發于《中國計算機學會通訊》第15卷第3期，雷鋒網 AI 科技評論獲中國計算機學會授權轉載。

自動機器學習的研究動機

機器學習在推薦系統、在線廣告、金融市場分析、計算機視覺、語言學、生物信息學等諸多領域都取得了成功，在這些成功的應用范例中，也少不了人類專家的參與。Google、 Facebook、百度、阿里巴巴、騰訊等科技公司依靠其頂尖的機器學習專家團隊來支撐機器學習在企業內部的各種應用，各類科研機構也在花費大量經費，維護著機器學習科學家團隊。然而，對于很多傳統企業、中小型企業和一般的科研機構，就很難組建出這樣的機器學習專家團隊，其原因是機器學習專家的缺口太大，人才短缺，人才搶奪激烈，專家團隊的管理成本高昂和專家經驗不可復制，等等。

為了機器學習能為更多的企業賦能，在更加廣泛的場景得到應用，有沒有低門檻甚至零門檻的機器學習方法，讓更多的人可以在很少甚至幾乎沒有專業知識的情況下輕松使用，并減少機器學習應用落地對專家人才的依賴？自動機器學習(Automatic/Automated Machine Learning, AutoML)應運而生。其研究目的就是為了使機器學習過程自動化，減少、甚至完全規避人類專家在這個過程中的參與度。

理論出發點

設計機器學習算法是一件困難重重的事情，能否找到一種通用的機器學習算法來解決所有的機器學習問題呢?這個問題在 20 多年前就被解答過，對于所有可能的問題，可以證明的是，如果所有問題同等重要，所有的算法，包括完全隨機的算法，它們的期望性能是一樣的，所有的算法沒有優劣之分，這是著名的沒有免費的午餐 (No Free Lunch, NFL)定理的一個不太嚴謹的直觀闡述。

這個定理意味著尋求一種完全通用的機器學習算法是行不通的。于是，研究人員就開始針對不同的問題展開對應的機器學習研究，這導致了機器學習技術廣泛應用不可復制的問題。在解決某個特例問題的機器學習算法和針對所有問題完全通用的機器學習算法之間，有一種可能性是存在可以解決某一類而不只是某一個特例的相對通用的機器學習算法。自動機器學習就是從這樣的理論考慮出發，試圖去尋找更加通用的機器學習算法。

目前自動機器學習研究的主要場景

靜態閉環自動機器學習

靜態閉環自動機器學習考慮的是靜態機器學習問題，即給定固定的訓練集，不利用外部知識，尋找在測試集上期望表現最好的機器學習模型。經典的機器學習流程包括數據預處理、特征處理和模型訓練。自動機器學習在這三個流程中都有廣泛的研究 :

(1) 數據預處理中，研究數據的自動清洗、樣本的自動選擇、數據的自動增強、數據類型的自動推斷等，以達到理解原始數據和提升數據質量的目標。

(2) 對特征處理方法的研究主要包括自動特征生成和自動特征選擇。自動特征生成的研究包括單特征變換、多特征組合、深度特征生成、特征學習等。自動特征選擇一般會配合自動特征生成使用，先自動生成特征，再進行自動特征選擇，對于復雜的特征處理，一般兩者交替迭代進行。

(3) 模型訓練的研究一般包括自動算法選擇和自動算法配置。自動算法試圖從廣泛的機器學習算法中選擇適合問題的某一個或者某幾個算法，這些算法又有很多的超參數需要配置，自動算法配置則研究如何進行超參數選擇配置，比如如何配置神經網絡結構，實際應用中這兩者也會配合使用。

外部知識輔助的靜態自動機器學習

外部知識輔助的靜態自動機器學習試圖借鑒人類專家選擇數據處理方法、特征處理方法、模型訓練算法等的方式進行自動機器學習。人類專家會從以往處理過的機器學習問題中積累經驗，并將此推廣到之后的機器學習問題中。

動態環境的自動機器學習

動態環境下的自動機器學習研究試圖解決的是數據不斷積累、概念發生漂移時的問題。

核心技術

自動機器學習的研究核心是如何更好地對數據處理方法、特征處理方法、模型訓練方法等基礎部件進行選擇、組合以及優化，以使學習到的模型的期望性能達到最優(見圖 1)。

目前該項研究主要面臨三個難點 :

(1) 超參配置與效果之間的函數無法顯式表達，屬于“黑盒”函數;

(2) 搜索空間巨大，可能的處理方法和組合是指數級，同時不同處理方法擁有各自的超參數，當特征維度超過 20 時，其多目特征組合可能的搜索空間都將遠超圍棋可能的狀態空間 ;

(3) 函數值的每次計算大多涉及數據預處理、特征處理、模型訓練的全流程，函數值的計算代價極其昂貴。為了解決這些問題，采用的核心技術是基礎搜索方法、基于采樣的方法和基于梯度的方法。

第四范式涂威威：AutoML 回顧與展望

圖1 自動機器學習的框架

基礎搜索方法

搜索方法中最常見的是格搜索方法。該方法通過遍歷多維參數組合構成了網格尋求最優化，容易實現，應用廣泛，但是，搜索復雜度隨參數維度呈指數增長，并且會將搜索浪費在不太重要的參數維度上。隨機搜索方法則是對參數空間進行隨機采樣，各個維度相互獨立，克服了維度災難和浪費資源搜索的問題。在實際應用中，隨機搜索方法往往表現得比格搜索要優秀。

基于采樣的方法

基于采樣的方法是被研究得最多的方法，大多也是具有理論基礎的方法，往往比基礎搜索方法表現更優。這類方法一般會生成一個或者多個對樣本空間的采樣點，之后再對這些采樣點進行評估，根據評估的反饋結果進行下一步采樣，最后尋找到相對較優的參數點(見圖 2)。基于采樣的方法分為以下四類：

第四范式涂威威：AutoML 回顧與展望

圖2 基于采樣的方法

基于模型的零階優化方法

該方法試圖建立關于配置參數和最終效果的模型，并依據模型來尋求最優化。這類方法一般先基于已經采樣到的點的效果評估建立模型，然后基于學習到的模型采用某種采樣策略來生成下一個或者下一組采樣點，根據新的采樣點得到的效果進一步更新模型，再采樣迭代，如此尋求對黑盒函數的最優化。由于待優化的函數是“黑盒”函數，在求解過程中只能獲得函數值而不能直接計算函數梯度，因此也被稱為零階優化方法(零階是相對于傳統計算一階或者二階梯度的優化方法)或者非梯度方法。

這類方法有兩個主要的關注點 : 模型和采樣策略。構建的模型一般用來預測配置參數對應的效果。由于采樣依據的模型僅僅是依據之前采樣得到的點的反饋學習，對函數空間未探索區域的估計一般是不太準確的，采樣策略需要在函數最優化和空間探索之間做出權衡，即在開發利用 (exploitation) 和探索 (exploration) 之間做出權衡，簡稱 E&E。

貝葉斯優化是一種基于概率模型的方法，一般采用高斯過程、貝葉斯神經網絡、隨機森林等作為模型，然后采用提升概率、提升期望、交叉熵、GP-UCB 等作為采樣策略，這些策略都在顯式或者隱式地進行 E&E。最常見的是基于高斯過程的貝葉斯優化方法，這類方法在參數維度較低、采樣點較少時表現較優，但是在高維、采樣點較多時就很難被使用，因此有學者嘗試使用貝葉斯神經網絡解決這樣的問題。

基于分類方法的隨機坐標收縮方法 (RAndom COordinate Shrinking, RACOS) 和基于隨機坐標收縮分類模型來進行基于模型的零階優化，有效地解決了貝葉斯優化方法的計算復雜度高、參數類型受限的問題，它一般采用最簡單的 ε-greedy 方法來進行 E&E。隨機坐標收縮方法被證明在高維度場景下顯著優于基于高斯過程的貝葉斯優化方法。

局部搜索方法

局部搜索方法一般定義某種判定鄰域的方式，從一個初始解出發，搜索解的鄰域，不斷探索更優的鄰域解來完成對解空間的尋優。最常見的方法有爬山法、局部集束搜索等。局部搜索簡單、靈活并易于實現，但容易陷入局部最優，且解的質量與初始解和鄰域的結構密切相關。

啟發式方法

啟發式方法主要是模擬生物現象，或者從一些自然現象中獲得啟發來進行優化，最典型的就是基于演化計算方法。這類方法由于很少有理論依據，實際工作中很難對方法的效果進行分析。

基于強化學習的方法

這類方法能夠發現一些新的神經網絡結構，并被驗證具有一定的遷移能力，但是由于強化學習自身的學習算法研究尚未成熟，其優化效率相對低下。

基于梯度的方法

由于對優化部件以及超參數的可微性要求較高，并且計算復雜度也高，因此，直接對優化目標進行梯度求解的方法很少使用。

研究熱點

自動機器學習的研究熱點是效率和泛化性。解決自動機器學習的效率問題是自動機器學習技術落地的關鍵之一。效率優化包括六類 :

(1) 混合目標優化，將參數點的評估代價也作為優化目標的一部分，在計算代價和效果之間做權衡。

(2) 同步并行化和異步并行化。

(3) 提前停止迭代，在訓練早期就剔除一些表現不太好的參數，節省計算資源，比如最經典的逐次減半策略，每過一段時間都剔除其中一半不好的參數，極大地節省了計算資源(見圖 3)。

(4) 對模型訓練進行熱啟動，復用類似參數的訓練結果，降低超參數的評估代價。

(5) 對數據進行采樣，采用小樣本上的參數搜索來代替全樣本的參數搜索，由于小樣本和全樣本最優參數之間可能存在著差異，有一些研究人員試圖學習小樣本和全樣本之間的關系來進行多保真度的自動機器學習(見圖 4)。

(6) 將超參數搜索和機器學習過程結合起來，進一步提升效率和效果，比如基于種群的方法。

機器學習關注的核心是泛化性，自動機器學習的目的也是為了提升最終學習到的模型的泛化性。

第四范式涂威威：AutoML 回顧與展望

圖3 逐次減半策略

第四范式涂威威：AutoML 回顧與展望

圖4 多保真度的自動機器學習

如何判斷自動機器學習是否提升了泛化性，一般采用切分訓練集和驗證集的方式進行估計。為了進一步降低過擬合到驗證集的風險，有一些研究關注如何對模型的泛化效果進行更合理的估計。除此之外，由于自動機器學習往往伴隨著很多次不同參數的模型學習，與最終只選擇一個“最優”的模型不同，選擇其中一些模型進行集成學習也是一種提升泛化性的方式。越來越多的工作混合多種效率優化和提升泛化性的策略對自動機器學習算法進行優化。

落地應用

來自不同數據之間解決問題手段的可遷移性 / 可復制性為自動機器學習的落地增加了難度。解決不同問題的手段相似性或者可遷移性 / 可復制性越高，自動化越容易，反之越難。目前自動機器學習落地的應用場景主要有圖像數據和表數據。

圖像數據

深度學習取得成功的領域來自圖像。深度學習的核心在于“自動”學習層次化特征。以前的圖像分析需要人工來做，要從原始像素中提取非常多的特征，而深度學習很好地解決了這個問題。深度學習使得特征可學習，同時將人工特征設計轉變成了人工神經網絡結構設計。對于這類數據，自動機器學習研究的核心是使圖像領域的神經網絡結構設計自動化。圖像數據之間的相似性較大，原始輸入都是像素，問題解決方案的可遷移性和可復用性也大，因此，自動機器學習在圖像數據上的落地相對容易。

表數據

表數據是抽象數據，不同的表數據之間沒有很強的相似性，不同表數據各列的含義千差萬別，表數據還與實際業務密切相關，需要解決時序性、概念漂移、噪聲等問題，因此自動機器學習在表數據上落地的難度較大，僅僅是自動神經網絡結構設計是遠遠不夠的。目前研究的熱點還包括如何將分布在多個表中的數據自動轉化成最終機器學習所需要的單個表數據。

未來展望

算法方向

在自動機器學習算法方面，未來的工作如果能在 5 個方向上取得突破，將會有較大的價值。

1. 效率提升。效率可從時間復雜度和樣本復雜度兩方面考量。在給定的計算資源下，更高的效率在一定程度上決定了自動機器學習的可行性，意味著可以進行更多探索，還可能會帶來更好的效果。另外，獲取高質量有標記的樣本往往是非常昂貴的，因此樣本復雜度也是影響機器學習落地的關鍵因素之一。在外部知識輔助的自動機器學習中引入學件 (學件 = 模型 + 模型的規約)，利用遷移學習，是未來有效降低樣本復雜度的可能方向 (見圖 5)。

第四范式涂威威：AutoML 回顧與展望

圖5 遷移學習與學件

2. 泛化性。目前自動機器學習在泛化性上考慮較少，泛化性是機器學習最重要的研究方向，未來需要加強。

3. 全流程的優化。與目前大部分自動機器學習只研究機器學習的某一個階段(比如自動特征、自動算法選擇、自動算法配置)不同，實際應用需要全流程的自動機器學習技術。

4. 面對開放世界。現實世界不是一成不變的，自動機器學習技術需要面對開放的世界，解決數據的時序性、概念漂移、噪聲等問題。

5. 安全性和可解釋性。為使自動機器學習具有安全性，需要解決攻擊應對、噪聲抵抗、隱私保護等問題。如果自動機器學習系統被部署到實際系統中與人交互，則需要更好的可解釋性。

理論方向

在自動機器學習理論方面，目前研究的甚少，對自動機器學習的泛化能力及適用性也知之甚少。因而，我們一方面要回答目前自動機器學習算法的適用性和泛化能力，另一方面也要回答哪些問題類存在通用的機器學習算法上和更廣泛問題空間上的自動機器學習算法的可行性。

作者簡介

涂威威

第四范式資深機器學習架構師、資深科學家。第四范式先知平臺大規模分布式機器學習框架 GDBT 的設計者，帶領團隊將 AutoML 及遷移學習應用到工業界并取得顯著的效果提升。

郵箱：tuweiwei@4paradigm.com

（注：本文略有刪減。）

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

7人收藏

汪思穎

編輯

關注AI學術，例如論文

發私信

當月熱門文章