主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

本文作者：翻譯官balala

編輯：幸麗娟

2019-12-22 12:12

專題：NeurIPS 2019

導語：可有效避免選中重復的數據進行無效標注。

雷鋒網 AI 科技評論按：深度學習如今能夠大獲成功，其中的一大功臣便是大規模的標注數據。然而在大多數現實場景中，我們往往只能獲得未經標注的大規模數據集，如果要對這么多數據進行人工標注，勢必耗費大量的人力成本。在此前，研究界已經提出主動學習的方法來解決這一問題，然后采用該方法選擇出來的數據可能存在大量重復的情況，從而造成標注冗余問題。

對此，牛津大學的理論和應用機器學習研究團隊（OATML）在一篇 NeurIPS 2019 論文中提出了一種 BatchBALD 采集函數，可有效解決主動學習面臨的這一難題， AI 科技評論編譯如下。

在主動學習中，我們使用“人在回路”（Human in the Loop）的方法進行數據標注，可有效地減少了需要大量標注的數據量，并且該方法適用于標注成本過高時的機器學習。

我們在《BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning》論文中提出了^[1]，進一步提出了 BatchBALD 采集函數：這是一種在深度主動學習中選擇信息點批次的全新的實用方法，它可以解決長期困擾我們的標注冗余問題。我們提出的算法基于信息論并在有用的直覺（Intuition）上進行了擴展。

實現代碼 GitHub 地址： https://github.com/BlackHC/BatchBALD

一、什么是主動學習？

我們在一系列重要的實驗中，通過利用深度學習算法和大量經標注的數據集，能得到很好的結果。但在一般情況下，我們只能獲取到未標注的大型數據集。例如，我們很容易獲得大量的庫存照片，但是標注這些圖像既費時又昂貴。這就使得許多應用無法從深度學習的最新研究進展成果中受益。

在主動學習中，我們僅僅要求專家標注信息量最多的數據點，而不是預先標注整個數據集。然后我們再使用這些新獲取的數據點和所有先前標注好的數據點對模型進行反復訓練。重復此過程，直到模型結果的精度滿足我們的要求為止。

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖1：主動學習流程。重復進行主動訓練、評分、標注和獲取的學習步驟，直到模型達到足夠的精度為止。

要執行主動學習，我們需要定義一些信息評價指標，這通常是以“采集函數（acquisition function）”的形式完成。之所以將此評價指標稱為“采集函數”，是因為它計算的分數確定了我們要獲取的數據點。我們要發給專家做標注的這些未經標注的數據點，可以最大化采集函數。

二、存在什么問題？

通常來說，未標注點的信息量是單獨進行評估的，其中一種流行的“采集函數”就是 BALD ^[2]。在主動學習中，研究者往往普遍采用 BALD 這種采集函數方法來分別對未標注點的信息量進行評估，但是由于單個信息點可能幾乎相同，分別評估各個點的信息量極度浪費資源。

這意味著，如果我們單純地獲取前 K 個最有用的點，可能最終會導致讓專家給 K 個幾乎相同的點加標簽！

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖2：來自 MNIST 數據集（手寫數字）的1000個隨機選擇的點的 BALD 得分（信息量）。這些點按數字標簽進行顏色編碼，并按分數排序。用于評分的模型已經首先訓練達到 90％的準確性。如果我們選擇得分最高的分數（例如，得分高于 0.6），則大多數得分將是 8，即便我們能夠假定模型在獲得了前幾對得分后會認為它們的信息量要少于其他可用的數據。點在x軸上通過數字標簽進行了稍微移動以避免重疊。

三、我們的研究成果

在這篇論文中，我們將采集函數的概念有效地擴展到了數據點的集合，并提出了一種新的采集函數，該函數可以在獲取數據點的批次時考慮到數據點之間的相似性。

為此，我們采用了常用的 BALD 采集函數，并以特定的方式將其擴展為 BatchBALD 采集函數。我們將在下文中對該采集函數進行解釋。

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖3： BALD采集函數和 BatchBALD采集函數的理想獲取。如果數據集的每個數據點包含多個相似點，則 BALD 采集函數將以犧牲其他信息數據點為代價選擇單個信息數據點的所有副本，從而浪費了數據效率。

但是，僅僅知道如何為每個批次數據點評分是不夠的！我們仍然面臨著尋找得分最高的數據點批次的難題。簡單的解決方案是嘗試數據點的所有子集，但那是行不通的，因為存在指數級多的可能性。

針對我們提出的采集函數，我們發現它具有一個非常有用的屬性，叫做子模性（Submodularity），它使我們能夠運用貪婪算法：逐個選擇點，并在先前添加到數據點批次中的的所有點上調節每個新點。我們通過利用這種子模性屬性，可以證明這種貪婪算法找到的子集“足夠好”（也就是：1-1 / e-的近似）。

總體而言，這使得我們提出的采集函數 BatchBALD 在性能上要優于 BALD 采集函數：對于大小相差不多的批次，它使用較少的迭代和較少的數據點即可達到更高的精度，并顯著地減少了冗余的模型訓練和專家標注，從而降低了成本和時間。

而且，從經驗上講，它與按順序獲取單個點的最優選擇一樣好，但在速度上要比后者快得多。后者在每個單點獲取之后，仍需要重新訓練模型。

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

（a） MNIST 數據集實驗的性能。在采集大小為10的情況下，BatchBALD 采集函數優于 BALD 采集函數，并且性能接近最佳采集大小1

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

（b） MNIST 數據集實驗的相對總時間，標準化訓練采集大小為10的 BatchBALD 采集函數至95％的精度。星號標注表示：每種方法達到95％的準確度的點。

圖4： MNIST 數據集實驗的 BALD 采集函數和 BatchBALD 采集函數的性能和訓練時間。采集大小為10的 BatchBALD 采集函數的性能與采集大小為1的 BALD 采集函數差異不大，但是它只需要一小段時間，因為它需要重新訓練模型的次數更少。與采集大小為10的 BALD 采集函數相比，BatchBALD 采集函數也需要更少的采集來達到95％的準確度。

在解釋采集函數之前，我們需要了解 BALD 采集函數的作用。

四、什么是BALD采集函數？

BALD 是貝葉斯不一致主動學習（Bayesian Active Learning by Disagreement）的簡稱 ^[2]。

如“貝葉斯”其名所示，它假設貝葉斯設定能夠讓我們捕獲模型預測的不確定性。在貝葉斯模型中，參數不僅僅是在訓練過程中更新的數字（點估計），而且是概率分布。

這使模型可以量化它的理念：參數的廣泛分布意味著模型無法確定其真實值，反之狹窄的參數分布則可以量化更高的確定性。

BALD 采集函數（基于模型預測的結果 y 是否能很好地體現模型參數 ω）給一個數據點 x進行評分。為此，需要計算出互信息 Ⅱ（y , ω）。眾所周知，互信息是信息論中的概念，它能捕獲數量之間的信息重疊。

當使用 BALD 采集函數選擇一個批次的 b 點時，我們選擇的是 BALD 采集函數得分最高的前 b 個點，這是該領域的標準做法。這與最大化以下批量采集函數的做法相同：

a_BALD( {x₁, ... , x_b} , p( ω | D_train) ) := Σ^b_i=1Ⅱ(y_i; ω | x_i, D_train)

其中，

{x₁^*, ..., x_b^*} := arg max a_BALD( {x₁, ... , x_b} , p(ω | D_train) )，{x1, ... , xb} ?D_pool

直觀來看，如果在批次點中，我們將給定一些數據點和模型參數得到的預測信息內容視作集合，互信息則可以看作是這些集合的交集，這就對應了互信息評估信息重疊的概念。

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖5： BALD采集函數背后的直覺。灰色區域有助于BALD 得分，深灰色區域被重復計算。

事實上，Yeuang在論文《A new outlook on Shannon's information measures》中^[3]表明，這種直覺是有充分依據的。我們可以定義一個信息度 μ*，從而能夠使用設定操作來代表信息理論量化。

Η（x , y）= μ*(x ∪ y)

Ⅱ(x , y) = μ*(x ∩ y)

E_p(y)Η（x | y）= μ*(x \ y)

圖 5 展示了 BALD 采集函數在獲取3個點的批次時對這些集合的交集區域所計算出來的分數。

因為 BALD 采集函數是一個簡單累加計算，所以會導致數據點之間的互信息被重復計算，并且 BALD 采集函數高估了真實的互信息。這就是為什么在具有同一點有很多（幾乎相同）副本的數據集中，單純使用 BALD 采集函數會導致我們選出所有副本的原因：我們對所有點之間的互信息交集進行累積計算！

五、BatchBALD 采集函數

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖6： BatchBALD 采集函數背后的直覺。 BatchBALD 采集函數考慮了數據點之間的相似性。

為了避免重復計算，我們要計算數量 μ*(U_i y_i∩ ω)，如圖 6 所示，它對應的是 yi 和 ω 的互信息Ⅱ( y₁, ... , y_b; ω | x₁, .... , x_b, D_train) ：

a_BatchBALD( {x1, ... , xb} , p(ω | D_train)) := Ⅱ(y₁, ... , y_b ; ω | x₁, .... , x_b, D_train)

擴展互信息的定義后，我們得到以下兩項之間的區別：

a_BatchBALD( {x₁, ... , x_b} , p(ω | D_train)) = H(y₁, ... , y_b ; ω | x₁, .... , x_b, D_train)

-E _{p( ω | Dtrain )}[ H(y₁, ... , y_b | x₁, .... , x_b, ω) ]

第一項獲取了模型的一般不確定性，第二項獲取了給定模型參數描述的預期不確定性。

我們可以看到，當模型對數據點有不同的解釋，也就是模型對單個點更有信心（產生較小的第二項），但預測結果彼此并不不同（產生較大的第一項）時，該模型得到的分數將變高。這就是“不一致”這個名稱的由來。（這也是“貝葉斯不一致主動學習”這一名稱中的“不一致”的由來）

六、子模性

現在為了確定要獲取的數據點，我們將使用子模性。

基于子模性我們可以知道，這種做法帶來的提升會越來越小：選中兩個點帶來的分數提升要比單獨選中一個點大，但是也沒有把兩個點各自帶來的提升加起來那么大：給定函數 f ：Ω→R ，我們稱f的子模，如果：

f（A ∪{ x，y }）-f（A）≤（f（A∪{ x }）-f（A））+ （f（A∪ { y }）-f（A））

其中，所有的 A 包含于 Ω 和所有元素 x，y∈Ω 成立。

我們在論文的附錄 A 中證明，我們的采集函數滿足了這一特性。

Nemhauser等人在論文《An analysis of approximations for maximizing submodular set functions》中^[4]已經證明，在子模函數中，可以使用貪婪算法來選擇點，并保證其分數至少為 1-1 / e ≈63 ％是最佳的。這樣的算法稱為 1-1 / e- 的近似。

貪心算法以一個空批次 A = { } 開始，并計算所有未標注數據點的 a_BatchBALD( A∪{x} )，將最高分 X 加到A上并重復此過程，直到 A 在獲取大小內。

接下來的文章將對此進行詳細說明。

七、一致的蒙特卡羅 Dropout

我們使用蒙特卡羅 Dropout（MC Dropout）實現貝葉斯神經網絡^[5]。但是，與其他實現方法的重要區別在于，我們需要一致的 MC Dropout：為了能夠計算數據點之間的聯合熵，我們需要使用相同的采樣模型參數來計算 a_BatchBALD 。

為了弄清原因，如圖 7 中所示，我們研究了隨著不同樣本模型參數設置的 MC Dropout 變化，評分分數將如何變化。

如果沒有一致的 MC Dropout，模型將使用不同的采樣模型參數集對得分進行采樣，這會導致丟失 y_i與附近的 X_i之間的函數相關性，并且由于分數被分散，它與與隨機采集獲取數據的方法基本上沒有什么區別。

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖7：不同組的100個采樣模型參數的 BatchBALD 采集函數得分。這展示了從數據集中隨機選取的1000個點的 BatchBALD 采集函數得分，同時為已經達到90％精度的 MNIST 數據集實驗模型選擇了第10個點。單組100個模型參數的得分以藍色顯示。BatchBALD 采集函數估計值表現出很強的帶寬，不同組采樣參數之間的得分差異大于單個頻段“軌跡”內給定組的不同數據點之間的差異。

八、在 MNIST、重復的 MNIST以及 EMNIST 上進行實驗

我們已經對 EMNIST 數據集進行了分類實驗，該數據集涵蓋了由47個類別和120000個數據點組成的手寫字母和數字。

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖8： EMNIST 數據集中所有47個類別的示例

我們可以看到：在獲取大批次數據時表現更差（甚至比隨機獲取還差！）的 BALD 采集函數有了明顯的改善：

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖9： EMNIST 數據集實驗的性能。BatchBALD 采集函數始終優于隨機采集和 BALD 采集函數，而 BALD 采集函數則無法超越隨機采集方法。

這是因為與 BatchBALD 采集函數和隨機采集相比，BALD 采集函數會主動選擇冗余點。為了更好地理解這一點，我們可以查看所獲取的分類標簽并計算其分布的熵。熵越高，獲取的標簽就越多樣化：

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖10：在 EMNIST 數據集實驗中，通過獲取步驟中獲取的類標簽的熵。BatchBALD 采集函數穩定地獲取了更多不同的數據點集。

我們還可以查看模型訓練結束時所獲得的分類的實際分布，并發現 BALD 采集函數對某些分類進行了欠采樣，而 BatchBALD 采集函數嘗試更均勻地從不同分類中選擇數據點（當然該算法并不知道分類）。 1

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖11：在 EMNIST 數據集實驗中，獲取的類別標簽的直方圖。左圖為 BatchBALD 采集函數結果，右圖為 BALD 采集函數結果。根據獲取次數對類進行分類，為清楚起見，僅顯示下半部分。一些 EMNIST 類在 BALD 采集函數中不具有足夠的代表性，而 BatchBALD 采集函數獲得的類更加統一。根據所有的采集的點我們創建了如圖示的直方圖。

為了理解 BatchBALD 采集函數如何更好地解決不受控的場景，我們還嘗試了 MNIST 數據集版本，我們將其稱為重復的 MNIST 數據集（ Repeated MNIST ）。我們將 MNIST 數據集簡單地重復了3次，并增加了一些高斯噪聲，進而展示了 BALD 采集函數如何掉入陷阱中：因為數據集中有太多類似的點，使用得分排在前 b 的單個點是不利于計算的。 2

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖12：在采集大小為10時重復 MNIST 數據集實驗的性能。 BatchBALD 采集函數的性能優于 BALD 采集函數，而由于數據集中的副本，BALD 采集函數的性能要比隨機采集差。

我們還嘗試了不同的采集大小，發現在 MNIST 數據集實驗中，BatchBALD 采集函數甚至可以一次采集40個點，而數據效率幾乎沒有損失，不過 BALD 采集函數則會迅速惡化。

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

（BALD）

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

（BatchBALd）

圖13： MNIST 數據集實驗的性能，可增加采集大小。隨著采集規模的增加，BALD 采集函數的性能急劇下降。即使采集數量增加，BatchBALD 采集函數仍可保持很好的性能。

九、最后的一點想法

我們發現非常令人驚訝的是，當在批次數據上進行估計時，在主動學習中廣泛使用的標準采集函數的結果甚至比隨機基準更差。不過，我們樂于深入研究問題的核心并試圖理解失敗的原因，從而使我們對在該領域使用信息論工具的方式有了新的見解。

從很多方面來看，我們在這項工作中獲得的真正收獲是：當某件事失敗時，我們需要停下來認真地思考。

腳注：

[1] 隨機獲取也比 BALD 采集函數能更一致地選擇類，但不如 BatchBALD 采集函數效果好。

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖14：在 EMNIST 數據集實驗中獲取的類別標簽的直方圖。左邊是 BatchBALD 采集函數，右邊是隨機采集中心，右邊是 BALD 采集函數。類按獲取數量排序。在 BALD 采集函數和隨機獲取中，一些 EMNIST 類的代表性不足，而 BatchBALD 采集函數則更一致地獲取類。直方圖是用所有采集的點繪制的。

[2] 但是 BALD 采集函數并不是在這種情況下唯一失敗的采集函數。

主動學習可減少對標注數據的依賴卻會造成標注冗余？NeurIPS 2019 論文解決了這個問題！

圖15：重復 MNIST 數據集實驗的性能。 BALD 采集函數，BatchBALD 采集函數，方差率，標準均方差和隨機采集：采集大小10，帶有10個 MC Dropout 樣本。

參考文獻

[1] BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning

Kirsch, A., van Amersfoort, J. and Gal, Y., 2019.

[2] Bayesian active learning for classification and preference learning

Houlsby, N., Huszar, F., Ghahramani, Z. and Lengyel, M., 2011. arXiv preprint arXiv:1112.5745.

[3] A new outlook on Shannon's information measures

Yeung, R.W., 1991. IEEE transactions on information theory, Vol 37(3), pp. 466--474. IEEE.

[4] An analysis of approximations for maximizing submodular set functions—I

Nemhauser, G.L., Wolsey, L.A. and Fisher, M.L., 1978. Mathematical programming, Vol 14(1), pp. 265--294. Springer.

[5] Dropout as a Bayesian approximation: Representing model uncertainty in deep learning

Gal, Y. and Ghahramani, Z., 2016. international conference on machine learning, pp. 1050--1059.

via https://oatml.cs.ox.ac.uk/blog/2019/06/24/batchbald.html 雷鋒網 AI 科技評論編譯雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

專題

NeurIPS 2019

本專題其他文章

翻譯官balala

知情人士

發私信

當月熱門文章