機器學習如何從上游抑制歧視性行為？斯坦福 AI 實驗室的最新成果給出了答案

本文作者：楊鯉萍

編輯：幸麗娟

2019-06-24 10:31

導語：將控制權交到關注公平的有關方手上。

雷鋒網 AI 科技評論按：隨著機器學習系統越來越多地運用于許多重大決策中，如何對其公平性實現精細地控制已經成了我們亟需解決的問題。為解決這一問題，目前已有一些研究人員通過引入公平機器學習模型來平衡準確性和公平性，然而，一些包括公司、政府在內的機構態度不明朗甚至持與公平對立的立場，所以他們往往不會選擇使用這些公平模型。在這樣的環境下，斯坦福 AI 實驗室的研究人員通過引入了一種新的方法，即令關注公平的有關方通過對不公平性進行具體限制來控制表示的公平性，從而對機器學習中的公平性實現可控性。斯坦福 AI 實驗室發布文章介紹了這一成果，雷鋒網 AI 科技評論編譯如下。

機器學習如何從上游抑制歧視性行為？斯坦福 AI 實驗室的最新成果給出了答案

概述

機器學習系統越來越多地被應用于高風險決策中，對信用評分、刑事判決等領域都帶來了影響。這就提出了一個亟待解決的問題：我們如何確保這些制度不因種族、性別、殘疾或其他少數群體身份而產生歧視性行為？為解決這一問題，一些研究人員通過引入公平機器學習模型來平衡準確性和公平性；然而，一些包括公司、政府在內的機構態度不明朗甚至持與公平對立的立場，所以他們往往不會選擇使用這些公平模型。

值得慶幸的是，目前已有研究人員提出了一些用以學習公平表示的方法。關注公平的有關方（如數據采集者、社區組織者或監管機構）使用這些方法，可以將數據轉換為公平表示，然后僅呈現表示，進一步提高公平性，從而使所有下游機器學習模型更難產生歧視性行為。

機器學習如何從上游抑制歧視性行為？斯坦福 AI 實驗室的最新成果給出了答案

圖 1 學習和最終以控制良好的數據公平表示呈現，能夠抑制下游機器學習產生歧視性行為

在這篇文章中，我們介紹了一種基于理論的機器學習公平表示方法，并且我們還發現一系列現有方法都屬于該方法的特例。此外，我們還注意到所有現有的機器學習公平表示方法，也可以用來平衡有用性和公平性，產生有用性和公平性兩者相平衡的表示。然后有關方必須多次運行學習流程，直到找到他們滿意的表示結果。基于這種理論，我們引入了一種新的方法，即令有關方通過對不公平性進行具體限制來控制表示的公平性。與早期的公平表示相比，這種方式可以讓機器更快地學到，同時滿足多個公平概念的要求，并涵蓋更多有用的信息。

公平表示的理論方法

我們首先假設得到一組通常用來表示人的數據點（x）以及他們的敏感屬性（u），這些屬性通常是指他們的種族、性別或其他少數群體身份。我們必須學習一個模型（q?）來將任一數據點映射到新的表示（z）上。我們的目標是雙重的：該表示應該是能夠表達出信息的，即包含數據點相關的大量有用信息；同時這一表示應該是公平的，即包含有關敏感屬性的限制信息；這樣的做法可以抑制機器學習下游產生歧視性行為（為了簡潔起見，我們聚焦人口均等，這是一種非常直觀和嚴格的公平概念，但我們的方法適用于許多公平概念，如后面的結果所示）。請注意，僅僅從數據中刪除敏感屬性（例如種族）并不能滿足這種公平概念，因為下游機器學習模型可能會基于相關特征（例如郵政編碼），這種做法稱為「劃紅線注銷（redlining）」。

首先，我們將我們的目標轉化為互信息（mutual information）的信息理論概念。兩個變量之間的互信息被正式定義為變量的聯合概率與變量的邊緣概率乘積之間的 KL 散度（Kullback-Leibler Divergence）機器學習如何從上游抑制歧視性行為？斯坦福 AI 實驗室的最新成果給出了答案；直觀而言，這是共享的信息總數，我們的目標具體如下：

為了實現表現力，我們希望最大化數據點 x 和以敏感屬性 u 條件的表示 z 之間的互信息：max I（x;z∣u）。（通過限制敏感屬性，我們確保刺激數據點中與敏感屬性相關的信息出現在表示中。）
為了實現公平，我們希望限制表示 z 和敏感屬性 u 之間的互信息：I（z;u）<?，其中 ? 由有關方設置。

接下來，由于兩組互信息都很難得到優化，我們需要尋找近似值：

我們用最大化下邊界?Lr≤I（x;z∣u）來取代最大化 I（x;z∣u）的方法，而最大化下邊界則依賴于我們引入的一個新模型 pθ（x∣z,u）。我們可以明顯發現，最大化?Lr 會有利于映射出，表示 z 加上敏感屬性 u 得到的新模型可以成功地重建數據點 x。
接著，我們通過約束上限 C1≥I（z;u）來代替對 I（z;u）的約束。很顯然，對 C1 的約束則可以阻止復雜表示。
或者我們也可以約束與 I（z；u）更相關的近似值——C2，它依賴于我們引入的一個新模型 pψ（u∣z）。而約束 C2 可以阻止新模型 pψ 使用表示 z 來重構敏感屬性 u 的映射。

綜上所述，我們的最終目標是找到模型 q?、 pθ, 和 pψ 來幫助成功實現對數據點 x 的重建，同時限制表示 z 的復雜性，并限制敏感屬性 u 的重構：

機器學習如何從上游抑制歧視性行為？斯坦福 AI 實驗室的最新成果給出了答案

圖 2 學習公平表示的「硬約束」目標

其中 ?1 和 ?2 是有關方設定的限制。

這為我們提供了一個學習公平表示的原則性方法。我們還得到了一個巧妙的發現：事實證明，現有的一系列學習公平表示的方法優化了我們的雙重目標，得到一個「軟正則化」（soft-regularized）版本！

機器學習如何從上游抑制歧視性行為？斯坦福 AI 實驗室的最新成果給出了答案

圖 3 學習公平表示的「軟正則化」損失函數

機器學習如何從上游抑制歧視性行為？斯坦福 AI 實驗室的最新成果給出了答案

我們可以看到該框架泛化了一系列現有方法！

學習可控公平表示

現在讓我們仔細觀察「軟正則化」損失函數，可以明顯發現現有的學習公平表示的方法會產生有用性和公平性兼具的表示，表現力和公平性之間的平衡由 λs 的選擇所控制。如果我們能優化我們的「硬約束」目標，那么有關方就可以通過設置 ?，來對不公平性進行具體限制。

所以，我們引入了：

機器學習如何從上游抑制歧視性行為？斯坦福 AI 實驗室的最新成果給出了答案

圖 5 機器學習可控公平表示的損失函數

直觀而言該損失函數意味著，每當我們考慮由于 C1>?1 或 C2>?2 導致的不公平時，λs 將額外強調未滿足的約束；這種額外的強調將一直持續到 C1 和 C2 滿足有關方設定的限制為止。而當 C1 和 C2 在安全在限制范圍內時，將優先考慮最小化 Lr ，進而有利于產生富有表現力的表示。

結果

有了最后一塊拼圖，剩下的就是評估我們的理論是否能使其在實踐中學習可控的公平表現。為了進行評估，我們學習了三個真實數據集的表示：

UCI 德國信用數據集，包含 1,000 個人，其中二進制敏感屬性滿足條件 age<50 / age>50 的應受到保護。
來自美國人口普查的 40000 名成人的 UCI 成人數據集，其中二進制敏感屬性 Man / Woman 應受到保護。（性別不是二元的，在使用這些數據集時將性別視為二元是有問題的，也是這項工作的局限）
60，000 名患者的遺傳健康數據集，其中要保護的敏感屬性是年齡和性別的交集：年齡組 (9 個可能的年齡組) × 性別（Man / Woman）

不出所料，我們的結果證實在所有三組學習公平表示中，有關方對 ?1 和?2 的選擇，控制了不公平的近似值 C1 和 C2。

機器學習如何從上游抑制歧視性行為？斯坦福 AI 實驗室的最新成果給出了答案

圖 6 三個真實數據集實驗數據，我們學到了滿足 C1 ≈ ?1 和 C2 ≈ ?2 的表示

結果還表明，與現有方法相比，我們的方法可以產生更具表現力的表示。

機器學習如何從上游抑制歧視性行為？斯坦福 AI 實驗室的最新成果給出了答案

圖 7 我們的方法（深藍色），現有的方法（淺藍色）

并且，我們的方法能夠同時處理許多公平的概念。

機器學習如何從上游抑制歧視性行為？斯坦福 AI 實驗室的最新成果給出了答案

圖 8：當學習滿足許多（在人口統計、幾率均等和機會均等上的）公平性約束的成人數據集表示時，我們的方法學習的表示更具表現力，并且表現比除了一種公平標準外的所有標準都更好。

雖然最后兩個結果可能看起來令人驚訝，但它們得出這一結果的原因是，現有方法要求有關方多次運行學習過程直到找到他們認為大致滿意的表示為止，而我們的方法直接優化了盡可能具有表現力的表示，同時也同等滿足了所有有關方對表示不公平的限制。

總結

為了補充公司和政府可以選擇使用的公平機器學習模型，這項工作朝著將公平機器學習的控制權交給關注公平的一方（如數據采集者、社區組織者或監管機構)）邁出了一步。我們為學習公平表示提供了一種理論方法，使機器學習下游更難以產生歧視性行為，并且提供了一種新方法，使關注公平的一方能夠通過 ? 來對不公平性進行特定限制從而控制表示的公平性。

研究者在進行公平機器學習的研究工作時，認識到局限性和盲點尤為重要；否則就會冒著開發出難以實際應用的解決方案的風險，同時掩蓋其他人所同樣付出的努力。我們這項成果的一個主要限制是，關注公平的一方的 ? 限制了對不公平性的近似值，我們也希望未來的工作可以更進一步，并能夠對 ε 進行映射從而正式保證機器學習下游的公平性。這項成果的另一個可能存在的限制是，像許多公平機器學習的研究領域一樣，中心人口均等、幾率和機會均等等公平概念所帶來的限制。我們認為，未來的工作需要與社會公正所依據的平等概念建立更深層次的聯系，這樣才能避免狹隘的技術解決方案主義，并建立更公平的機器學習。

論文：Learning Controllable Fair Representations
論文作者：Jiaming Song*, Pratyusha Kalluri*, Aditya Grover, Shengjia Zhao, Stefano Ermon
論文下載地址：https://arxiv.org/abs/1812.04218

via http://ai.stanford.edu/blog/controllable-fairness/

雷鋒網 AI 科技評論

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

楊鯉萍

編輯

發私信

當月熱門文章