^{<sub id="jgr5k"></sub>}

ICLR2020 | 谷歌最新研究：用“復合散度”量化模型合成泛化能力

本文作者：蔣寶尚

2020-03-11 14:57

專題：ICLR 2019

導語：合成泛化：即機器學習從一組訓練示例學習上下文表示。

（雷鋒網）據官方消息，ICLR 2020會議將取消線下會議，并于4月25日-30日線上舉辦虛擬會議。本屆會議共有 2594篇投稿，其中 687篇論文被接收（48篇oral論文，107篇spotlight論文和531篇poster論文），接收率為26.5%。

本文介紹 Google 研究人員發表在 ICLR 2020 上的論文《Measuring Compositonal Generalization: A Comprehensive Method on Realistic Data》。

人類獨特的語言天賦體現在其學習一個新單詞的意思過后，能夠馬上在語言環境中使用。正如萊克（Lake）和巴羅尼（Baroni）的名言所述：

如果一個人學會了一個新動詞“DAX”，這個人就能立馬理解‘dax twice’ 和‘sing and dax’的意思。

同樣，人類可以了解新學習對象的形狀，然后用之前的學過的顏色或者材料來進一步認知。

這些能力也是我們人類對即存知識的組合創新能力。

因此借用這種“組合”概念引出機器學習中的“合成泛化（compositional generalization）”，即機器學習從一組訓練示例學習上下文表示。

在機器學習系統中，測量合成泛化的一種常見方法是根據與成分直接相關的屬性劃分訓練數據和測試數據。例如根據序列長度劃分：訓練集較短，測試集較長。

此類方法有很多，但是哪個才是組合的更好測量標準？如何系統的設計一個最佳的合成泛化實驗？

ICLR2020 | 谷歌最新研究：用“復合散度”量化模型合成泛化能力

（雷鋒網）論文鏈接：https://openreview.net/forum?id=SygcCnNKwr

來自谷歌的研究人員在“測量合成泛化：真實數據的綜合方法”論文中，試圖引入了最大和最全面的基準來解決這個問題。這個基準使用真實的自然語言理解任務，特別是語義解析和問題回答來進行合成泛化。
在具體的工作中，相關研究人員提出了復合散度（compound divergence）測量指標，這個指標可以量化訓練-測試集的分離程度，以便測量機器學習的合成泛化能力。

研究人員分析了三種序列到序列機器學習體系結構的合成泛化能力，發現它們的泛化能力堪憂。在論文中，作者還發布了工作中使用的組合Freebase Questions數據集。

1、組合性測量

為了測量一個系統的泛化能力，首先要理解示例如何生成的基本原理。例如，從生成問題和答案時必須遵守的語法規則開始，然后找出元素（atom）和化合物（compound）之間的區別。其中原子是用于生成示例的構建塊，而化合物是這些原元素的具體組合。如下圖每一個Box都是一個元素。

ICLR2020 | 谷歌最新研究：用“復合散度”量化模型合成泛化能力

（雷鋒網）

在理想的組合實驗中，原子應該有相似的分布，即訓練集中的詞和子短語的分布盡可能類似于它們在測試集中的分布，但值得注意的是，復合分布是不相同的。

為了測量電影領域問答任務中的合成泛化能力，研究人員可能設計下圖中類似的正在問題：雖然“Directed”、“Inception”和“Who<Predicate><Entity>”等元素都出現在訓練集和測試集中，但復合而成的詞顯然是不同的。

ICLR2020 | 谷歌最新研究：用“復合散度”量化模型合成泛化能力

組合性的Freebase問題數據集（CFQ）

為了進行準確的組合性實驗，作者創建了CFQ數據集，這是一個從公共Freebase知識庫生成的自然語言問答的真實大型數據集，雖然簡單，但是非常強大。里面包含大約24萬個示例和近35k個查詢模式，這個規模是WikiSQL的4倍，查詢模式大約是復雜Web問題的17倍（Complex Web Questions）。

另外，CFQ可用于文本輸入/文本輸出任務以及語義解析。在具體的實驗中，作者將重點放在了語義解析上面，其中輸入是一個自然語言問題，輸出是一個查詢，當對Freebase執行查詢時，會產生正確的結果。作者還使用了“復雜度級別”指標(L)來量化每個示例中語法的復雜性，該度量大致對應于解析樹的深度，示例如下所示。

ICLR2020 | 谷歌最新研究：用“復合散度”量化模型合成泛化能力