0
| 本文作者: 我在思考中 | 2021-11-09 09:59 |


我們的文章主要關注在常識知識的地區多樣性:由于歷史文化因素的影響,在不同地區生活的人們可能對同一事物有著不一樣的常識和認知。我們提出了地區多樣性視覺常識推理數據集 GD-VCR 去考察模型的表現,并且探究造成這一表現背后的原因。我們很高興 EMNLP 2021 的最佳論文 (Liu et al., 2021),和杰出論文 (Zhang et al., 2021) 有著和我們非常相似的研究問題。所以非常希望我們的文章能夠讓大家從常識知識多樣性的視角對人工智能世界通用性的這一問題產生更多的思考。
根據維基百科中的定義,常識是人類認知日常場景的所需的基本知識,并且幾乎“所有人”都能掌握并運用這種知識。如果我們看來一個女人在聚會上穿著白色婚裙,那么很大概率這個聚會是一個婚禮。隨著領域對于常識推理的關注,關于常識的大規模數據集和知識圖譜也越來越多。
但是我們如果細細品味維基百科中的定義,其實我們會發現一個問題:有些常識是否真的能夠被所有人掌握嗎?我們或許能從婚禮的例子中找到一些端倪:在中國的傳統婚禮上,可能新娘穿的是紅顏色裙子,甚至她的臉也會被紅蓋頭遮住。這對于中國人來說司空見慣,是一種常識。但是這可能對世界其他地區的人十分陌生。

(GD-VCR數據集示例。圖為不同地區婚禮圖片。)
在VCR(西方場景為主)上訓練的模型是否能很好的泛化到關于地區多樣性常識的場景和問題上?
如果泛化表現不強,到底是什么原因產生了這種現象?
數據集收集的主要挑戰是要找到合適的圖像資源并捕獲包含區域特征的場景。我們從 Amazon Mechanical Turk 平臺和大學里的語言文化系招募標注人員。我們要求收集的圖像中應具有包含標注者比較熟悉的地區中代表性場景。我們進一步建議標注者選擇普遍存在但具有跨地區特征的場景,例如婚禮、葬禮、節日、宗教活動等。這些要求不僅可以使我們的 GD-VCR 數據集更具地區多樣性,也方便我們后續去做更公平的比較。

GD-VCR 的總體統計數據見表。這邊想強調的是,我們計算了每個區域的 OOV 率,也就是出現在 GD-VCR 中但未出現在原始 VCR 訓練集中的單詞的比率。我們發現在 GD-VCR 中,這四個不同地區 OOV 率彼此接近,并且都很低。這進一步證明 GD-VCR 與原始VCR數據集的詞匯分布相似,GD-VCR 的難度并非來自詞匯差距。我們還在文中展示了 GD-VCR 中覆蓋圖像關鍵字分布。我們統計出總共有693個關鍵詞,展示了 GD-VCR 中場景的多樣性。
我們基于兩個預訓練V&L模型進行實驗:VisualBERT (Li et al., 2019), ViLBERT (Lu et al., 2019)。

我們首先研究在 VCR 上訓練的模型泛化到特定地區常識問題上的效果。首先,我們發現與西方圖像相比,這兩個模型在來自非西方地區的圖像上的表現要差得多,差距大約為3-19%。此外,我們比較了模型和人類的表現。我們注意到,盡管人類可能不熟悉這種文化,但他們仍然比模型高出 30% 左右。這意味著人類更有能力將他們的常識轉化并應用在地區多樣化常識的理解過程中。然而目前的模型離這個水平還差很遠。
我們后面從兩個方面分析了產生這種表現差異的原因:
具有地區特征的場景:我們在 GD-VCR 中標注了圖像的場景標簽,所以我們可以借助標簽將不同地區同一個場景的圖片放在一起進行比較。我們觀察到,對于經常涉及地區特征的場景(例如婚禮,節日等),性能差距要大得多,約為8%-24%。但是,對于一些世界上普遍存在且比較相似的場景,模型的性能差距僅為0.4-1.3%。

(具有地區特征的場景與其他場景上模型表現差異對比。字體越大表示模型表現差異越大。紅色場景差異大于8%,藍色場景差異小于8%。)
QA pair 的推理層次:在介紹推理層次之前,我們可以先思考模型什么時候會失敗。我們認為可能有2種情景。“情景1”是,模型在早期甚至無法識別非西方圖像的基本信息。“情景2”是,模型在基本視覺信息的識別上效果不錯,但最終由于缺乏特定區域的常識而最終失敗。
為了判斷我們處于哪種情景,我們此外又注釋了一些 low-order QA pairs。這些 low-order QA pairs 可以通過識別基本的視覺信息即可回答。例如,問題“[person3] 穿的什么?”就是一個 low-order QA pair。并且我們假設 GD-VCR 中的所有 QA pairs 都是 high-order QA pairs,因為它們涉及常識和更復雜的推理。low-order 和 high-order 分別對應低推理層次和高推理層次。

(在low-order和high-order QA pairs上不同地區圖片的模型表現差異)
在文章中,我們構建了一個新的地區多樣常識推理數據集 GD-VCR。我們在 GD-VCR 上評估模型性能,發現不同區域之間存在很大差異。最后我們分析了性能差異的來源:1) 具有地區特征的場景,和 2) QA pair 的推理層次。我們希望這篇文章不僅可以啟發研究者去提高視覺常識推理模型在地區多樣化場景上的泛化能力。我們還希望能借此文章拓寬研究人員的視野,以更加包容的態度對人工智能系統的世界通用性這一現實問題產生更多的思考。

雷鋒網
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。