斯坦福大學EMNLP2019論文：回答大規模開放領域復雜問題

本文作者：楊曉凡

2019-11-08 21:18

導語：從閱讀理解到舉一反三

雷鋒網 AI 科技評論按：斯坦福大學 Christopher D. Manning 組的論文《Answering Complex Open-domain Questions Through Iterative Query Generation》（通過迭代生成查詢語句回答復雜開放領域問題）近期被 EMNLP-IJCNLP 2019 接收，論文第一作者 Peng Qi 為這個任務以及這篇論文撰寫了一篇深入淺出的解讀文章。雷鋒網 AI 科技評論全文翻譯如下。

本文主題：NLP 研究大家庭已經在開放領域問答中取得了很大進步，而這篇論文中提出的系統繼續在「基于海量文本回答復雜問題」的情境下帶來了改進。作者們展示了一種高效、可解釋的方法，能在系統中進行多步推理。

斯坦福大學EMNLP2019論文：回答大規模開放領域復雜問題

從搜索引擎，一直到自動問答系統，自然語言處理（NLP）系統的發展已經極大地增強了我們獲取文本信息的能力，幫我們節省了很多用來記憶和查找的時間精力。今天，每當我們腦海中涌現出問題的時候，我們的第一反應都是去搜索引擎（谷歌、百度、必應）上搜索一下。

有的問題比較簡單，比如「中國面積最大省是什么省」，也有一些問題就不那么直白了，比如「第一個發現可以用 GPS 探測地震波的人是誰」，各家搜索引擎都很難直接給出這個問題的答案。這種時候我們需要借助網絡上的電子百科全書，比如 Wikipedia，然后就可以看到第一個發現可以用 GPS 探測地震波的人是美國科學家 Kristine Larson 博士。

如果能讓 NLP 系統直接給出這個答案，而不需要我們去知識庫中翻文章尋找答案，這個問題就叫做開放領域問答（open-domain QA），這也是 NLP 科研的一個熱點任務。

開放領域問答的背景

在開始介紹開放領域問答的新方法之前，我們先花一點時間了解一下這個問題的環境設置、挑戰，以及為什么現有的系統在回答復雜問題的時候不那么讓人滿意。

開放領域 vs 封閉領域/內容限定

NLP 研究人員們設計的早期的問答系統，比如 BASEBALL 和 LUNAR，都是高度領域限定的。這兩個系統分別可以回答美國在某年的棒球運動員的信息，或者返回地球的登月飛船的信息，但是對所有其它領域的信息都無能為力，因為超出了設計的領域范圍。也就是說，這兩個系統是封閉領域的。

從此之后，研究人員們開始向開放領域問答的方向進攻。對于開放領域問答，所提出的問題并不局限于預定義好的領域和領域知識。在理想情況下，問答系統要有能力在很大規模的各個領域的文本中進行探索篩選，找到我們所需的答案。

單篇文檔開放領域問答，有時候也被稱為「閱讀理解」，NLP 研究人員們這幾年來在這個問題上做出了顯著突破。這個問題指，給 NLP 系統指定單篇文檔，或者只是一段文字，其中可能含有問題的答案，然后讓系統根據這些文本回答問題。這就是以 SQuAD 為代表的許多流行的 NLP 問答數據集的基本格式。在 SQuAD 數據集上訓練出的問答系統可以在描述各種不同領域的知識的文本上工作。不過這樣的問答系統需要我們首先找到可能含有答案的那篇文檔（那段文字），這也就帶來了一些限制。

為了解決這個問題，研究人員們開始研究能在大量文本上工作的問答系統。相比于 SQuAD 代表的「從含有答案的一段文本里找到答案」，在大量文本上工作的系統需要在一批文檔中進行篩選，最終找到答案；這和我們使用搜索引擎有類似之處。這種任務設置就被成為開放內容開放領域問答（open-context open-domain QA），就比閱讀理解有挑戰得多。當然了，當你想到了一個問題，卻不知道要從哪里尋找答案的時候，開放領域問答也就比閱讀理解有用得多。在內容限定的問答之外的新挑戰主要在于如何用可拓展的方法把大量文本縮小到一個能夠處理的范圍，這樣我們就可以用現有的閱讀理解模型找到那個答案。

開放領域問答系統

受到文本檢索會議（TREC）上的系列問答競賽啟發，近幾年來研究人員們開始場嘗試把具有很大潛力的基于神經網絡的問答模型用在開放領域問答任務中。

普林斯頓大學陳丹琦團隊首先把傳統的搜索引擎和現代的神經問答系統相結合來處理這個問題。他們的開放領域問答方案名為 DrQA（https://arxiv.org/abs/1704.00051），簡單但效果出色：給定一個問題，系統會根據問題在文檔庫中搜索可能包含答案的文檔，然后，經過篩選之后數量變少的文檔會作為閱讀理解系統的輸入，由閱讀理解系統生成最終的回答。

斯坦福大學EMNLP2019論文：回答大規模開放領域復雜問題

陳丹琦團隊的 DrQA 模型示意圖，這篇論文被 ACL 2017 接收

開放領域問答中大多數的近期研究都依然遵循了這種「檢索+閱讀理解」兩步走的方案，然后會添加一些重新排序、基于神經網絡的檢索、更好的混合訓練等等特性作為改進。

復雜開放領域問題帶來的挑戰

但其實，所有「檢索+閱讀理解」兩步走的方案都沒法很好地處理復雜問題。下面我們通過一個例子來說明這是怎么回事。

假設有一天你突然好奇演《海王》的那個演員還拍了什么電影，但你一下子想不起他的名字了。這時候我們會首先去搜索引擎搜索「海王」或者「海王男主角」，先確認這個人是誰。一般來說在開頭的幾個搜索結果里我們就能找到他的名字是「Jason Momoa」，然后再搜索這個名字就能找到他還拍了什么電影。

在這個簡單的例子里，回答問題所需的關鍵信息并不都是可以直接從問題里讀出來的，也就是說，這其實還是一個知識發現問題。所以這個問題對目前的「檢索+閱讀理解」模式的開放領域問答系統來說就很難處理，因為答案和問題之間有一些重要的語義信息并不重合。

針對這種問題，一種解決辦法是聯合訓練基于神經網絡的信息檢索模型和閱讀理解模型，讓它們能夠對查詢語句做一些更新，從而找到更多的信息來回答問題。雖然這種方式確實也是有機會帶來改進的，但用這樣的遠距離監督信號做信息檢索模型的預訓練、讓它找到可能含有答案的文檔還是很有可能失敗，因為問題和我們想要找到的文檔之間的語義重合部分還是太少了。從問題直接到答案的端對端訓練也消耗資源太多以至于不可行，因為在第一步推理之前就進行查詢的話，需要面對巨大的查詢空間，即便我們能訓練出一個執行這項任務的模型，這個模型也很可能只有極低的計算效率，而且可解釋性很差。

所以，我們是否有可能設計一種新的開放領域問答系統，讓它既能夠處理復雜的多步推理問題，而且還計算高效、可解釋呢？斯坦福大學 Christopher D. Manning 組的論文《Answering Complex Open-domain Questions Through Iterative Query Generation》（通過迭代生成查詢語句回答復雜開放領域問題，https://nlp.stanford.edu/pubs/qi2019answering.pdf）中就提出了這樣一個系統。這篇論文的第一作者就是這篇介紹博客的作者 Peng Qi，論文也已經被 EMNLP-IJCNLP 2019 接收，并在 11 月 6 日進行了口頭報告。

回答復雜的開放領域問題

要介紹論文中的這個系統，敘述要分為兩個部分，首先介紹針對開放領域問答的多步推理問題的總體策略，然后介紹用來評價這個系統的數據集和實驗結果。

總體策略

正如上文所說，「檢索+閱讀理解」模式的系統沒法高效地處理復雜需要多步推理的開放領域問題，原因有：1，這些問題需要有多個支撐線索才能回答，2，只根據原來那個問題通常都很難找到所有必須的支撐線索。一個理想的系統應當能夠迭代進行「閱讀理解找到的信息」以及「尋找更多的支撐線索」這兩件事，就像人類一樣。

這也就是論文標題中的「iterative query generation」部分的含義，論文中提出的這個開放領域問答系統能夠迭代地根據目前檢索到的文本內容生成自然語言問題，以及在最終回答問題之前搜索更多的必需信息。這樣的設計的好處有：1，可以用不同的問題檢索多個不同的支撐線索；2，生成新問題的過程可以借助更早的檢索中找到的文檔，這樣就可以生成無法單獨根據最早的問題生成的問題。由于這個系統可以生成自然語言的查詢問題，那么它還可以直接在信息檢索的步驟中使用現有的信息檢索系統，進行高效的檢索。除此之外，這個模型的運行方式對人類來說也有更好的可解釋性，能夠讓人類隨時進行干預，矯正運行中發生的問題。

比如，如果把英文維基百科作為知識庫的話，向系統提問「《Armada》的作者的哪部小說會被 Steven Spielberg 改編為電影」，它的解答過程是這樣的：

斯坦福大學EMNLP2019論文：回答大規模開放領域復雜問題

模型會首先生成一個查詢問題，在維基百科中搜索關于小說《Armada》的信息。在「閱讀理解」了檢索到的文檔之后，它會開始嘗試尋找 Ernest Cline （這部小說的作者）的更多信息。最后，當系統找到了回答這個問題所需的全部文檔之后，它就會把這些檢索步驟中找到的排名靠前的文檔級聯起來，然后把它們輸入一個內容限定的問答系統來預測最終的答案。

這種方法的主要挑戰在于如何訓練一個易于與其它組件合作的查詢問題生成器，能借助它生成的問題語句檢索到所有所需的信息。這篇論文的主要貢獻也就是一種高效地訓練查詢問題生成器的方法，對于要檢索到哪些文檔只需要很少的監督信號，而且能在回答復雜的開放領域問題時發揮出優秀的表現。作者們的方法基于一個重要的觀察：如果一個問題能根據語料回答，那么其中就會存在一個可以追蹤的過程鏈條（或者圖）。換句話說，作者們提出，在尋找支撐線索的過程中的任意時刻，都需要在「已知的」（問題文本、已經找到的線索）和「要找的」（其余的支撐線索）之間存在強語義重疊。

斯坦福大學EMNLP2019論文：回答大規模開放領域復雜問題

找到回答復雜問題所需的許多支撐線索就好像要在草堆里找到很多根針。因為難，所以不要一個一個地找它們，要找到穿在這些針之間的線，也就是「已知的」和「要找的」之間的強語義重疊。

在一開始，系統問的問題都是關于「已知的」，然后需要找到能組成推理鏈、回答這些問題的「要找的」文檔。根據作者們的觀察，至少能找到一篇文檔可以和問題之間有強的語義重疊，所以這里的目標就是至少找到一篇這樣的可以幫助拓展推理鏈的文檔。在前面的《Armada》的例子里，這篇文檔起到幫助作用的文檔就可以是《Armada》小說的維基百科頁面，其中的語義重疊就是「Armada」這個名字，以及「這是一本小說」。用基于文字的信息檢索系統并不難找到這樣的文檔，只需要確定一個重疊的詞句然后搜索它就可以。

在一步信息檢索過后，很有可能系統就在許許多多文檔里找到了關于《Armada》小說的這個維基百科頁面。到了這里，根據「已知的」（「Armada」這個名字和《Armada》小說的維基百科頁面）和「要找的」（「Ernest Cline」）之間的語義重疊就可以生成新的查詢問題。要找到語義重疊并不難，只需要在「已知的」和「要找的」之間進行最長相同子序列查找就可以。

首先找到推理中的每一步所需的查詢問題，然后就可以訓練模型來根據每一步中的問題+已經檢索到的文檔生成新的問題。這樣訓練出的查詢問題生成器就可以用在多步驟的開放領域推理中。這里的查詢問題生成任務可以看作是一個內容限定的問答問題，它的本質就是把給定的問題和給定的文檔（在上一個步驟中檢索到的文檔）映射到能根據文檔導出的一段文本內容，所以和問答（閱讀理解）非常相似。

論文作者們把整個系統稱為 GoldEn Retriever，意為「黃金實體檢索器」，一方面因為模型檢索到的維基百科頁面大多數都是關于實體的，同時這也是一個用于檢索的模型的很有趣的名字（在英文語境中）。下面的表格中列出了一些樣例問題以及用來訓練查詢問題生成器的不同步驟的查詢問題。

斯坦福大學EMNLP2019論文：回答大規模開放領域復雜問題

根據尋找語義重疊的流程找到的、希望 GoldEn Retriever 學會生成的問題例子。可以看到，第二步中的查詢問題針對的信息是完全不包含在原有的問題中的，只能通過迭代檢索的方式尋找。

在這里，作者指出：

首先不難看到，把語義重疊找到的問題作為查詢問題生成器的訓練的監督信號，這種做法是可以拓展到任意數目的支撐線索文檔中的。而且它也不需要額外的知識來指明是否需要&如何把原本的問題分解成幾個子問題。只要在訓練的時候已經找到了那個所需的“黃金”支撐線索文檔，就可以用這種方式高效、大規模地構建開放領域下的推理鏈條。
作者們也沒有對文檔檢索的順序做出任何假設。在開放領域推理的任意一個步驟中，假設可以一次性枚舉出所有有關聯的、在推理鏈條里將會檢索到的文檔，找到這些文檔中的語義重疊、生成查詢問題、進行搜索，最先、最容易被找到的文檔就會是和當前的推理步驟最緊密相關的文檔。

數據集：HotpotQA

作者們用來測試 GoldEn Retriever 表現的數據集是 HotpotQA，這是 Peng Qi 等人發表在 EMNLP 2018 的論文中介紹的一個較新的多跳問答數據集，它是基于英文維基百科，由眾包的問題組成的 QA 數據集。具體來說，他們給眾包工作者展示兩個相關聯的維基百科頁面中的簡介段落，然后讓他們寫出一些同時需要這兩部分信息才能回答的問題。上文中關于《Armada》小說的問題就是來自這個數據集的。為了鼓勵以及方便其他研究人員設計具有可解釋性的問答系統，作者們也讓眾包工作者們在段落中高亮標出能支持他們的問題和回答的句子（也就是「支撐線索」），并讓問答系統在測試時找出這些線索。

HotpotQA 中包含兩種評價設定：一個從少量文檔中提取的設定，以及一個開放領域、針對整個維基百科的設定；后一個設定也是作者們主要研究的，就是給定一個問題以后，系統需要從整個維基百科中找到答案。HotpotQA 的一大特色是含有各種不同的推理策略，有一些問題中缺少主體（比如關于《Armada》小說的問題缺少作者的名字），有一些問題是交叉屬性（比如問題「什么東西同時有 A 性質和 B 性質」），有一些問題是比較，比較兩個實體的同一個屬性，等等。

在這個系統上評價問答系統，會考察系統的兩個方面：回答的準確率以及可解釋性。回答準確率由答案的確切匹配（exact matches，EM）以及一元組 F1 分數評價；可解釋性也會計算模型預測的支撐線索和標注出的支撐線索之間重合程度的 EM 和 F1 分數。這兩個方面的 EM 和 F1 分數是合并考慮的，也就是鼓勵問答系統在「準確」和「可解釋」方面都有好的表現。

對于在檢索出的文檔上做閱讀量理解回答問題的模型，作者們選擇了一個 BiDAF++ 模型。更多的技術細節可以參見論文。

測試結果

作者們評價 GoldEn Retriever 的表現也從兩個方面出發：它檢索到好的支撐線索文檔的能力，以及它在問題回答任務中的端到端表現。

在檢索文檔方面，作者們拿來和 GoldEn Retriever 對比的是只用原本問題做一次檢索的「檢索+閱讀理解」系統。評價方式是，已知有兩個段落是含有支撐線索的，然后考察兩個系統從文檔庫中檢索出的 10 個段落中包含這兩個段落的召回率（recall）。之所以要評價這個方面，是因為即便內容限定閱讀理解組件是完美的，這個召回率也決定了整個系統的表現的上限。

斯坦福大學EMNLP2019論文：回答大規模開放領域復雜問題

要找的這兩個段落，段落 1 和問題的關聯性較高，兩個系統都獲得了不錯的召回率；而對于聯系不那么直接的段落 2，GoldEn Retriever 的召回率足足高了 24%。這意味著，有大概 24% 的問題是「檢索+閱讀理解」系統找不到支撐線索段落，而 GoldEn Retriever 能夠找到的。更深入的分析表明提升主要來自于改進了非對比性問題中的表現（recall 提升了 25%），這類問題并不那么容易回答。

在端到端任務中，作者們把 GoldEn Retriever 和多個「檢索+閱讀理解」系統進行了對比，其中包括在數據集的開發集（development set）上直接和基線系統比較，以及與公開排行榜上的、在隱藏測試集（hidden test set）上跑出結果的系統對比。

斯坦福大學EMNLP2019論文：回答大規模開放領域復雜問題

HotpotQA 數據集中自帶了一個 IR 信息檢索系統，它與 Elasticsearch 共同作為了「檢索+閱讀理解」的基線系統；Elasticsearch 具有更強的檢索能力，但也僅僅把 F1 從 22.75% 提升到 27.11% 而已；公開排行榜上的最好的公開系統有 34.92% 的 F1 分數，這還有很大距離。GoldEn Retriever 把公開排行榜成績提高到了 39.13% F1，而且考慮到前一個系統使用了強大的 BERT 模型作為組件的話，這個成績更是十分珍貴。目前開發集上的最好成績來自 Oracle IR，作者們認為如果他們能繼續改進查詢問題生成器，讓它更好地按照設計預期生成問題的話，表現并不會落后 Oracle IR 太多。

在解釋性方面，作者們除了考察了指標分數，也具體觀察了 GoldEn Retriever 生成的查詢問題。它生成的問題都很好理解，而且還有糾正錯誤的能力。