中國人民大學文繼榮：搜索，從相關性到有用性

本文作者：我在思考中

2021-07-14 14:16

導語：文繼榮對搜索技術的發展歷程以及未來的研究方向進行了梳理和展望

整理 | Mr Bear

在今年智源大會上，中國人民大學高領人工智能學院執行院長、北京智源人工智能研究院首席科學家文繼榮教授以「從相關性到有用性」為線索，對搜索技術的發展歷程以及未來的研究方向進行了梳理和展望。

圖 2：搜索發展的三個階段

上世紀 90 年代，互聯網剛剛興起。彼時，我們將搜索任務定義為語法匹配。起初搜索技術面向的用戶和任務較少，Google 研制的第一個搜索引擎索引了 2000 多萬網頁。搜索技術最早的受眾人群是圖書管理員、讀者，以及早期的網民，當時語法匹配方法就可以滿足搜索的要求。

圖 3：語義匹配階段

隨著互聯網的發展，搜索技術逐漸向語義匹配發展。此時出現了更多樣化、多噪聲的數據，受眾也逐漸發展為了大量的互聯網網民。我們希望搜索系統能夠理解用戶表達的并不清晰、完整的查詢，因此進行準確的語義的理解是非常關鍵的。

圖 4：語用匹配

目前，搜索技術正在向語用匹配過渡。在未來的移動互聯網等場景中，我們需要能夠隨時隨地進行搜索，得到理想的答案，從而幫我們完成任務。汽車未來也可能成為一個重要的搜索場景，移動的環境中存在多種可以隨時隨地獲取信息的傳感器，幫助人類完成各種任務。

圖 5：語用匹配的關鍵因素

為了實現搜索技術從相關性到可用性的革新，我們需要考慮以下 3 個關鍵的因素：

（1）循因果、可解釋。挖掘出事物內在的運行規律，做到知其然且知其所以然。

（2）多輪交互。未來的搜索系統應該扮演人類助手的角色，人類可以與之進行交互，而不僅僅只是單獨完成一次次的查詢。

（3）多模態。結合多個模態的數據幫助人類作出決策。

1

基于因果的搜索技術初探

第一，基于因果的搜索。因果性不光是信息檢索領域，各個領域都非常關注，這就是為什么要知其所以然。現在有很多模型，包括悟道2.0預訓練模型，還主要是基于相關性而非因果性的。

圖 6：基于相關性的智能

基于因果的智能是當下多個研究領域的熱點問題。目前我們建立的大多數智能系統仍然是以相關性為基礎的，它們存在諸多不足之處。

圖 7：網頁排序

以網頁排序為例，在使用 PageRank 算法時，我們假設網頁的鏈接數越則多網頁的可信度和重要性越高。然而，實際上這種假設將因果倒置了。真正的因果可能是，網頁質量高導致網頁的鏈接數較多。

圖 8：因果關系倒置的影響

而如果我們將上述因果關系倒置，該漏洞可能會被「搜索引擎優化者」（SEO）利用。SEO 可以通過「灌水」增加網頁的鏈接數，從而提升網頁的排名，即 Link Spam。

圖 9：真正的因果關系

此外，用戶點擊行為還會受到選擇偏置和位置偏置等因素的影響。排名靠前的網頁被點擊的可能性往往較大，排在后面的點擊率則較小。如果某網頁沒有被排在第一頁，它甚至沒有機會被點擊。以往的搜索系統大多沒沒有考慮選擇偏置和位置偏置。實際上，「是否展示」、「網頁排名」、「點擊」和「相關性」會構成復雜的因果關系，我們不應該簡單地構建點擊率與網頁排名的相關性。

圖 10：忽略因果關系將導致模型偏置

在搜索系統中，我們可以利用用戶的反饋結果改進排序算法，而這一過程會使上述偏置不斷在系統中積累。可見，忽略因果關系將導致模型偏置對系統性能的影響越來越大。

圖 11：基于因果技術的搜索

未來，我們需要將因果推斷集成到搜索引擎中，從而實現更可信、公平、可解釋的搜索，使搜索引擎不易被攻擊、不受到偏置因素的影響、解釋得到搜索結果的理由。

2

面向信息檢索的反事實學習

圖 12：面向信息檢索的反事實學習

信息檢索可以利用反事實學習消除偏置的影響，從而實現因果推斷。反事實技術指的是通過改變某些條件，并觀察改變條件之前的結果是否還會發生，從而判斷該條件對結果的影響。

在該場景下，我們一般會處理三種數據：（1）觀測到的有偏數據；（2）觀測到的無偏數據；（3）未觀測數據。

面向檢索的反事實學習包含四個部分：（1）反事實數據學習（2）對觀測到的有偏數據進行校正（3）雙魯棒方法，同時處理未觀測到的數據和觀測到的有偏數據（4）通過干預方法結合觀測到的有偏和無偏數據

圖 13：雙穩健排序

我們與華為諾亞方舟實驗室合作設計了一種雙穩健排序算法，可以在排序學習過程中同時對選擇偏置和位置偏置建模，同時處理觀測到的有偏數據和未觀測的數據，通過 IPS 消除位置偏置的影響，用直接法消除選擇偏置的影響。

圖 14：基于用戶模擬的反事實排序模型訓練

我們可以直接將用戶的點擊日志和深度學習模型組合起來模擬用戶的行為，構建一個訓練排序模型的虛擬環境，并基于該環境對未觀測的數據做反事實學習。

圖 15：延遲反饋下的反事實獎勵修正

在我們最近被 SIGIR 2021 接收的論文「Counterfactual Reward Modification for Streaming Recommendation with Delayed Feedback」中，我們用反事實約束的方法消除用戶的延遲反饋。具體而言，我們利用模擬的延遲反饋構建反事實的 Deadline，并采取了多臂老虎機強化學習策略，從而將實際產品數據離線測試的 CVR 提升了 3.86%。

圖 16：基于反事實數據增強的序列化用戶行為建模

推薦任務中往往存在數據稀疏的問題。比如，用戶購買了商品 A，后面又瀏覽或者購買了其它的商品。我們可以利用反事實技術，假設該用戶沒有購買商品 A，預測他接下來的行為。在 SIGIR 2021 論文「Counterfactual Data-Augmented Sequential Recommendation」中，我們用反事實數據進行數據增強，根據觀測數據生成反事實用戶行為樣本，進而緩解了序列建模中的數據稀疏問題。

3

多輪交互

多輪交互很多領域都在研究，自然語言處理、信息檢索領域對其關注尤其多。我們認為未來的信息檢索不是一趟式的。現在的搜索引擎強迫用戶采用單輪的搜索來找答案，而更好的方式是與系統交互，有問有答，層層遞進尋找答案。

圖 17：交互式信息檢索

多輪交互式自然語言處理、信息檢索領域的另一個熱門研究課題。我們希望未來的信息檢索不僅僅局限于單趟交互，能夠在多輪交互中從用戶并不完整、清晰的表達中充分獲取信息需求，這種層層遞進的方式更加符合人類的使用習慣。例如，我們在訂餐館的過程中，需要通過多輪交互逐漸確定對于餐館、菜品、交通等因素的需求。

圖 18：交互式檢索面臨的挑戰

多輪交互和信息檢索的結合面臨諸多挑戰，例如：意圖跟蹤、語言問答的生成、結果的評價等。

圖 19：交互式搜索框架

在 SIGIR 2020 論文「Recent Advances in Conversational Information Retrieval」中，作者提出了一種交互式搜索框架。在該框架下，用戶首先給出一個查詢，系統會搜索到一些與查詢匹配的文檔，并通過將多個文檔綜合起來最終形成回答結果。在下一輪問答中，系統會將用戶在對話中的查詢和上一輪的回答結合起來生成考慮上下文信息的查詢。系統在回答查詢問題的同時也可以給向用戶做推薦、與用戶進行交互，或者反過來想用戶詢問一些需要進一步說明的問題。

圖 20：面向語義融合的交互式信息獲取

問答系統除了要理解用戶的問題，還需要利用信息資源語義空間中的對象的語義。為此，我們同時在資源空間和用戶空間內構建了知識圖譜，并分別對它們進行表示學習，然后基于互信息最大化技術對上述兩個圖譜進行了語義融合，從而使系統可以根據問題推測出用戶關注的是哪些對象及其屬性。

圖 21：基于話題引導的交互式信息獲取

我們常常希望以自然的方式在對話中進行推薦。然而，缺乏測試和訓練數據集是我們面臨的主要挑戰，為此我們收集大量用戶在推薦網站上的行為數據（例如，電影瀏覽的序列），從而生成對話數據，并發布了話題引導的對話式信息獲取數據集 TG-Redial。

圖 22：基于認知模型的交互式搜索評價

我們分析了搜索滿意度的生成機制，設計了同時考慮級聯衰減效應和近因效應的多輪交互式檢索評價指標。具體而言，我們考慮通過以下三個模型為交互式搜索任務提供一種高質量的評價體系：

（1）瀏覽模型：記錄用戶在瀏覽階段的行為（例如，點擊、提問等）。

（2）文檔效用模型：估計文檔的效用

（3）效用累計模型：在交互式搜索中如何逐漸尋找到要理想的答案。

圖 23：基于對話的交互式信息獲取工具

我們發布了學術界第一個基于對話的推薦工具包 CRSLab，覆蓋了四個主要任務下的 18 種模型和大量已公開的數據集。

圖 24：交互式搜索研究

此外，在交互式搜索領域中，我們還針對「問題生成」，「融合多輪上下文的排序模型」和「面向交互式搜索的預訓練」等問題展開了研究。

圖 25：推薦系統開源工具庫“伯樂”

趙鑫教授團隊發布了推薦系統開源工具庫“伯樂”，目前已在 Github 上收獲了近 1000個 Star。

圖 26：交互式智能政務助手

智源信息檢索團隊基于交互式搜索開發了智能政務助手。該系統的第一個版本的開發工作已經完成，具備任務型多論問答、政務辦事指南導航、基于機器閱讀理解的模型問答、答案融合排序等功能。

4

從文本到多模態

圖 27：人腦處理多模態信息的機制

多模態預訓練技術對于搜索任務也具有十分重要的意義。人類在做信息搜索時往往會使用多模態的數據。在 2005 年《自然》雜志刊登的的一篇論文中，作者指出人腦會自動將對應于同一個概念的多模態信息映射到相同的語義空間的表征上，我們期望計算機也能實現同樣的功能。

圖 28：文瀾——大規模多模態預訓練模型

人腦的強大之處在于，我們可以利用弱相關的信息。例如，看到圖 28 中的蛋糕，人類會想到吃蛋糕不利于減肥。目前主流的模型旨在理解圖文數據間的強相關信息，中國人民大學、中科院計算所、清華大學、智源人工智能研究院聯合組成的文瀾團隊開發了能夠有效利用圖文數據間弱相關信息的大規模預訓練模型，更加符合實際需求。此外，文瀾團隊還收集了海量的數據用于模型預訓練。

我們主要使用了圖片和文字兩個模態的數據，根據圖文匹配程度對樣本進行了排序，從而提升匹配精度，并使用了跨模態對比學習技術構建了雙塔的 BriVL 架構。

與 OpenAI 的 CLIP 和谷歌的 ALIGN 大規模預訓練模型相比，文瀾模型的性能均取得了較大程度的提升。

圖 29：多語言多模態預訓練

此外，我們還研發了多語言多模態預訓練模型，旨在結合多模態與多語言與訓練的優勢，利用視覺作為多種語言知識遷移的橋梁，為多模態模型提供更廣闊的應用場景。

圖 30：文瀾多模態神經元示例——詩句

當我們向文瀾模型輸入詩句時，模型會自動生成符合詩句內容和意境的圖像，這證明了多模態數據之間的相關性。

圖 31：跨模態檢索

基于文瀾模型，我們可以實現跨模態檢索，只需向系統輸入關鍵詞，就可以檢索出來之前并沒有標注過的圖像。

5

未來的研究方向

圖 32：智能信息助手賈維斯

兩年前，智源信息檢索與挖掘團隊成立時，我們的愿景就是未來能夠創造出類似于電影《鋼鐵俠》中的智能信息助手賈維斯這樣的搜索系統。

圖 33：交互式個人智能信息助手

無論人類想知道什么信息，都可以通過與該系統進行對話得到最智慧的答案。由于人的存儲計算和能力是有限的，所以我們需要使用這樣的「外掛」，從而使人類的能力得到提升，最終將信息和知識轉化為有用的行動。

圖 34：交互式個人智能信息助手的能力

交互式個人智能信息助手需要具備自然交互的能力，在主動的多輪交互中做到自然語言對話；需要為用戶指定專屬的用戶畫像、考慮專屬的個性化服務，做到場景感知；同時，我們需要整合多源數據、多模態數據、個人數據、來自第三方 APP 的數據解決多模態整合的問題；此外，我們還需要向該系統中融入知識，基于因果推理技術實現安全、可解釋的搜索，實現搜索的高準確性、高魯棒性。

雷鋒網雷鋒網雷鋒網

雷峰網特約稿件，未經授權禁止轉載。詳情見轉載須知。

4人收藏

我在思考中

運營

發私信

當月熱門文章