阿里巴巴AAAI 2018錄用論文：將句法信息加入實體表示模型

本文作者：奕欣

2018-01-06 09:26

專題：AAAI 2018

導語：首先基于 Tree-GRU，把實體上下文的依存樹放入句子級別的表示。其次，利用句子間和句子內部的注意力，來獲得含有目標實體的句子集合的表示。

雷鋒網 AI 科技評論按：AAAI 2018 將于 2 月 2 日 - 2 月 7 日在美國新奧爾良舉行，雷鋒網(公眾號：雷鋒網) AI 科技評論也將到現場進行一線報道。

在今年的 AAAI 2018 上，阿里巴巴共有 11 篇論文被錄用，并做了一系列的論文解讀。本文為阿里巴巴業務平臺事業部供稿，雷鋒網 AI 科技評論經授權發布。

論文名稱：Syntax-aware Entity Embedding for Neural Relation Extraction（句法敏感的實體表示用于神經網絡關系抽取）

團隊名稱：業務平臺事業部

作者：何正球，陳文亮，張梅山，李正華，張偉，張民

摘要

關系抽取任務大規模應用的一個主要瓶頸就是語料的獲取。近年來基于神經網絡的關系抽取模型把句子表示到一個低維空間。這篇論文的創新在于把句法信息加入到實體的表示模型里。首先，基于 Tree-GRU，把實體上下文的依存樹放入句子級別的表示。其次，利用句子間和句子內部的注意力，來獲得含有目標實體的句子集合的表示。

研究背景和動機

關系抽取任務大規模應用的一個主要瓶頸就是語料的獲取。遠程監督模型通過將知識庫應用于非結構化文本對齊來自動構建大規模訓練數據，從而減輕對人工構建數據的依賴程度，并使得模型跨領域適應能力得到增強。然而，在利用遠程監督構建語料的過程中，僅僅利用實體名稱進行對齊，而不同實體在不同關系下應該具有更加豐富的多樣的語義表示，從而導致錯誤標注等問題。因此，一套更加豐富的實體表示顯得尤為重要。

另一方，基于語法信息的方法通常作用于兩個實體之間的關系上，而語法信息是可以更加豐富實體的表示的。因此，本文基于句法上下文的實體表示來豐富實體在不同關系模式下的語義，并結合神經網絡模型處理關系抽取任務。