<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給我在思考中
      發送

      0

      EMNLP2021 | 東北大學提出:一種基于全局特征的新型表填充關系三元組抽取模型

      本文作者: 我在思考中 2021-10-14 18:44
      導語:在本文中,我們提出一個基于兩類全局特征的表填充三元組抽取模型。
      EMNLP2021 | 東北大學提出:一種基于全局特征的新型表填充關系三元組抽取模型

      作者 | 張龍輝

      論文鏈接:https://arxiv.org/pdf/2109.06705.pdf

      作者簡介:張龍輝,共同一作。目前為東北大學知識圖譜研究小組的在讀碩士,導師是任飛亮老師。在EMNLP,CIKM,NLPCC均有論文發表。研究領域為信息抽取。

      個人主頁:https://zlh-source.github.io/

      導師主頁:http://faculty.neu.edu.cn/renfeiliang



      1

      摘要

      基于表填充的關系三元組抽取方法由于其良好的性能和從句子中提取復雜三元組的優秀能力而受到越來越多的研究者關注。然而,這類方法遠遠沒有發揮其全部潛力,因為它們大多只關注局部特征,而忽略了三元組間的全局關聯,這使得模型在三元組抽取過程中會忽略某些重要信息。為了克服這一缺陷,我們提出了一種基于全局特征的關系三元組抽取模型,該模型可以充分捕獲三元組間的全局特征。

      具體而言,我們首先為每個關系生成一個與之對應的表特征。接著,我們將從這些表特征中挖掘關系間的全局交互特征、以及token pairs之間的全局交互特征。下一步,這兩類全局交互特征將進一步融合到各個關系對應的表特征中。以上“生成—挖掘—融合”的過程會執行多次,以便使每個關系對應的表特征逐步精細化。最后,根據這些表特征,我們可以對每個關系對應的表進行填充,并根據填充結果而得到具有相應關系的各個三元組結果。我們在多個benchmark數據集上對相應方法進行了評估,實驗結果顯示,我們方法的結果明顯優于多個最新三元組抽取方法。



      2

      引言

      三元組一般以(subject, relation, object)的形式表示客觀存在的一個知識。比如,(中國,首都,北京)可以表示“中國的首都是北京”這一事實。在三元組中,subject和object均為實體,relation為關系。相應地,三元組抽取任務是在給定輸入文本(一般以句子為單位)的條件下,從中自動地抽取出文本所包含的三元組信息。顯然,三元組抽取任務對于知識圖譜自動構建等下游任務而言至關重要。

      在各類三元組抽取方法中,基于表填充的方法是目前廣受關注的一類方法。該類方法的主要特點包括以下兩點。

      • 1)在給定輸入的條件下,該類方法為每一個關系設定一個對應的表,表的大小為L*L,其中L為輸入文本中包含的token數。換句話說,如果預先定義了n個關系,那么,對于每一個輸入文本,將會有對應的n個L*L的關系表。

      • 2)關系表中的元素可以稱為對應模型所定義的label集,主要用來提示對應的一個token pair所具有的可以提示其是否具有對應關系的各類提示信息。比如,我們可以用”HH”來表示某個token_i和token_j均為對應關系的頭實體(即subject實體)中的token。

      顯然,如果每個關系的對應表信息都可以準確的獲得,那么,就可以基于這些表準確地推導出輸入文本中所具有的三元組信息。因此,基于表填充的三元組抽取方法的關鍵是有效地進行關系表填充。

      目前,一些基于表填充的方法在多個基線數據集上都取得了SOTA的結果。然而,這些已有方法在進行表填充過程中都是以使用下面兩類局部特征為主:

      • 1)在確定某個表元素時,使用該元素所對應的token pair信息;

      • 2)在確定某個表元素時,使用已完成填充的歷史表元素信息。

      顯然,這些方法忽略了token pairs之間的全局關聯信息以及關系間的全局關聯信息。而這兩類全局特征可以較好的揭示關系和token pairs之間的差異,既可以通過多方面相互驗證而提高三元組抽取的準確率,又可以通過幫助推導出新的三元組而提高三元組抽取的召回率。

      比如,給定輸入句子“Edward Thomas and John are from New York City, USA.”,從全局的角度來看,我們可以很容易獲得下面兩類全局信息。首先,三元組(Edward Thomas, live_in, New York)有助于三元組(John, live_in, USA)的提取,反之亦然。這是因為這兩個三元組的(subject, object)對具有類似的屬性,均是以(人名,地名)的形式出現,而相同類型的實體對顯然更容易具有相同或類似的關系。換句話說,根據三元組中實體對信息的屬性可以對獲得到的三元組進行進一步的驗證以提升準確度。其次,通過上面兩個三元組有助于推導出新的三元組(New York, located_in, USA)。這是因為:

      • (1)locate_in關系要求其對應的兩個實體均與locations相關;

      • (2)locate_in與live_in在語義上具有一定的相關性;

      • (3)live_in關系要求其對應的object實體為locations。

      這樣,在已知的兩個三元組和未知的三元組之間可以確立一條清晰的推導路徑。顯然,這兩類重要的全局特征信息不可能被現有方法中使用的局部特征所包含。受此啟發,本文的方法主要是通過挖掘、使用上面提到的兩類全局特征進行三元組抽取。


      3

      方法介紹

      通過前面的介紹我們可以知道,在基于表填充的三元組抽取模型中,首要任務就是為關系表定義合適的label集,每個label均用來表示一個token pair(這里記為(wi,wj))所在某個關系對應的表中所具有的和三元組相關的某些屬性。

      在本文中,我們定義的label集為:{"N/A", "MMH", "MMT", "MSH", "MST", "SMH", "SMT", "SS"}。其中標簽{"MMH", "MMT", "MSH", "MST", "SMH", "SMT"}等均由三個字母組成,第一個字母為M或S時,代表單詞對中wi是subject中的某個單詞,并且subject是由多個單詞或單個單詞組成的實體。第二個字母與第一個字母類似,只是該字母是關于object和wj的相關信息的描述。第三個字母H或T代表該單詞對分別是subject和object的開頭或結尾。而”SS”標簽表示該單詞對就是實體對,即為兩個實體均只有一個單詞。N/A標簽即為其它情況。

      和已有的表填充方法相比,本文設計的label集的一大特點是可以大幅減少模型需要填充的元素個數(詳細情況可以參考論文中對應的分析部分)。

      模型結構

      我們模型的結構如下圖1所示,主要包含4個模塊:Encoder模塊、表特征生成模塊、全局特征挖掘模塊、以及三元組生成模塊。

      給定一個輸入句子,我們首先對其進行編碼,抽取出句子特征。

      之后,句子特征被輸入進表特征生成模塊中,生成初始的表特征。

      接著全局特征挖掘器利用max pooling和transformer進行表格和句子的交互,用以捕獲全局特征,并將全局特征和句子特征進行信息融合作為下一次迭代時的句子特征輸入進表特征生成模塊。至此,整個迭代過程形成了一個閉環。

      經過多次迭代后,每個表對應的特征將被逐漸細化,我們依據最后一次迭代生成的表特征使用三元組抽取器進行表填充和表解碼以得到最終的三元組結果。

      這里,我們忽略了各個模塊中的具體過程,讀者可通過閱讀原文獲取詳細信息。

      EMNLP2021 | 東北大學提出:一種基于全局特征的新型表填充關系三元組抽取模型

      圖1.模型結構圖

      表解碼策略

      對于每一個關系,當完成對其對應的表填充后,需根據填充結果進行解碼,以得到具有該關系的三元組結果。當對所有關系的表解碼完成后,輸入句子所具有的所有三元組信息也相應的獲取完成。

      在本文中,我們主要通過確定實體對的開始和結束位置來進一步確定所有的關系三元組。同時,為了應對實體嵌套的問題,在該階段我們設計了三種解碼策略:正向搜索,反向搜索和“SS”標簽的搜索(分別對應下面圖2中的紅線,綠線和藍線)。

      EMNLP2021 | 東北大學提出:一種基于全局特征的新型表填充關系三元組抽取模型

      圖2.表的填充和解碼示意圖



      4

      實驗

      論文使用NYT29,NYT24和WebNLG數據集進行性能測試。整體實驗結果和消融實驗結果如表1所示。結果顯示,相較于之前的最佳三元組抽取模型,本文提出模型的性能在三個數據集上均有明顯提升。其中,在WebNLG上的提升幅度最為明顯,我們認為,這主要是因為WebNLG數據集中包含更多種關系,這也意味著三元組之間的全局特征也更多。因而,該數據集可以使我們的方法發揮更大功效。

      EMNLP2021 | 東北大學提出:一種基于全局特征的新型表填充關系三元組抽取模型

      表1.整體實驗及消融實驗結果

      在本文所提的模型中,存在一個迭代過程,因而研究者會擔心其效率。為此,我們進行了兩部分實驗來評估其執行效率。

      首先,我們對模型的性能與迭代次數的關聯進行了評估,結果如圖3所示。從中我們可以發現兩個重要的結論。

      • (1)在一定范圍內,隨著迭代次數的增多,模型性能也會逐漸上升,并且在模型在迭代兩次時,性能漲幅最大,而此時正是全局特征首次參與運算。因此,這個實驗結果證明了捕獲全局特征的重要性。

      • (2)通過該實驗結果,我們可以清晰的看到,模型僅需迭代較少的次數就可以達到最佳性能。比如,在相對簡單的NYT*和WebNLG*數據集上,只需迭代兩次即可達到最佳性能;而在其它相對復雜的數據集上,也僅需迭代3、或4次即可得到最佳性能。更重要的是,從中可以看出,即使只迭代2次,本文模型所對應的性能也超過了之前所有的模型。

      這些結果顯示,本文方法中的迭代環節不會成為模型運行的負擔。

      EMNLP2021 | 東北大學提出:一種基于全局特征的新型表填充關系三元組抽取模型

      圖3.迭代次數與模型性能的關聯

      首先,我們比較了一些當前最佳模型的參數效率,結果如下表2所示。從中可以看出,與同樣使用Transformer的SPN模型相比,我們的模型具有更少的參數。而且,從encoder參數所占的比例來看,我們模型的迭代部分并沒有引入更多的參數。因此,從該實驗結果我我們可以得出結論,本文所提的模型具有極強的參數效率:可以在較少的參數條件下達到更好的性能。此外,本文模型的另外一個優勢在于其可以在較短的時間內完成訓練。因為本文模型的epoch設置為50,而其它所有對比模型的epoch均設置為100。而從表2的推導時間可以看出,不同模型的推導時間基本接近。而模型訓練時間與推導時間存在一定的正向關聯,因而,較少的epoch意味著更快的訓練速度。

      EMNLP2021 | 東北大學提出:一種基于全局特征的新型表填充關系三元組抽取模型

      表2.參數效率比較

      通過上面兩類實驗,我們可以得出結論,雖然本文模型中有迭代環節,但并沒有因此而導致效率低下,相反,通過有效地進行全局特征挖掘,本文方法可以在較少的迭代次數下獲取最佳的實驗性能。



      5

      結語

      在本文中,我們提出一個基于兩類全局特征的表填充三元組抽取模型。實驗結果顯示,這兩類全局特征對于提升模型的準確率、召回率均有較大幫助。相應地,本文所提出的模型在多個基線數據集上均取得了最佳性能。并且,本文所提模型還具有參數量適中、參數效率高的特點,是一種高效的三元組抽取模型

      還有疑問?點擊視頻觀看詳細講解:

      添加小助手微信(AIyanxishe3),備注EMNLP2021拉你進群

      EMNLP2021 | 東北大學提出:一種基于全局特征的新型表填充關系三元組抽取模型

      EMNLP2021 | 東北大學提出:一種基于全局特征的新型表填充關系三元組抽取模型

      雷鋒網


      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      EMNLP2021 | 東北大學提出:一種基于全局特征的新型表填充關系三元組抽取模型

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 陆川县| 伊人毛片| 久久精品—区二区三区无码伊人色| 麻豆乱码国产一区二区三区| 熟妇丰满人妻av无码区| 久久精品欧美日韩精品| 中文字幕一级A片免费看| 色又黄又爽18禁免费网站现观看| 欧美人成在线播放网站免费| 精品不卡一区二区| 狠狠亚洲婷婷综合色香五月| 色妺妺视频网| 亚洲色大成网站www永久男同| 亚洲欧美天堂| 国产乱人偷精品人妻a片| 99麻豆| 久久天天躁狠狠躁夜夜2020老熟妇| 欧洲亚洲欧美国产日本高清| 久久亚洲视频| 国产爆乳无码一区二区在线| 日本理伦片午夜理伦片| 加查县| 亚洲精品色欲| 亚洲人成电影在线播放| 69老司机精品视频免费观看| 亚洲国产aⅴ成人精品无吗| 久草资源在线| 国产精品无码专区| 亚洲熟女字幕| 亚洲3p| 精品人妻一区介绍| 口爆AV| 性爱视频网址| 97人人模人人爽人人少妇| 在线日韩日本国产亚洲| 超碰aⅴ人人做人人爽欧美| 国产精品一区二区三区蜜臀| 美女毛片一区二区三区四区| 亚洲 日韩 欧美 成人 在线| 夜夜偷天天爽夜夜爱| 国语自产精品视频在线看|