<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能學(xué)術(shù) 正文
      發(fā)私信給楊曉凡
      發(fā)送

      0

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      本文作者: 楊曉凡 2019-05-12 18:40
      導(dǎo)語:矯正現(xiàn)有算法的多種問題

      雷鋒網(wǎng) AI 科技評(píng)論按:近年來,隨著機(jī)器閱讀理解技術(shù)的發(fā)展,越來越多的開放域問答方法采用了機(jī)器閱讀理解技術(shù)生成答案。然而,傳統(tǒng)基于機(jī)器閱讀理解的開放域問答技術(shù)存在數(shù)據(jù)噪聲大、答案概率偏置等問題,使得最后產(chǎn)生的答案效果欠佳。

      搜狗公司 & 中科院自動(dòng)化所在信息檢索領(lǐng)域頂級(jí)會(huì)議 SIGIR 2019 (CCF A 類會(huì)議)中聯(lián)合提出了一個(gè)基于文檔門控機(jī)制的閱讀算法,并將其用在開放域問答中,在很多開放域問答應(yīng)用中取得了最好的效果。搜狗公司為這篇論文《Document Gated Reader for Open-Domain Question Answering》撰寫了中文解讀文章,雷鋒網(wǎng) AI 科技評(píng)論摘錄如下。

      基于機(jī)器閱讀理解的開放域問答

      開放域問答(open-domain question answering)技術(shù)旨在給定任意類型的問題后,從任意資源中取得答案。傳統(tǒng)的開放域問答大多采用 pipeline 的方式,即先通過檢索系統(tǒng)找到跟問題相關(guān)的文檔,再通過問答技術(shù)從文檔中產(chǎn)生答案。最近幾年,隨著機(jī)器閱讀理解技術(shù)的發(fā)展,越來越多開放域問答的方法引入機(jī)器閱讀理解技術(shù)來抽取答案。例如,在 ACL2017 上斯坦福大學(xué)提出了一種神經(jīng)開放域問答框架,如下圖:

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      圖一:基于機(jī)器閱讀理解技術(shù)的開放域問答框架

      以往的基于機(jī)器閱讀理解的技術(shù)往往存在兩個(gè)問題:首先,以往的方法大多是弱監(jiān)督地根據(jù)問題找到的相關(guān)文檔,然后將包含有正確答案的文檔當(dāng)做真正的文檔來訓(xùn)練,而通過這種弱監(jiān)督獲取到的數(shù)據(jù)往往包含有錯(cuò)誤的文檔(false positive),例如下面這個(gè)例子:

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      圖二:弱監(jiān)督獲取文檔中包含的噪聲

      其中文檔一包含了正確答案(Lebron James),但是卻和問題不相關(guān)。文檔二雖然包含了多個(gè)正確答案的,但是其中很多都不能用來回答問題。

      其次,很多以前的方法都沒有考慮到答案概率的歸一化:每一篇文檔單獨(dú)抽出來一個(gè)答案,以及這個(gè)答案的概率,最后各個(gè)文章的中的答案直接比較概率得到最終的答案,然而,這種過程會(huì)存在嚴(yán)重的答案概率偏置問題,如下面這個(gè)例子:

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      圖三:文檔答案概率偏置問題

      這兩篇文章中,雖然文檔 1 是真正可以回答問題的。而且,文檔選擇模型給出的文檔 1 的概率也大于文檔 2 的概率(0.7>0.3)。但是,由于文檔 1 相對(duì)較長,所以其中的最佳答案概率在經(jīng)過文檔歸一化之后變得相對(duì)較低,而由于文檔 2 比較短,并且其中的候選答案很少,所以答案 2 的概率在歸一化后相對(duì)較高。這樣,在經(jīng)過了文檔檢索和閱讀理解兩個(gè)步驟之后,答案 2 的概率會(huì)大于答案 1 的概率。這種現(xiàn)象稱為答案概率的偏置。

      基于文檔門控機(jī)制的閱讀器

      首先,針對(duì)答案概率偏置問題,本文設(shè)計(jì)了一種專門針對(duì)開放域問答對(duì)文檔門控機(jī)制的閱讀器。這個(gè)模型建立在傳統(tǒng)機(jī)器閱讀理解模型上,引入了文檔控制器來控制最終答案的輸出,整體模型如下圖:

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      圖四:基于文檔門控機(jī)制的閱讀器

      其中,文檔和問題的建模過程和傳統(tǒng)的機(jī)器閱讀理解模型類似,是基于注意力機(jī)制的雙向 LSTM。包含有詞表示層,低級(jí)表示層,問題關(guān)注層,高級(jí)表示層以及答案輸出層。

      和以往的模型不同,在表示的過程中, 我們加入了一個(gè)文檔控制門(Document Gate),用以將文檔選擇信息引入到最終的結(jié)果中去。這個(gè)文檔控制門會(huì)輸出一個(gè) 0-1 的分?jǐn)?shù),用以影響最后生成的答案的概率。

      其中的文檔控制器作用在問題的低級(jí)表示和文檔的高級(jí)表示之上,如下圖:

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      圖五:文檔控制器

      其中K為候選文檔的個(gè)數(shù)??梢钥吹?,通過最上層的雙向LSTM,各個(gè)文檔之間的信息也聯(lián)系了起來。最后的文檔分?jǐn)?shù)g是包含有上下文文檔的得分,因而表示相關(guān)性能力更強(qiáng)。

      最后,在訓(xùn)練的時(shí)候,為了避免答案概率的偏置問題,本文采用了一種全局歸一化的目標(biāo)函數(shù):

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      可以看到正確答案的得分和所有答案的得分進(jìn)行了比較,所以這種優(yōu)化目標(biāo)會(huì)使最終正確答案的分?jǐn)?shù)是全局最高的。

      基于自舉法的弱監(jiān)督數(shù)據(jù)生成

      為了解決傳統(tǒng)弱監(jiān)督數(shù)據(jù)中存在的噪聲較大的問題,我們使用了一種基于自舉法(bootstrapping)的數(shù)據(jù)生成方法。具體來說,我們首先根據(jù)一些置信度較高的數(shù)據(jù)當(dāng)成種子數(shù)據(jù),例如,在 SQuAD 中種子數(shù)據(jù)可以是提供的最佳答案,在一些其他類型數(shù)據(jù)中可以是經(jīng)過檢索模型打分最高的。然后,在這個(gè)種子模型中我們預(yù)訓(xùn)練我們的模型,然后依靠上述的文檔控制器的得分可以從未標(biāo)注的弱監(jiān)督數(shù)據(jù)中選擇出分?jǐn)?shù)較高的文檔,加入到訓(xùn)練集里面繼續(xù)訓(xùn)練。整個(gè)過程如下:

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      實(shí)驗(yàn)

      本文采用了四個(gè)被經(jīng)常使用的數(shù)據(jù)用以評(píng)估所提出的模型,分別是 SQuAD, SearchQA, WebQuestions, WikiMovies。關(guān)于這幾個(gè)數(shù)據(jù)集的一些信息如下表:

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      本文提出的模型和以往的一些模型的效果對(duì)比如下圖:

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      可以看出來,本文提出的模型的在所有數(shù)據(jù)上都取得了較以往模型顯著的提升。

      為了評(píng)估引入的文檔控制門對(duì)文檔選擇的作用,我們?cè)?SQuAD 數(shù)據(jù)上來評(píng)估我們模型的效果。通過兩個(gè)指標(biāo)可以判斷出文檔選擇的效果:P@N:即通過文檔選擇的前 N 個(gè)文檔中是否包含最佳文檔。AR:在返回的文檔中最佳文檔的平均位置。各種模型的文檔選擇結(jié)果如下圖:

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      可以看到,對(duì)于文檔選擇來說,我們提出的文檔控制器能夠有效地選擇出正確文檔,選擇的效果大大優(yōu)于以往的方法。

      本文的一個(gè)貢獻(xiàn)是在訓(xùn)練目標(biāo)中使用了全局歸一化因子,因此,我們對(duì)這個(gè)全局歸一化因子進(jìn)行衡量,我們?cè)u(píng)估不同的模型在加入不同數(shù)目的噪聲后的表現(xiàn),其結(jié)果如下圖:

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      可以看到,不同的模型在加入噪聲文檔之后,沒有用全局歸一化的模型效果顯著地降低,這個(gè)現(xiàn)象也被很多以前的多文檔問答工作所證實(shí)。而由于我們使用了全局歸一化進(jìn)行訓(xùn)練,因此模型受噪聲影響較小。

      最后,為了評(píng)估本文所提出的自舉法的數(shù)據(jù)效果,我們?cè)u(píng)估在自舉法不斷進(jìn)行的過程中模型的表現(xiàn),其結(jié)果如下圖:

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      可以看到,在新數(shù)據(jù)不斷加入之后,模型的效果不斷提升,這也從另一方面說明了當(dāng)模型效果很好的時(shí)候,基于模型選擇出的數(shù)據(jù)包含有更豐富的模式,使在其上訓(xùn)練的模型表現(xiàn)更好。

      總結(jié)

      本文提出了一種基于文檔門控選擇的開放域問答模型。針對(duì)以往方法中存在的答案偏置問題本文提出了一種文檔門控選擇器用以確定文檔分?jǐn)?shù),并且使用全局歸一化目標(biāo)進(jìn)行優(yōu)化。針對(duì)傳統(tǒng)方法中存在弱監(jiān)督數(shù)據(jù)噪聲過多的問題,我們使用了一種基于自舉法的數(shù)據(jù)增強(qiáng)方法用以改進(jìn)擴(kuò)展訓(xùn)練數(shù)據(jù),在實(shí)驗(yàn)中我們發(fā)現(xiàn)本文提出的方法能夠有效地選擇出相應(yīng)文檔,并且對(duì)噪聲文檔的地抗能力更強(qiáng),在很多開放域問答數(shù)據(jù)中本文提出的方法都取得了最好的效果。

      更多人工智能相關(guān)報(bào)道請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評(píng)論。

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

      搜狗攜手自動(dòng)化所提出新的開放領(lǐng)域問答機(jī)器閱讀算法

      分享:
      相關(guān)文章

      讀論文為生

      日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
      當(dāng)月熱門文章
      最新文章
      請(qǐng)?zhí)顚懮暾?qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡介
      為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 亚洲成人精品| 亚洲精品天天影视综合网| 亚洲av影院| 灵川县| 熟女熟妇伦av网站| jizzjizz亚洲| 97久人人做人人妻人人玩精品| 成人3d动漫一区二区三区| 亚洲男人的天堂久久精品 | 无码专区视频精品老司机| 国产精品天堂蜜av在线播放| 婷婷四房色播| 久草精品在线| 欧美国产精品啪啪| 亚洲熟妇AV一区二区三区下载| 2022国产成人精品视频人| 日韩人妻精品中文字幕专区| 狠狠色噜噜狠狠狠狠色综合网 | 精品黑人一区二区三区国语馆| 亚洲成av人片色午夜乱码| 久久成人国产精品免费软件| 亚洲国产成人久久综合三区| 精品久久久久久久久中文字幕| 色婷婷欧美在线播放内射| 亚洲日韩国产中文其他| 91人妻人人澡人人爽人人精品| 麻豆人人妻人人妻人人片av| 熟女视频在线看| 欧美怡春院| 99在线观看视频| 亚洲成av人在线视猫咪| 中文字幕无码专区一VA亚洲V专| 国产人妻熟女呻吟在线观看| 婷婷在线视频| 日韩人妻中文无码一区二区| 美女被张开双腿日出白浆| 亚洲欧洲日产国无高清码图片| 曰本无码人妻丰满熟妇啪啪| 清徐县| 亚洲三区在线观看无套内射| 国内夫妻自拍|