<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發(fā)私信給叢末
      發(fā)送

      0

      CMRC2018 評測任務冠軍隊伍分享: 如何從數(shù)據、模型和訓練角度提升閱讀理解系統(tǒng)性能?

      本文作者: 叢末 2018-11-09 10:20
      導語:下周二,追一科技團隊還將在雷鋒網公開課上為大家?guī)矸窒韣
      活動
      企業(yè):追一科技
      操作:技術分享
      事項:

      雷鋒網 AI 科技評論按:2018 年 10 月 19 日,第十七屆中國計算語言學大會(CCL2018)在長沙召開,追一科技團隊作為中文機器閱讀理解(CMRC2018)評測任務的冠軍隊伍,在評測研討會上分享了本次參賽系統(tǒng)的報告。下文是該報告的講解文章,作者為追一科技的語義算法研究員巨穎,雷鋒網 AI 科技評論經授權轉載。

      機器閱讀理解(Machine Reading Comprehension)指的是,讓機器像人一樣去讀懂一段文字,并回答相應問題。常見的機器閱讀理解形式有完形填空式,選擇題式和知名度最廣的抽取式,從抽取文檔篇數(shù)又可細分為多文檔(如 MS MARCO)和單文檔(SQuAD)。

      CMRC 比賽與最流行的英文數(shù)據集 SQuAD 形式類似,文檔來源于中文維基百科,問題由人工撰寫,根據給定的一篇文檔和一個問題,參賽者需要解決的是,如何建立并訓練 model,使其能更好地理解 context 與 query,并找到相應答案。下圖為實際比賽數(shù)據的一個示例。

      數(shù)據

      在數(shù)據方面,主要工作集中在數(shù)據的歸一化和去噪音。CMRC 比賽訓練集包含大約一萬條數(shù)據,總體數(shù)據量偏少,這種情況下數(shù)據的標注一致性尤為重要。通過分析錯誤樣例,參賽隊員發(fā)現(xiàn)了標注的不一致問題,通過分析篩選最終對少量答案分布不一致的訓練數(shù)據進行了清洗。

      (1963 年)

      范廷頌是什么時候被任為主教的?

      VS 

      九廣鐵路小童儲值票是何時停止使用的?

      (1990 年 9 月停止使用)

      上面的數(shù)據樣例展示了這種標注不一致問題,同樣為時間點的詢問,但是不同標注有后綴區(qū)別,這種標注不一致問題會使模型的最終預測 EM 指標降低。

      除了標注不一致的噪音,參賽隊員還對文本進行了歸一化,比如繁簡轉換,中英文標點轉換等數(shù)據歸一化操作。

      模型

      在模型方面,追一此次參賽采用了經典的端對端閱讀理解系統(tǒng),整體框架參考微軟的模型結構 R-Net,示意圖如下:

      CMRC2018 評測任務冠軍隊伍分享: 如何從數(shù)據、模型和訓練角度提升閱讀理解系統(tǒng)性能?

      文本向量化表達

      文本的向量化表達一直是深度學習系統(tǒng)效果的重中之重,本次參賽追一代表隊使用了預訓練的中文 ELMo 代替?zhèn)鹘y(tǒng)的 word2vec,單此一項,EM 提升了 1.8 個點。傳統(tǒng)的詞向量 word2vec 是上下文無關的,無法對一詞多義的情況進行建模,比如常舉例的「我想吃【蘋果】」和「我的【蘋果】手機摔壞了」。近期 AllenAI 提出了 ELMo,即 Embeddings from Language Models,這種詞表征不再是固定的向量,而是以語言模型為基礎獲得的一個上下文相關的詞表征。

      英文 ELMo 是基于字符級別的編碼,對中文并不適用。針對中文文本追一團隊實驗了兩套方案,第一版是采用詞級別進行輸入,第二版是將詞改進為筆劃級別的編碼,兩者都通過雙層 LSTM 變換來進行語言模型預訓練。經過多次實驗,效果最好的詞級別與筆劃級別的 ELMo 效果相差不大,最后采用了基于維基百科與新浪新聞組合語料訓練的 512 維詞向量 ELMo 模型作為下游任務的輸入。

      除 ELMo 外,模型還加入了描述問題類型的 one hot 特征,即按提問方式將問題歸為 who, where, when 等八類,并轉換為 one-hot 向量。POS 信息與詞共現(xiàn)特征也作為額外的輸入傳入了模型。

      編碼層

      采用多層雙向 RNN 對文檔和問題分別進行編碼

      交互層

      Attention 機制是融合文檔內容和問題信息的主要方法,是眾多模型中比較通用的部分。在傳統(tǒng) attention 基礎上,我們對問題輸入添加了額外一個基于 gate 機制的過濾層,讓模型去傾向注意核心詞匯,忽略無關信息。改進的 attention 將 EM/F1 分別提升了 0.6/0.3。

      答案抽取層

      和眾多參賽隊類似,追一的參賽隊員采用了 Pointer-network 來作為模型的輸出層。PointerNetwork 通過預測答案的起始與終止位置,得到最終輸出。

      訓練

      由模型壓縮思想衍生出的自我蒸餾 (self-distill) 訓練方法在此次比賽中起到了很好的效果,其思想來源于論文《Born-Again Neural Networks》。蒸餾通常用在模型壓縮方面,即采用預訓練好的復雜模型(teacher model)輸出作為監(jiān)督信號去訓練另一個簡單模型(student model),從而將 teacher 學習到的知識遷移到 student。自我蒸餾就是不改變模型大小,循環(huán)進行 teacher-student 的訓練,直到效果不再改進。CMRC 比賽中,teacher model 是已經訓練好的一版模型,student 和 teacher 模型相同,僅重新初始化。訓練 student 時,模型要同時學習真實 label 和 teacher 的輸出。self-distill 效果顯著,最終模型比初始 teacher 的 EM/F1 分別可以增長 0.88/0.94。

      CMRC2018 評測任務冠軍隊伍分享: 如何從數(shù)據、模型和訓練角度提升閱讀理解系統(tǒng)性能?

      經過數(shù)據清洗,模型優(yōu)化,多次訓練,最終的系統(tǒng)在正式測試集上,EM 和 F1 分別達到了 74.178 和 88.145,僅靠單模型(single),在所有隊伍中排名第一。

      下周二,追一科技語義算法研究員巨穎將在雷鋒網的公開課上分享閱讀理解進階三部曲——關鍵知識、模型性能提升、產品化落地,歡迎大家準時收看。雷鋒網雷鋒網

      CMRC2018 評測任務冠軍隊伍分享: 如何從數(shù)據、模型和訓練角度提升閱讀理解系統(tǒng)性能?

      雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

      CMRC2018 評測任務冠軍隊伍分享: 如何從數(shù)據、模型和訓練角度提升閱讀理解系統(tǒng)性能?

      分享:
      相關文章
      當月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产精品第八页| 最新中文字幕在线| 欧美精品亚洲精品日韩精品| 国产jjizz女人多水喷水| 99在线免费视频| 国产成人?综合?亚洲| 丁香花成人电影| 在线视频中文字幕二区| 国产男女猛烈无遮挡免费网站| 临猗县| 国产在线永久视频| 激情图区| 狠狠色丁香久久综合婷婷| 无码人妻斩一区二区三区| 99久久精品免费看国产| 欧美超大胆裸体xx视频| 亚洲天堂日韩av电影| 俺也来俺也去俺也射| 人人人操| 亚洲国产精选| 亚洲乱伦| 日韩无套内射视频6| 亚洲国产精品午夜福利| 精品99在线观看| 中文字幕 欧美日韩| 中文有码亚洲制服av片| 无码人妻精品一区二区三区9厂| 精品日韩亚洲av无码| 新版天堂资源中文8在线| 国内精品久久人妻无码AV探花影视| 亚洲成熟女人毛毛耸耸多| 中文字幕熟女人妻偷伦| 欧美色资源| 国产自产av一区二区三区性色| 亚洲欧美日韩国产一区二区精品| 国产精品疯狂输出jk草莓视频| 国产网站在线看| 欧美奶涨边摸边做爰视频| 中文字幕在线精品视频入口一区| 国产成a人亚洲精品无码樱花| 国产一线二线三线女|