<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給AI研習社-譯站
      發送

      0

      MOE:抗拼寫錯誤的詞向量

      本文作者: AI研習社-譯站 2020-08-14 11:11
      導語:傳統的詞嵌入無法處理未登錄詞(OOV),Facebook通過引入錯字遺忘(詞)嵌入(MOE)克服了這一缺陷。

      字幕組雙語原文:抗拼寫錯誤的詞向量

      英語原文:New Model for Word Embeddings which are Resilient to Misspellings (MOE)

      翻譯:雷鋒字幕組(wiige


      傳統的詞嵌入擅長處理大部分自然語言處理(NLP)領域的下游問題,比如文檔分類和命名實體識別(NER)。然而它的一個缺點是無法處理未登錄詞(OOV)。

      Facebook通過引入錯字遺忘(詞)嵌入(MOE)克服了這一缺陷。MOE通過擴展fastText架構來處理未登錄詞。因此介紹MOE之前,先介紹一下fastText的訓練方法和架構。

      負采樣Skip-gram(SGNS)

      fastText擴展了word2vec的架構,使用負采樣skip-gram來訓練詞嵌入。Skip-gram使用當前詞來預測周圍的詞,得到文本表示(即嵌入 )。負采樣是一種挑出假例(false case)來訓練模型的方法。你可以查看這些文章(skip-gram和負采樣)了解更詳細的內容。 

      下圖顯示了兩種訓練word2vec詞向量的方法。連續詞袋(BOW)利用上下文來預測當前詞,而Skip-gram則利用當前詞來預測上下文。

      MOE:抗拼寫錯誤的詞向量

      矢量空間中詞表征的效用估計(Tomas et al.,2013)

      fastText

      fastText幾乎全盤沿用了SGNS的思想。fastText特征之一是子字(subword), 一般用N-gram方法將單詞分割成子字。例如,n-gram字符數是3到5之間。這樣就可以將banana拆分為ban、ana、nan、bana、anan、nana、banan、anana。這樣,香蕉(banana)的詞嵌入就是這些子詞的嵌入之和。

      fastText的訓練目標是對標簽進行分類。模型輸入是n-gram特征(即x1,x2, ......, xN)。這些特征將在隱藏層中被平均化最后送入輸出層。

      MOE:抗拼寫錯誤的詞向量

      fastText的架構 (Joulin et al., 2016)

      錯字遺忘(詞)嵌入 (MOE)

      MOE通過引入拼寫校正損失進一步擴展了fastText。引入拼寫校正損失的目的是將錯誤拼寫的詞嵌入映射到其接近的正確拼寫的詞嵌入上。拼寫校正損失函數是一個典型的logistic函數, 它是正確詞子字輸入向量和與錯誤詞的子字輸入向量和的點積。

      下面展示了bird(正確單詞)和bwrd(拼寫錯誤的單詞)的詞嵌入是非常接近的。

      MOE:抗拼寫錯誤的詞向量

      MOE(facebook)的表示方法

      Take Away

      子詞是處理拼寫錯誤和未登錄詞的有力方法。MOE使用字符n-gram來建立子字詞典,而其他的先進NLP模型(如BERT,GPT-2)則使用統計方式(如WordPiece,Byte Pair Encoding)來建立子詞典。

      在許多NLP系統中,能夠處理未登錄詞是一個關鍵的優勢。比如聊天機器人每當拼寫錯誤或新詞時,都必須為之處理大量的新OOV詞。


      雷鋒字幕組是由AI愛好者組成的志愿者翻譯團隊;團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT咨詢人、在校師生;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

      了解字幕組請聯系微信:tlacttlact

      轉載請聯系字幕組微信并注明出處:雷鋒字幕組

      雷鋒網雷鋒網

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      MOE:抗拼寫錯誤的詞向量

      分享:
      相關文章

      知情人士

      AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 一本色道婷婷久久欧美| 伊人久久无码中文字幕| 亚洲欧洲一区二区| 成人区人妻精品一区| 草草地址线路①屁屁影院成人| 淳化县| 老熟妇仑乱视频一区二区| 麻豆一区二区中文字幕| 九九久久国产精品大片| 熟妇与小伙子matur老熟妇e| 辛集市| 狠狠色丁香婷婷综合尤物| 国产老熟妇| 国产女人18毛片水真多1| 亚洲熟女www一区二区三区| 内射老阿姨1区2区3区4区| 女人裸体性做爰视频| 午夜小电影| 亚洲毛片不卡av在线播放一区| 三上悠亚日韩精品二区| 久久av高潮av无码av喷吹| 亚洲高清国产拍精品5G| 白丝尤物jk自慰制服喷水| 国产区精品系列在线观看| 99久久国产宗和精品1上映 | 少妇把腿扒开让我爽爽视频| 寿光市| 久久成人影院精品777| 一区777| 福利视频在线一区二区| 纯肉高h啪动漫| 欧美寡妇xxxx黑人猛交| 又大又粗又爽的少妇免费视频 | 91人妻无码成人精品一区91| 国产中年熟女大集合| 中文字字幕人妻中文| 日韩精品在线观看一二区| 免费男人下部进女人下部视频| 日韩AV导航| 美女内射毛片在线看免费人动物| 怡春院AV|