<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給楊曉凡
      發送

      0

      ICLR 2019 遺珠?加大號「變形金剛」,Transformer-XL

      本文作者: 楊曉凡 2019-01-16 10:05 專題:ICLR 2019
      導語:芝麻開花節節高

      ICLR 2019 遺珠?加大號「變形金剛」,Transformer-XL

      雷鋒網 AI 科技評論按:近幾天,一篇 ICLR 2019 的拒稿引起了部分研究人員的注意。它不僅是一個能夠處理可變長度序列的模型,在多個任務中刷新了當前的最好性能,而且它還是 Transformer 模型的第三代升級。它的名字叫作「Transformer-XL」(加大號的 Transformer)。

      前兩代 Transformer

      2017 年 6 月,谷歌大腦在論文《Attention Is All You Need》中提出了一個完全基于注意力機制的編解碼器模型 Transformer ,它完全拋棄了之前其它模型引入注意力機制后仍然保留的循環與卷積結構,然后在任務表現、并行能力和易于訓練性方面都有大幅的提高。Transformer 從此也成為了機器翻譯和其它許多文本理解任務中的重要基準模型。

      2018 年 7 月,谷歌大腦在新論文《Universal Transformer》中對最初的 Transformer 進行了拓展,讓它具有通用計算能力(也就是「圖靈完備」)。他們使用了一種新型的、注重效率的時間并行循環結構,這樣的設計讓它不僅比 RNN 中使用的串行循環速度更快,也讓 Universal Transformer 比標準的前饋 Transformer 更加強大,在更多任務中取得了有力的結果。(雷鋒網 AI 科技評論詳細解析文章見 這里

      新的 Transformer

      谷歌大腦的第三代 Transformer 也在 2018 年下半年完成。他們首先投稿了 ICLR 2019,近期論文評審結果陸續揭曉后他們把論文上傳到了 arXiv。

      這篇論文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》(Transformer-XL: 超越固定長度內容之外的注意力語言模型, https://arxiv.org/abs/1901.02860, https://openreview.net/forum?id=HJePno0cYm)把注意力放在了拓展模型大小,以及給模型增加可變長度序列的處理能力上。論文由谷歌大腦、谷歌 AI 的研究人員和 CMU 教授、蘋果機器學習總監 Ruslan Salakhutdinov 和他的學生們共同完成。

      論文摘要如下:

      Transformer 網絡其實有潛力學習更長期的依賴關系,但是在目前的語言建模任務的環境設置之下,網絡的輸入被限制為固定長度的內容。為了發掘這種潛力,作者們提出了一種新的神經網絡架構,Transformer-XL,它可以讓 Transformer 網絡在長度不固定的內容中學習依賴,同時還不會干擾時空一致性。具體來說,Transformer-XL 由一個小節級別的循環機制和一個新設計的位置編碼器模式組成。這種方法不僅讓模型可以捕捉到長期的依賴,同時也可以解決內容分塊的問題。這樣的方法的效果是,Transformer-XL 學到的依賴要比 RNN 學到的長 80%,比最初的 Transformer 網絡長 450%,在長、短序列上都取得了更好了性能,而且在推理時最高也要比最初的 Transformer 網絡快超過 1800 倍。除此之外,作者們也刷新了多項任務中的最好成績,text8 數據集從 1.13 提升至 1.08,WikiText-103 上從 20.5 提升至18.3,One Billion Word 數據集上從 23.7 提升至 21.8,Penn Treebank 數據集上從 55.3 提升至 54.5(而且不需要精細調節)。模型的代碼、預訓練模型、超參數都會同時提供 Tensorflow 和 PyTorch 版本。

      ICLR 2019 遺珠?加大號「變形金剛」,Transformer-XL

      值得說明的是,和 RNN 網絡相比,Transformer 架構的網絡家族可以輕松地加大網絡規模,不僅更早的論文中 64 層的 Transfomer 擁有 2.35 億個參數,這次 24 層的 Transformer-XL 更是達到了 2.77 億的參數規模(當然也取得了更好的表現)。

      即便這篇論文投稿到 ICLR 2019 并被拒了(拒稿原因包括「創新點不多」、「無法證明性能提升來自于工程手段還是新的思路」、「應當包括來自機器翻譯任務的 ASR 表現」、「沒有進行更豐富多樣的實驗」等),包括 David Ha 在內的許多學者還是認為這是一篇優秀的論文。David Ha 的評價是:它非常有用,在論文的補充材料中提供的代碼可以在語言建模之外的許多任務中發揮作用。

      感興趣的讀者可以詳細閱讀論文,并自己嘗試作者們提供的預訓練模型。

      論文地址:https://arxiv.org/abs/1901.02860

      代碼開源:https://github.com/kimiyoung/transformer-xl,包含 PyTorch 和 TensorFlow 的模型實現,而且帶有預訓練的模型

      雷鋒網 AI 科技評論報道

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      ICLR 2019 遺珠?加大號「變形金剛」,Transformer-XL

      分享:
      相關文章

      讀論文為生

      日常笑點滴,學術死腦筋
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 色猫咪av在线网址| 亚洲日本乱码一区二区在线二产线 | 亚洲人妻系列无码专区| 人妻偷拍一区二区三区| 麻豆国产成人AV在线播放| 水蜜桃av导航| 84pao强力打造| 中文字幕日韩精品人妻| 无码人妻丰满熟妇精品区| 一区二区中文字幕久久| 中文字幕乱码亚洲中文在线| 亚洲国产成人久久精品软件| 久久久久有精品国产麻豆| 97国产在线| 欧美性受xxxx白人性爽| 精品视频99| 一本大道无码人妻| 成人福利国产午夜AV免费不卡在线| 中中文字幕亚洲无线码| 一个色的导航| 99视频在线精品免费观看6| 亚洲色一区二区三区四区| 国产在线拍偷自揄观看视频网站| 久热在线中文字幕色999舞| 亚洲video| 欧美怡春院| 亚洲va| 99精品中文| 精品无码产区一区二| 无码一区二区三区人| 久久国产乱子伦免费精品无码| 亚洲综合久久久中文字幕| 精品久久久久久无码专区| 深夜释放自己在线观看| 偷拍激情视频一区二区三区| 欧美狠狠撸| 永久免费观看美女裸体的网站| 中文字幕精品亚洲| 国产精品17p| 91成人视频在线观看| 综合一区无套内射中文字幕|