<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給楊曉凡
      發送

      0

      從NLP終生學習開始,談談深度學習中記憶結構的設計和使用

      本文作者: 楊曉凡 2019-09-11 17:23
      導語:吃一塹,長一智

      從NLP終生學習開始,談談深度學習中記憶結構的設計和使用

      雷鋒網 AI 科技評論按:終生學習,簡單說是讓模型有能力持續地學習新的信息,但更重要的是讓模型學習新信息的同時還不要完全忘記以往學習過的內容(避免「災難性遺忘」),是深度學習的長期發展和大規模應用中必不可少的一項模型能力。

      近期,「NLP 網紅」Sebastian Ruder 小哥把終生學習能力融入了語言模型中,方法是加入一個片段式記憶存儲模塊。實際上類似的做法也并不是第一次得到應用了,雷鋒網 AI 科技評論一并介紹幾篇相關論文。

      Episodic Memory in Lifelong Language Learning

      終生語言學習中片段式記憶的作用

      論文地址:https://arxiv.org/abs/1906.01076

      內容簡介:首先我們把「終生語言學習」(lifelong language learning)任務定義為:模型需要從連續的文本樣本流中學習,其中不會指明數據集的邊界。作者們提出了一個用片段式記憶存儲結構增強語言模型的方式,模型中的存儲可以進行稀疏經驗重放,也可以進行局部適應,以減緩這種任務中的災難性遺忘現象。另外,作者們也表明,這個記憶存儲結構的空間復雜度可以進行大幅簡化(可以降低 50% 到 90%),只需要隨機選擇把哪些樣本存儲在記憶中,這種做法對性能的影響非常小。作者們認為片段式記憶存儲部件是通用語言智能模型中不可或缺的重要組件。


      通過記憶能力增強模型表現其實并不是新鮮事,「經驗重放(experience replay)」的思路最早可以追溯到 1990 年代的強化學習機器人控制論文 《Programming Robots Using Reinforcement Learning and Teaching》(https://www.aaai.org/Papers/AAAI/1991/AAAI91-122.pdf )以及《Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching》 (http://www.incompleteideas.net/lin-92.pdf ),論文中用教學的方式讓機器人學會新的技能,那么記憶能力就與教學過程相配合,記錄已經學會的技能。

      下面我們再介紹幾個新一些的成果

      Human Level Control Through Deep Reinforcement Learning

      通過深度強化學習實現人類級別的控制

      論文地址:https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

      論文亮點:DeepMind 發表在《Nature》的鼎鼎大名的 DQN 論文中也使用了經驗重放。在強化學習的設定中,智能體通過與環境交互獲得數據(相當于監督學習中的標注數據集),經驗重放可以讓智能體重放、排練曾經執行過的動作,更高效地使用已經采集到的數據。當然了,DQN 的另一大貢獻是學習到原始輸入的高維表征,不再需要人工的特征工程。

      Memory-Augmented Monte Carlo Tree Search

      記憶增強的蒙特卡洛樹搜索

      論文地址:https://webdocs.cs.ualberta.ca/~mmueller/ps/2018/Chenjun-Xiao-M-MCTS-aaai18-final.pdf

      AAAI 2018 杰出論文

      論文簡介:這篇論文把一個記憶結構和蒙特卡洛樹搜索結合起來,為在線實時搜索提出了一種新的利用泛化性的方式。記憶結構中的每個存儲位置都可以包含某個特定狀態的信息。通過綜合類似的狀態的估計結果,這些記憶可以生成逼近的估計值。作者們展示了,在隨機情況下,基于記憶的逼近值有更高可能性比原始的蒙特卡洛樹搜索表現更好。


      經驗重放還有一些高級改進

      Prioritized Experience Replay

      優先經驗重放

      論文地址:https://arxiv.org/abs/1511.05952

      論文亮點:這篇論文的作者們提出,在之前的研究中,智能體學習到的經驗是均勻地從重放記憶中采樣的。而既然記憶的存儲來自于智能體實際的探索活動,這就意味著智能體進行活動、獲得記憶的分布和從記憶中采樣、利用記憶的分布是一樣的。作者們認為,智能體獲得的記憶中肯定有一些是重要的、有一些是不那么重要的,我們應當更多地利用比較重要的記憶,這樣可以用同樣多的記憶提高智能體的表現。這篇論文中作者們就設計了一個為記憶的優先程度排序的框架,更多地重放重要的記憶,以便更快地學習。作者們在 DQN 上做了這個實驗,改進后的 DQN 比原來的(均一記憶)的 DQN 在絕大多數游戲中都取得了更好的表現。


      Hindsight Experience Replay

      后見經驗重放

      論文地址:https://arxiv.org/abs/1707.01495

      論文亮點:假想要讓機械臂執行一個用末端在桌面上推方塊到指定地點的任務。對于強化學習模型來說,初次嘗試基本是注定失敗的;如果不是特別的幸運,接下來的幾次嘗試也同樣會失敗。典型的強化學習算法是無法從這些失敗經驗中學習的,因為它們一直接收到固定的失敗(-1)反饋,也就不含有任何可以指導學習的信號。

      人類在執行任務的時候其實有一個直覺的感受是:即便我沒有達成原來那個給定的目標,我起碼還是完成了另外一個目標的。HER 的核心思想就是把這一人類直覺公式化。在這里,HER 會把實際達到的目標暫且看成要達到的目標;進行這個替換以后,算法認為自己畢竟達到了某個目標,從而可以得到一個學習信號進行學習,即便達到的目標并不是最開始任務要求的那個目標。如果持續進行這個過程,最終算法可以學會達成任意一個目標,其中也自然就包括了我們最開始要求的目標。

      依靠這樣的辦法,即便最開始的時候機械臂根本就碰不到圓盤、以及反饋是稀疏的,最終它也學會了如何把圓盤撥到桌子上的指定位置。這個算法之所以稱為 Hindsight Experience Replay 后見經驗重放,就是因為它是在完成了一次動作之后再選定目標、重放經驗進行學習。也所以,HER 可以和任何策略無關的強化學習算法結合起來使用,比如 DDPG+HER。


      這 7 篇論文打包下載:https://www.yanxishe.com/resourceDetail/1005

      雷鋒網 AI 科技評論整理

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      從NLP終生學習開始,談談深度學習中記憶結構的設計和使用

      分享:
      相關文章

      讀論文為生

      日常笑點滴,學術死腦筋
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 精品一区二区三区三区| 欧美日韩午夜| 蜜桃视频在线观看网站免费| 黄页网站视频| 丁香五月婷激情综合第九色| 欧美大香线蕉线伊人久久| 屁屁国产第一页| 成人无码中出| 男人天堂一区| 亚洲黄色一区| 中文字幕午夜福利片午夜福利片97 | 亚洲成人性爱网| 国产成人精品aa毛片| 亚洲成人第一网站| 亚洲高清av| 非会员区试看120秒6次| 亚洲精品国产综合麻豆久久99| 337人体做爰大胆视频| 巨胸喷奶水WWW视频网站| 日本高清无卡码一区二区久久| 城固县| 99热这里只有精品免费播放| 99热视屏| 日韩欧美2| 亚洲尤物你懂的视频在线看| 日韩欧美国产精品| 亚洲中文字幕无码爆乳| 亚洲精品色午夜无码专区日韩| 亚洲欧美人成人让影院| 一本色道精品久久一区二区三区| 女人下边被添全过视频的网址| 强行糟蹋人妻hd中文字幕| 人人做人人澡人人人爽| 阿瓦提县| 亚洲AV无码精品无码久久蜜桃| 东方成人AV在线| 国产成人精品免费视频大全| 亚洲精品成人a在线观看| 久久久久国产精品人妻| 亚洲AV成人综合五月天在线观看| 日本三级香港三级三级人!妇久|