0

雷鋒網 AI 科技評論按:終生學習,簡單說是讓模型有能力持續地學習新的信息,但更重要的是讓模型學習新信息的同時還不要完全忘記以往學習過的內容(避免「災難性遺忘」),是深度學習的長期發展和大規模應用中必不可少的一項模型能力。
近期,「NLP 網紅」Sebastian Ruder 小哥把終生學習能力融入了語言模型中,方法是加入一個片段式記憶存儲模塊。實際上類似的做法也并不是第一次得到應用了,雷鋒網 AI 科技評論一并介紹幾篇相關論文。
終生語言學習中片段式記憶的作用
論文地址:https://arxiv.org/abs/1906.01076
內容簡介:首先我們把「終生語言學習」(lifelong language learning)任務定義為:模型需要從連續的文本樣本流中學習,其中不會指明數據集的邊界。作者們提出了一個用片段式記憶存儲結構增強語言模型的方式,模型中的存儲可以進行稀疏經驗重放,也可以進行局部適應,以減緩這種任務中的災難性遺忘現象。另外,作者們也表明,這個記憶存儲結構的空間復雜度可以進行大幅簡化(可以降低 50% 到 90%),只需要隨機選擇把哪些樣本存儲在記憶中,這種做法對性能的影響非常小。作者們認為片段式記憶存儲部件是通用語言智能模型中不可或缺的重要組件。
通過記憶能力增強模型表現其實并不是新鮮事,「經驗重放(experience replay)」的思路最早可以追溯到 1990 年代的強化學習機器人控制論文 《Programming Robots Using Reinforcement Learning and Teaching》(https://www.aaai.org/Papers/AAAI/1991/AAAI91-122.pdf )以及《Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching》 (http://www.incompleteideas.net/lin-92.pdf ),論文中用教學的方式讓機器人學會新的技能,那么記憶能力就與教學過程相配合,記錄已經學會的技能。
下面我們再介紹幾個新一些的成果
通過深度強化學習實現人類級別的控制
論文地址:https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
論文亮點:DeepMind 發表在《Nature》的鼎鼎大名的 DQN 論文中也使用了經驗重放。在強化學習的設定中,智能體通過與環境交互獲得數據(相當于監督學習中的標注數據集),經驗重放可以讓智能體重放、排練曾經執行過的動作,更高效地使用已經采集到的數據。當然了,DQN 的另一大貢獻是學習到原始輸入的高維表征,不再需要人工的特征工程。
記憶增強的蒙特卡洛樹搜索
論文地址:https://webdocs.cs.ualberta.ca/~mmueller/ps/2018/Chenjun-Xiao-M-MCTS-aaai18-final.pdf
AAAI 2018 杰出論文
論文簡介:這篇論文把一個記憶結構和蒙特卡洛樹搜索結合起來,為在線實時搜索提出了一種新的利用泛化性的方式。記憶結構中的每個存儲位置都可以包含某個特定狀態的信息。通過綜合類似的狀態的估計結果,這些記憶可以生成逼近的估計值。作者們展示了,在隨機情況下,基于記憶的逼近值有更高可能性比原始的蒙特卡洛樹搜索表現更好。
經驗重放還有一些高級改進
優先經驗重放
論文地址:https://arxiv.org/abs/1511.05952
論文亮點:這篇論文的作者們提出,在之前的研究中,智能體學習到的經驗是均勻地從重放記憶中采樣的。而既然記憶的存儲來自于智能體實際的探索活動,這就意味著智能體進行活動、獲得記憶的分布和從記憶中采樣、利用記憶的分布是一樣的。作者們認為,智能體獲得的記憶中肯定有一些是重要的、有一些是不那么重要的,我們應當更多地利用比較重要的記憶,這樣可以用同樣多的記憶提高智能體的表現。這篇論文中作者們就設計了一個為記憶的優先程度排序的框架,更多地重放重要的記憶,以便更快地學習。作者們在 DQN 上做了這個實驗,改進后的 DQN 比原來的(均一記憶)的 DQN 在絕大多數游戲中都取得了更好的表現。
后見經驗重放
論文地址:https://arxiv.org/abs/1707.01495
論文亮點:假想要讓機械臂執行一個用末端在桌面上推方塊到指定地點的任務。對于強化學習模型來說,初次嘗試基本是注定失敗的;如果不是特別的幸運,接下來的幾次嘗試也同樣會失敗。典型的強化學習算法是無法從這些失敗經驗中學習的,因為它們一直接收到固定的失敗(-1)反饋,也就不含有任何可以指導學習的信號。
人類在執行任務的時候其實有一個直覺的感受是:即便我沒有達成原來那個給定的目標,我起碼還是完成了另外一個目標的。HER 的核心思想就是把這一人類直覺公式化。在這里,HER 會把實際達到的目標暫且看成要達到的目標;進行這個替換以后,算法認為自己畢竟達到了某個目標,從而可以得到一個學習信號進行學習,即便達到的目標并不是最開始任務要求的那個目標。如果持續進行這個過程,最終算法可以學會達成任意一個目標,其中也自然就包括了我們最開始要求的目標。
依靠這樣的辦法,即便最開始的時候機械臂根本就碰不到圓盤、以及反饋是稀疏的,最終它也學會了如何把圓盤撥到桌子上的指定位置。這個算法之所以稱為 Hindsight Experience Replay 后見經驗重放,就是因為它是在完成了一次動作之后再選定目標、重放經驗進行學習。也所以,HER 可以和任何策略無關的強化學習算法結合起來使用,比如 DDPG+HER。
這 7 篇論文打包下載:https://www.yanxishe.com/resourceDetail/1005
雷鋒網 AI 科技評論整理
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。