<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給汪思穎
      發送

      0

      DeepMind 推出分布式訓練框架 IMPALA,開啟智能體訓練新時代

      本文作者: 汪思穎 2018-02-09 09:48
      導語:訓練智能體新體驗,try it!

      雷鋒網 AI 研習社按,日前,DeepMind 推出一種全新的分布式智能體訓練框架 IMPALA,該框架具有高度可擴展性,將學習和執行過程分開,使用了一種名為 V-trace 的離策略(off-policy)修正算法,具有顯著的加速性能,極高的效率。具體如何呢,雷鋒網 AI 研習社將其原文編譯整理如下:

      深度強化學習 (DeepRL) 在一系列任務中取得很顯著的成果,比如機器人的連續控制問題、玩圍棋和 Atari 等游戲。目前為止,我們看到的這些成果僅限于單一任務,每個任務都要單獨對智能體進行調參和訓練。

      在我們最近的工作中,研究了在多個任務中訓練單個智能體。

      今天我們發布 DMLab-30,這是一組橫跨很多挑戰的新任務,在視覺統一的環境中,有著普通的行動空間(action space)。想訓練好一個在許多任務上都有良好表現的智能體,需要大量的吞吐量,有效利用每個數據點。

      為此,我們開發了一種全新的、高度可擴展的分布式智能體訓練框架 IMPALA(重點加權行動-學習器框架,Importances Weighted Actor-Learner Architectures),這種框架使用了一種名為 V-trace 的離策略(off-policy)修正算法。

      DMLab-30

      DMLab-30 是通過開源強化學習環境 DeepMind Lab 設計的一系列新任務。有了 DMLab-30,任何深度強化學習研究人員都能夠在大范圍的、有趣的任務中測試系統,支持單獨測試、多任務環境測試。

      DeepMind 推出分布式訓練框架 IMPALA,開啟智能體訓練新時代

      這些任務被設計得盡可能多樣化。它們有著不同的目標,有的是學習,有的是記憶,有的則是導航。它們的視覺效果也各不相同,比如有的是色彩鮮艷、現代風格的紋理,有的是黎明、正午或夜晚的沙漠中微妙的棕色和綠色。環境設置也不同,從開闊的山區,到直角迷宮,再到開放的圓房間,這里都存在。

      此外,一些環境中還有「機器人」,這些機器人會執行以目標為導向的行為。同樣重要的是,任務不同,目標和獎勵也會有所不同,比如遵循語言指令、使用鑰匙開門、采摘蘑菇、繪制和跟蹤一條復雜的不能回頭的路徑這些任務,最終目的和獎勵都會有所不同。  

      但是,就行動空間和觀察空間來說,任務的環境是一樣的。可以在每個環境中對智能體進行訓練。在 DMLab 的 GitHub 頁面上可以找到更多關于訓練環境的細節。

      IMPALA::重點加權行動-學習器框架

      為了在 DMLab-30 中訓練那些具有挑戰性的任務,我們開發了一個名為 IMPALA 的分布式智能體框架,它利用 TensorFlow 中高效的分布式框架來最大化數據吞吐量。

      IMPALA 的靈感來自流行的 A3C 框架,后者使用多個分布式 actor 來學習智能體的參數。

      在這樣的模型中,每個 actor 都使用策略參數的克隆在環境中行動。actor 會周期性地暫停探索來共享梯度,這些梯度是用一個中央參數服務器來計算的,會實時更新(見下圖)。

       DeepMind 推出分布式訓練框架 IMPALA,開啟智能體訓練新時代

      另一方面,在 IMPALA 中,不會用 actor 來計算梯度。它們只是用來收集經驗,這些經驗會傳遞給計算梯度的中央學習器,從而得到一個擁有獨立 actor 和 learner 的模型。

      現代計算系統有諸多優勢,IMPALA 可以利用其優勢,用單個 learner 或多個 learner 進行同步更新。以這種方式將學習和行動分離,有助于提高整個系統的吞吐量,因為 actor 不再需要執行諸如Batched A2C 框架中的等待學習步驟。

      這使我們在環境中訓練 IMPALA 時不會受到框架渲染時間的變動或任務重新啟動時間的影響。

      DeepMind 推出分布式訓練框架 IMPALA,開啟智能體訓練新時代

      IMPALA 中的學習是連續的,不同于其他框架,每一步學習都要暫停

      然而,將行動與學習分離會導致 actor 中的策略落后于 learner。為了彌補這一差異,我們引入 V-trace——條理化的離策略 actor critic 算法,它可以對 actor 落后的軌跡進行補償。可以在我們的論文 IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures 中看到該算法的具體細節。

      DeepMind 推出分布式訓練框架 IMPALA,開啟智能體訓練新時代

      IMPALA 中的優化模型相對于類似智能體,能多處理 1 到 2 個數量級的經驗,這使得在極具挑戰的環境中進行學習成為可能。

      我們將 IMPALA 與幾個流行的 actor-critic 的方法進行了比較,發現它具有顯著的加速效果。此外,使用 IMPALA 的情況下,隨著 actor 和 learner 的增長,吞吐量幾乎是按線性增長的。這表明,分布式智能體模型和 V-trace 算法都能支持極大規模的實驗,支持的規模甚至可以達到上千臺機器。

      當在 DMLab-30 上進行測試時,與 A3C 相比,IMPALA 的數據效率提高了 10 倍,最終得分達到后者的兩倍。此外,與單任務訓練相比,IMPALA 在多任務環境下的訓練呈正遷移趨勢。

      IMPALA 論文地址:https://arxiv.org/abs/1802.01561

      DMLab-30 GitHub地址:https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

      via:DeepMind Blog

      雷鋒網 AI 研習社編譯整理

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      DeepMind 推出分布式訓練框架 IMPALA,開啟智能體訓練新時代

      分享:
      相關文章

      編輯

      關注AI學術,例如論文
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 午夜视频免费试看| 性xxxxbbbb| 山阳县| 亚洲乱亚洲乱少妇无码| 国产乱沈阳女人高潮乱叫老| 国产精品三级av一区二区| 亚洲国产麻豆综合一区| 好吊色妇女免费视频免费| 日韩?无码?中文字幕?精品| 少妇久久久久久久久久| 亚洲国产另类久久久精品网站| 国产精品夜间视频香蕉| 大学生久久香蕉国产线看观看| 日韩精品一区二区三区激情视频| 国产成人精品无码专区| 中文a片| 滨州市| www夜插内射视频网站| 国产一区二区三区av免费观看| 欧美成人精品A片人妻 | 欧美不卡视频一区发布| 一本色道久久综今亚洲AV蜜桃| 国产成人精品无码免费看夜聊软件| 一本色道久久爱88av| 最新精品露脸国产在线| 久久熟妇| 国产办公室秘书无码精品99| 亚洲一区中文字幕人妻| 人妻偷人精品| 黑人巨茎大战欧美白妇| 加勒比中文无码久久综合色| 国产日韩精品一区在线不卡| 丝袜国产在线| 平乡县| 国内熟女中文字幕第一页| 亚洲熟妇无码av在线播放| 人妻无码人妻| 国产jjizz女人多水喷水| 国产亚洲av| 69精品| 久久久影院|