<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發(fā)私信給三川
      發(fā)送

      0

      DeepMind 黑科技!顛覆傳統(tǒng)強化學習方法,代理學習速度提高十倍(附視頻)

      本文作者: 三川 2016-11-18 18:49
      導語:開發(fā)出 AlphaGo 的 DeepMind 研究團隊又出黑科技,新的強化學習方法將代理學習速度提高十倍。

      DeepMind 最近的論文《非監(jiān)督輔助任務中的強化學習》(”REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS”)介紹了一種極大提高代理學習速度和最終成效的方法。研究人員通過讓代理在訓練中執(zhí)行兩個附加任務,來對標準的深度強化學習方法進行增強”

      Deepmind 表示:“我們的目標是開拓 AI 領域的最前沿,開發(fā)出能通過學習解決任何難題,而無須人類教它怎么做的程序。我們的強化學習代理(agent)已經在圍棋和雅利達 2600 (Atari 2600, 1970年代的游戲主機)的游戲中有了重大突破。然而,這些游戲需要很多數(shù)據(jù)和很長的時間來學習。所以我們一直在尋找提高通用學習算法的途徑。”

      DeepMind 代理在迷宮游戲中執(zhí)行搜索任務的演示如下圖:

      DeepMind 黑科技!顛覆傳統(tǒng)強化學習方法,代理學習速度提高十倍(附視頻)

      第一個任務涉及,讓代理學習怎樣控制屏幕上的像素(通過移動看到不同的東西)。這強調了對迷宮游戲中“行動影響你所看到的東西”這一原則的學習,而不是僅僅做出預測。這類似于嬰兒學習控制他們手臂的過程:試圖移動雙手,觀察做出的動作,然后進行調整。通過學習怎么移動來改變屏幕顯示的東西,DeepMind 代理學會了對玩這個游戲很有用的視覺輸入,并且拿到更高的得分。

      在第二個任務中,代理被訓練,怎樣從簡短的歷史背景中預測一系列即將獲得的獎勵。為了更好地處理這個情況。當獎勵很少時,開發(fā)人員向代理按照同等的比例,展示過去獲得獎勵和沒有獲得獎勵的歷史。更高頻率地學習獎勵的歷史之后,這個代理能更快速地發(fā)現(xiàn)會帶來預期獎勵的視覺信號。

      這兩個附加任務的組合,還有 DeepMind 之前的 A3C 研究成就了他們的全新“非監(jiān)督強化和附加學習代理”(UNREAL agent,UNsupervised REinforcement and Auxiliary Learning agent,下文簡稱 UNREAL 代理) 。DeepMind 在 57 個雅利達游戲,和一個 叫“迷宮”的 13 層 3D 環(huán)境中測試了這個代理。在所有的游戲中,基于原始圖像輸出, UNREAL 代理被用同樣的方式訓練。目的是讓它做出使游戲得分和獎勵最大化的行動。

      為獲得游戲獎勵而需要作出的行動很復雜,從撿起 3D 地圖中的蘋果到玩“外星入侵”(Space Invaders)。UNREAL 算法經常學著玩這些游戲,學著學著就達到、甚至超越人類的水平。部分結果和可視化展示呈現(xiàn)在下面的視頻:

      在“迷宮”游戲中,使用兩項附加任務(控制屏幕上像素和預測獎勵何時發(fā)生)的效果出奇的好。UNREAL  代理能夠以超出 DeepMind 現(xiàn)役最好的 A3C 代理十倍的速度學習,并且有遠遠更好得表現(xiàn) (游戲得分和獎勵)。Deepmind 的代理平均在每個迷宮層中達到人類專家水平的 87% ,并在一部分迷宮層中有超人類的水平。在雅利達游戲中,這個代理平均達到人類水的九倍。Deepmind 表示,他們希望這項研究能讓他們繼續(xù)提高代理的水平,讓它完成更的復雜任務。

      附:有興趣的技術宅們請點此查看 DeepMind 論文原文 “REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS”。

      via deepmind

      【招聘】雷鋒網(wǎng)堅持在人工智能、無人駕駛、VR/AR、Fintech、未來醫(yī)療等領域第一時間提供海外科技動態(tài)與資訊。我們需要若干關注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優(yōu)良的外翻編輯加入。工作地點深圳。簡歷投遞至 guoyixin@leiphone.com 。兼職及實習均可。

      推薦閱讀:

      Google Deepmind大神David Silver帶你認識強化學習

      AlphaGo 將在 2017 年重磅復出,業(yè)內人士怎么看?

      谷歌 DeepMind 宣布與暴雪合作,開發(fā)人工智能挑戰(zhàn)《星際爭霸》| 雷鋒早報

      只訓練一次數(shù)據(jù)就能識別出物體,谷歌全新 AI 算法“單次學習”

      雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

      DeepMind 黑科技!顛覆傳統(tǒng)強化學習方法,代理學習速度提高十倍(附視頻)

      分享:
      相關文章

      用愛救世界
      當月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 97久久草草超级碰碰碰| 热久在线免费观看视频| 亚洲一区av无码专区在线观看| 国产精品成人无码A片噜噜| 国产人无码a在线西瓜影音| k频道国产在线观看| 久久亚洲色www成人网址| 精品黑人一区二区三区| 无码簧片| 亚洲色无码播放| 亚洲一区精品视频在线| 久久精品国产国产精品四凭| 欧美mv日韩mv国产网站app| 免费国产黄线在线观看| 老女老肥熟国产在线视频 | 中文字幕在线网址| 伊人久久大香线蕉AV五月天| 纯肉高h啪动漫| 孕妇高潮太爽了在线观看免费 | 成人综合站| www.成人| 福利一区二区在线观看| 国产成人综合色视频精品| 色综合色国产热无码一| 放荡的少妇2欧美版| 免费视频这里是精品视频| 国产成人无码a区在线观看导航| 人妻无码中文字幕第一区| √天堂资源地址在线官网| 69xxx国产| 欧美精品久久96人妻无码| 91人妻中文字幕在线精品| 亚洲制服人妻| 成人亚洲精品一区二区三区嫩花| 青青草原国产一区二区| 国产亚洲精品在av| 男人的天堂av社区在线| 免费视频爱爱太爽了激情| 内地老太婆内射内地小矮人内射| 日本人妻伦在线中文字幕| 视频专区熟女人妻第二页|