<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給汪思穎
      發送

      0

      DeepMind新論文:在復雜環境中,智能體能更聰明地進行想象和思考了

      本文作者: 汪思穎 編輯:楊曉凡 2017-07-25 09:46
      導語:DeepMind推出新論文,描述了一類基于想象來進行計劃的新方法,在不完美的環境中也同樣具有高效性。

      雷鋒網 AI科技評論按:不同于AlphaGo所處的“完美環境”,在復雜和不完美的環境中,智能體能高效地思考,對未來的結果進行想象嗎?DeepMind推出新論文,描述了一類基于想象來進行計劃的新方法,在不完美的環境中也同樣具有高效性。

      雷鋒網 AI科技評論將其編譯如下:

      在行動之前想象可能出現的結果是人類認知中的一個有力工具。例如,當在桌子邊緣放一個玻璃杯,我們會停下來想一想:這樣穩固嗎,杯子會不會掉下來。根據想象的結果,我們會把杯子的位置調一下,防止它掉下來摔碎。這種慎重的推理過程實際上就是想象,它是人類一種獨特的能力,在日常生活中至關重要。

      如果想讓算法也能執行同樣復雜的行為,那么這種算法也必須和人一樣,對未來具有想象和推理能力。除此之外,他們還必須會利用這種能力來制定計劃。已經有算法能做出許多引人矚目的事情——特別是像AlphaGo這樣的程序,它使用內部模型來分析行為是如何產生結果的,以便進行推理和計劃。這些內部模型運行得很好,因為像圍棋這樣的環境是“完美的”——這些算法有明確定義的規則,在幾乎所有情況下都能準確地預測出結果。但現實世界是復雜的,規則并不會定義得那么清楚,經常會有未知的情況出現。即使是最聰明的智能體,在這樣的復雜環境中進行想象也是一個漫長、耗費巨大的過程。

      能夠應付不完美的環境,學會使規劃策略適應當前的情況,這些都是重要的研究課題。

      在論文Learning model-based planning from scratchImagination-Augmented Agents for Deep Reinforcement Learning中,DeepMind描述了一類基于想象來進行計劃的新方法。同時也介紹了一些架構,這種架構能為智能體提供學習和制定計劃的新方法,使任務的效率最大化。這些架構很高效,在復雜和不完美的環境中具有魯棒性,能夠通過想象采取靈活的策略。

      增強想象智能體

      這類智能體得益于一個“想象力編碼器”——能為智能體的未來決策提取一切有用信息,忽視無關信息的神經網絡。這些智能體的明顯特征如下:

      • 能夠學會說明智能體的內部模擬過程。這使得他們能夠使用模型,粗略地捕捉環境的動態,即使有時候那些動態并不完美。

      • 有效的運用想象力。通過改變想象的軌跡的數量,來適應問題。編碼器也提高了效率,它能通過想象提取獎勵之外的信息,這些想象的軌跡可能包含有用的線索,即使他們并不一定導致較高的獎勵。

      • 能學習不同的策略來制定計劃。可以選擇繼續當前想象的軌跡或者從頭開始。或者,他們可以利用不同的想象模型,這些模型具有不同的精度和計算成本。這為他們提供了大量高效的規劃策略,而不是局限于一成不變的、在不完美環境中會限制系統適應性的方法。

      測試架構

      DeepMind在不同的游戲上測試了這個架構,包括益智游戲推箱子和宇宙飛船航行游戲。這兩款游戲都需要提前計劃和推理,這使得它們成為測試智能體能力的絕佳環境。

      • 在推箱子中,智能體必須把箱子推到目標上。因為箱子只能被推,許多移動都是不可逆的(例如,推到角落里的盒子不能被拉出來)。

      • 在宇宙飛船游戲中,智能體必須通過固定的次數激活推進器,進而穩定飛船。在游戲中必須與幾個星球的引力相抗衡,這是一個很復雜的非線性連續調節任務。

      為了限制這兩個游戲的試錯行為,每一關都是程序生成的,失敗之后不能再重玩。這鼓勵智能體在實際環境中行動之前,先想象執行不同的策略帶來的結果。

      DeepMind新論文:在復雜環境中,智能體能更聰明地進行想象和思考了

      在上圖中,游戲中的元素是以像素形式呈現給智能體的,它并不知道游戲的規則。在特定的時間點上,DeepMind將智能體對接下來5種可能的想象進行了可視化。根據這些信息,智能體決定采取什么行動。相應的軌跡在圖中已經標明。

      DeepMind新論文:在復雜環境中,智能體能更聰明地進行想象和思考了

      圖示為玩飛船游戲的智能體。紅線表示在游戲中執行的軌跡操作,藍線和綠線描述了想象的軌跡。

      對于這兩種任務,增強想象的智能體都優于作為基準的無想象智能體:他們可以通過更少的經驗來學習,并且能夠處理對環境建模時的缺陷。智能體能夠從內部模擬中提取更多的知識,因此他們可以用更少的想象步驟解決更多的任務,優于傳統的搜索方法,比如蒙特卡羅樹搜索。

      當增加一個有助于制定計劃的管理組件時,智能體就會學著用更少的步驟更高效地解決問題。在宇宙飛船任務中,它可以分辨環境中的引力是強還是弱,這意味著需要不同數量的想象步驟。當為智能體提供環境中的多個模型時,每個模型在質量和成本上都有所不同,它學會了做出有意義的權衡。最后,如果每執行一步,想象的計算成本增加,那么智能體就會在早期想象多個步驟的結果,并且在之后依靠這種想象的結果,而不需要再次進行想象。

      能夠應付不完美的環境,并學會使規劃策略適應當前的情況是重要的研究課題。DeepMind的兩篇新論文Learning model-based planning from scratch、Imagination-Augmented Agents for Deep Reinforcement Learning,以及Hamrick等人之前的研究,考慮到了這些問題。基于模型的強化學習和計劃是研究的熱點,為了提供可擴展的方法來豐富基于模型的、能運用想象力對未來進行計劃和推理的智能體,需要進一步分析和思考。

      via:DeepMind Blog

      雷鋒網 AI科技評論編譯。

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      DeepMind新論文:在復雜環境中,智能體能更聰明地進行想象和思考了

      分享:
      相關文章

      編輯

      關注AI學術,例如論文
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产大学生粉嫩无套流白浆| 麻豆国产尤物av尤物在线观看| 中国无码mv| av无码一区二区二三区1区6区| 精品人妻丰满久久久a| 亚洲 自拍 色综合图第一页区| 免费无码又爽又刺激高潮软件| 柳江县| 精精国产xxxx视频在线 | 国产成人无码A区在线观看视频| 最新的国产成人精品2022 | 亚洲av影院一区二区三区| 国内精品久久久久影院蜜芽| 成人妇女免费播放久久久| 亚洲中文综合字幕在线| 国产sm调教折磨视频| 一区无码| 国产高跟黑色丝袜在线| 亚洲av伊人久久青青草原| 亚洲国精产品| 日韩一级视频| 99热线精品大全在线观看| 女人腿张开让男人桶爽| 午夜福利yw在线观看2020| 亚洲综合精品| 国产精品aⅴ视频在线播放| 巨胸爆乳美女露双奶头挤奶| 91瑟瑟| 人妻少妇久久中文字幕| 无限A片| 欧美性猛交xxxx富婆| 6699无码精品| 久久久久久av| 亚洲综合社区| 精品人妻无码中文内容| 亚洲精品日韩中文字幕| 亚洲国产精品无码久久久蜜芽| 女人腿张开让男人桶爽| 国产av不卡一区二区| 国产av最新一区二区| 四虎成人精品国产永久免费|