0
雷鋒網 AI科技評論按:不同于AlphaGo所處的“完美環境”,在復雜和不完美的環境中,智能體能高效地思考,對未來的結果進行想象嗎?DeepMind推出新論文,描述了一類基于想象來進行計劃的新方法,在不完美的環境中也同樣具有高效性。
雷鋒網 AI科技評論將其編譯如下:
在行動之前想象可能出現的結果是人類認知中的一個有力工具。例如,當在桌子邊緣放一個玻璃杯,我們會停下來想一想:這樣穩固嗎,杯子會不會掉下來。根據想象的結果,我們會把杯子的位置調一下,防止它掉下來摔碎。這種慎重的推理過程實際上就是想象,它是人類一種獨特的能力,在日常生活中至關重要。
如果想讓算法也能執行同樣復雜的行為,那么這種算法也必須和人一樣,對未來具有想象和推理能力。除此之外,他們還必須會利用這種能力來制定計劃。已經有算法能做出許多引人矚目的事情——特別是像AlphaGo這樣的程序,它使用內部模型來分析行為是如何產生結果的,以便進行推理和計劃。這些內部模型運行得很好,因為像圍棋這樣的環境是“完美的”——這些算法有明確定義的規則,在幾乎所有情況下都能準確地預測出結果。但現實世界是復雜的,規則并不會定義得那么清楚,經常會有未知的情況出現。即使是最聰明的智能體,在這樣的復雜環境中進行想象也是一個漫長、耗費巨大的過程。
能夠應付不完美的環境,學會使規劃策略適應當前的情況,這些都是重要的研究課題。
在論文Learning model-based planning from scratch、Imagination-Augmented Agents for Deep Reinforcement Learning中,DeepMind描述了一類基于想象來進行計劃的新方法。同時也介紹了一些架構,這種架構能為智能體提供學習和制定計劃的新方法,使任務的效率最大化。這些架構很高效,在復雜和不完美的環境中具有魯棒性,能夠通過想象采取靈活的策略。
增強想象智能體
這類智能體得益于一個“想象力編碼器”——能為智能體的未來決策提取一切有用信息,忽視無關信息的神經網絡。這些智能體的明顯特征如下:
能夠學會說明智能體的內部模擬過程。這使得他們能夠使用模型,粗略地捕捉環境的動態,即使有時候那些動態并不完美。
有效的運用想象力。通過改變想象的軌跡的數量,來適應問題。編碼器也提高了效率,它能通過想象提取獎勵之外的信息,這些想象的軌跡可能包含有用的線索,即使他們并不一定導致較高的獎勵。
能學習不同的策略來制定計劃。可以選擇繼續當前想象的軌跡或者從頭開始。或者,他們可以利用不同的想象模型,這些模型具有不同的精度和計算成本。這為他們提供了大量高效的規劃策略,而不是局限于一成不變的、在不完美環境中會限制系統適應性的方法。
測試架構
DeepMind在不同的游戲上測試了這個架構,包括益智游戲推箱子和宇宙飛船航行游戲。這兩款游戲都需要提前計劃和推理,這使得它們成為測試智能體能力的絕佳環境。
在推箱子中,智能體必須把箱子推到目標上。因為箱子只能被推,許多移動都是不可逆的(例如,推到角落里的盒子不能被拉出來)。
在宇宙飛船游戲中,智能體必須通過固定的次數激活推進器,進而穩定飛船。在游戲中必須與幾個星球的引力相抗衡,這是一個很復雜的非線性連續調節任務。
為了限制這兩個游戲的試錯行為,每一關都是程序生成的,失敗之后不能再重玩。這鼓勵智能體在實際環境中行動之前,先想象執行不同的策略帶來的結果。

在上圖中,游戲中的元素是以像素形式呈現給智能體的,它并不知道游戲的規則。在特定的時間點上,DeepMind將智能體對接下來5種可能的想象進行了可視化。根據這些信息,智能體決定采取什么行動。相應的軌跡在圖中已經標明。

圖示為玩飛船游戲的智能體。紅線表示在游戲中執行的軌跡操作,藍線和綠線描述了想象的軌跡。
對于這兩種任務,增強想象的智能體都優于作為基準的無想象智能體:他們可以通過更少的經驗來學習,并且能夠處理對環境建模時的缺陷。智能體能夠從內部模擬中提取更多的知識,因此他們可以用更少的想象步驟解決更多的任務,優于傳統的搜索方法,比如蒙特卡羅樹搜索。
當增加一個有助于制定計劃的管理組件時,智能體就會學著用更少的步驟更高效地解決問題。在宇宙飛船任務中,它可以分辨環境中的引力是強還是弱,這意味著需要不同數量的想象步驟。當為智能體提供環境中的多個模型時,每個模型在質量和成本上都有所不同,它學會了做出有意義的權衡。最后,如果每執行一步,想象的計算成本增加,那么智能體就會在早期想象多個步驟的結果,并且在之后依靠這種想象的結果,而不需要再次進行想象。
能夠應付不完美的環境,并學會使規劃策略適應當前的情況是重要的研究課題。DeepMind的兩篇新論文Learning model-based planning from scratch、Imagination-Augmented Agents for Deep Reinforcement Learning,以及Hamrick等人之前的研究,考慮到了這些問題。基于模型的強化學習和計劃是研究的熱點,為了提供可擴展的方法來豐富基于模型的、能運用想象力對未來進行計劃和推理的智能體,需要進一步分析和思考。
via:DeepMind Blog
雷鋒網 AI科技評論編譯。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。