<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給楊曉凡
      發送

      0

      你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習

      本文作者: 楊曉凡 編輯:郭奕欣 2017-06-15 10:42
      導語:人類不需要告訴AI系統明確的目標,只要評價動作看起來對不對就好了

      雷鋒網 AI 科技評論消息,近日OpenAI和DeepMind各自在網站上發文,介紹一篇他們合作研究、撰寫的論文《Deep reinforcement learning from human preferences》(根據人類偏好進行的深度增強學習)。在這篇論文里,他們展示了一種根據人類反饋進行強化學習的新方法,不僅學習過程相對高效,而且OpenAI和DeepMind的研究人員們共同認為這種方法長遠來看能夠提高智能系統的安全性。

      下面雷鋒網 AI 科技評論就帶大家一起具體看一下OpenAI對這種方法的介紹和演示。

      你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習

      要建立一個安全的AI系統,其中很重要的一步是不再讓人類給AI系統寫目標函數。這是因為如果用了簡單的策略來達到復雜的目標,又或者對復雜目標的理解出現了偏差,都可能導致AI系統做出人們不希望看到的行為,有時候甚至會引發危險。OpenAI跟DeepMind的安全團隊一起協作開發了一種算法,只需要人類逐步告訴它兩種它推薦的動作中哪一種更好,它就可以由此推測人類的需求進行學習。

      方法介紹

      這篇論文中介紹了一種算法,它可以用相對少量的人類反饋解決現代的強化學習問題。學者們以前就研究過如何使用人類反饋來建立機器學習系統,但這次兩個團隊合作做了高級別的解決方案,這樣它也可以用來完成復雜得多的任務。他們的算法用來自人類評價員的900次二選一反饋學會了后空翻 —— 一個看起來簡單、很容易評價,但是很難精確描述的任務。

      你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習

      訓練過程總體是一個人類、智能體對目標的理解、增強學習訓練之間的三步反饋循環。

      你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習

      根據OpenAI跟DeepMind聯合開發的算法,這個智能體一開始先在環境中隨機運動。然后周期性地把兩段它的動作視頻給人類看,人類要分辨兩個視頻的兩種動作里的哪一種更接近它的目標——在這個例子中就是后空翻——然后通過選擇給出反饋,人工智能就會根據反饋尋找能最好地描述人類判斷的獎勵函數,這樣逐漸給任務目標建立模型。然后它就會通過強化學習來學習達到它自己建立的目標。隨著智能體的動作有了進步,它會繼續拿出自己覺得最不確定的一對軌跡來讓人類反饋哪一個更好,然后讓自己對任務目標的理解進一步完善。

      他們的方案展現出了喜人的學習效率,像前文所說,只需要不到1000次二選一的人類反饋就可以學會后空翻。人類評價員所花的時間只有不到一個小時,而在后臺,這個策略已經同步積累了70小時的總體經驗(后臺仿真時的速度比真實速度快得多)。接下來他們會繼續研究如何減少人類所需提供的反饋數量。下面的動圖里演示的就是他們的訓練過程(加速版)。

      你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習

      你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習

      游戲環境中的訓練結果

      他們也用模擬機器人和Atari游戲中的幾個任務測試了他們的方法(而且沒有讓程序用到環境本身的反饋函數,具體在Atari中就是不考慮游戲得分)。在多個測試環境里,智能體能通過人類的反饋學到優秀的表現,有時候甚至比人類表現還好。下面幾張圖就是用他們的方法訓練的智能體玩各種Atari游戲的畫面。每個畫面最右側豎向運動的小條是一個指示器,它顯示的是智能體預測人類評價者對它當前動作的認可度有多高。這些動圖就體現了這些智能體根據人類的反饋學到的東西:在Seaquest中知道去水面上補足氧氣(左圖),在打磚塊和彈球中學到如何得高分(中間兩圖),或者在Enduro中學到撞車以后怎么恢復(右圖)。

      你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習
      Seaquest打磚塊彈球Enduro


      值得注意的是,人類提供的反饋可以不用跟環境正常的獎勵函數一致。比如他們就在Enduro中訓練了一個精確跟其它車輛保持齊平的智能體,它并不會像“正常”那樣不斷超過其它車輛獲得最高分數。他們還發現,有時候從人類反饋中學習的智能體,比從正常的環境反饋里進行增強學習的智能體表現還要好,因為人類對獎勵的表述要比環境本來的獎勵更好。

      你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習

      待解決的問題

      人類評價員要憑直覺判斷哪些動作看起來正確,那么算法的表現也就受限于此,如果人類對任務沒有什么深入的理解,那他們提供的反饋能起到的幫助也就很有限。有個相關的情況就是,在有一些領域這個系統最后會訓練出一個學會了欺騙評價員的智能體。舉個例子,一個機器人本來應該把物體拿起來,但它把機械手放到了目標物體和觀察者中間,這樣的機械手就只是看起來仿佛在抓它一樣,下面這張圖就是這樣。

      你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習

      對這個問題,他們想了一個改進措施是加一些視覺標識(圖中的白色實線),這樣人類評價員就更容易判斷深度了。不過更通用的辦法還需要做更多研究。

      OpenAI和DeepMind兩個組織打算在對AI安全性有長期影響的方面繼續進行合作。在他們看來,這樣的方法是開發出人類為中心進行學習的安全AI的又一項進步,而且可以對現有強化學習、模仿學習這樣的方法進行補充和拓展。

      via OpenAI Blog,雷鋒網 AI 科技評論編譯

      AI科技評論招業界記者啦!

      在這里,你可以密切關注海外會議的大牛演講;可以采訪國內巨頭實驗室的技術專家;對人工智能的動態了如指掌;更能深入剖析AI前沿的技術與未來!

      如果你:

      *對人工智能有一定的興趣或了解

       * 求知欲強,具備強大的學習能力

       * 有AI業界報道或者媒體經驗優先

      簡歷投遞:

      lizongren@leiphone.com

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      你做我評——OpenAI和DeepMind全新的強化學習方法,根據人類反饋高效學習

      分享:

      讀論文為生

      日常笑點滴,學術死腦筋
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 女人爽到高潮的免费视频| 欧美一区二区日韩国产| 久久久久人妻精品一区三寸| 印度成人无码AV| 蕾丝av无码专区在线观看| 国产免费网站看v片元遮挡| 亚洲日韩国产精品第一页一区| 国产av一区二区三区无码野战| 吴忠市| 小婕子伦流澡到高潮h| 超碰人妻97| 久久国产精品老人性| 成人福利一区二区视频在线| 亚洲一区二区三区免费av在线| 人妻av一区二区三区精品| 曲周县| 亚洲色www永久网站| 污污内射在线观看一区二区少妇| 99久久精品国产一区二区蜜芽| 免费av网站| 午夜dj在线观看免费高清在线| 免费的特黄特色大片| 亚洲 欧美 国产 日韩 精品| 亚洲成a人片在线视频| 婷婷射精av这里只有精品| 国产精品无码天天爽视频| 国内精自视频品线一二区| 欧美黑人添添高潮a片www| 余庆县| 成人性生交大片免费看r老牛网站| 2025精品视频| 99在线精品免费视频| 91探花视频在线观看| 91天堂网| 天堂a?中文在线| 天天躁日日躁欧美老妇app| 激情六月丁香婷婷四房播| 5D肉蒲团之性战奶水欧美| 性夜夜春夜夜爽夜夜免费视频 | 最新精品露脸国产在线| 夜夜爽夜夜叫夜夜高潮漏水|