<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給AI研習社-譯站
      發送

      0

      零基礎搞懂強化學習?這份視頻攻略不算遲

      本文作者: AI研習社-譯站 2018-04-24 16:38
      導語:介紹機器學習中的子領域“強化學習”

      雷鋒網按:喜歡機器學習和人工智能,卻發現埋頭苦練枯燥乏味還殺時間?油管頻道 Arxiv Insights 每周精選,從技術視角出發,帶你輕松深度學習。

      翻譯 | 鄭前   字幕 |  凡江   整理 |  吳璇

      本期 Arxiv Insights 將重點介紹機器學習中的子領域“強化學習”,也是機器人最具智能前景的方向之一。

      ? 強化學習解讀視頻

      有監督學習 VS 強化學習

      在常見的機器學習應用中,人們會運用有監督學習,也就是給神經網絡模型一個輸入,但模型輸出結果已成定局。因此你可以利用反向傳播算法計算梯度,以訓練此網絡產生結果。

      在監督學習的情況下,如果要訓練一個會玩吃雞的神經網絡,你需要找一個吃雞高手玩好幾個小時,然后獲得一個數據集,包括了所有的幀。比如玩家看到的屏幕,以及他在游戲中的鍵盤操作(如,向上或向下)。隨后將這些數據輸入到一個非常簡單的神經網絡中,便可以輸出向上或向下的行為。利用反向傳播這類算法對人類玩家數據集進行訓練,可以訓練出模擬人類玩家操作的神經網絡。

      但這種方法有兩種明顯的缺陷。第一,如果你想進行監督學習,就必須有一個數據集來訓練,但訓練數據集本身就不容易了。另一方面,如果你訓練的神經網絡模型,僅僅是模仿人類玩家的操作,那么這個模型在玩游戲時,成績肯定不會比人類選手高。

      強化學習讓智能體更聰明

      想訓練一個AlphaGo Zero,能夠擊敗世界頂級選手?從理論上,不能運用監督學習。那么,有什么方法可以讓智能體主動來玩游戲?這時候強化學習就有用了。

      實際上,強化學習的框架與監督學習框架非常相似,仍舊有輸入幀,并通過神經網絡模型運行模型,輸出各種人類操作。唯一的區別是,我們不知道目標標簽是什么,不知道在什么情況下,要進行向上或向下的鍵盤操作,因為這里沒有數據集去訓練。

      在強化學習中,將輸入幀轉換為輸出動作的網絡,被稱為策略網絡。一個最簡單的訓練策略網絡的方法,被稱為策略梯度。策略梯度中的方法是,從一個完全隨機的網絡開始,并向其提供游戲產生的一個幀,它隨機產生操作,然后再將該動作輸入到游戲中,游戲繼續產生下一幀,如此循環下去。

      用強化學習教智能體玩游戲

      這個例子中的網絡,可以是一個全連接網絡,但可以在這里運用卷積,現在你的網絡會輸出兩個數字向上和向下的概率。當你訓練時,其實是在分布中抽樣,你不需要總是重復特定的操作,智能體可以一定程度上隨機地探索環境,并幸運地發現更高的回報和更好的行為。

      現在我們想讓智能體自主學習唯一的反饋是,我們在游戲中給它一個記分牌,當智能體擊中目標時,它會獲得+1的回報,如果未擊中目標,它會收到-1的懲罰。智能體的目標就是優化策略,以盡可能多的獲取回報。因此為了訓練策略網絡,我們首先要收集大量記錄,然后將游戲的幀輸入到網絡中,再隨機選取動作,重新反饋到游戲中,就產生了很多隨機的游戲操作。

      由于智能體沒有經過訓練學習,它在大多數時候都會失敗,但是有時候智能體隨機選取了一系列行為,并擊中了目標,智能體將會獲得獎勵。重點是對于每一局游戲,無論想要正獎勵還是負獎勵,我們都可以計算梯度,它使智能機在后續更多的選擇某些動作。

      策略梯度要做的就是對于得到正回報的局,我們使用正的梯度,以增加該類操作未來發生的可能性,但當我們得到了負的回報,就會使用相同數值的負梯度,負號會使失敗局采取的所有操作在未來發生的可能性下降。結果就是,在訓練策略網絡時導致負回報的行為,在未來會逐漸過濾掉,而導致正回報的行為會越來越多的出現。從某種意義上說,這就是智能體正在學習如何玩游戲的過程。

      相關資料推薦:

      - "Pong from Pixels - Karpathy": http://karpathy.github.io/2016/05/31/rl/

      - Concept networks for grasp & stack (Paper with heavy reward shaping): https://arxiv.org/abs/1709.06977  雷鋒網雷鋒網

      雷鋒字幕組正在招募中,掃描下方二維碼,備注“雷鋒字幕組+姓名”加入我們。雷鋒網雷鋒網

      零基礎搞懂強化學習?這份視頻攻略不算遲零基礎搞懂強化學習?這份視頻攻略不算遲

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      零基礎搞懂強化學習?這份視頻攻略不算遲

      分享:
      相關文章

      知情人士

      AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 成人中文字幕无码| 久久国模吧| 少妇高潮太爽了在线视频| 做暖暖视频在线看片免费| 日本少妇| 美女扒开尿口让男人桶| 国产成人精品一区二区三区无码 | 国产性爱网| 亚洲一区二区精品极品| 人妻有码中文字幕| 一本久道久久综合无码中文| 无码gogo大胆啪啪艺术| 久久精品亚洲日本波多野结衣| 欧洲码亚洲码的区别入口 | 亚洲欧美一区二区成人片| 亚洲乱亚洲乱少妇无码| 欲香欲色天天天综合和网| 亚洲色诱惑| 国产成人精品日本亚洲| 国产午夜精品一区二区三区漫画| 国产免费一区二区三区在线观看| 熟女丝袜在线| 久久青草亚洲AV无码麻豆| 日本东京热不卡一区二区| 精品久久久无码中文字幕| 看全色黄大色黄大片 视频| 伊人久久综合| 国产精品天干天干综合网| 亚卅精品| 久青草久青草视频在线观看| 综合色一色综合久久网| 一区二区三区乱码在线 | 欧洲| 最新国产精品精品视频| 痉挛高潮喷水av无码免费| 国产老熟女伦老熟妇露脸| 无为县| 日韩精品在线观看首页| 国产主播福利在线观看| 色播久久人人爽人人爽人人片av| 精品国产乱码久久久久久1区2区| 草草浮力影院|