<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給岑大師
      發送

      1

      100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識

      本文作者: 岑大師 2017-10-19 03:57
      導語:AlphaGo“退役”了,但Deepmind在圍棋上的探索并沒有停止。

      AlphaGo“退役”了,但Deepmind在圍棋上的探索并沒有停止。

      今年5月的烏鎮大會的“人機對局”中,中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨后Deepmind創始人Hassabis宣布,AlphaGo將永久退出競技舞臺,不再進行比賽。同時Hassbis表示:“我們計劃在今年稍晚時候發布最后一篇學術論文,詳細介紹我們在算法效率上所取得的一系列進展,以及應用在其他更全面領域中的可能性。就像第一篇 AlphaGo 論文一樣,我們希望更多的開發者能夠接過接力棒,利用這些全新的進展開發出屬于自己的強大圍棋程序。”

      今天,Deepmind在如約在Nature發布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文中,Deepmind展示了他們更強大的新版本圍棋程序“AlphaGo Zero”,驗證了即使在像圍棋這樣最具挑戰性的領域,也可以通過純強化學習的方法自我完善達到目的。

      100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識


      摘要

      人工智能的一個長期目標是通過后天的自主學習(雷鋒網注:tabula rasa,意為“白板”,指所有的知識都是逐漸從他們的感官和經驗而來),在一個具有挑戰性的領域創造出超越人類的精通程度學習的算法。此前,AlphaGo成為首個戰勝人類圍棋世界冠軍的程序,當時的AlphaGo通過深層神經網絡進行決策,并使用人類專家下棋的數據進行監督學習,同時也通過自我對弈進行強化學習。在這篇論文中,我們將介紹一種僅基于強化學習的算法,而不使用人類的數據、指導或規則以外的領域知識。AlphaGo成為自己的老師,這一神經網絡被訓練用于預測AlphaGo自己的落子選擇,提高了樹搜索的強度,使得落子質量更高,具有更強的自我對弈迭代能力。從一塊白板開始,我們的新程序AlphaGo Zero表現驚人,并以100:0擊敗了此前版本的AlphaGo。


      全新強化學習算法:無需任何人類指導

      雷鋒網發現,這篇論文的最大亮點,在于無需任何人類指導,通過全新的強化學習方式自己成為自己的老師,在圍棋這一最具挑戰性的領域達到超過人類的精通程度。相比起之前使用人類對弈的數據,這一算法訓練時間更短,僅用3天時間就達到了擊敗李世石的AlphaGo Lee的水平,21天達到了之前擊敗柯潔的AlphaGo Master的水平。

      在3天內——也就是AlphaGo Zero在擊敗AlphaGo Lee之前,曾進行過490萬次自我對弈練習。 相比之下,AlphaGo Lee的訓練時間長達數月之久。AlphaGo Zero不僅發現了人類數千年來已有的許多圍棋策略,還設計了人類玩家以前未知的的策略。

      100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識

      據Deepmind博客介紹,AlphaGo Zero采用了新的強化學習方法,從一個不知道圍棋游戲規則的神經網絡開始,然后通過將這個神經網絡與強大的搜索算法結合,然后就可以實現自我對弈了。在這樣的訓練過程中,神經網絡被更新和調整,并用于預測下一步落子和最終的輸贏。

      這一更新后的神經網絡將再度與搜索算法組合,這一過程將不斷重復,創建出一個新的、更強大版本的AlphaGo Zero。在每次迭代中,系統的性能和自我對弈的質量均能夠有部分提高。“日拱一卒,功不唐捐”,最終的神經網絡越來越精確,AlphaGo Zero也變得更強。

      Alpha Zero與之前版本有如下不同:

      • AlphaGo Zero 只使用棋盤上的黑子和白子作為輸入,而之前版本AlphaGo的輸入均包含部分人工特征;

      • AlphaGo Zero使用一個神經網絡而不是之前的兩個。以前版本的 AlphaGo 使用一個“策略網絡”來選擇落子的位置,并使用另一個“價值網絡”來預測游戲的輸贏結果。而在AlphaGo Zero中下一步落子的位置和輸贏評估在同一個神經網絡中進行,從而使其可以更好地進行訓練和評估。

      • AlphaGo Zero 無需進行隨機推演(Rollout)——這是一種在其他圍棋程序中廣泛使用于勝負的快速隨機策略,從而通過比較確定每一手之后輸贏的概率選擇最佳落子位置,相反,它依賴于高質量的神經網絡來評估落子位置。

      上述差異均有主于提高系統的性能和通用性,但使最關鍵的仍是算法上的改進,不僅使得AlphaGo Zero更加強大,在功耗上也更為高效。

      100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識

      AlphaGo不同版本所需的GPU/TPU資源,雷鋒網整理

      技術細節

      新方法使用了一個具有參數θ的深層神經網絡fθ。這個神經網絡將棋子的位置和歷史狀態s作為輸入,并輸出下一步落子位置的概率,用, (p, v) = fθ(s)表示。落子位置概率向量p代表每一步棋(包括不應手)的概率,數值v是一個標量估值,代表棋手下在當前位置s的獲勝概率。

      AlphaGo Zero的神經網絡通過新的自我對弈數據進行訓練,在每個位置s,神經網絡fθ都會進行蒙特卡洛樹(MCTS)搜索,得出每一步落子的概率π。這一落子概率通常優于原始的落子概率向量p,在自我博弈過程中,程序通過基于蒙特卡洛樹的策略來選擇下一步,并使用獲勝者z作為價值樣本,這一過程可被視為一個強有力的評估策略操作。在這一過程中,神經網絡參數不斷更新,落子概率和價值 (p,v)= fθ(s)也越來越接近改善后的搜索概率和自我對弈勝者 (π, z),這些新的參數也會被用于下一次的自我對弈迭代以增強搜索的結果,下圖即為自我訓練的流程圖。

      100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識

      AlphaGo Zero 自我對弈訓練的流程示意圖

      完整論文可點此下載

      雖然這一技術還處于早期階段,但AlphaGo Zero的突破使得我們在未來面對人類面對的一些重大挑戰(如蛋白質折疊、減少能源消耗、尋找革命性的新材料等)充滿信心。眾所周知,深度學習需要大量的數據,而在很多情況下,獲得大量人類數據的成本過于高昂,甚至根本難以獲得。如果將該技術應用到其他問題上,將會有可能對我們的生活產生根本性的影響。

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 欧美无专区| 人妻福利| 好大好硬好湿好爽再深一点视频| 亚洲成a人在线播放www| 影音先锋2020色资源网| 国产毛a片啊久久久久久保和丸 | 亚洲精品久久久久久久蜜桃臀| 清水县| 无吗人妻一区二区| 91网站在线看| 久久久精品人妻一区亚美研究所| 国产av激情久久无码天堂| 漂亮的保姆hd完整版免费韩国 | 狠狠色丁香婷婷亚洲综合| 绿帽人妻被插出白浆免费观看 | 精品人妻系列无码天堂| 免费无码作爱视频| 国产亚洲av夜间福利香蕉149| 亚洲色大成网站www永久一区| 白人无码| 色欲人妻综合网| 亚洲成人性爱网| 日本黄页网站免费大全| 精品无码三级在线观看视频 | 最大胆裸体人体牲交| 亚洲综合网站色伊人| 亚洲色成人www永久网站| 横峰县| 性一交一黄一片| 亚州脚交| 日韩人妻无码精品久久久不卡| 明溪县| 精品秘?无码人妻| 国产精品va在线观看无码不卡| 综合福利导航| 一个人看的www片| 少妇私密会所按摩到高潮呻吟| 博罗县| 成人无码www在线看免费| av黄色| 99精品在线视频观看|