<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      專欄 正文
      發私信給小芹菜
      發送

      5

      Facebook 田淵棟:第四局AlphaGo 敗招的分析 ( 附前3場比賽勝率分析)

      本文作者: 小芹菜 2016-03-15 10:07
      導語:AlphaGo敗招,可能是時間管理子系統在搜索樹清空時有程序上的漏洞,或者,AlphaGo的估值網絡出了問題。

      按:本文作者田淵棟,已獲授權。

      Facebook 田淵棟:第四局AlphaGo 敗招的分析 ( 附前3場比賽勝率分析)

      第四局李世石的78手L11挖被大家譽為“神之一手”,在DarkForest的策略網絡輸出里排第31位,而J11靠排第10位。因此我覺得可能是AlphaGo沒有算到這一步。如果對方下了一手機器沒算到的棋,則蒙特卡羅(MCTS)搜索樹會清空,然后重新開始搜索,不應該會太快做出結論。李喆六段告訴我K10這一手是秒下,那有可能是時間管理子系統在搜索樹清空時有程序上的漏洞,因此過早地將搜索結果返回了。MCTS在一開始搜索的時候,因為模擬次數不夠多,每步的勝率方差非常大,所以返回一個不夠好的著法如K10是很正常的(在DarkForest里面這著排在前四)。這個比較容易修正。

      另一種可能是,AlphaGo的估值網絡出了問題。因為估值網絡的權重是0.5,而不管快速走子從一個局面開始重復了多少次,它的權值也是0.5。對于一個局面,估值網絡只得到一個數,而從這個局面往下走子,走多后會得到很多個數,統計上應該更為重要,但是AlphaGo不是這樣想的,兩邊各自算得勝率后直接對半平均了。所以如果估值網絡對某個局面得到的結果不對,則會極大地影響對該局面的勝率估計。注意這里得到很多個數的原因是按照文章,葉結點在積累了一定盤數后(40)才展開,而不是第一次訪問就展開,以提高DCNN的效率。DarkForest沒有用到估值網絡,在L11的挖之后正確地返回了L12和L10這兩個應手,據李喆六段說,都是正確的應手,這間接支持了這個推斷。AlphaGo在87手之后才意識到自己已經大大落后,可能也是由于同樣的問題,比如說把右邊的黑大龍看成活的。

      那為什么估值網絡會出問題呢?可能是用于訓練估值網絡的自學習(Self-Play)的樣本分布有盲點。為了提高樣本生成速度,AlphaGo的自學習樣本是通過用兩個純粹的DCNN互搏來生成的(完全沒有搜索),而DCNN下出來的棋因為是純模式識別,一個大問題是死活不正確,經常是在死棋里面下子。如果黑白兩方都犯了死活不分的毛病,然后一方比如說白僥幸勝了,那估值網絡就會認為方才白的死棋局面是好的。這樣估值網絡就會染上同樣毛病,在中盤復雜的對殺局面中判斷失誤。若是這種情況就不好處理,AlphaGo下一局可能還會有同樣的問題。這里可以看到,電腦本身也不是靠窮舉來下棋的,圍棋畢竟太復雜,每一步都要剪枝,離當前局面近的仔細剪(用DCNN),離當前局面遠的快速剪(快速走子),直到終局得到勝負為止。剪枝的好壞直接關系到棋力的高低,DCNN只是一個有大局觀的非常好的剪枝手段,它的盲點也會通過敗著反映出來。

      關于DCNN+MCTS打劫。首先因為MCTS是全局估計分數的,劫爭本身和其它局面在程序看來沒有本質區別,都只是一步棋而已。劫的特殊性在DarkForest上表現為碰到有劫可提的情況時,DCNN經常會以非常高的概率(0.8以上)返回提劫這一手。可能的原因是,劫點是作為單獨的特征輸入的,所以DCNN學習到了它和輸出(提劫)的強關聯性。這樣在MCTS搜索時會強烈偏向這一手。這在很多情況下是正確的,但有時劫很小可以不予理會,或者碰到兩個或者多個劫需要放棄一個,那“遇劫必提”的偏向性就會給搜索帶來麻煩。有時連環劫電腦反復提就是這個原因。AlphaGo可能會有這個問題,或者是反向的問題(比如說提劫概率很小),這樣在下棋時大家就會感覺到它在避免開劫,或者在含劫的變化中計算失誤。

      關于地平線效應(Horizon Effect)。國象的AI里面會有這個效應,比如說只搜索10步,計算到別人的后被自己的后吃了結束,然后用簡單的加和法估計下盤面發現自己多個后特別爽,覺得這個分支特別好。其實再往下走一步自己的后也被別人吃了,或者掉入陷阱,這樣就誤算盤面價值。但是圍棋因為每次模擬都是走到底的,可能前30步是用DCNN,之后就是用快速走子,雖然走子質量上有差距,但是大方向上不會錯,所以地平線效應在某種程度上是減弱了。而且這次AlphaGo的失誤在20步以內,應該還在DCNN的范圍里面,所以地平線效應的可能性比較低。

      應大家要求,這里放Game3的勝率,李世石毫無機會。

      Facebook 田淵棟:第四局AlphaGo 敗招的分析 ( 附前3場比賽勝率分析)


      Game4的還沒空全跑,以下是關鍵的一段。注意DarkForest只是5d,所以沒有及早看出來黑掛了也是正常的。

      編者一起放上作者的DarkForest對AlphaGo和李世石前兩局每步的勝率估計:

      Facebook 田淵棟:第四局AlphaGo 敗招的分析 ( 附前3場比賽勝率分析)

      Facebook 田淵棟:第四局AlphaGo 敗招的分析 ( 附前3場比賽勝率分析)

      首先說明一下每個數據點是DF在當前局面下給出最優應手,同時給出的勝率。這個最優應手和選手的應手不一定一樣。如果大家要看DF給的應手,可以下載以下兩個文件:

      yuandong-tian.com/win_rate1.txt

      yuandong-tian.com/win_rate2.txt

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      Facebook 田淵棟:第四局AlphaGo 敗招的分析 ( 附前3場比賽勝率分析)

      分享:
      相關文章

      編輯

      雷鋒網編輯,AI慕課學院負責人。關注智能駕駛與金融科技,歡迎來撩:www.mooc.ai。
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 男人天堂2019| 国产精品亚洲二区在线播放| 丝袜无码| 国产女主播免费在线观看| 成人综合伊人五月婷久久| 久色88| 亚洲偷偷色| 99久久亚洲综合精品成人| 人妻[21p]大胆| 日日躁夜夜躁狠狠久久av| 国产精品1区| 国产成人h在线观看网站站| 毛片免费观看天天干天天爽| 天天摸夜夜摸夜夜狠狠添| 日韩欧美人妻一区二区三区| 碰碰免费视频| 少妇爽到爆视频网站免费| 正在播放国产【乱子】| 中文字幕在线看视频一区二区三区| 国产精品午夜福利视频234区| 亚洲中文字幕系列| 国产亚洲成av人片在线观看下载| 日本丰满熟妇乱子伦| 国产主播无套内射一区| 日韩欧美人妻一区二区三区| 色噜噜狠狠一区二区三区Av蜜芽| 亚洲人成网站在线播放小说| 动漫av纯肉无码av在线播放| 中文字幕亚洲色图| 亚洲精品一区二区三区的| 亚洲乱码精品中文字幕| 久久永久免费人妻精品| 中文字幕亚洲综合久久青草| 夜夜夜影院| AVwww.333.rain.无码一区二区| 98精品全国免费观看视频| 久久无码精品精品古装毛片| 国产精品视频一区国模私拍 | 精品国精品无码自拍自在线| av动态| 日日躁狠狠躁狠狠爱|