<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給叢末
      發送

      0

      2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020

      本文作者: 叢末 2019-12-29 23:46
      導語:圍棋被攻克之后,多人在線戰術競技游戲(MOBA)已經成為測試檢驗前沿人工智能的動作決策和預測能力的重要平臺?;隍v訊天美工作室開發的熱門 MOBA 類手游《王者


      2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020

      圍棋被攻克之后,多人在線戰術競技游戲(MOBA)已經成為測試檢驗前沿人工智能的動作決策和預測能力的重要平臺?;隍v訊天美工作室開發的熱門 MOBA 類手游《王者榮耀》,騰訊 AI Lab 正努力探索強化學習技術在復雜環境中的應用潛力。本文即是其中的一項成果,研究用深度強化學習來為智能體預測游戲動作的方法,論文已被AAAI-2020接收。

      此技術支持了騰訊此前推出的策略協作型 AI 「絕悟」1v1版本,該版本曾在今年8月上海舉辦的國際數碼互動娛樂展覽會China Joy首次亮相,在2100多場和頂級業余玩家體驗測試中勝率達到99.8%。

      除了研究,騰訊AI Lab與王者榮耀還將聯合推出“開悟”AI+游戲開放平臺,打造產學研生態。王者榮耀會開放游戲數據、游戲核心集群(Game Core)和工具,騰訊AI Lab會開放強化學習、模仿學習的計算平臺和算力,邀請高校與研究機構共同推進相關AI研究,并通過平臺定期測評,讓“開悟”成為展示多智能體決策研究實力的平臺。目前“開悟”平臺已啟動高校內測,預計在2020年5月全面開放高校測試,并且在測試環境上,支持1v1,5v5等多種模式;2020年12月,我們計劃舉辦第一屆的AI在王者榮耀應用的水平測試。

      以下是本次入選論文的詳細解讀:   

      2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020

      在競爭環境中學習具備復雜動作決策能力的智能體這一任務上,深度強化學習(DRL)已經得到了廣泛的應用。在競爭環境中,很多已有的 DRL 研究都采用了兩智能體游戲作為測試平臺,即一個智能體對抗另一個智能體(1v1)。

      其中 Atari 游戲和棋盤游戲已經得到了廣泛的研究,比如 2015 年 Mnih et al. 使用深度 Q 網絡訓練了一個在 Atari 游戲上媲美人類水平的智能體;2016 年 Silver et al. 通過將監督學習與自博弈整合進訓練流程中而將智能體的圍棋棋力提升到了足以擊敗職業棋手的水平;2017 年 Silver et al. 又更進一步將更通用的 DRL 方法應用到了國際象棋和日本將棋上。

      本文研究的是一種復雜度更高一籌的MOBA 1v1 游戲。即時戰略游戲(RTS)被視為 AI 研究的一個重大挑戰。而MOBA 1v1 游戲就是一種需要高度復雜的動作決策的 RTS 游戲。相比于棋盤游戲和 Atari 系列等 1v1 游戲,MOBA 的游戲環境要復雜得多,AI的動作預測與決策難度也因此顯著提升。以 MOBA 手游《王者榮耀》中的 1v1 游戲為例,其狀態和所涉動作的數量級分別可達 10^600 和 10^18000,而圍棋中相應的數字則為 10^170 和 10^360,參見下表 1。

             2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020

      表 1:圍棋與 MOBA 1v1 游戲的比較 

      此外,MOBA 1v1 的游戲機制也很復雜。要在游戲中獲勝,智能體必須在部分可觀察的環境中學會規劃、攻擊、防御、控制技能組合以及誘導和欺騙對手。除了玩家與對手的智能體,游戲中還有其它很多游戲單位,比如小兵和炮塔。這會給目標選擇帶來困難,因為這需要精細的決策序列和相應的動作執行。

      此外,MOBA 游戲中不同英雄的玩法也不一樣,因此就需要一個穩健而統一的建模方式。還有一點也很重要:MOBA 1v1游戲缺乏高質量人類游戲數據以便進行監督學習,因為玩家在玩 1v1 模式時通常只是為了練習英雄,而主流 MOBA 游戲的正式比賽通常都采用 5v5 模式。

      需要強調,本論文關注的是 MOBA 1v1 游戲而非MOBA 5v5 游戲,因為后者更注重所有智能體的團隊合作策略而不是單個智能體的動作決策??紤]到這一點,MOBA 1v1游戲更適合用來研究游戲中的復雜動作決策問題。

      為了解決這些難題,本文設計了一種深度強化學習框架,并探索了一些算法層面的創新,對 MOBA 1v1 游戲這樣的多智能體競爭環境進行了大規模的高效探索。文中設計的神經網絡架構包含了對多模態輸入的編碼、對動作中相關性的解耦、探索剪枝機制以及攻擊注意機制,以考慮 MOBA 1v1 游戲中游戲情況的不斷變化。

      為了全面評估訓練得到的 AI 智能體的能力上限和策略穩健性,新設計的方法與職業玩家、頂級業務玩家以及其它在 MOBA 1v1 游戲上的先進方法進行了比較。

      本文有以下貢獻:

      對需要高度復雜的動作決策的 MOBA 1v1 游戲 AI 智能體的構建進行了全面而系統的研究。在系統設計方面,本文提出了一種深度強化學習框架,能提供可擴展的和異步策略的訓練。在算法設計方面,本文開發了一種用于建模 MOBA 動作決策的 actor-critic 神經網絡。網絡的優化使用了一種多標簽近端策略優化(PPO)目標,并提出了對動作依賴關系的解耦方法、用于目標選取的注意機制、用于高效探索的動作掩碼、用于學習技能組合 LSTM 以及一個用于確保訓練收斂的改進版 PPO——dual-clip PPO。

      在《王者榮耀》1v1 模式上的大量實驗表明,訓練得到的 AI 智能體能在多種不同類型的英雄上擊敗頂級職業玩家。

      1、系統設計 

      考慮到復雜智能體的動作決策問題可能引入高方差的隨機梯度,所以有必要采用較大的批大小以加快訓練速度。因此,本文設計了一種高可擴展低耦合的系統架構來構建數據并行化。具體來說,這個架構包含四個模塊:強化學習學習器(RL Learner)、人工智能服務器(AI Server)、分發模塊(Dispatch Module)和記憶池(Memory Pool)。如圖 1 所示。

             2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020

      圖 1:系統設計概況

      AI 服務器實現的是 AI 模型與環境的交互方式。分發模塊是用于樣本收集、壓縮和傳輸的工作站。記憶池是數據存儲模塊,能為RL 學習器提供訓練實例。這些模塊是分離的,可靈活配置,從而讓研究者可將重心放在算法設計和環境邏輯上。這樣的系統設計也可用于其它的多智能體競爭問題。

      2、算法設計

      RL 學習器中實現了一個 actor-critic 神經網絡,其目標是建模 MOBA 1v1 游戲中的動作依賴關系。如圖2所示。

             2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020

      圖 2:論文實現的actor-critic網絡

      為了實現有效且高效的訓練,本文提出了一系列創新的算法策略:

      1.目標注意力機制:用于幫助AI在 MOBA 戰斗中選擇目標。

      2.LSTM:為了學習英雄的技能釋放組合,以便AI在序列決策中,快速輸出大量傷害。

      3.動作依賴關系的解耦:用于構建多標簽近端策略優化(PPO)目標。

      4.動作掩碼:這是一種基于游戲知識的剪枝方法,為了引導強化學習過程中的探索而開發。

      5.dual-clip PPO:這是 PPO 算法的一種改進版本,使用它是為了確保使用大和有偏差的數據批進行訓練時的收斂性。如圖3所示。 

            2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020

      圖 3:論文提出的dual-clip PPO算法示意圖,左為標準PPO,右為dual-clip PPO

      有關這些算法的更多詳情與數學描述請參閱原論文。

      3、實驗

      系統設置

      測試平臺為熱門 MOBA 游戲《王者榮耀》的 1v1 游戲模式。為了評估 AI 在現實世界中的表現,這個 AI 模型與《王者榮耀》職業選手和頂級業余人類玩家打了大量比賽。實驗中 AI 模型的動作預測時間間隔為 133 ms,這大約是業余高手玩家的反應時間。另外,論文方法還與已有研究中的基準方法進行了比較,其中包括游戲內置的決策樹方法以及其它研究中的 MTCS 及其變體方法。實驗還使用Elo分數對不同版本的模型進行了比較。

      實驗結果

      探索動作決策能力的上限

      表 3 給出了AI和多名頂級職業選手的比賽結果。需要指出這些職業玩家玩的都是他們擅長的英雄??梢钥吹?AI 能在多種不同類型的英雄上擊敗職業選手。     

      2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020 

      表 3:AI 與職業選手使用不同類型英雄比賽的結果 

      評估動作決策能力的穩健性

      實驗進一步評估了 AI 學習的策略能否應對不同的頂級人類玩家。在2019年8月份,王者榮耀1v1 AI對公眾亮相,與大量頂級業余玩家進行了2100場對戰。AI勝率達到99.81%。

            2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020 

      表 4:AI 與不同頂級人類玩家的比賽結果

      基準比較

      可以看到,用論文新方法訓練的 AI 的表現顯著優于多種baseline方法。

             2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020


      圖 4:擊敗同一基準對手的平均時長比較

      訓練過程中模型能力的進展

      圖 5 展示了訓練過程中 Elo 分數的變化情況,這里給出的是使用射手英雄「狄仁杰」的例子??梢杂^察到 Elo 分數會隨訓練時長而增長,并在大約 80 小時后達到相對穩定的水平。此外,Elo 的增長率與訓練時間成反比。

             2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020       

      圖 5:訓練過程中 Elo 分數的變化情況

      控制變量研究

      為了理解論文方法中不同組件和設置的效果,控制變量實驗是必不可少的。表 5 展示了使用同樣訓練資源的不同「狄仁杰」AI 版本的實驗結果。

             2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020  

      表 5:控制變量實驗

      4、未來工作

      本文提出的框架和算法將在未來開源,而且為了促進對復雜游戲的進一步研究,騰訊也將在未來把《王者榮耀》的游戲內核提供給社區使用,并且還會通過虛擬云的形式向社區提供計算資源。

      雷鋒網 AI 科技評論報道。雷鋒網雷鋒網

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。

      2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀 | AAAI 2020

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 五月激情婷婷综合| 国产视频9999| 69视频免费看| 秋霞电影网| 2025AV在线| 亚洲国产精品乱码一区二区| 精品久久久无码中文字幕| 98久免费精品视频在线观看| 亚洲成人av一区| 亚洲综合久久久| av无码精品一区二区三区| 宅男噜噜噜66一区二区| 亚洲区中文字幕| 来凤县| 18禁美女裸体无遮挡网站| 国产人妻精品一区二区三区 | 欧美精品卡一卡二| 亚洲精品久久国产高清| 亚洲成人综合网站| 国产综合久久久777777| 最新国产精品拍自在线播放| 五指山市| 操日本屄| 岛国av一区二区精品| 男人的天堂色偷偷| 亚洲精品一区二区天堂| 天天摸天天做天天爽天天舒服| 五月天黄色电影| 麻豆精品人妻一区二区三区蜜桃| 久久精品国产久精国产果冻传媒| 国产 亚洲 制服 无码 中文| 日韩新无码精品毛片| 天天综合91| 婷婷五月综合激情| 国产av国片精品| 最近免费中文字幕大全免费版视频 | 免费无遮挡无码视频在线观看| 撸啊撸激情久久| 69avav?cn| 影音先锋成人网站| 最新国产AV最新国产在钱|