UCL強化學習派：汪軍與他的學生們

本文作者：賴文昕

2025-02-27 19:15

導語：導語：他們構成中國強化學習研究的半壁江山。

作者 | 賴文昕

編輯 | 陳彩嫻

作為一支在 AI 領域歷經數十年的研究分支，強化學習一直在歷久彌新。

從推薦系統到強化學習

2006 年暑假的一個午后，汪軍踏上了從荷蘭小城代爾夫特開往首都阿姆斯特丹的火車，他將在阿姆斯特丹換乘飛機，飛往美國西雅圖參加第 29 屆國際計算機協會信息檢索大會（ACM SIGIR）。

此時的信息檢索領域如日中天，加上微軟、雅虎和谷歌三巨頭最核心的業務也是搜索，ACM SIGIR 每年都能匯集學術界與工業界的最高人才，來開一場信息檢索界的“年會”。

在華盛頓大學的會場里，汪軍在一片掌聲中獲得了最佳博士聯盟獎，于博士畢業的前一年拿下了信息檢索領域博士的最高榮譽。

這位意氣風發的青年此刻并未想到，自己將會在 15 年后再獲得時間檢驗獎的榮譽提名——2021 年的汪軍已轉向強化學習（RL）數年，作為發起人之一成立了華人強化學習社區RL China，為國內強化學習研究培養了一批優秀的青年人才，成為領域的“一代宗師”。

UCL強化學習派：汪軍與他的學生們

汪軍

汪軍出生于江蘇南京，1993 年從金陵中學畢業后開始在東南大學攻讀電子工程專業。本科畢業后，他先在工業界工作三年，又于 2000 年重返學術界，在新加坡國立大學計算機科學與技術系讀研。

千禧年正值數字視頻興起，主要播放格式為 DVD、MPEG。彼時在計算機視覺領域占據主導地位的，是基于手工特征和傳統機器學習算法的方法，如在圖像匹配、分類等任務中取得了較好效果的 SIFT 特征、支持向量機等，神經網絡則被認為是一個相對復雜和難以解釋的 “黑盒” 。

此時汪軍已開始運用神經網絡開展計算機視覺領域的研究，師從印度教授、現新加坡國家人工智能中心副主席 Mohan Kankanhalli。

作為汪軍學術生涯的首位伯樂，Kankanhalli 引領他進入學術圈，經常鼓勵他自由探索，對其影響深遠。在導師指導下，汪軍的碩士論文聚焦通過不經過解碼，直接利用神經網絡從壓縮視頻中識別其中的模式、人臉、物體等內容。

2003 年碩士畢業后，汪軍來到荷蘭的代爾夫特理工大學讀博，師從機器學習教授 Marcel J. T. Reinders，在其指導下開始參與 CACTUS 項目。

該項目核心關注在自組織無線環境里，通過個性化、智能且具備情境感知能力的可穿戴設備，解決人機交互與計算機網絡交互在技術及可用性上的難題。其中一項關鍵內容為，依據用戶當前狀態，判斷是否應推送不同信息。

作為一項推薦系統工作，該系統還與信息檢索緊密關聯，本質上源于其中最基本的用戶需求。此需求可表現為關鍵詞，如通過用戶以往的興趣愛好、歷史瀏覽記錄等尋找到新信息，結合已知與未知部分，其中衡量它們之間相關性的指標是核心所在。

隨著研究推進，這個大項目范圍逐步收窄，發展成為個性化推薦系統，汪軍也在此過程中逐漸確認了自己對推薦系統與信息檢索的興趣。

博士期間，指導汪軍學習主流信息檢索知識的是荷蘭信息檢索領域的知名教授 Arjen P. de Vries，在他的牽線下，汪軍結識了信息檢索大牛 Stephen Robertson，并在 2006 年隨之前往微軟劍橋研究院實習。

Stephen Robertson 發明了搜索領域最出色的算法 BM25，該算法基于概率統計等原理創建了一種排名方法，在神經網絡興起前廣泛應用于全球信息檢索領域并主導著該領域的技術方向，在大多數情況下，只要合理使用其公式，搜索結果通常能達到較好的效果。

對汪軍而言，Robertson 是自己的第二位伯樂。在微軟劍橋研究院時，Robertson 常常同他講解信息檢索的核心知識，兩人就統一模型（Unified Model）展開合作，在信息檢索領域取得了不少理論突破。

過去傳統的概率檢索模型存在面向文檔和面向查詢兩種不同的視角，統一模型則將兩種視角統一起來，以創建一個更完善的檢索模型。沿著這一道路開展推薦系統研究，汪軍在博士階段便逐漸涵蓋了信息檢索領域的所有基礎問題。

獲得 ACM SIGIR 2006 最佳博士聯盟獎后不久，一心想做老師的汪軍收到了倫敦大學學院（UCL）的 offer，并在 2007 年成為計算機系的一名講師。

剛成為“青椒”的汪軍正值想法豐富、動手能力強之際，立即啟動了推薦系統方向的新研究。

此前 Robertson 曾提出概率排序原理（PRP），其核心為信息檢索系統應按照文檔與用戶信息需求的相關概率降序對文檔進行排序，以實現信息檢索系統的整體有效性（如期望精度）最大化。

汪軍認為此理論存在不足，還得考慮上不確定性，便創新地將經濟學理論引入信息檢索領域，在 2009 年發表了“Portfolio Theory of Information Retrieval”一文—— 11年后，此工作被 SIGIR 評為時間檢驗獎的第二名。

UCL強化學習派：汪軍與他的學生們

論文鏈接：https://lintool.github.io/robust04-analysis-papers/p115-wang.pdf

簡單來說，就像投資時“不把所有錢都投進一個籃子”，不能只買谷歌股票，還要買可口可樂或其他各類股票。搜索領域同理，比如當輸入“jaguar”時，因無法確定其指汽車品牌捷豹還是動物美洲豹，最佳做法是讓搜索結果多樣化，排序時，第一條可排動物相關內容，第二條排車相關，第三個及后續結果也都要注重多樣性。

與 PRP 相比，此方法的優勢在于它突破了單一排名指標的局限，不僅考慮了文檔相關度預測的不確定性，還考慮了檢索文檔之間的相關性，通過平衡排序列表的整體相關度和風險水平來進行文檔排序，能更全面地處理文檔排序問題，還從數學上量化了多樣化的益處并有效降低排序風險。

這項工作完成后，汪軍認為信息檢索領域已無太多本質問題可研究，而互聯網中的搜索推薦和廣告推薦發展良好，且廣告尤其吸引他。

雖然廣告本質仍屬信息檢索范疇，但融入了如博弈論等經濟因素。從收益最大化角度，廣告推薦不僅要考慮相關性，還得兼顧經濟價值，有時即便內容相關，若預算用盡也不會被推薦。于是，汪軍開始研究廣告競價機制，如排名競價、實時競價。

在鉆研的過程中，汪軍發現：廣告領域技術的本質就是強化學習。

一是做決策以最大化獎勵，即最大化經濟價值或獎懲收益。廣告的目標是最大化用戶互動以促購買，同時兼顧預算，在既定預算下追求最優表現，或在預算最小化時提升效果，這和強化學習思路一致。具體來說，用戶從點擊廣告到真正購買中的延遲，就類似于AlphaGo下棋時當下決策影響未來收益，雙方都涉及如何評估優化當下決策對未來的作用。

二是多智能體博弈。在廣告領域，廣告主間是排名競價關系，例如當用戶與鞋子相關的關鍵詞時，眾多賣鞋廣告主都想投放廣告，彼此競爭，這就是多智能體強化學習。

就這樣，強化學習的種子埋在了汪軍心里。

UCL 強化學習開拓者

2011 年，汪軍升職為 UCL 的高級講師，并迎來了一位熱衷于圍棋的新同事 David Silver。

David Silver 于 1998 年劍橋本科畢業后同好友 Demis Hassabis 共同創立電子游戲公司 Elixir Studios，又在 2004 年到阿爾伯塔大學攻讀強化學習的博士，師從強化學習之父 Richard Sutton，期間發表了“在 9×9 計算機圍棋中達到大師級水平” 的論文，其開發的 Mogo 程序是當時最強的圍棋程序之一。

來到 UCL 后，Silver 延續RL在圍棋上的應用，并受 Hassabis 之邀為 DeepMind 提供咨詢，啟動 AlphaGo 項目；而在隔壁辦公室的汪軍，則開始接觸到RL在信息檢索和排序中的應用，遂請 Silver 來擔任學生 Marc Sloan 的二導。

兩人常探討強化學習的相關邏輯及它在搜索排序等問題中的應用，此時汪軍雖對RL的理解還不深，但通過討論逐漸覺得這個領域很有意思，便開始用它來探索在新興交叉研究領域——計算廣告市場中的應用。

和傳統的監督學習相比，強化學習強調觀察和反饋。計算廣告生態系統中數據量大，開放性高，決策機會多，同時監管較弱，是絕佳的產學研相結合的平臺。2012年，汪軍的學生袁帥發表了一篇利用隱馬爾可夫鏈選擇廣告的文章，揭開了團隊將強化學習引入計算廣告的序幕。

隨著對計算廣告市場的了解不斷加深，汪軍的視野也在快速拓展，新的火花在概念的連接中不斷迸發出來。他的妻子在投行工作，在翻看其大學金融專業的教材時，汪軍了解到二級市場、現貨與期貨市場等概念，由此聯想到廣告領域——廣告通常是實時交易，沒有未來市場，但實際上，大廣告主常提前預定廣告位，剩余不確定流量才放入實時競價平臺，類似期貨市場。

汪軍和學生陳博為據此研究出新的定價方法，創造了廣告期貨/期權的新產品。文章發表后，不但獲得了最佳論文獎，也引起了在劍橋讀 MBA 的 Rael Cline 的注意。Rael主動聯系汪軍提出合作，二人便于 2014 年夏天一起創辦了 AI 廣告公司 MediaGamma。袁帥和陳博為作為初創員工，一起加入了公司。

MediaGamma的故事延續了七年多時間。在這期間，這群充滿樂觀精神的學院派創業者嘗試了很多主意：從一開始的廣告期權交易所，到后來專為廣告主服務的需方平臺（Demand Side Platform），再到后來專注于開發算法系統，細致分解計算廣告中的競價過程，當然其中也包括了將RL算法應用于出價決策——這也是強化學習首次在廣告實時交易中得以商用。

MediaGamma公司始于學術思維的結晶，慢慢發展成一個絕佳的試驗場：它提供了開放的平臺和數據，多樣而實際的商業問題，給了汪軍和學生們充分的挑戰和鍛煉。袁帥也從一名博士生和工程師，成長為公司數據科學業務的領頭人。

MediaGamma也為汪軍的碩士生、博士生提供了實習機會。其中一位，也是首位緊隨他從推薦系統轉向廣告領域再到強化學習的得意門生，便是張偉楠。

2012 年 3 月，上海交大研一學生張偉楠讀到汪軍的一篇推薦系統論文，覺得思路新穎，當周就發郵件提問。他本科就讀于 ACM 班，畢業前以第一作者完成三篇推薦系統相關論文，并在研一陸續發表。同汪軍的交流讓他獲益匪淺，于是向交大了解留學交換事宜。

張偉楠原本計劃本科畢業后出國，卻因金融危機導致上一屆學生出國情況不佳，大三時選擇了保研，但他一直想多接觸國際化環境與頂尖人才，也有師長建議從事科研最好有海外博士學位。思索再三，他覺得還是要出國深造，在和 ACM 班總教頭俞勇溝通后，他決定未來學成回國為實驗室出力。

UCL強化學習派：汪軍與他的學生們

張偉楠

9 月，張偉楠抵達倫敦開啟博士研究。博士剛開始，張偉楠的研究仍舊集中在推薦系統領域，與另一位博士生趙曉雪（現甲骨文首席數據科學家）合作研究了交互式推薦系統的序貫決策優化算法，并拓展了投資組合理論在投資推薦領域的應用。

張偉楠穩扎穩打、極有計劃，在清楚自己目標外還會和導師同步自己的最新想法，讓汪軍特別放心。來到 UCL 第一年的某一天，張偉楠和汪軍午飯后在校園外散步，汪軍建議張偉楠做互聯網廣告。

當時互聯網廣告正興起，學術界和產業界結合緊密，論文發表增多，新技術實時競價廣告（RTB）也剛出現，不僅要預測用戶對廣告的喜好，還需實時做出價決策——這個決策優化和多方博弈拍賣過程的本質，讓強化學習研究變得重要。

起初張偉楠有些猶豫，雖然自己本科在微軟亞洲研究院實習時發表過一篇廣告競價優化的論文，但因為學術界總是拿不到和價格相關的廣告數據集，做廣告相關的研究會很困難，因此博士第一年時仍主要做交互式推薦系統。

2013 年，汪軍讓他和學長袁帥合作，參加全球實時競價廣告算法大賽，二人獲得最終賽季總冠軍，在過程中接觸到業界一手的關鍵廣告出價數據，借此又發表了幾篇論文。自此，張偉楠正式轉向互聯網廣告競價領域，博士論文主題也定為互聯網廣告出價算法而非推薦系統。

當時的主流是，實際優化廣告出價時，常把建模做泛化和數值優化結合。前者捕捉數據規律模式，為后者提供出價范圍和策略指導，后者在此基礎上精細調整出價，實現更好的廣告投放效果和經濟效益。

汪軍和張偉楠起初考慮用強化學習而非此方法，可全球強化學習仍處于“玩具”階段，多是簡單表格型，學術性強，不適用于廣告這類實際領域。

直到 2013 年 12 月，David Silver 在 DeepMind 和團隊發表了大名鼎鼎的 DQN 算法，首次成功將強化學習與深度學習結合，在Atari 2600游戲中超越人類水平——剛誕生的深度強化學習能處理更實際的任務。

此時在 UCL 研究RL的唯有汪軍和 Silver 二人，DQN 算法吸引了一波機器學習牛人相繼投入深度強化學習，其中就包括了微軟劍橋研究院。在汪軍建議下，張偉楠在 2014 年 9 月加入實習，跟隨 Thore Graepel、Katja Hofmann 和 Ulrich Paquet，參與了為 Xbox 打造音樂推薦系統的項目。

三人如今均為RL大牛：Thore Graepel 在微軟工作 12 年，曾開發 Windows 圍棋游戲 AI，2015 年到 DeepMind 組建多智能體強化學習組，兩年后發表該領域首篇文章，又帶出 AlphaZero；Ulrich Paquet 任頂會 NeurIPS 2024 的程序主席；Katja Hofmann 則是微軟RL的核心成員。

在三位的指導下，張偉楠對RL有了更深的理解。2016 年秋，他結束了三年多的博士生活回到母校上海交大任教，開始帶學生鉆研RL，是最早歸國的RL學者之一。

汪軍認為生成式對抗網絡（GAN）頗具潛力，建議張偉楠朝此方向探索。幾人提出了結合GAN和RL的思路：由于離散數據無法像圖片或語音那樣直接求導，傳統GAN方法難以直接應用，而強化學習中的策略梯度算法天然適合處理離散數據，因為它可以直接優化離散動作分布，從分布層面調整結果。

就這樣，張偉楠同學生于瀾濤、導師汪軍、俞勇一起創新性地將策略梯度方法應用于離散數據生成（如文本和音符），在 AAAI 2017 發表SeqGAN，獲得極大的關注，目前引用次數已超3000。

值得一提的是，現在已成為范式的基于人類反饋的強化學習（RLHF）同SeqGAN背后的思考邏輯出奇一致，都是通過RL方法優化生成模型，利用外部反饋信號（判別器或人類反饋）解決離散數據生成的挑戰。

UCL強化學習派：汪軍與他的學生們

論文鏈接：https://arxiv.org/abs/1609.05473

同年，師生二人還合作了 IRGAN，汪軍提出將 GAN 和 RL 結合，在信息檢索領域提出了一種創新的生成式方法：與只使用生成模型或判別模型的傳統方法不同，IRGAN框架通過GAN的思想將雙方統一在一個對抗性訓練框架中，通過對抗性訓練融合了彼此的優點，對于生成器采用了基于策略梯度的RL來訓練，在三種典型的信息檢索任務上（四個數據集）得到了更顯著的效果——作為 SIGIR 2017 唯一的滿分論文，IRGAN 還被提名為最佳論文。

多智能體：“三折疊”黑盒

與卷文章的實驗室風格不同，汪軍會在給予整體方向指導、親自推導公式、探索新課題之余，讓每個學生自由探索自己感興趣的領域。

不少學生與他的初見在倫敦泰特現代藝術館。汪軍會先帶學生看展，再坐下來喝咖啡，告訴他們做研究就像欣賞藝術品一樣，讀博第一年不必急于出成果，探索興趣、明確問題，遠比發論文更有價值。

除了讓讀博充滿樂趣外，在溫穎、楊耀東看來，導師汪軍的學術品位極高，總能先人一步探索有潛力的方向。

轉向強化學習后，汪軍選擇了鮮少人涉足的多智能體領域，最核心的原因是其在互聯網廣告領域的經驗：廣告主競拍廣告位就是典型的多智能體博弈場景。

深度學習神經網絡本就是黑盒，深度強化學習在其基礎上增加了環境動態交互的黑盒，多智能體強化學習又在這兩層黑盒之上加入多智能體博弈的黑盒，難以把握博弈收斂的納什均衡點，是最難的學習范式。

*納什均衡點是博弈中各參與者策略組合達到的穩定狀態，即任何參與者單方面改變策略都無法使自身獲益，以“囚徒困境”中兩囚徒都坦白的策略組合為例，它在多領域被用于分析博弈行為與預測結果。

第一個跟隨汪軍鉆研多智能體的學生是溫穎。

溫穎 2015 年本科畢業于北京郵電大學的電子商務及法律專業，因學校整體偏通信與計算機的氛圍，所學內容涵蓋計算機、通信、經管等多領域知識，因此曾跟著軟件工程和計算機學院老師做過不少數據挖掘、復雜網絡分析的科研項目，是位不拘小節的編程大牛。

保研清華后，溫穎先后在百度、亞馬遜等大廠研發部實習，在了解國內碼農工作模式后，又萌生了出國看看的想法。2015 年 7 月，他趕在碩士項目申請季截止（當時唯一未截止的項目是 UCL）前提交申請。剛在清華報到交完學費，溫穎就收到 UCL 錄取郵件，于是放棄保研機會，火速辦理簽證，在 10 月 UCL 報到截止前一天抵達了倫敦。

UCL強化學習派：汪軍與他的學生們

溫穎

此時英偉達推出Titan X GPU使算力大幅提升，CUDA 生態變好，谷歌也剛推出深度學習框架 TensorFlow，深度學習得以在學術界大規模興起。

溫穎的碩士方向為網絡科學與大數據分析，汪軍是其項目主任，張偉楠也會指導他做研究。師兄弟二人初見時，張偉楠還拿著剛打印出來的 TensorFlow 使用文檔，稱它為未來的方向。

碩士的一年間，溫穎跟張偉楠一起嘗試用深度學習做計算廣告、自然語言理解，溫穎出色的編程和工程能力讓張偉楠印象深刻，便推薦他加入汪軍組讀博。

對于是否繼續深造，溫穎起初因學費高昂而猶豫，在爭取到學院的Feldman計算統計獎學金（EU/UK費率）后，汪軍又提出讓他去 Media Gamma 實習，讓公司幫他出剩下的學費（國際學生學費），就這樣，溫穎于 2016 年秋留在 UCL 讀博。

此時汪軍剛升為教授，有更多的資源“搞點大事”，便決定正式讓學生們主攻多智能體強化學習，將博弈思想融入其中。

年初 AlphaGo 問世后，溫穎聽了 David Silver 的講座深受觸動，與汪軍確定該方向，成為其首個研究多智能體的學生。

UCL強化學習派：汪軍與他的學生們

2016年的一場學術會議上，汪軍結識了彼時為阿里認知計算實驗室負責人的袁泉，二人都對多智能體很感興趣，便決定讓倆團隊圍繞星際爭霸游戲開展合作，溫穎也因其出色的工程能力成為項目主力。

2017年秋，團隊推出多智能體雙向協調網絡BiCNet，專注于復雜環境中的協同與競爭策略優化，在星際爭霸游戲中它通過雙向通信，建模智能體間的相互影響，使智能體能夠學習協同作戰、資源分配和戰術決策，并通過生成多樣化策略池確保在面對不同對手時快速適應并做出最優決策。

UCL強化學習派：汪軍與他的學生們

論文鏈接：https://arxiv.org/pdf/1703.10069

可惜的是，盡管BiCNet比2019年發布的AlphaStar要早上兩年，但因只聚焦星際爭霸的小規模對戰，且沒有足夠的資源去擴展規模做全局游戲，未能獲得更大的影響力。不過，袁泉也在此項目后離開阿里創立啟元世界，并在2020年6月發布AI智能體，使其成為繼DeepMind后全球唯二用AI擊敗人類選手的企業。

此后，溫穎的研究聚焦于多智能體之間的相互影響建模，將認知層次應用于多智能體強化學習，幫助智能體在合作場景中制定更優策略；關注策略之間的相互影響，通過探索策略空間，使智能體在接觸豐富策略后學到最佳應對策略，從而保證性能下限——這種建模方法在微觀和宏觀層面都顯著提升了多智能體系統的表現。

隨著溫穎一同加入汪軍組讀博的是楊耀東。

2013 年，楊耀東在中國科學技術大學電子工程與信息科學系本科畢業后，來到帝國理工學院深造。畢業后，他就職于美國國際集團（AIG）科學部門開發由機器學習風險定價模型。

在加入UCL前，他對深度學習極有熱情，2015年在一次AIG資助的位于愛丁堡大學主辦的深度學習研討會上結識了張偉楠，以愛好者的身份請教最新技術動態。后經張偉楠推薦，到汪軍組讀博。

UCL強化學習派：汪軍與他的學生們

楊耀東

進組后，楊耀東的第一篇論文探索如何用RL和多智能體系統模擬自然界捕食者與獵物間的動態關系，如狼與兔的周期性循環。與傳統依賴微分方程的方法不同，他通過RL讓智能體自主決策，仿真自然行為軌跡。這項工作讓他深刻體會到RL的魅力，認為其從決策角度逼近真實人類社會，也奠定了他多智能體強化學習的研究方向。

這項工作完成后，楊耀東和汪軍討論新課題時發現：少量智能體的情況較為簡單，但若數量增加到成百上千甚至上萬后，缺少“C位”角色主導的情況將極為復雜。

面對這個問題，楊耀東提出引入“平均場博弈（Mean Field Game）”理論來解決。以股票市場為例，每個投資者的行為復雜且相互影響，但通過平均場方法，可以將所有投資者視為一個整體，計算群體的統計行為，并假設個體行為受群體行為影響，這種方法通過動態迭代關系描述個體與群體之間的相互作用。

楊耀東是第一個將平均場博弈引入機器學習的學者，首創平均場論RL算法（Mean Field MARL），通過將大規模智能體系統（百萬級）簡化為群體行為模型，成功降低了計算復雜度，為處理超大規模多智能體系統提供了新的理論框架和實用工具。

這一創新在多智能體強化學習領域具有重要意義，中了頂會ICML 2018的Oral。楊耀東反應敏捷、掌握的知識非常豐富，汪軍曾夸贊他“很少有不知道的paper，有時比我知道的還多。”六年以后，楊耀東持續相關領域研究，并指導學生完成了多智能體強化學習領域華人首篇Nature Machine Intelligence。

UCL強化學習派：汪軍與他的學生們

在ICML 2018會議現場與Mean Field RL展板合照

論文鏈接：http://proceedings.mlr.press/v80/yang18d/yang18d.pdf

除了溫、楊二人外，張海峰和田政也是在2016年加入了汪軍組。

張海峰2012年本科畢業于北大后繼續留校讀博，師從李文新教授研究游戲智能體，主要接觸蒙特卡洛樹搜索等傳統算法。2017年，他到UCL交換，與汪軍合作研究博弈環境生成，利用RL自動生成游戲關卡，并在IJCAI發表論文。2018年博士畢業后，他再到汪軍組做博士后，提出雙層RL模型，用于多智能體系統中的斯塔克爾伯格均衡（Stackelberg Game），以自動駕駛為例研究車輛并道決策。

田政本碩均在UCL就讀，博士期間先研究“快思慢想”理論，提出類似AlphaZero的RL算法EXIT，在棋盤游戲Hex中擊敗AI程序MOHEX 1.0。加入汪軍團隊后，他專注于多智能體強化學習，特別是橋牌叫牌策略，通過叫牌傳遞隱藏信息并合作取得優勢。

UCL強化學習派：汪軍與他的學生們

張海峰、田政

陳旭和杜雅麗則在2019年加入汪軍組做博士后。

陳旭在清華博士期間專攻信息檢索和推薦系統，被汪軍2017年發表的IRGAN所吸引，十分欣賞利用對抗學習來提升信息檢索性能的想法，于是選擇加入UCL做博士后研究員。

加入汪軍實驗室后，他一方面拓展強化學習理論，將離散時間馬爾可夫決策過程延伸至連續時間半馬爾可夫決策過程，并擴展有限時間界至連續時間界；另一方面，他將強化學習應用于推薦算法，針對用戶多維度興趣問題，如旅客對酒店的多維度評價，提出基于多目標優化的強化學習算法，將用戶行為建模為序列決策過程，實現動態多目標策略優化。

杜雅麗在悉尼科技大學讀博，博士后期時在騰訊AI Lab實習，研究強化學習在星際爭霸中的應用，尤其是多智能體的微操控制。來到UCL后，她聚焦于多智能體通信網絡構建、多智能體能力評估等研究，也和溫穎合作探索強化學習在游戲的應用。

UCL強化學習派：汪軍與他的學生們

陳旭、杜雅麗

汪軍對學生們的一大影響是對學術的執著追求與前瞻性。張海峰評價，汪軍總能提出新穎想法，雖部分想法超前，但激勵學生深入探索、調研并完善，因此能在單智能體應用盛行時，率先投身多智能體強化學習研究，終成開路人。

在學生培養上，汪軍老師會根據學生興趣細分研究領域，如陳旭側重RL在推薦系統的應用，張海峰關注博弈，杜雅麗和溫穎聚焦游戲領域等等。

張偉楠形容汪軍“像李白一樣灑脫隨性”，他記得，汪軍不熱衷申請項目、周旋于會議和同行間，經費雖不寬裕，作為大牛卻始終堅守科研一線推導公式、指導學生，“有著低調做人、高調做事的處世哲學。”楊耀東形容。

UCL強化學習派：汪軍與他的學生們

每周一次的深度學習研討會

UCL強化學習派：汪軍與他的學生們

在UCL, Bloomsbury Campus

本土崛起

強化學習在國內真正開始受重視始于2016年AlphaGO戰勝李世石的那一刻。

這一年，張偉楠回到母校上海交大任教，既和汪軍繼續保持合作推進SeqGAN和IRGAN，也開始帶學生鉆研強化學習。

此時國內開設RL課程的高校寥寥無幾，更沒有系統教材和足夠的老師，張偉楠便常在夏令營等非正式場合和學生們講解RL的基礎理論與前沿論文，還在2018年暑期邀請汪軍來到上交大授課，講RL、多智能體博弈論及其最新應用。

UCL強化學習派：汪軍與他的學生們

但這顯然不夠，學習材料和老師的稀缺讓學生們只能在摸索中前行，直至 2019 年，情況才迎來實質性轉變。

9月，UCL 人工智能中心正式成立，隨即與 DeepMind 深化合作。DeepMind 研究員擔綱RL課程，汪軍則負責后續的多智能體課。

了解國內情況后，汪軍萌生了舉辦免費線上夏令營的想法，希望將自己在UCL中教授的內容推廣開來，幫助中國學子更好地學習RL并深入了解此學術領域。

在和學生們的微信群里，汪軍分享了這個主意，眾人積極獻策，提出各種命名建議。經過一番討論，最終定下了張偉楠提議的“RL China”這個名字。

RL China由汪軍發起，在早期推廣中由張偉楠和張海峰負責拉人，張海峰還負責安排日程、發布報名通知等具體運營。

2019年底張海峰回國，次年在汪軍的引薦下加入中科院自動化研究所，成立了專注于多智能體研究的群體決策智能團隊，強化了自動化所彼時未及NLP、圖像那般繁榮的博弈決策研究。

半年后，RL China第一屆暑期課推出，除了張偉楠、張海峰與楊耀東這三位汪軍的學生外，北大盧宗青、天津大學郝建業、新加坡南洋理工大學安波、南京大學俞揚和清華張崇潔等人也受邀參與其中，為報名的同學無償直播講課。

UCL強化學習派：汪軍與他的學生們

反響熱烈的首期RL China讓汪軍等人確信此活動的必要性，又在2021年擴大了規模，國內外的授課教師數量增至三十余位，課程涵蓋強化學習、博弈論、多智能體等，還有華為等企業的應用類課堂。

除了舉辦年度論壇之外，RLChina每周還組織學生研討，由國內外十幾個強化學習研究團隊輪流主持，直播平臺上的觀看人數最高時能達十萬人次。

張海峰一直負責組織RLChina的各項活動，他認為投入精力在國內推廣RL意義重大，“因為它能聚集年輕教師和學生交流，加強學術界與產業界聯系。”

UCL強化學習派：汪軍與他的學生們

與此同時，國內的RL教材也不再局限于搬運海外論文，而是逐步平衡好理論和實操。

張偉楠自2019年在交大開設RL課程后，有不少學生反映課后編程實踐與課堂內容存在明顯脫節，在課上證明了策略梯度定理和學習了策略梯度算法后，課后作業仍難以自己寫代碼實現策略并在游戲環境中獲得高分。

為解決這一問題，張偉楠借鑒了ACM班學長李沐出版深度學習書籍的方式，采用相似的形式編寫強化學習教案，每介紹一種方法，先講解原理和公式推導，再附上可運行的Python代碼，學生可在網頁上直接運行代碼并查看結果，即時驗證所學原理。

在ACM班創始人俞勇的鼓勵下，張偉楠和助教們將經過幾年迭代的講義和代碼作業整理成書，于2022年5月出版了《動手學強化學習》，此書至今銷量已超2.5萬冊，年銷量在全國強化學習領域排名第一。

而除了教學外，汪軍與他的學生們對RL在具體領域的應用探索，同樣為RL的本土崛起出了一份力，尤其是RL和大模型及具身智能領域的結合。

回到2019年，汪軍擔任了華為諾亞方舟實驗室的決策推理首席科學家，為華為內部業務如5G網絡控制和自動駕駛仿真提供多智能體解決方案，楊耀東和溫穎也先后加入，參與了內部名為“LANDING RL（強化學習落地）”的大項目，項目最終雖沒成功，但幾人對強化學習落地場景的瓶頸都有了新的認識。

2020 年 6 月，GPT-3 問世。汪軍注意到，大模型的Transformer架構具有自回歸形式和良好的通用泛化性，恰好可以解決傳統RL在不同環境策略間的遷移存在的泛化難題。

于是在2021年，汪軍召集了張偉楠、楊耀東和溫穎三人，開始籌集資金，決定以創業的形式啟動大模型研究——訓練決策大模型極消耗資源，需投入海量算力。

他們希望構建通用決策模型而非語言模型，所開發的“多智能體Transformer（MAT）”輸入和輸出更復雜，包括圖像、連續值（如機械臂關節狀態）、文本和離散動作，初步成果還發表在了NeurIPS 2022。

UCL強化學習派：汪軍與他的學生們

項目鏈接：https://sites.google.com/view/multi-agent-transformer

在MAT基礎上，團隊22年進一步推出了數字大腦決策大模型（DB1），進一步驗證了預訓練模型在文本、圖 - 文、強化學習決策、運籌優化決策方面應用的潛力。盡管DB1模型參數量達十多億，數據量達100T，但并未實現預期同語言模型一般的泛化效果。

問題在于，不同模態數據的信息力度難以對齊，理論上需要長段連續數據才能提取語義信息，而他們直接將數據強行輸入同一維度，雖在幾百個任務上有效，但未能實現跨模態或組合泛化，這也是DeepMind同年推出的通才大模型Gato同樣沒能解決的問題。

同期，在自動化所的張海峰也和汪軍合作了端到端決策大模型的工作，具體涉及機械臂操控、星際爭霸游戲仿真、運籌優化等跨度較大的領域，劍指通用大模型。可以說，汪軍等人所探索的，就是如今具身智能的雛形。

張海峰認為汪軍既具超前想法又重落地性，“他2017年就關注機器意識，2021年做決策大模型，領先行業數年。通常有超前想法的人不太考慮落地，但汪老師與產業界聯系緊密，無論是與華為等企業合作還是個人創業，都顯示他對產業界的熟悉。”

在汪軍的一眾學生中，扎根具身智能最深的當屬楊耀東。

博士畢業期間，楊耀東先在華為諾亞方舟實驗室從事RL研究，隨后又到倫敦國王學院（KCL）任助理教授，并在2022年1月回國加入北大人工智能研究院任教。

談及跳出舒適區涉足硬件的原因，楊耀東表示，只將RL應用于游戲并非智能的最終形態，無法推動行業發展；而雙手作為人的智慧終端，智能體難以比擬，且根據莫拉維克悖論，即機器人處理復雜任務容易，執行簡單日常動作卻困難；更重要的是，在試驗中用RL做靈巧手操作能實現兒童精細運動技能評估量表的極多操作，也證實了其可行性。

受北京市科委資助，他牽頭了《基于認知推理的具身智能可泛化靈巧操作技術研究》并與同年齡段的北大助理教授朱毅鑫、董豪、王鶴一起探索類人靈巧雙手操作。

半年后，團隊實現了第一個雙手拋接球demo，楊耀東立刻給汪軍發了一條微信，分享真正把多智能體強化學習用到真實場景中的喜悅，“讓AI控制高自由度的機械手達到人的靈巧度十分不容易。”此時距離智元機器人和銀河通用的正式成立還有一年多的時間，用RL實現靈巧手操作也尚未成為產業共識。

通往AGI的最后一公里

強化學習在過去十年中經歷了從爆發式興起到反思調整，再到技術突破與場景落地的完整周期。

2016年，AlphaGo擊敗圍棋世界冠軍李世石，成為人工智能史上的里程碑，其結合蒙特卡洛樹搜索與深度強化學習的技術引發全球關注，推動學術界和工業界對RL的廣泛投入。

然而，隨著技術熱潮褪去，2016年至2019年間，RL逐漸暴露出采樣效率低下、真實場景應用成本高昂等問題。例如，訓練一個游戲智能體需數百萬次交互，而機器人領域的實驗可能因策略錯誤導致設備損壞，單次實驗成本高達數十萬美元。這一時期，研究者開始轉向離線強化學習（如BCQ、CQL算法）以降低交互成本，同時探索分層強化學習（如FeUdal Networks）和多智能體協作（如MADDPG）來應對復雜任務。

2019年后，RL進入復蘇與擴展階段，并開始滲透至真實場景：OpenAI的Dactyl（2019）通過RL訓練機械手完成精細操作，波士頓動力將其應用于四足機器人運動優化；Waymo等公司將RL用于自動駕駛決策系統，處理復雜交通場景；阿里、谷歌通過RL優化動態推薦策略等等。

不難發現，作為最早涉足RL的華人學者，汪軍及其學生一脈同樣沿襲了相似的發展脈絡，帶領著中國RL逐步追趕上國際最前沿。

2022年底，橫空出世的ChatGPT更是為這群高歌猛進的RL信徒們注入了一劑強心針，眾人在RL與大模型技術融合的新趨勢中開始發力。

汪軍首先讓公司全面轉向以語言模型為中心的決策智能體，但仍希望實現決策任務而非僅文本生成，其研發的語言智能體已具備基礎對話能力和統一語義空間，計劃將不同模態和粒度的信息映射到語言空間，實現組合泛化。可惜的是，公司未能等到2023年上半年開始的大模型窗口期，在年初宣告了結束。

在學術上，組里的主力軍們都在汪軍的指導下成果斐然。

馮熙棟在元強化學習（Meta RL）已小有成果，圍繞多智能體交互與元梯度估計偏差發表過兩篇文章。

22年底Chat GPT的出現讓他意識到LLM的泛化能力遠超傳統元強化學習。在汪軍的提議下遂轉向強化學習與語言模型的融合研究。他的第一篇工作將國際象棋作為包含驗場。論文深入研究了了整個機器學習流程，包含數百萬局對弈數據及對應的語言數據集，對應的語言模型和生成模型訓練，以及評估模型策略的基準設計。

馮熙棟也因此獲得了23年底Google DeepMind關于國際象棋的實習生項目名額，實習大半年后順利轉正，留在了discovery組，參與語言模型，生成模型與強化學習結合的研究。

汪軍也鼓勵學生們從不同的角度上去理解智能體和環境的交互決策的合理性，并將其用于強化學習與智能體突破。在汪軍的啟發下，楊夢月在博士期間的研究聚焦于可信AI，因果分析。從因果表示學習開始，進一步的延伸到對智能體交互的世界環境的因果理解，即因果世界模型，以輔助智能體決策的可解釋性和可信研究。

楊夢月于2024年底加入布里斯托大學工程數學作為助理教授，她目前也將研究拓展到基于大模型下的廣義的世界模擬中的因果探索。

和二人同屆的李錫涵則關注學習優化、偏向于解決實際問題的應用，比如對芯片邏輯電路的優化，提出了類似LLM的生成式神經模型“Circuit Transformer”，通過精心設計的解碼機制和馬爾可夫決策過程，嚴格生成與給定布爾函數等價且更緊湊的邏輯電路，目標是做出“EDA（電子設計自動化）領域的AlphaGo ”。

目前，李錫涵正與華為諾亞方舟實驗室合作，繼續探索芯片研究。

UCL強化學習派：汪軍與他的學生們

馮熙棟、楊夢月、李錫涵

大洋彼岸，2020年回國加入人大高瓴人工智能研究院的陳旭，在推進RL、因果推斷在推薦系統方向的應用之余，也開始關注大模型，如角色扮演能力使大模型行為更貼近人類。同時，他還和社會學等人文社科合作，利用大模型智能體進行社會仿真，以進行低成本、快速的社會實踐和模擬調查。

楊耀東則對Chat GPT的RLHF技術感到十分驚艷，于是只留下一個多智能體習方向的博士生，其余人all in強化學習的對齊方向，成為國內最早做對齊的學者之一。在ChatGPT發布兩個月后，楊耀東團隊首先復現了RLHF模型后訓練對齊的效果。

楊耀東隨后與當時尚未成立百川智能的王小川一同探討，兩位“RL信徒”迅速達成共識：這是通向AGI的重要環節。三年后，OpenAI O3、DeepSeek R1的誕生也印證了該認知。與百川智能的合作也讓楊耀東意識到AI浪潮發生在業界而非學界，再次埋下了創業的種子。

隨后在2024年具身智能的窗口期，楊耀東與梁一韜，溫穎一同參與了靈初智能，創建了北大-靈初靈巧操作聯合實驗室，探索類人靈巧操作的具身智能產品，目前已推出了Psi - P0 規劃模型和Psi - C0 控制模型。

此外，楊耀東還和杜雅麗合作，發表了華人首篇多智能體強化學習方向的Nature Machine Intelligence子刊，打破DeepMind的壟斷，該論文也成為Nature Machine Intelligence創刊以來最受關注下載量最高的強化學習方向論文。

UCL強化學習派：汪軍與他的學生們

論文鏈接：https://www.nature.com/articles/s42256-024-00879-7

去年10月，汪軍來到溫暖的花城廣州，在港科大做RL China的開幕致辭。這是RL China第二年開始辦線下活動，參加人數也倍增至500有余。

汪軍希望未來每一年都采用線下方式舉辦，逐漸形成一個真正的RL學術會議或學生營，幫助縮短與國外存在的差距。

張偉楠指出，相比西方學者自上世紀八十年代的深厚積淀，國內2016年才起步的研究仍存在思維深度與技術底蘊的差距——這種差距既體現在頂級會議核心圈的中國聲音稀缺，也反映在學術生態的脆弱性：當計算機視覺等領域提供更輕松的就業通道時，許多強化學習研究者選擇轉行。

作為將深度強化學習引入中國的先驅，汪軍及其學生們在2016-2020年間的影響力甚至早于伯克利系學者的集體歸國潮。他們借RL China點燃了第一把火，培養更多強化學習方向的學者與教師，讓該學科在國內百所學校開設，并推動技術落地產業，實現變革。

UCL強化學習派：汪軍與他的學生們

汪軍的學生們還談到，汪軍總是活躍在科研一線探索，手把手教學生推公式，完全沒有“學術大牛”的架子，凡事親力親為，總是“樣樣通、樣樣精”，從信息檢索到推薦系統再到多智能體強化學習都能碩果累累。

知行合一的學術基因會在新一代學者身上延續。在楊耀東看來，汪軍是他科研和為人處世上的領路人，當自己成為導師后，也希望對博士生傳遞一個核心理念，“五年后你們帶不走任何算法代碼，唯有兩樣東西真正屬于你們——辨別研究方向的學術品味，以及決定學術生命長度的學術道德和規范。”

袁帥、陳博為、趙曉雪、張偉楠、楊耀東、溫穎、張海峰、田政、陳旭、杜雅麗、馮熙棟、楊夢月、李錫涵等人從UCL的汪軍組走出，以強化學習為根系成長為多個方向的先行者，在中國強化學習領域形成了重要的影響。

“在邁向AGI的路上，無論是哪種智能，強化學習這一步都不可或缺。”

UCL的故事已告一段落，但以強化學習為根基的他們，仍在續寫著新的篇章。

（雷峰網(公眾號：雷峰網)前編輯張進對本文亦有貢獻）

關于強化學習的更多故事，歡迎與本文雷峰網作者 anna042023 交流

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

賴文昕

資深編輯

關注具身智能。

發私信

當月熱門文章