DeepMind 顛覆機器人學習范式：讓機器像人一樣 “自由成長”

本文作者：劉欣

2025-09-25 17:11

導語：從 “模仿者” 到 “學習者”，機器人的進化更進一步

雷峰網(公眾號：雷峰網)訊機器人在底層控制方面的應用始終局限于行為克隆，這種類似于照貓畫虎的學習方式，要求機器人必須依賴海量標注的模仿數據，不僅收集成本極高，更無法讓機器人應對訓練數據之外的全新場景。

谷歌 DeepMind 的最新研究試圖打破這一現狀，他們受到大型語言模型微調中強化學習階段成功經驗的啟發，提出了一種面向機器人學的兩階段后訓練方法，第一階段是監督微調（Supervised Fine-Tuning, SFT），第二階段是自我提升（Self-Improvement）。

通過在真實世界與仿真機器人實體（LanguageTable 與 Aloha）上開展的大量實驗，提出的后訓練方法在具身基礎模型上取得了顯著成果，機器人能自主練習并習得元朝訓練時模仿學習數據集中所觀察到行為的新技能，并實現廣泛泛化。

DeepMind 顛覆機器人學習范式：讓機器像人一樣 “自由成長”

論文鏈接：https://arxiv.org/pdf/2509.15155

1、兩階段后訓練框架

本研究的核心是探究強化學習后訓練在機器人具身基礎模型中的有效性。然而，機器人強化學習（尤其是操作任務）面臨的關鍵挑戰是獎勵工程問題：設計有效的獎勵函數需要反復迭代訓練策略并修正獎勵定義以規避非預期結果；此外，即便獎勵定義完美，在真實世界中測量獎勵也需要大量工程投入。因此，當團隊致力于訓練能夠完成日益廣泛任務的機器人時，人工設計獎勵函數在真實世界機器人學中已難以為繼。

DeepMind 顛覆機器人學習范式：讓機器像人一樣 “自由成長”

DeepMind 通過學習數據驅動型獎勵函數克服了這一障礙，該函數同時繼承了底層基礎模型經網絡級預訓練所具備的穩健性與泛化性。提出的后訓練框架如上圖所示，包含兩個階段：第一階段為監督微調（Supervised Fine-Tuning, SFT），利用以下兩種目標對預訓練基礎模型進行微調：a) 行為克隆；b) 剩余步驟預測（steps-to-go prediction）。第二階段為自我提升（Self-Improvement），剩余步驟預測能夠助力提取平滑的獎勵函數與穩健的成功檢測器，使機器人集群可在極少人工監督的情況下自主練習下游任務。至關重要的是，數據驅動型獎勵設計無需真值獎勵，且能借助底層基礎模型的穩健性與泛化性。

研究首先在第一階段先對模仿數據集進行假設，再基于數據集以預訓練基礎模型初始化具身基礎模型，對行為克隆損失、剩余步驟預測損失這兩個目標進行監督微調。在第二階段，則是想通過在線強化學習對具身基礎模型進行下游任務微調，以快速提升策略性能。研究對獎勵函數和成功指示器進行了定義，即可對具身基礎模型進行下游任務的在線強化學習微調，凍結了一個第一階段的檢查點用于獎勵函數計算與成功檢測，同時也從第一階段檢查點初始化第二階段的策略。

研究提出了以下問題：

Q1：自我提升能否在監督學習階段的基礎上進一步提升下游任務性能？

Q2：監督學習與自我提升的結合是否比單純的監督學習具有更高的樣本效率？

Q3：依賴強化學習的自我提升方法是否足夠可靠且可復現，能夠應用于真實世界機器人學？

Q4：預訓練對自我提升流程有何貢獻？

Q5：網絡級基礎模型預訓練能否使自我提升在超出模仿數據集覆蓋范圍的任務上生效？

2、從“模仿者”到“學習者”

DeepMind 基于 LanguageTable 與 Aloha 兩種機器人實體，在仿真與真實世界環境中開展實驗，來驗證所提自我提升框架的有效性，研究全程采用 30 億參數的 PaLI 視覺 - 語言模型作為基礎預訓練模型。研究主要進行了6個實驗來回答上述問題，分別是：

（1）仿真 LanguageTable 實驗

仿真 LanguageTable 領域第一階段策略訓練所使用的數據集來自原始研究，包含 181,020 條人類生成軌跡，以及 78,623 條描述軌跡目標的獨特指令。對該數據集進行子采樣，生成 3 個新數據集（原始規模的 10%、20% 和 80%）。針對每個數據集規模，在第一階段訓練后，采用 3 個隨機種子進行第二階段微調，以驗證自我提升流程的可靠性。第二階段微調聚焦于 Block2Block 任務子集（例如 “將藍色月亮形狀塊移至紅色五邊形形狀塊處”），當策略成功率趨于穩定時停止訓練。

（2）真實世界 LanguageTable 實驗

上述實驗中展現的高樣本效率與穩健性表明，自我提升流程確實可應用于真實世界機器人學。研究將所提方法應用于真實世界 LanguageTable 領域，分別采用 20% 和 80% 規模的模仿學習數據集。與仿真場景相同，第二階段微調聚焦于 Block2Block 任務子集。由于指令采樣、獎勵標記與成功檢測均為自動化流程，在自我提升階段，一名人類操作員即可監控所有 LanguageTable 機器人工作站。操作員的唯一職責是在積木掉落桌面或工作站超過 5 分鐘未洗牌重置時進行重置。每個實驗持續約 20 小時。

（3）仿真 Aloha 單插入任務實驗

研究還在第二種機器人實體 —— 雙臂 Aloha 操作平臺上驗證了所提微調框架。設計并收集了雙臂插入任務的數據：左臂拿起套筒，右臂拿起插銷并將其插入套筒。該任務具有更復雜的觀測空間、70 維動作空間以及更小的模仿數據集，為驗證所提方法提供了挑戰性場景。

研究還構建了 3 個規模分別為 5K、10K 和 15K 片段的模仿數據集，對 5K 和 10K 規模數據集執行兩階段微調，并報告 15K 規模數據集的監督學習結果以作對比。與 LanguageTable 領域實驗相比，本實驗的方法差異在于：1）第二階段策略初始化的檢查點選擇；2）由于相機無法觀測到插銷完全插入套筒的成功條件，在獎勵函數中加入了一個小的正常數以標記成功狀態。

（4）基礎模型預訓練實驗

為消融 PaLI 中嵌入的多模態知識的影響，實驗基于 PaLI 模型的變體開展兩階段微調：

隨機初始化（Scratch）：采用 PaLI 架構，但參數隨機初始化。
單模態 PaLI（Uni-PaLI）：PaLI 參數由單獨預訓練的視覺模型與語言模型初始化，未進行聯合多模態視覺 - 語言微調。

在仿真 LanguageTable 領域采用與第一個實驗相同的設置進行對比實驗。將消融實驗聚焦于自我提升階段：從 PaLI 第一階段檢查點初始化策略，使用隨機初始化或 Uni-PaLI 檢查點進行獎勵計算。

（5）仿真與真實世界間的域遷移

首先探究較簡單的泛化形式 —— 仿真與真實世界間的域遷移。Sim2Real 是一類重要方法，可大幅減少訓練高性能機器人策略所需的真實世界經驗，并已在多個場景中成功應用。為簡化實驗，在 LanguageTable 領域探究反向問題 ——Real2Sim 遷移：使用 80% 的真實世界 LanguageTable 數據集訓練第一階段模型，在仿真 LanguageTable 環境中執行第二階段自我提升。

（6）習得新技能的強泛化能力

為了進一步探究更強的泛化形式：預訓練基礎模型的自我提升能否使策略練習并習得超出第一階段模仿數據集所觀察到的全新行為技能。基于真實世界 LanguageTable 數據集訓練的策略與獎勵模型，在一個名為 “BananaTable” 的新任務上執行自我提升。

與以往研究中機器人基礎模型的語義泛化能力不同，BananaTable 任務的遷移需要行為泛化，要求策略習得新技能。例如，由于香蕉的細長幾何形狀，推擊位置不準確會導致香蕉自轉而非按預期方向移動，如下圖所示。

DeepMind 顛覆機器人學習范式：讓機器像人一樣 “自由成長”

3、邁向自主學習新路徑

通過在 LanguageTable 與 Aloha 兩種機器人實體的真實與仿真環境中開展大量實驗，DeepMind 證實了所提新型后訓練框架的驚人有效性。首先，自我提升不僅能穩健地超越行為克隆的策略性能，且監督微調與自我提升的結合在樣本效率上遠優于單純擴大模仿數據規模的監督學習。例如，在 LanguageTable 領域，僅增加 10% 的機器人自我提升訓練時間，就能將策略成功率從 45% 提升至 75%；而將機器人模仿數據量增加 8 倍，成功率僅從 45% 提升至 60%。進一步的消融實驗凸顯了基礎模型預訓練在實現這一樣本效率與穩健性中的核心作用。

更為振奮人心的是，在線自我提升與網絡級預訓練的創新結合，還解鎖了現有方法無法實現的獨特能力：使機器人能夠自主練習并習得新技能。與以往研究中展示的語義泛化不同，這個組合方案實現了行為泛化，其范圍遠超第一階段模仿數據所覆蓋的行為。本研究凸顯了將預訓練基礎模型與在線自我提升相結合的變革性潛力，為機器人自主技能習得開辟了新路徑。

雖然這項研究在機器人自主學習新技能上取得了巨大的進步，但在一些方面仍具有局限性：第一，樣本片段與技能邊界的規模化標注：人工標注成本過高，需要創新策略（如利用現有多模態基礎模型）從原始交互日志中恢復一致的邊界。探索此類自動分割方法是未來研究的重要方向。第二，在這個框架中，獎勵推斷無實時性要求，延遲約束極小，因此可使用更大規模的模型 —— 甚至迭代式、思維鏈推理 —— 以獲得更高保真度的標記。

第三，本研究微調的通用視覺 - 語言骨干網絡在預訓練階段從未接觸過機器人數據。隨著更大規模的機器人經驗多模態語料庫的出現，設計預訓練課程至關重要 —— 既要賦予具身基礎模型強大的物理推理先驗，又要保留其廣泛的視覺 - 語義知識。

第四，研究選擇使用不重用數據的在線 REINFORCE 算法。這一選擇規避了 “致命三要素” 中的兩個要素：自舉法與離線學習。但該選擇也放棄了現代離線算法的數據重用優勢。探究可擴展至大型模型的離線變體有望進一步降低機器人時間需求。

最后，團隊觀察到，當自我提升超出性能峰值后，成功率會下降，這表明需要更好的停止準則或自適應正則化器，以避免對塑形獎勵的過度優化。對獎勵函數選擇的理論探究也可能揭示這種性能下降的原因。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

劉欣

編輯

發私信

當月熱門文章