0
讓人形機器人真正走出實驗室,一直是這個領域最難的挑戰。
仿真里的機器人往往動作流暢、執行準確,但一旦來到現實世界,很多看似強大的方法都會因為環境差異而迅速失效。地面摩擦稍微變一下、身體負載多一點、傳感器噪聲大一些,甚至只是被人輕輕推一把,機器人就可能動作僵硬、站不穩甚至直接倒下。能不能讓機器人做到不依賴精細規則、不依賴昂貴數據,也能在真實場景中保持穩定、自然和可靠,這是近年來研究者們越來越關注的問題。
而最近 CMU 和 Meta 研究團隊共同提出,清華姚班李憶唐為第一作者一篇論文引起了廣泛關注。這個研究項目嘗試用一種更統一更樸素的方式來訓練機器人,讓模型在大規模仿真中通過無監督交互自己積累經驗,再把獎勵、姿態、動作序列等不同形式的任務提示一并壓縮到同一個潛在空間中。
通過這種設計,機器人不需要針對每個任務反復訓練,只要生成合適的潛在向量,就能在現實環境中零樣本執行動作,并能在面對擾動或條件變化時迅速恢復穩定表現。
這項工作的亮點不在于某一個技巧,而在于它讓機器人在真實世界中的表現第一次呈現出一種自然的連貫性。例如它能像人一樣應對推搡,能從摔倒中順勢滾動再站起來,能在噪聲很大的動作序列下依然跟隨指令,還能在負載或摩擦突然變化時,僅通過潛在空間搜索就重新找回穩定動作。相比傳統需要大量規則、腳本和專門訓練任務的做法,這種方式顯得更直接也更通用。

論文地址:https://arxiv.org/pdf/2511.04131
論文的實驗結果可以分成三大部分:在仿真環境里的零樣本測試、在真實機器人上的零樣本部署,以及在特殊情況下利用很少的數據進行快速適應。整體來看,這些實驗共同展示了 BFM Zero 的泛化能力、魯棒性和可擴展性。
在仿真階段,研究者主要使用 Isaac 和 Mujoco 兩種物理模擬環境對模型進行全面測試。這兩個環境的物理特性差異較大,因此能很好地檢驗策略是否依賴某一種特定物理設定。
實驗任務包括三類:動作跟蹤、目標姿態到達以及獎勵驅動的行為生成。在動作跟蹤方面,模型在 Isaac 環境中加入大量物理隨機化后,雖然不如理想情況下那樣精準,但誤差只略有上升,屬于能接受的小幅變化。
而當把模型直接放進物理規律明顯不同的 Mujoco 中時,它的表現依然保持在一個穩定水平,性能下降控制在百分之七以內,這說明模型學到的不是某個環境的“技巧”,而是一種具有普適性的運動規律。

在獎勵優化任務中,研究者讓模型根據不同獎勵定義,在沒有特定訓練的情況下自動推斷應該執行的行為。這類任務的難點在于獎勵往往很稀疏,且目標多樣。
例如某些獎勵要求機器人以指定速度朝某方向移動,但由于物理隨機化導致狀態分布變得復雜,有些任務會出現明顯波動,甚至個別情況表現很差。
這并不是模型本身退化,而是推斷獎勵時依賴 replay buffer 的隨機采樣,加上物理擾動讓數據更加分散。這種現象恰恰證明模型確實在面對復雜多變的條件,而不是在一個“干凈環境”里取巧。

對于目標姿態到達任務,模型表現得更為穩健。無論目標姿態是否在訓練數據中出現過,它都能平穩地向目標靠攏,不會出現劇烈抖動或亂蹦亂跳的異常行為。更關鍵的是,即便從 AMASS 這類完全不同的動作庫中取姿態,模型也能成功完成,這說明其潛在空間不僅能覆蓋訓練數據,還能擴展到數據之外。
研究者甚至直接取 AMASS 中的動作片段讓模型跟隨,這些動作的風格可能與訓練用的 LAFAN1 數據差得很遠,但模型照樣能執行,說明潛在空間已經把這些動作映射到同一個“可控行為區域”中,風格差異已經不是障礙。
當模型被部署到真實的 Unitree G1 humanoid 上時,它的零樣本能力表現得更為直觀和令人印象深刻。在動作跟蹤任務中,機器人不僅能走路、轉身,還能做較復雜的舞蹈動作、運動動作甚至格斗姿態。
更重要的是當它失穩時,不會像傳統機器人那樣僵硬或者直接倒下,而是像人一樣進行自然的調整,例如重心偏移、撐地、滾動緩沖等,然后重新站起來繼續任務。

這種自然的恢復動作完全來自策略本身的結構化潛在空間與風格約束,并不是單獨訓練“摔倒恢復”之類的技能。甚至在給它用于跟蹤的動作是從單目視頻估計出來的、質量很差的動作序列時,它依然能平穩跟隨,說明模型對輸入質量有很強的容錯能力。
在目標姿態到達任務中,研究者隨機采樣了大量目標姿態,要求機器人按照順序逐一到達。機器人在姿態之間切換時動作十分平滑,不需要人為添加插值或過渡動作,這說明其內部潛在空間具有天然的連續性。如果有些姿態本身不可能在現實中精確實現(例如關節角度超出極限),機器人會自動找到一個最接近同時又自然、安全的姿態,而不是硬要模仿導致摔倒或抽搐。
在獎勵優化任務中,研究者通過各種獎勵信號,讓機器人自動生成對應行為。例如讓它降低骨盆高度,它就會坐下或蹲起;獎勵手部高度,它就會舉手;獎勵速度,它就會移動或轉向。這些不同獎勵還能組合,例如讓它一邊倒退一邊抬手。
這種可組合性意味著未來可以通過語言描述需求,再把語言解析成獎勵,就能讓機器人自動“理解”要做什么。更有趣的是,在相同獎勵下,通過不同 replay buffer 子樣本生成的潛在表達會略有不同,從而得到不同風格的動作。這說明策略空間本身是多模態的,存在多個可行解,而不是一個死板的最優動作。

在真實環境中面對巨大外力干擾時,機器人表現出極高的柔順性和穩定性。當被推搡、踢擊、拉倒時,它不會簡單僵硬反抗,而會以柔和方式吸收沖擊,例如后退幾步緩沖重心、調整手臂姿勢保持平衡等。
即便被完全摔倒在地,它也能通過自然流暢的動作爬起,然后回到原本任務,比如繼續恢復站姿或目標姿態。這些恢復動作不是硬性編寫的,而是策略在潛在空間中自然表達出來的,這讓機器人顯得更“像人”。
最后,研究者展示了模型的快速適應能力。在適應過程中并不需要調整網絡權重,只需要針對新情況對潛在向量進行優化就行。第一個適應案例是在機器人 torso 上增加四公斤負載。原本零樣本 latent 并不足以支撐單腿站立,但通過二十次交叉熵優化迭代后即可找到一個新的潛在向量,使機器人能在帶載情況下穩定站立十五秒以上,而且優化結果直接遷移到真實機器人上也能成功。
第二個案例是摩擦變化導致跳躍軌跡不穩定。研究者通過雙重退火和采樣方法優化潛在向量序列,最終使軌跡誤差降低了近三成,整體動作更穩定。這個過程不依賴重新訓練模型,而完全依賴潛在空間的靈活性。

總的來說這項研究的實驗流程可以分成三個階段,分別是無監督預訓練、零樣本推理以及少量樣本適應。
研究者希望讓機器人在面對不同類型的任務時,不必依賴多套不同的訓練方式,而是通過同一個潛在空間表達就能理解任務、生成動作,并且在條件變化時仍能保持穩定表現。這樣的設計不僅讓機器人在訓練階段更加統一,也使后續的實際部署更加靈活。
在無監督預訓練階段,模型需要在沒有明確任務獎勵的情況下,通過與大量仿真環境的互動積累經驗。為了讓機器人能夠應對多種類型的任務,研究者構建了一個統一的潛在空間,把獎勵、目標姿態和動作序列等信息全部映射到同一種潛在表示中。雷峰網(公眾號:雷峰網)
這個潛在空間的構建依賴 forward-backward 方法,它能讓機器人通過觀察自身軌跡或任務提示,推斷出對應的潛在向量。為了讓模型擁有足夠廣的經驗基礎,訓練過程中使用了 1024 個并行的 Isaac 物理模擬環境。這些環境以高頻率運行,模擬了全身關節的動力學、地面接觸的摩擦特性以及重力的變化規律。整個訓練過程中,模型累計獲得超過五百萬條交互樣本,使其形成較為全面的行為經驗庫。
除了大量的環境經驗,訓練過程還引入了豐富的物理隨機化。研究者會在仿真過程中隨機改變機器人各個部位的質量分布、調整地面的摩擦系數、施加隨機外力、改變身體姿態初始狀態,并加入傳感器噪聲。
這些隨機化設置逼近真實世界的不確定性,使得訓練出的策略在現實部署時不會因為環境與仿真略有差異就崩潰。同時,為了讓機器人動作更符合人體特征,研究者還引入了動作數據集作為風格參考,通過風格判別器讓策略在生成動作時保留自然動作的結構。例如手臂的擺動、身體的重心變化都會因為風格約束顯得更貼近人類動作。
為了避免策略學到潛在危險動作,訓練中還加入硬件相關的安全約束。例如限制關節角度范圍、防止與地面發生奇怪的碰撞、限制身體偏移過大等。這些輔助獎勵確保模型在龐大的訓練空間中不會偏向那些雖然有效但不安全的動作模式,也保證它在未來的真實實驗中不會損傷機器人硬件。

在零樣本推理階段,模型已經具備解釋不同任務提示的能力,因此不再需要繼續訓練其網絡結構。當它接收到新的任務時,只需要根據任務類型生成對應的潛在向量 z。這種向量能夠明確表達任務需求,策略網絡根據它就能生成相應動作。
如果任務是基于獎勵,那么潛在向量會從 replay buffer 的經驗中,通過獎勵信號與 backward embedding 的關系推斷出來。如果任務是姿態到達,那么研究者直接將目標狀態輸入 backward embedding 生成潛在向量。而在動作跟蹤任務中,模型會把未來幾個時間步的目標動作都嵌入潛在空間,生成一段連續的潛在向量序列,再逐步執行。
從效果上看,這意味著機器人不需要針對每個任務重新訓練,只要能生成合適的潛在向量,它就能直接執行動作、移動到目標位置或根據獎勵調整行為。
在少量樣本適應階段,模型面對的是訓練中沒有遇到的新條件,例如突然增加的負載、變化的地面摩擦系數預測不到的動力學變化等。為了讓機器人在現實中快速恢復性能,研究者不修改網絡本身,而是在潛在空間中搜索更適合新條件的向量。
由于潛在空間的表達能力足夠強,只要找到合適的向量,機器人就能重新恢復穩定表現。在單一姿態任務中,研究者采用交叉熵優化方法,通過不斷嘗試不同潛在向量并評估其表現,逐步找到最優解。
在動態軌跡任務中,則使用采樣式的雙重退火策略,通過不斷擾動與收斂搜索潛在向量序列,使機器人的運動軌跡重新穩定下來。因為這種適應過程不需要大量數據,成本低,收斂快,非常適合現實場景中的快速調整需求。
整體來看,這三個階段共同構成了模型訓練與部署的完整路徑:從在多樣化環境中學習通用動作結構,到在實際任務中無需訓練直接執行,再到遇到特殊情況時利用少量數據進行微調,使機器人在復雜環境下表現出良好的泛化能力和適應能力。

這項研究的意義體現在多個方面,對未來的人形機器人發展具有重要推動作用。
首先,它展示了無監督強化學習也可以在真實的人形機器人上取得效果。過去成功讓人形機器人完成復雜動作的做法,大多依賴大量模仿數據或精心設計的任務獎勵,而這項工作證明,即使沒有明確獎勵,也沒有精細標注的動作軌跡,機器人仍然能在大規模仿真中通過探索和風格學習形成可泛化的行為能力。這讓人們看到,人形機器人不一定需要昂貴的數據成本,也能學會穩定而豐富的運動技能。雷峰網
其次,該方法生成的動作在自然性和柔順性上有明顯提升。傳統的人形機器人在面對外力時往往表現得非常僵硬,只能做出硬性的支撐動作,一旦外力方向稍有變化就可能失穩。而本方法訓練出的策略在遇到擾動時會呈現更連貫、更平滑的反應,例如輕微調整重心、改變步伐節奏、自然地把身體穩定下來。
即使受到較大推搡,機器人也能以柔和而不突兀的方式處理,這種表現更接近人類的動作穩定機制。這說明模型在潛在空間中學到的運動規律具有內在的協調性,而不是簡單的機械式糾正。
再者,這一方法為未來構建能被提示控制、能理解泛化任務意圖的人形機器人打下基礎。由于所有行為都被統一映射到潛在空間,機器人可以依靠潛在向量組合和調整行為。
未來只需要給出高層的任務描述,例如目標姿態、整體意圖或者獎勵偏好,機器人就能自動組織出相應的動作,而不需要為每個任務重新訓練專用策略。這種設計向“行為級基礎模型”邁出了一步,讓機器人變得更容易擴展、更容易控制,也更加貼近通用智能的目標。
同時,該方法具備強大的現實適應能力。在訓練中加入大量隨機化,使策略在面對不同動力學條件時也能保持穩定。在真實環境里,當負載改變、地面摩擦不同、動作需求突然變化時,機器人不需要重新訓練,只需要在潛在空間里稍作調整,就能迅速恢復到可靠的表現。這使得模型在現實環境中的可用性明顯提升,能夠更好地應對復雜多變的物理條件。
最后,這項研究擺脫了對高質量動作捕捉數據的依賴。過去想讓機器人動作看起來自然,需要使用專業設備收集大量高精度人體動作數據,成本極高。而這里使用的無標注動作序列就足以讓模型學到人體動作的整體風格,既減少數據采集難度,也讓訓練更加靈活。
綜合來看,這項工作不僅提供了一套在仿真與現實之間高度一致的訓練方法,還構建了一個具備泛化、自然性、穩定性與適應性的潛在行為空間,為未來更智能、更通用的人形機器人奠定了基礎。
2025年12月12-13日,第八屆 GAIR 全球人工智能與機器人大會,將在深圳南山·博林天瑞喜來登酒店舉辦。
世界模型是具身智能理解與改造世界的“認知核心”,在 GAIR 大會世界模型分論壇中,我們已經邀請到了國內外頂級高校與研究機構的多位知名學者,就世界模型與空間智能在具身機器人領域的探索突破,發布多篇主題報告,共同探討這一真實應用中的最新進展。
在論壇的圓桌對話環節,學者們將圍繞“世界模型如何跨越仿真到現實的鴻溝”等關鍵議題展開深度研討。屆時,來自產業界的頂尖研發團隊也將分享其將世界模型前沿理論落地于機器人實體,解決復雜場景任務的成功實踐。
我們期待與您共同見證,世界模型如何為具身智能注入真正的“靈魂”,開啟機器人自主決策與行動的新篇章。

雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。