0
| 本文作者: 鄭佳美 | 2025-03-28 15:41 |
英偉達 GTC 大會熱度飆升。繼黃仁勛在英偉達大會上發布基礎世界模型 Cosmos 引發業內討論后,英偉達團隊近日又發布了一個新的物理世界大模型:Cosmos-Reason1。
作為 Cosmos 系列的一個大模型,顧名思義,Cosmos-Reason1 更強調模型的“Reason”(即“推理”)能力。這是繼 DeepSeek R1 采用純強化學習方法替代 SFT 之后,思考推理模型在物理世界中的進一步探索;且據論文介紹,其取得了不錯的成果。

論文地址:https://arxiv.org/abs/2503.15558
與 DeepSeek 跑在云端不同,Cosmos-Reason1 致力于解決的是人工智能系統與物理世界交互的問題——這要求跑在物理世界中的 AI 大模型要同時具備感知、理解與執行復雜動作的三個基本能力,即當前具身智能領域主流的研究熱詞“VLA”,或“具身大腦”。
根據論文介紹,Cosmos-Reason1 可以理解物理世界,并通過長思維鏈(Long CoT)的推理過程在自然語言中生成適當的行為決策。在這個思路上,英偉達的研究團隊開發兩個多模態大模型,分別是 80 億參數的 Cosmos-Reason1-8B 和 560 億參數的 Cosmos-Reason1-56B。
他們分四個階段來進行數據收集與模型訓練,分別是:視覺預訓練、通用 SFT、物理 AI SFT、以及物理 AI 強化學習后訓練。為了評估模型效果,他們分別在物理常識與具身推理兩個方向上制定了 Benchmark,并取得了不錯的表現。

Cosmos-Reason1 技術路線圖概覽
當前 Cosmos-Reason1 已開源,具身智能先鋒研究者宋舒然等人也參與其中。
物理世界的 AGI 有何不同?
業內一直有觀點認為,AGI 的發展會天然地分為云端 AGI 與端側 AGI,物理世界中的 AGI 即屬于后者。
但相比云端 AGI 模型(如 DeepSeek R1 等),能夠與物理世界進行有效交互的 AGI 卻突破緩慢,因其難度更大,不僅要具備云端 AGI 的理解、推理能力,還需要感知、決策。即使是推理環節,云端大模型的訓練主要基于互聯網上的大量文本數據,也難以遷移到與物理世界的互動知識中。
物理世界中的 AGI 需要具備什么能力?
英偉達團隊認為,與設計擅長解決編碼和數學問題的大模型不同,物理世界的大模型應該具備物理世界常識與基于物理世界的具體推理能力。這包含兩方面:
一是物理常識應分為三個主要類別:空間、時間和基礎物理,同時這三個類別又會被進一步劃分為 16 個細粒度的子類別。這關乎到物理世界如何在物理定律下運行,以及 AI 如何與物理世界進行交互;

圖注:物理常識的 16 個子類別,空間包含關系、合理性、可供性與環境;時間包含規劃、相機、因果、指令、行為;基礎物理包括反重力、熱力學、電磁、機械學、客體永恒性、狀態、屬性。
二是他們認為,要為具身推理引入一個二維的知識體系,其包含跨越 5 類具身智能體的 4 種關鍵推理能力。這樣有助于 AI 智能體在物理世界中的理解與規劃。
具體而言,具身推理需要具備以下能力:
處理復雜的感官輸入。與處理清晰數據表示的符號推理不同,具身推理必須從原始的、往往不完整且模糊的感官輸入中提取有意義的模式。
預測行動效果。行動會產生物理后果,有效的推理需要直觀地掌握因果關系。AI 系統必須預測一個物體對力會有怎樣的反應,一個機器人的身體將如何與周圍環境相互作用,或者一輛車輛的移動將如何受到地形和物理規律的影響。
遵循物理約束。與通常涉及優化離散選擇的抽象問題解決不同,具身推理必須考慮現實世界的物理因素,如慣性、摩擦力和材料屬性。它要求 AI 生成在物理約束條件下可行的長期行動規劃,以確保執行過程中的穩定性、效率和安全性。
從交互中學習。在物理 AI 中,行動不是孤立發生的;每一個動作或決策都會影響環境并產生反饋。具身推理必須基于這些交互不斷更新其理解,使系統能夠動態地改進其行為。

在這個過程中,Cosmos-Reason1 的目標之一是使多模態大模型生成更多符合物理世界要求的反應。在視覺世界中,模型對世界的理解會被表示為視頻形式,然后通過視頻輸入感知、理解與推理物理世界,再用自然語言將模型的反應表達出來。他們采用的是純解碼的多模態大模型架構,以及混合的 Mamba-MLP-Transformer 架構。
值得注意的是,Transformer 架構此前一直被詬病雖然擅長長序列表達、但無法高效實現空間理解,而 Mamba 架構是典型的非 Transformer 架構,英偉達團隊采用 Mamba 混合或許就是為了中和 Transformer 在物理世界大模型中的短板。
他們使用張量并行度為 4 來訓練 Cosmos-Reason1-8B 模型,而 Cosmos-Reason1-56B 模型則使用張量并行度為 8 和流水線并行度為 2來進行訓練,以支持更長的視頻訓練。

為了提高模型的通用能力,在數據采集上,英偉達團隊一共采用了總計 120M 的圖像、視頻與交互數據用于數據預訓練,8M 的圖像和視頻數據用于通用的 SFT。
在大模型的推理中,基于規則的、可驗證的大規模獎勵(即強化學習方法)對解決數學、編碼問題起了很大的作用。受此啟發,英偉達團隊也在 Cosmos-Reason1 中使用了強化學習方法來訓練模型在物理世界中的推理能力。
他們探索了兩種多項選擇題回答的獎勵類型,一種是基于人工注釋的 MCQ,另一種是受視頻自監督學習的啟發,自動生成基于視頻數據結構的 MCQ,比如用打亂的時空視頻補丁來解謎題、預測視頻向前或向后播放的時間箭頭等。
Cosmos-Reason1 的效果
為了測試 Cosmos-Reason1 的效果,英偉達團隊制定了以下基準:
在物理常識上,他們制定了 3 個基準(空間、時間與基礎物理),包含了來自 426 個視頻中的 604 個問題。
在具身推理上,他們建立了 6 個基準測試、包含來自 600 個視頻的 612 個問題,覆蓋了包括人體、機械臂、人形機器人與自動駕駛等多個構型的物理具身。
他們將 Cosmos-Reason1 與其他的大模型進行了對比,結果如下:
在物理常識的基準上,Cosmos-Reason1-8B 與 56B 的效果都顯著提升,尤其是 56B 的效果全面超過 Qwen2.5-VL-7B 與 72B、Gemini 2.0 Flash 與 GPT-4o,只稍遜于 OpenAI 的 o1:

在具身推理上,顯著強于其他 VLM 模型,效果提升超 10%:

雷峰網(公眾號:雷峰網)認為在直觀物理上,他們的研究發現,許多主流的 VLM 大模型實際難以進行直觀的物理推理。
為了測試模型的直觀推理能力,他們為三個任務(時間箭頭、空間謎題與物體持久性)中的每一個任務都策劃了 100 個視頻,并生成 100 個問題。
結果顯示,現有的許多 VLM 模型在時間箭頭與物理持久性的任務上表現不佳,GPT-4o 與 OpenAI o1 處理空間謎題比隨機猜測強。但 Cosmos-Reason1-8B 在三個任務中都得到了顯著改進:

時間箭頭例子:

時間箭頭例子:

參考文獻:https://arxiv.org/pdf/2503.15558
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。