國產具身模型開源“屠榜”，首殺Pi0.5獲英偉達Jim Fan點贊！

本文作者：小七

2026-01-12 16:40

導語：Spirit v1.5 登頂 RoboChallenge，稀缺的不是“第一”，而是“統一基準下的第一”。

Spirit，靈魂，當下機器人亟需的東西。

但過去一年機器人們的靈魂，在兩個極端間橫跳。

一端是各種炫目視頻反復刷屏，高度結構化的實驗“溫室”不斷產出高成功率模型，Demo 里的 AI 是如此聰明；但另一端，當這些“滿分選手”走進現實，卻頻頻翻車。

演示視頻可以剪輯，實驗室環境可以特制，任務的難度可以自定義。這讓整個行業陷入了一種“關公戰秦瓊”的困惑：當場景、硬件、評測標準各不相同，我們究竟在比什么？是比技術，比智能，還是比誰家的運鏡和剪輯更專業？

這場失焦的競賽，在 2025 年底迎來了它的第一個“主裁判”。

這位“主裁判”，在 2026 年的第一個月，裁決出第一位中國冠軍。被 Pi0.5 霸占的榜首，易主了。

1 月 12 日，千尋智能開源了自研 VLA 模型 Spirit v1.5，并在由Dexmal、hugging face聯合發起的第三方機器人模型評測組織 RoboChallenge 的Table30榜單上一舉登頂，超過了之前最強模型 pi0.5。

國產具身模型開源“屠榜”，首殺Pi0.5獲英偉達Jim Fan點贊！

高陽在社交媒體X上官宣開源的帖子，立刻被英偉達機器人主管Jim Fan點贊，多位海外科技大佬相繼轉發。

國產具身模型開源“屠榜”，首殺Pi0.5獲英偉達Jim Fan點贊！

本次千尋智能開源了Spirit v1.5的基模權重、推理代碼以及使用樣例，以接受公眾檢驗，并方便開源社區在此基礎上繼續創新。

1、一把“標尺”開啟的“度量衡時代”

在 RoboChallenge 出現之前，具身智能最大的問題并非“誰更強”，而是 “無從比起” 。

各家都宣布訓出了“領先的模型”，但所謂“領先”往往建立在三個脆弱的基座上：

? 場景無法復現的“溫室花朵”：很多令人驚嘆的演示，都發生在光線恒定、物體擺放規整、任務流程固定的“溫室”中。一旦環境出現絲毫變化，模型就可能“懵圈”。在 A 公司實驗室里流暢分揀的機器人，到了 B 公司的倉庫可能連門都找不到。

? 工程強依賴人的“臨場發揮”：一些復雜連續任務，背后可能是工程師編寫了大量“后門”代碼，或者遙操干預，機器人正在借助隱身幕后的人“作弊”。

? 任務不可對比的“自說自話”：A 公司展示擰螺絲，B 公司展示插花，C 公司展示疊衣服……這些碎片化的任務維度各異，根本無法判斷孰優孰劣，就像讓體操選手和馬拉松跑者同臺競技，再用不同刻度的尺子度量他們的能力。

2025 年底，一把“標尺”終于姍姍來遲。

由 Dexmal、Hugging Face、智源研究院等聯合發起的 RoboChallenge，旨在用一套規則終結評測的混戰時代。它要回答是：剝離一切外援后，模型內核——那個驅動機器人理解、規劃的“大腦”——究竟有多強？

RoboChallenge 堅持在真實物理世界中進行評測，并引入隨機擾動增加泛化挑戰，模擬現實中的不可預測性，考驗模型走出溫室的生存能力。并且，它使用統一硬件，讓所有算法在完全相同的“肉身”上比拼智力，擠掉了過度工程化和人為干預的“水分”。

此外，它提供了一套標準化的任務庫 Table30，讓所有模型在同一套“考題” 下作答。

從計算機視覺的 ImageNet，到自然語言處理的 GLUE，每一個技術領域的爆發式增長，都始于一個被廣泛認可的基準測試。它定義了問題，統一了度量。

2025 年 12 月，RoboChallenge 發布了首份評測榜單，Pi0、Pi0.5 霸榜前二；

2026 年 1 月，中國自變量的 WALL-OSS-Flow 反超 Pi0，但仍被榜首的 Pi0.5 甩開了七分多；

但很快，這個“代際”差距被千尋 Spirit v1.5 追平了。

2、從Pi0.5到Spirit v1.5：靜默的“代際交接”

在最近的評估中（截至 2026年1月12日），Spirit-v1.5 在 RoboChallenge Table30 測試上取得了當前最優的性能，超越了 pi0.5 等之前的全球領先開源模型。

Table30 包含了 30 個桌面環境操作任務，這些任務在多種構型上進行評測，包括單臂（Franka, Arx5 和 UR5）和雙臂系統（ALOHA），全面考察了 VLA 的各項能力，比如精確的 3D 定位、遮擋處理、時間依賴性和多階段長序列任務，以及模型在多構型、全新任務上的遷移效率。

讓我們來看看 Spirit-v1.5 在各項任務上的具體表現，以及和 pi0.5 的對比。

首先是插花，Spirit-v1.5 驅動的機械臂抓起了纖細的花枝，隨后轉動機械臂，使花枝方向朝下，隨后精準插進了窄口花瓶中，依照同樣的流程，Spirit-v1.5 一口氣插好了三朵花。

反觀 pi0.5，盡管也成功抓起了花枝，但由于葉片掛住夾爪，導致花枝被平放在了瓶口上。

插花任務，Spirit-v1.5（左）和 pi0.5（右）表現對比

再來看看桌面清理，桌面上隨意放置著大大小小 10 個物體（碗碟、透明塑料瓶，揉皺的紙巾、士力架包裝等柔性物體），Spirit-v1.5 在約 4 分鐘里，分門別類將它們放進垃圾桶和整理箱中，兩只小碗還被疊在一起。

而 pi0.5 在分揀了一只碗、瓶子和紙巾后，剩下的時間就和一直無法被夾起的紙盒“杠”上了。

桌面清理任務，Spirit-v1.5（左）和 pi0.5（右）表現對比

在整理物品時，Spirit-v1.5 先后抓起叉子、膠帶和刷子，準確移動到箱子上方，再松手把物品放進去；pi0.5 先是抓空，又因為夾爪舉得不夠高碰歪了箱子，松手將叉子掉到箱子外面，隨后重復拾取也沒能成功，叉子直接掉到了桌子下。

物品整理任務，Spirit-v1.5（左）和 pi0.5（右）表現對比

當涉及到雙臂協的任務，Spirit-v1.5 一爪固定住透明塑料盒，另一爪掀開蓋子，隨后將盒子中的薯條傾倒進一旁的盤子中；Pi0.5則對第一步——拆開盒蓋——就束手無策。

傾倒薯條任務，Spirit-v1.5（左）和 pi0.5（右）表現對比

四項任務涉及了不同大小、形狀、材質的物品，寬口的整理箱，窄口的花瓶，極大考驗了模型精準定位、空間理解和力位混合控制的能力。

半年前，由美國頭部具身智能公司 Physical Intelligence（Pi）開源的 Pi0.5，代表了當時國際領先的開源 VLA 模型水平。在很長一段時間里，中國具身智能行業呈現“軀體強，大腦弱”的格局，尤其在 VLA 模型上，被認為落后美國一個身位。

有投資人曾頗感苦惱地告訴 AI 科技評論，資本——尤其是美元資本——仍不相信，一個領先的模型架構會在中國做出來，本質上，他們仍然信仰硅谷。

Spirit v1.5 的登頂，因此更像是一次靜默的“代際交接”信號。

它意味著，中國具身模型，第一次不是在自家后院稱王，而是在一個全球公認的、可復現、可比較的規則下進入了核心競爭序列，具備了同國際頂尖玩家同場競技、正面抗衡的能力。從更大視角來看，中美之間的競爭在從過去明顯的“起跑線差距”過渡到 “同賽道、不同節奏” 的新階段，我們在策略泛化、任務穩定性和學習效率上，完成了階段性追趕。

3、破除干凈數據的“詛咒”

過去一兩年來，VLA在快速進化，但泛化性一直是模型能力的最大痛處。

千尋智能的團隊發現，這種對泛化能力的制約，恰恰來自對訓練數據的篩選。

當研究人員著手教機器人一項新技能時，本能反應是讓學習環境盡可能簡單。這是由于，機器人領域的傳統經驗表明，如果數據多樣性過高，模型將難以收斂，甚至無法完成基本任務。因此，大家會精心設計一切——動作被簡化、物體被放在易觸及的位置……結果就是產生了一個“干凈”的數據集。例如 Open X-Embodiment (OXE)、Agibot 等模型都是如此訓練而來。

這種數據集的初衷是提供一個容易的起點，但容易是有代價的。

由于數據被過度“凈化”，模型永遠學不會處理難以預測的現實世界。模型的泛化性、可擴展性都大打折扣。換句話說，一部分我們所追求的所謂“高質量數據”，反而“畫地為牢”圈住了模型。

因此，千尋認為，如果我們希望機器人能應對人類家庭環境中的不可預測性，從預訓練階段開始，它們就需要從像真實世界一樣混亂的數據中學習。

他們選擇了開放式、目標驅動的數據采集，即多樣化采集。理念很簡單：拋棄預設腳本，鼓勵操作員“即興發揮”。比如，數據采集員今天決定，教機器人清理廚房臺面，具體怎么做、涉及哪些子任務，完全由采集員個人決定。他們可能先隨機拿起某個容器，發現有碎屑并開始擦拭，隨后又去整理、洗滌餐具……

所有這些都在一個連續會話中完成，涵蓋了廣泛的微技能譜系，海量物體交互和環境轉換。它們不僅是單一動作的重復，而是連續的工作流，讓機器人能夠學習整套技能及連接方式。

從而，機器人開始能夠真正體驗現實生活，而不是活在一個被提前安排好的“楚門的世界”。

千尋設置了兩個對照組：A 組采用“凈化”數據；B 組則使用多樣化采集數據預訓練。

結果顯示，在微調階段，B 組無論是在收斂速度還是最終性能上都有更好表現，其達到相同性能所需的迭代次數比A組少了 40%。且遷移效率隨多樣化數據量的增加而提升，模型在新任務上的驗證誤差持續下降。

國產具身模型開源“屠榜”，首殺Pi0.5獲英偉達Jim Fan點贊！

多樣化采集預訓練的模型比干凈數據采集訓練的模型有更快的收斂速度和更好的驗證誤差。

國產具身模型開源“屠榜”，首殺Pi0.5獲英偉達Jim Fan點贊！

不同數據規模下的模型效果，擴大多樣化采集的數據規模可以持續降低模型的驗證誤差。

另一項驚喜的“附帶效果”是，由于無需精心設置每個場景并定義詳細的任務指導，數據采集效率大幅提升，人均有效采集時長增加了 200%，算法專家的干預需求削減了 60%。

從 Pi0.5 到 Spirit v1.5，我們看到的不是單點技術的“奇襲”，而是中國團隊在數據范式的一次根本性轉變。通過走出腳本化的環境，Spirit v1.5 證明了模型可以發展出一種基礎的“物理常識”，使其在現實世界中更具適應性和韌性。

在這場通往物理 AGI 的競賽中，中國模型沒有缺席，并準備好迎接下一輪關乎應用的沖刺。

4、尾聲：誰開始擁有“被長期綁定”的資格？

如果說 2025 年只是具身智能落地元年，產業界尚能對翻車報以寬和一笑；那么 2026 將會是量產爬坡元年，對于智能的真實性，下游廠商會看的更重。一個機器人模型能否成為產業的“默認選項”之一，恰恰取決于它是否可靠、可泛化遷移，且具備持續進化的潛力。

Spirit v1.5 登頂，釋放了一個信號：國產具身模型，已經開始具備這種“被長期綁定”的資格。

放長時間線，這將引發三重連鎖反應：

? 產業合作格局將被重塑。過去，尋找先進模型的目光可能首先投向海外；但現在，一個經過權威驗證的國產選項出現了，更多國內產業巨頭會將其納入考量范疇。

去年底，千尋智能的人形機器人“小墨”進入寧德時代中州基地，在后者新能源動力電池PACK生產線批量落地，它能自主應對來料位置偏差和插接點位變化，實時調整操作姿態。在插拔柔性線束時，它還能動態調節力度，確保不損傷部件并連接可靠。把單日工作量提升了三倍，插接成功率超99%，作業節拍達到熟練工人水平。

接下來，這樣的合作模式將會被大量復制。

? 技術生態站隊開始。在操作系統、芯片等領域發生過的生態之爭，可能在具身智能領域重演。頭部模型會成為吸引開發者、硬件廠商、場景方共建生態的漩渦眼。誰能率先建立起圍繞自身模型的軟硬件開發生態，誰就可能在下一階段取得決定性優勢。

? 開源體系將繼續良性循環。

有趣的是，贏得“鐵王座”的——發布即開源的Spirit v1.5，長期霸榜的Pi——無一例外是開源模型。具身智能領域，至少在短期內，開源已經成為不約而同的選擇。

Hugging Face聯合創始人兼首席科學家Thomas Wolf很早就觀察到：機器人的主要玩家幾乎全部是閉源的，“像Tesla、Figure，它們做的機器人非常出色，但整個體系都是垂直封閉的閉源堆……你無法拿一個Optimus去改造成你自己的機器人。”

但在開源模型的集體勝利后，具身智能領域可能重演2025年初DeepSeek勝利后LLM領域開源復興的局面。它將拆除實驗室的高墻，將工具分發到每一個有想法的人手中。當研究者們能夠基于同一個強大的基礎模型進行二次開發時，創新的速度將以指數級提升，靠單一公司或機構無法窮盡的場景、數據和長尾問題也將能更快完成拼圖。

同時，透明，也是最高效的信任貨幣。開源模型將代碼、數據乃至架構設計完全公開，意味著其經得起最挑剔的同行反復審視、驗證。

所有玩家回歸技術本源，用代碼說話，行業的浮夸與泡沫也將在這面“照妖鏡”前加速消散。

開源地址：

Code: https://github.com/Spirit-AI-Team/spirit-v1.5

Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5

Blog：https://www.spirit-ai.com/en/blog/spirit-v1-5

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

小七

編輯

發私信

當月熱門文章