香港大學李弘揚：「2025年具身智能新一代閉環智能系統」迫在眉睫丨具身先鋒十人談

本文作者：朱可軒

2025-02-21 16:57

導語：百萬真機數據集的終極目標是打造硬件加系統的 AI 次方模式，構建真正智能的端到端具身系統。

作者丨朱可軒

編輯丨陳彩嫻

去年年底，全球首個基于全域真實場景、全能硬件平臺、全程質量把控的百萬真機數據集開源項目 AgiBot World 發布，在機器人領域引起了廣泛關注。

AgiBot World（https://agibot-world.com/）的目標是打造硬件加系統的 AI 次方模式，香港大學助理教授李弘揚博士團隊與上海智元機器人深入合作，開展了機器人超大規模操作任務的前沿研究。

2019 年，李弘揚在香港中文大學多媒體實驗室（MMLab）獲博士學位，主攻計算機視覺和深度學習方向，于2021年在上海組建了 OpenDriveLab 團隊，專注具身智能與自動駕駛的研究。

他曾在 CVPR、ICCV、ECCV、NeurIPS、RSS、CoRL、ICLR、TPAMI 等國際頂尖會議與期刊上發表論文三十余篇，并多次擔任會議領域主席（Area Chair），其中端到端自動駕駛算法工作 UniAD 被評為 CVPR 2023 最佳論文。

博士畢業后直到 2023 年，李弘揚主要聚焦在端到端自動駕駛算法的研究，自去年年初開始，他更多地開始關注機器人方向。實際上，二者之間是存在許多可移植經驗的，比如都由感知、預測和規控構成，而且都跟環境交互從算法識別到動作執行。其中，最關鍵的點在于端到端的訓練范式能否復制到機器人任務中。

2024 年第二季度，團隊便開始論證調研如何在具身智能中驗證 Scaling Law，他們和智元等團隊合作 AgiBot World 的工作也始于這一階段。作為百萬真機高質量標簽的數據集，AgiBot World 的物理形態趨于統一，這點區別于將不同子數據集簡單堆砌到一起的超大規模數據集；同時，前者在靈巧手操作、視觸覺多模態信號和多機協同等三方面也有著明顯的優勢。

香港大學李弘揚：「2025年具身智能新一代閉環智能系統」迫在眉睫丨具身先鋒十人談

左：AgiBot World 數據集發布前團隊同學通宵達旦進行準備。右：央視總臺和上海市經信委對AgiBot World 數據集的發布進行報道。

正基于此，AgiBot World 距離具身智能的兩個大目標更近一步：一是真正智能化，二是如何定向驗證 Scaling Law?！安皇嵌寻偃f真機、堆 GPU 算力就行，而是說百萬真機能回答多樣性比數據量更重要；另一個是如何驗證小規模數據，例如 30 萬數據，就能達到某個性能，進而達到降本增效”，李弘揚強調。

AgiBot World 還有一個更加宏大的愿景，全量數據集將于 2025 年 3 月推出，同時也會在 CVPR、IROS 等場合舉辦挑戰賽；通過數據共享，讓整個產業、學界共同研究有價值的學術問題，才能真正實現具身智能領域的“ImageNet 時刻”和共用共享。

2025 年，李弘揚團隊工作核心是探索如何構建真正具有智能的具身系統，使得機器人真正能夠適應各種環境、學習各種新任務、能夠從自身行動中獲得反饋并進行反思。更多最新工作進展，敬請訪問團隊主頁 https://opendrivelab.com

香港大學李弘揚：「2025年具身智能新一代閉環智能系統」迫在眉睫丨具身先鋒十人談

我們認為實現具有人工智能的具身智能系統需要模型具備三種能力：自適應、能學習、會反思。

以下是 AI 科技評論與李弘揚的對話：

自動駕駛與具身智能

AI 科技評論：博士畢業后，您有幾年時間是專注在端到端自動駕駛的算法研究上。為什么會轉到機器人賽道？您對具身智能領域開始感興趣的契機是什么？

李弘揚：自從 2019 年博士畢業之后，我的研究重心始終聚焦于具身智能領域。早期我們更專注于端到端自動駕駛方向的研究，23 年 6 月團隊提出了原創性的 UniAD 端到端自動駕駛方案，也獲得了當年 CVPR 的最佳論文。同年 12 月，特斯拉 FSD V12 全面推廣，到 24 年時，端到端范式已經在業內全面鋪開。從 24 年開始，自動駕駛已經進入下半場，這一階段的發展不僅需要持續的技術突破，更面臨著工業化落地與企業級量產驗證的挑戰。

團隊從 23 年下半年開始更多地往機器人方向傾斜，論證并啟動了相關研究的布局。原因之一在于自動駕駛和機器人有很多相同的技能棧，比如都是感知、預測、規控構成的，都是跟環境交互從算法識別到動作執行的。我們關注的最大的點在于端到端的訓練范式能否復制到機器人的任務里，因為他們都是相似。其二是 23、24 年開始，隨著 OpenAI、特斯拉在機器人方面做了很多創新性的工作，在 AIGC 與環境感知領域取得突破性進展后，技術發展的焦點已自然延伸至物理交互與執行層面。將海量數據訓練范式與大模型技術優勢引入傳統機器人領域，既是學術界的前沿課題，也已成為產業界的戰略共識。

AI 科技評論：在具身智能方向，您接觸的第一個相關工作是什么？這個賽道有哪些研究工作、研究問題讓您感興趣？主要想解決哪些問題？

李弘揚：最近團隊發表的比較重要的工作是在 24 年 7 月的 RSS 上，主要關注通過視覺預訓練來提升機器人操縱能力，因為在現在大數據的背景之下，以預訓練作為切入點是比較自然的路徑。在這個領域，我主要關注以下三個核心問題：首先是泛化能力，如何使機器人在面對不同場景和任務時，都能展現出良好的適應性和通用性；其次是智能性，不僅僅是完成諸如拿起杯子這樣的簡單任務，還要具備閉環反饋能力。例如，機器人需要根據實際情況進行錯誤糾正和自我調整，這樣才能體現出真正的智能；最后是高效性，現在的大模型不僅在自動駕駛中面臨部署難題，應用于機械臂上同樣存在挑戰，就是如何在保證性能的同時，實現高效、輕量化的部署。

AI 科技評論：UniAD 項目對于您之后的工作有沒有帶來哪些啟發？

李弘揚：UniAD 在自動駕駛中把感知、預測和規控做到了一起，主要有兩點啟發。

第一是全局優化能力，通過對整個神經網絡進行聯合調優，并最終以規劃優化指標為核心，可以有效彌補傳統方法中各模塊獨立運作時存在的信息損失問題。以前感知模塊僅傳遞目標識別結果，預測模塊僅傳遞軌跡信息，而動作執行模塊則基于這些信息進行操作，這個過程中不可避免地存在大量信息損耗。而在一個統一的網絡中，各模塊之間傳遞的是網絡學習到的特征，信息量非常豐富，從而實現了全局優化。我們想把這個經驗放到機器人里來，因為在傳統的機器人研究里，感知是非常粗糙的一種形式表達，再到動作執行模塊，也有類似相關信息損失。

第二是在海量數據的應用上。在 UniAD 中，所有的軌跡數據可以一次性地采集完，從而進行大量的數據采集工作，發揮 Scaling Law 的優勢。在機器人領域，我們希望探索是否能夠復制這一經驗，即在引入海量數據后，算法的性能提升是呈現線性增長、指數級爆發，還是最終達到瓶頸，數據量的增加是否能夠真正帶來機器人泛化能力的提升。我們計劃沿著 UniAD 的思路，特別是以數據驅動學習為基礎的機器人操作研究方向，進一步探究全局優化與海量數據在機器人領域的應用潛力。

AI 科技評論：您從自動駕駛轉到機器人，會不會覺得有什么困難之處？

李弘揚：從算法來講，自動駕駛里自由度很低，最終輸出通常僅涉及油門和方向盤的四個自由度。而在機器人領域，任務自由度可以根據需求靈活定義，例如靈巧手可能具有 6、12 甚至 20 個自由度，導致解空間非常復雜。但相對于自動駕駛場景而言，機器人領域的場景變化沒那么豐富，主要集中于室內導航、工業巡檢等特定領域。我們嘗試把自動駕駛的經驗直接拿到機器人的過程中發現，單純將全局優化的理念直接遷移至機器人領域，需要對網絡結構和訓練范式進行較大改進。

另一方面，數據采集難度明顯增加。自動駕駛領域中，車輛形態相似，只需要幾百臺同類型車輛部署就可以采集到數百萬條數據，基本模型較為固定。而目前機器人硬件形態都沒有收斂，不同設備間存在較大差異，數據采集工作面臨更大挑戰。為此，我們提出了數據金字塔策略，即結合仿真數據、網絡數據、真機數據以及針對特定任務的少量真機特殊場景，期待能夠有效地解決數據上問題。

AI 科技評論：現在業界有說法認為，自動駕駛解決的是下肢問題，而機器人要解決的是上肢問題、典型任務是操作。您認同這個說法嗎？

李弘揚：我部分認同這一觀點。自動駕駛下肢問題解的是軌跡規劃或者說動作執行，因為當前的感知問題已基本得到解決。對機器人來說，針對運動控制例如四足機器人的研究比較成熟了，各類仿生犬型機器人在多樣場景中的表現穩定，但上肢問題主要涉及抓取與操作任務，當中要研究的問題、優化的思路非常多。

AI 科技評論：自動駕駛視覺算法與機器人算法的不同之處體現在什么地方？

李弘揚：現在自動駕駛算法的感知問題解得已經很好了，發展到今年，研究核心在于之后規控信號如何作為先驗放到整個端到端體系里，發揮感知算法的優勢，可以設計一些聯調，從而充分發揮感知算法的優勢。目前自動駕駛系統中，感知模塊占據主導地位，而規劃與控制部分則相對缺乏基于學習的方法，導致二者之間的整合存在一定問題。

機器人方法的不同在于解空間非常復雜、自由度很高。通常在這種情況下，會采用一種快捷高效的整體聯調優化方法，例如強化學習。但強化學習本身存在樣本效率較低的問題。舉例來說，當將強化學習應用于人形機器人的全局優化時，就會面臨樣本效率低、獎勵稀疏、訓練收斂困難以及整體訓練難度較大等諸多挑戰。

打造 ImageNet 時刻

AI 科技評論：不久前您參與的百萬真機數據集 AgiBot World 發布，你們是從什么時候開始做的？

李弘揚： AgiBot World 是我們和智元合作推出的百萬真機數據集。具身包括算法、數據、硬件、應用場景四個要素，盡管學術界在各類算法研究上投入甚多，但普遍認為算法性能的上限取決于數據，因此數據的重要性日益凸顯，這也是我們團隊工作的出發點之一。這個工作在 24 年 Q2 就開始調研論證了。當時，我們希望與那些將硬件及應用場景作為重要評估指標的機器人企業共同成長，我們也走訪了很多國內機器人公司，最后落腳到智元。

AI 科技評論：與 DROID、Open X-Embodiment 等業界知名數據集相比，AgiBot World 的最大亮點、差異化優勢是什么？

李弘揚：目前業內已經有許多數據集，有點像 2010 年之前視覺領域數據集百家爭鳴的局面。在設計 AgiBot World 數據集時，我們著重在以下三點上進行創新：

首先是靈巧手。許多現有數據集，包括谷歌的數據集，往往使用的是夾爪。而我們提供了 6 到 12 自由度的真實靈巧手，為機器人操作任務提供了更高的精度和靈活性。

其次是視觸覺。單純依靠圖像或點云數據無法有效完成任務，尤其是在視覺遮擋的情況下，比如在擰瓶蓋或關門這類任務中。我們設計了融合視觸覺的多模態數據采集，為這些復雜任務提供了更完整的感知能力。

最后是多機協同?，F在很多在做靈巧手、視觸覺的類似工作都是單點的，在數據集里集大成、把所有要素集到一起很少，我們設計了多機協同的任務，確保所有機器連在一個中央時間戳上，否則數據采集起來很困難，也克服了很多工程上的問題，包括怎么設計高效的硬件素材系統、數據采集系統等。

AI 科技評論：你們解決了當前具身智能領域的哪些迫切問題呢？

李弘揚：一是怎么實現真正的智能化?，F在把具身智能分 L1 到 L5，如果能夠解決 L2 級別的操作任務，就能在有限場景內實現真正意義上的泛化，可以說它就是今年的 ImageNet。這里所指的有限場景主要涵蓋工業巡檢、汽車總裝線、居家服務等特定場景里的泛化。例如，在疊衣服任務中，無論是大衣、外衣，還是薄的、軟的衣服都可以疊；如果是汽車總裝線，那么就是這個總裝線上安輪胎、安保險杠、布線都能做。

其次，我們關注的是 Scaling Law。關鍵不在于僅僅堆砌百萬真機數據或大量 GPU 算力，而在于探討百萬真機數據是否能夠證明數據多樣性比數據規模更為關鍵。我們期望通過這一研究為后續實現真正意義上的 Scaling Law 評估提供參考依據。

AI 科技評論：可以分享一下你們采集數據收集的過程嗎？真機數據的采集有什么困難？你們又是如何解決的？

李弘揚：數據采集的過程中，我們參考了亞馬遜 SageMaker 整個流程。由于數據采集任務較為復雜，首先需要設計任務構型并進行試采；在數據量達到預期后，還需考慮如何高效存儲數據、培訓數據采集人員以及處理采集過程中出現的反饋問題。

另一方面，我們參考了《Human-in-the-Loop Machine Learning》中的相關概念。這本書里從學習角度探討了如何提升數據質量。在 AgiBot World 項目中，我們不僅采集了大量數據，還制定了詳盡的問題清單，對流程不規范、步驟不完整、數據缺失等問題進行分類統計。

此外，Human-in-the-Loop 不僅體現在問題反饋上，更關鍵的是如何評估每條數據的質量。高的數據質量能夠使得在這一批數據發布后，研究人員可基于此開展更多二次開發和深入研究。

另外，數據采集過程中，我們會估計制造一些干擾。例如，在執行內存條任務時，我們有意制造背景或內存條的抖動，以考察算法或數據采集系統能否通過不斷試錯恢復并完成任務。這與強化學習中負樣本和持續學習的概念密切相關。數據采集與算法高度耦合，因此在算法層面存在諸多需求和研究空間，這也是我們設計此數據集的初衷之一。

AgiBot World 發布到社區的第一天才標志著項目的真正起步，我們預留了大量接口，供未來各類強化學習、模仿學習、對齊算法等使用，目的在于保研究者在各自領域中不會因缺乏數據集而受到限制。

AI 科技評論：你們的下一步研究計劃是怎樣的？感覺還有哪些亟需突破的難題？

李弘揚：AgiBot World 是個非常大的項目，現在發布 Alpha 版本總共是十萬真機數據，短期研究計劃是擴展到百萬真機數據，大概會在 25 年 3 月發布。

中期目標方面，作為研發團隊，我們基于該數據集驗證差異化的 Scaling Law，以探討如何實現智能化，相關成果預計將在今年下半年發布。

長線計劃則針對未來兩三年，不只有 AgiBot World 這個數據集，我們還計劃搭建生態、辦比賽，讓大家真正地把數據集用起來。我們計劃在今年下半年 10 月舉辦 AgiBot World 挑戰賽，鼓勵研究人員基于該數據集開展二次開發和深入研究。并且還將會每年都舉辦這個比賽，持續地服務整個社區。

AI 科技評論：NeurIPS 2024 上，Ilya 提出解決大模型訓練數據匱乏問題的三大途徑之一是合成數據。您怎么看機器人領域中真機數據與合成數據的差別？

李弘揚：真機數據最大優勢是沒有 Sim-to-Real 的問題，我們選擇真機數據主要有兩個原因：其一，我們團隊并非專注于仿真領域；其二，合成數據的構建工作量巨大且周期較長，涉及諸如渲染技術和數據資產構建等問題，因此我們直接采用了真機數據。

現在大家都在抱怨真機數據很少，AgiBot World 是單一構型的、百萬真機的、可上量的數據集。單一構型指的是物理形態都是一樣的，這與某些數據集將不同子數據堆砌在一起、聲稱擁有百萬真機數據形成鮮明對比。實際上，跨越不同視角、任務和硬件構型的遷移非常困難，而 AgiBot World 的單一構型擴展策略類似于在全球范圍內采用數百萬輛特斯拉 Model 3采集各類數據。當然，合成數據也是非常重要的，我們相信仿真數據一定會幫助最后的部署、落地，尤其在處理危險場景時。

硬件形態待行業收斂

AI 科技評論：你們開源 AgiBot World 的初衷是什么呢？開源能給整個行業帶來哪些價值？

李弘揚：首先，我們開源是希望打造具身智能領域的 “ImageNet 時刻”。當前行業中，A 團隊提出一套算法，并在論文中展示其性能為 80%，B 團隊則提出另一套算法，性能為 82%。然而，由于硬件平臺不同，這些算法難以直接遷移或復現，導致性能差異難以客觀評估。這并不意味著某一算法無效，而是缺乏統一的基準。因此，我們希望通過建立類似 ImageNet 的評測基準，使各類算法能夠在統一的平臺上進行公平對比，從而加速學術界和產業界的發展。

其次，我們希望通過開源，使真機數據的采集范式更加低成本、易獲取。目前，采集高質量真機數據的成本極高，例如，購買一臺配備靈巧手的雙臂機器人，市場價格至少在 20 萬人民幣左右，而若要搭建 100 臺設備，成本就到了 2000 萬人民幣。因此，我們希望通過開源 AgiBot World，降低行業門檻，使更多研究團隊能夠參與其中，共同推動具身智能的發展。

AI 科技評論：AgiBot 與機器人操作、世界模型等話題的關系是什么？

李弘揚：一是智元機器人的英文名就是 AgiBot，二是我們想實現 AGI 的機器人，這方面是一語雙關。World 代表我們希望構建一個完整的世界模型，涵蓋硬件、系統及 AI 算法生態。這不僅是 AgiBot World 項目的核心理念，也是我們最終希望實現的目標。我們的愿景是通過數據集推動硬件形態逐步收斂，并將其應用于靈巧手、視觸覺系統以及輪式機器人上。同時，結合系統和生態構建，與行業伙伴共同完善數據集，并進一步推動學術研究和競賽活動，以促進整個領域的發展。

AI 科技評論：您認為具身智能領域的模型訓練會遵循 Scaling Law 嗎？

李弘揚：Scaling Law 是 2024 年下半年各個研究團隊都在做的非常熱點的問題，今年也會是無論工業界還是學術界要重點研究的事情。當中可以凝練出諸多科學問題，例如：多樣性和數據分布是否遵循某種規律；在有限數據量的條件下，能否通過算法的遷移學習獲得性能提升；以及投入產出比的考量，例如百萬真機的數據采集背后涉及的人力成本、標注成本、工程成本以及場地費用等。

AI 科技評論：除了數據集，您的團隊現在還有沒有研究具身智能的其他方向？目前主要在研究哪幾個具體問題？

李弘揚：我們團隊也在研究人形和一些硬件設備，一個重要的研究方向是 Whole Body Control，這是一個涉及全身動作協調和多任務協同的研究目標。目前，很多展示的炫酷 demo 雖然看起來非常吸引人，但往往是通過預設規則或者僅僅展示某些簡單的動作，比如走幾步或招手，這些動作相對簡單。而在上半身與其他部位的協同操作上，挑戰則更為復雜。當然 Figure 01 或者 1X 也都展示出了很好的 demo，在工廠里機器人 Whole Body Control 也已經做得非常好了。

AI 科技評論：您認為除了數據集，當前具身智能行業還有哪些被忽視、但關鍵問題需要解決？

李弘揚：被忽略的問題主要集中在硬件上，我甚至覺得具身智能的終極發展方向在于材料科學。這不僅涉及到視觸覺等傳感器的穩定性，還包括在下一代硬件研發和設計過程中，對各類傳感器形態的前瞻性考量。目前，硬件迭代速度相對緩慢。如果算法無法與硬件深度結合，尤其是在傳感器技術、磁感傳感器、人造皮膚等方面缺乏突破，機器人將難以實現人類所能完成的復雜任務。因此，僅靠算法優化無法全面推動具身智能的發展。

我也希望更多來自機械工程、材料科學，甚至航天航空等領域的學者，能夠投入到新一代傳感器及相關硬件的研究中。硬件的創新將帶來全新的應用場景，這些場景不僅可以賦能機器人，還會吸引更多從事算法創新的科研力量。只有軟硬件協同進化，具身智能行業才能真正取得突破性進展。

AI 科技評論：目前你們在硬件方面都和哪些廠商合作？

李弘揚：我們目前使用了來自七到八家不同廠商的設備，這些設備都屬于行業內最頂尖的水平。我們希望，團隊中的研究人員能夠基于最先進的硬件平臺進行研究，從而推動具身智能領域的前沿發展。

AI 科技評論：現在也有很多人工智能從業者加入具身賽道，您覺得這在短期會給機器人領域帶來哪些顯著變化呢？

李弘揚：近期我們也走訪了許多知名學者，尤其是在傳統機器人領域深耕多年的專家。一些學者戲稱，人工智能領域的從業者正在“搶占”他們的領地，盡管這只是玩笑，但確實反映了行業格局的變化。整體來看，許多從事人工智能研究的學者，正積極投身于具身智能賽道中。我始終認為，這并非競爭關系，而是合作共贏的局面。人工智能領域出身的學者在神經網絡上有很豐富的經驗，而傳統機器人學者在硬件設計、系統架構等方面擁有深厚的積累和卓越的專業能力。這種交匯與融合將促使雙方相互學習、共同進步。在人工智能技術的加持下，傳統機器人行業有望迎來新一輪的變革浪潮。雷峰網(公眾號：雷峰網)雷峰網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

朱可軒

編輯

發私信

當月熱門文章