<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      業(yè)界 正文
      發(fā)私信給岑大師
      發(fā)送

      0

      具身智能的“生命線”:數(shù)據(jù)基石與未來路徑 | GAIR Live 017

      本文作者: 岑大師   2025-10-31 10:01
      導(dǎo)語:仿真合成數(shù)據(jù)是通往具身智能的必經(jīng)之路。

      如果說大模型的出現(xiàn)引爆了通用人工智能的想象,那么,具身智能則讓 AI 擁有了可以感知、決策和行動的“身體”。而這一切的背后,都離不開一個至關(guān)重要的“生命線”——數(shù)據(jù)。

      近日,雷峰網(wǎng)主辦了一場主題為《具身智能數(shù)據(jù):賦能感知、決策與控制的智能之源》的線上圓桌論壇,邀請了香港大學(xué)助理教授李弘揚、光輪智能聯(lián)合創(chuàng)始人兼總裁楊海波、艾歐智能聯(lián)合創(chuàng)始人、技術(shù)總監(jiān)高飆三位重量級嘉賓,共同深入探討了具身智能從數(shù)據(jù)采集、合成到閉環(huán)學(xué)習(xí)的全過程,為行業(yè)揭示了構(gòu)建具身智能“生命線”的核心挑戰(zhàn)與解決路徑。

      具身智能數(shù)據(jù)面臨的挑戰(zhàn)比傳統(tǒng) AI 領(lǐng)域更為嚴峻。嘉賓們一致認為,數(shù)據(jù)是構(gòu)建“機器人基礎(chǔ)模型”(Robotic Foundation Model)最關(guān)鍵的一環(huán),但目前行業(yè)面臨三大核心挑戰(zhàn):數(shù)據(jù)稀缺性與泛化能力、物理真實性與規(guī)模化短缺、商業(yè)與數(shù)據(jù)飛輪的脫鉤。

      針對真機數(shù)據(jù)的稀缺性和高門檻,嘉賓們分享了各自的獨特解決方案:

      李弘揚教授團隊發(fā)布的 AgiBot World 數(shù)據(jù)集,以其百萬條真機軌跡在業(yè)界受到關(guān)注。他指出,解決高質(zhì)量數(shù)據(jù)稀缺性,需要建立人機協(xié)同的數(shù)據(jù)管線;

      楊海波總明確指出,光輪智能的底層邏輯是“AI 進入物理世界”,并通過追求物理真實、強調(diào)人類示范在環(huán)、構(gòu)建足夠豐富的場景、構(gòu)建多樣性、數(shù)據(jù)閉環(huán)驗證四個維度創(chuàng)新來解決仿真與真實世界的“領(lǐng)域差距”;

      艾歐智能選擇了一條與機器人本體解耦的技術(shù)路徑,來解決早期硬件不穩(wěn)定和數(shù)據(jù)過時的問題。他們通過多模態(tài)傳感器采集人類執(zhí)行復(fù)雜任務(wù)的行為數(shù)據(jù),而非直接采集機器人本體數(shù)據(jù);

      嘉賓對具身智能的終極目標(biāo)達成了共識:仿真合成數(shù)據(jù)是通往具身智能的必經(jīng)之路。具身智能的未來,正是在虛實融合、人機協(xié)同中,加速這一數(shù)據(jù)飛輪的轉(zhuǎn)動,最終實現(xiàn)從感知到行動的智能體落地。

      以下是此次圓桌討論的精彩分享,AI 科技評論進行了不改原意的編輯整理:


      01

      具身智能的核心挑戰(zhàn)

      岑峰:各位線上的朋友們、各位行業(yè)同仁,大家晚上好!歡迎來到由雷峰網(wǎng)(公眾號:雷峰網(wǎng))主辦的,主題為《具身智能數(shù)據(jù):賦能感知、決策與控制的智能之源》線上圓桌論壇。我是今天的主持人雷峰網(wǎng)岑峰。

      今天的線上圓桌,我們的目的正是聚焦具身智能的數(shù)據(jù)之源。我們將深入探討從數(shù)據(jù)采集、合成到閉環(huán)學(xué)習(xí)的全過程,共同挖掘如何構(gòu)建具身智能的“生命線”,解決從感知到控制的復(fù)雜難題。

      我非常榮幸地為大家介紹三位重量級的嘉賓,他們分別是:香港大學(xué)助理教授李弘揚、光輪智能的聯(lián)合創(chuàng)始人兼總裁楊海波、艾歐智能的聯(lián)合創(chuàng)始人、技術(shù)總監(jiān)高飆。

      感謝三位嘉賓的到來。在傳統(tǒng)的 AI 領(lǐng)域,我們有海量的互聯(lián)網(wǎng)數(shù)據(jù);但在具身智能領(lǐng)域,數(shù)據(jù)變得稀缺、昂貴且難以獲取。我想請三位嘉賓從各自的視角出發(fā)簡單概括,當(dāng)前具身智能數(shù)據(jù)面臨的最核心的挑戰(zhàn)、或者你們最關(guān)注的是什么?

      具身智能的“生命線”:數(shù)據(jù)基石與未來路徑 | GAIR Live 017

      李弘揚(香港大學(xué)): 具身智能現(xiàn)在核心挑戰(zhàn)在于泛化能力、智能化和可靠性。從學(xué)術(shù)角度看,最大的挑戰(zhàn)是如何在不同的機器人本體下,高效地利用海量數(shù)據(jù)(真機、仿真、互聯(lián)網(wǎng)數(shù)據(jù)),真正建立起一個“機器人基礎(chǔ)模型”(Robotic Foundation Model)。相比于設(shè)計 VOA 、世界模型等,我個人認為數(shù)據(jù)是最關(guān)鍵的一環(huán)。

      楊海波(光輪智能): 我們一直堅信 AI 已進入“數(shù)據(jù)為中心”的時代,具身智能的數(shù)據(jù)需求更為迫切。我們最關(guān)注如何利用仿真合成數(shù)據(jù),提供足夠物理真實、大規(guī)模、高質(zhì)量、高通用性和多樣性的數(shù)據(jù)去服務(wù)基礎(chǔ)模型(Foundation Model),從而幫助機器人基礎(chǔ)模型找到 Scaling law ,并迎來“ GPT 時刻”。

      高飆(艾歐智能): 從我們的角度來說,目前具身智能數(shù)據(jù)面臨的核心挑戰(zhàn)是,缺乏可以同時完成商業(yè)閉環(huán)和數(shù)據(jù)飛輪閉環(huán)的落地場景。真機采集成本高、效率低,且數(shù)據(jù)與特定硬件強耦合,難以復(fù)用。我們關(guān)注如何通過閉環(huán)的方式,推動商業(yè)和數(shù)據(jù)飛輪的正向運轉(zhuǎn),即通過人工操作機器人的方式,在使用過程中同步產(chǎn)生高質(zhì)量訓(xùn)練數(shù)據(jù),打破數(shù)據(jù)積累的瓶頸。


      02

      真機數(shù)據(jù)與仿真數(shù)據(jù)、人機協(xié)同

      岑峰: 我們接著嘉賓談到的幾個點展開。李老師,您團隊發(fā)布的 AgiBot World 數(shù)據(jù)集這一年來在學(xué)術(shù)界和產(chǎn)業(yè)界的進展如何?

      李弘揚: AgiBot World 最大的特色是擁有100多萬條真機軌跡,涵蓋雙臂、單臂、靈巧手等復(fù)雜任務(wù),今年3月份也發(fā)布了完整版,我們也收集了很多反饋。它在面對真機部署挑戰(zhàn)方面表現(xiàn)出色,但客觀來說,在高校的應(yīng)用沒有像產(chǎn)業(yè)界的其他友商用得這么多,主要原因是數(shù)據(jù)格式稍復(fù)雜,且要求捆綁式上傳云與部署,與(學(xué)術(shù)界慣用的)Umi 和 Aloha 等完全開源的還是不一樣的。

      近期我們對 AgiBot World 做了重大更新,徹底開源了 G1 模型和對比實驗結(jié)果,這個開源也是非常徹底的,和跟我們合作的公司還是做了非常大的這個爭取。我的學(xué)生也對四五萬行的代碼進行了重新的 refactor ,數(shù)據(jù)做了 pretrain ,確保論文結(jié)果是可復(fù)現(xiàn)的。我們認為:高質(zhì)量的數(shù)據(jù)分布(Data Distribution)遠比單純積累技能(Skill)更重要。

      過去一年的一些進展,非常歡迎大家在 open drive lab 的 GitHub 下面完整版的真機的模型代碼,非常歡迎大家來給我們批評指正。

      岑峰: 您還提出了人機協(xié)同數(shù)據(jù)管線理念,能否結(jié)合 Agibot World ,具體說明是如何解決具身數(shù)據(jù)的高維度和稀缺性痛點的?

      李弘揚: 人機協(xié)同的理念,我認為更多是著眼于解決高質(zhì)量數(shù)據(jù)的稀缺性問題,以及如何從素材源端確保數(shù)據(jù)質(zhì)量的配合。當(dāng)前,業(yè)界比較主流的做法是制定非常完整詳細的數(shù)據(jù)采集規(guī)范(SOP)。以疊衣服為例,規(guī)范會詳細界定操作的順序,以及不同光照條件、物體高度或衣物種類的變化等。

      要確保具身智能領(lǐng)域的健康有序發(fā)展,規(guī)范數(shù)據(jù)采集員的流程至關(guān)重要。不同的采集員,其操作習(xí)慣、甚至從 A 點到 B 點的速度控制都可能存在差異;早期開發(fā)的機器人本體,即便型號相同,其“手感”也往往不盡相同。

      在這種背景下,便更需要數(shù)據(jù)層面的人機協(xié)同。這種協(xié)同,正如最近強化學(xué)習(xí)(RL)領(lǐng)域強調(diào)的 “從失敗中學(xué)習(xí)”思路,要求在采集長序列的復(fù)雜任務(wù)時,必須妥善設(shè)置斷點。它更要求在機器遭遇錯誤示范時,能夠?qū)崿F(xiàn)及時的人工恢復(fù)。同時,還需要在素材源端詳細記錄這些操作的元數(shù)據(jù)(Meta data),以便進行高效的上傳和迭代。這些步驟對于保障數(shù)據(jù)質(zhì)量和效率是極為重要的。

      我個人雖身處高校,但曾在工業(yè)界工作過。我認為學(xué)術(shù)界,尤其是在做 AI 驅(qū)動的機器人研究時,必須做到與時俱進。如果仍抱持著不愿從事數(shù)據(jù)收集這類 “Dirty Work”,而僅僅專注于模型或算法創(chuàng)新的觀念,那很可能會被時代所淘汰。

      岑峰: 楊總,光輪從自動駕駛拓展到具身智能,底層的邏輯是什么?相比自動駕駛,具身智能的合成數(shù)據(jù)有哪些特殊挑戰(zhàn)?

      楊海波:我們并非從自動駕駛“拓展”至具身智能。自公司成立之初,我們所專注的便是“AI 進入物理世界”這一核心命題。自動駕駛和具身智能的底層邏輯是相通的,都是在賦能 AI 與物理世界的互動,而自動駕駛是我們在當(dāng)時產(chǎn)業(yè)更成熟的背景下選擇的首個落地場景。因此,我們在引入自動駕駛相關(guān)技術(shù)時,始終會考量其是否能契合具身智能的未來需求。

      誠然,具身智能與自動駕駛存在一些顯著差異,其中最大的區(qū)別在于:

      物理交互的復(fù)雜度: 自動駕駛更像是一種“視覺游戲”,其唯一的物理交互主要涉及車輛和地面的動力學(xué),解決的是避免碰撞的問題;具身智能則充滿了物理交互。無論是訓(xùn)練數(shù)據(jù),還是最終進入場景,機器人都需要與世界深度互動。例如,拉開冰箱門所需的力的大小,對溫度、光線的感知變化等。具身智能在物理真實性上的要求比自動駕駛更為復(fù)雜。

      場景的豐富性: 自動駕駛總體上是在結(jié)構(gòu)化道路上運行;而具身智能需要進入千行百業(yè)、千家萬戶,其場景的復(fù)雜度是更高的。從數(shù)據(jù)需求的量級而言,自動駕駛旨在取代“司機”這一職業(yè),而具身智能則旨在取代千行百業(yè),因此,其數(shù)據(jù)需求量至少將是自動駕駛的千倍以上。

      數(shù)據(jù)積累的短缺: 盡管自動駕駛領(lǐng)域在數(shù)據(jù)上投入巨大,但其預(yù)訓(xùn)練數(shù)據(jù)在現(xiàn)實世界中是有存量積累的,已有的海量汽車不斷在反饋數(shù)據(jù)。,我們更多的工作是對這些數(shù)據(jù)的處理(篩選、標(biāo)注等)。但具身智能當(dāng)前是本體和算法同步發(fā)明研發(fā)的階段,缺乏任何存量數(shù)據(jù)積累。因此,具身智能的預(yù)訓(xùn)練數(shù)據(jù)是極其短缺的。這一點是其相對于自動駕駛的巨大差異,同時也構(gòu)成了巨大的商業(yè)機會。

      岑峰: 仿真數(shù)據(jù)與真實數(shù)據(jù)的 “領(lǐng)域差距” 是具身智能的關(guān)鍵瓶頸。針對這些數(shù)據(jù)特點,光輪做了哪些創(chuàng)新來解決仿真與真實世界的差距?

      楊海波: 我們主要在四個方面努力,以解決保障仿真合成數(shù)據(jù)的有效性:

      首先是追求物理真實。通過不斷演進物理仿真,確保如冰箱的磁吸和阻尼這樣的仿真資產(chǎn)和構(gòu)建的場景不僅看起來真實,而且能夠進行真實的交互。同時,通過采集真實世界的物理參數(shù),如拉開冰箱門的力,來積累優(yōu)勢。

      第二,強調(diào)人類示范。 在仿真環(huán)境下進行人工遙操(人的遙操),再對這些示范動作進行泛化,有效提升擴充數(shù)據(jù)規(guī)模。

      第三是構(gòu)建場景的多樣性,仿真能夠以極快的速度(一秒鐘)擴充場景多樣性。這種多樣性對于訓(xùn)練 AI 至關(guān)重要,它能還原整個世界的分布,彌補真實采集場景的多樣性天花板。

      最后是數(shù)據(jù)閉環(huán)驗證。我們具備可視化(VI)和反向訓(xùn)練能力,能夠基于本體去驗證合成數(shù)據(jù)的有效性,并不斷提升和強調(diào)加強這種閉環(huán)驗證能力。

      岑峰: 高總,具身智能的數(shù)據(jù)不僅僅需要訓(xùn)練感知,更需要訓(xùn)練決策和控制,而艾歐智能也更側(cè)重于后者。在實際操作中,您是如何構(gòu)建人形機器人復(fù)雜任務(wù)的數(shù)據(jù)集,以及如何從零開始解決訓(xùn)練決策和控制的問題?

      高飆: 您提出的這個問題非常關(guān)鍵。在我們 2023 年創(chuàng)業(yè)初期,整個具身智能行業(yè),尤其是人形機器人本體的硬件,包括關(guān)節(jié)、電機、靈巧手、力控傳感器等核心部件,都處于快速迭代但尚未完全成熟的階段。在這種背景下,如果我們直接依賴特定的機器人本體去采集大量復(fù)雜任務(wù)的數(shù)據(jù),將面臨兩個根本性的問題:其一,硬件的不穩(wěn)定性會導(dǎo)致數(shù)據(jù)采集失敗率較高;其二,硬件在快速迭代的過程中頻繁升級,會使已采集的數(shù)據(jù)迅速過時,難以形成有效的積累。

      因此,我們當(dāng)時選擇了一條與機器人本體解耦的技術(shù)路徑。我們不直接采集機器人執(zhí)行任務(wù)的數(shù)據(jù),而是通過多模態(tài)傳感器采集人類執(zhí)行相同復(fù)雜任務(wù)的行為數(shù)據(jù)。

      這種人類示范數(shù)據(jù)的路徑有一個核心優(yōu)勢:人的數(shù)據(jù)是一個通用的中間媒介,它不受任何特定機器人硬件構(gòu)型的限制。不論是早期不成熟的本體,還是未來升級換代的新機型,甚至不同廠商打造的機器人,都可以基于這套人類數(shù)據(jù)進行策略學(xué)習(xí)和行為模仿。這為我們構(gòu)建可遷移、可復(fù)用的數(shù)據(jù)資產(chǎn)奠定了良好的基礎(chǔ)。我們貢獻的這部分高質(zhì)量人類示范數(shù)據(jù),也參與了當(dāng)時由 Google DeepMind 主導(dǎo)的 Open-X Embodiment 數(shù)據(jù)集的構(gòu)建,并在 ICRA 2024一場會議上獲得了最佳論文獎,這從側(cè)面印證了人類行為數(shù)據(jù)在具身智能研究中的重要價值。

      當(dāng)然,我們清楚當(dāng)前國內(nèi)市場主流的數(shù)據(jù)采集方式仍是通過遙操作或機械臂直接采集機器人本體數(shù)據(jù)。但今年特斯拉公布的數(shù)據(jù)路線,也表明他們將以人類第一視角視頻和穿戴式設(shè)備采集為主,輔以部分真機遙操作數(shù)據(jù)。這種路線的官宣使我們看到,這種以人為媒介的范式正受到越來越多的研究者和行業(yè)的關(guān)注。因此,我們相信隨著具身模型在跨模態(tài)和泛化性能力上的持續(xù)突破,由人類穿戴采集設(shè)備產(chǎn)生高質(zhì)量行為數(shù)據(jù)的方式,在未來應(yīng)具備更大的潛力。

      岑峰: 陳相宇羽陳總曾指出,“機器人缺乏數(shù)據(jù)飛輪閉環(huán)”,當(dāng)前行業(yè)阻礙數(shù)據(jù)飛輪高效運轉(zhuǎn)的核心瓶頸是什么?艾歐通過 “遙控操作對齊特定機器人構(gòu)型” 的策略,如何加速這一閉環(huán)的形成?

      高飆: 如我一開場提到的,具身智能目前核心瓶頸是數(shù)據(jù)的不可復(fù)用性和采集的高門檻。真機采集成本高、迭代慢、有風(fēng)險,導(dǎo)致數(shù)據(jù)積累效率低。

      我們的策略是通過“遙操作 + 通用映射算法”來加速閉環(huán):

      針對全新構(gòu)型的機器人,我們快速冷啟動: 我們能在一周內(nèi)完成構(gòu)型映射的適配,快速啟動訓(xùn)練數(shù)據(jù)采集。

      模型部署后,在真實場景中出現(xiàn)失敗案例時,可以通過遙操作及時接管和糾正,完成閉環(huán)迭代(糾錯)。在這個過程中,就能采集到從失敗中恢復(fù)的高質(zhì)量反饋數(shù)據(jù),反哺模型優(yōu)化,形成數(shù)據(jù)飛輪的閉環(huán)。


      03

      產(chǎn)學(xué)協(xié)同與數(shù)據(jù)終局

      岑峰: 李老師,從數(shù)據(jù)采集到訓(xùn)練部署的閉環(huán)中,產(chǎn)學(xué)雙方可以通過怎樣不同的方式進行協(xié)同?

      李弘揚: 當(dāng)前具身智能領(lǐng)域普遍面臨數(shù)據(jù)短缺,高校的算力、硬件、數(shù)據(jù)資源有限,往往只能結(jié)合小規(guī)模仿真或有限真機數(shù)據(jù)來驗證模型架構(gòu)。我們期望能有像 Waymo 在自動駕駛領(lǐng)域那樣的具有義務(wù)擔(dān)當(dāng)?shù)墓荆暙I出高質(zhì)量的具身真機數(shù)據(jù),但目前國內(nèi)外尚未出現(xiàn)具備這種級別影響力的真機數(shù)據(jù)集。

      現(xiàn)在行業(yè)沉浸在一種“虛幻的繁榮”中:大家熱衷于發(fā)布炫酷視頻和技術(shù)博客,但對核心的工程細節(jié)如數(shù)據(jù)量、訓(xùn)練 Trick、如何 Scale Up卻“藏著掖著”。真正的 Live Demo 往往不起推敲,因為沒有真正下場實踐。

      我認為產(chǎn)學(xué)協(xié)同應(yīng)該更緊密:

      在這種背景下,產(chǎn)學(xué)協(xié)同有幾個關(guān)鍵點,首先是資源整合, 高校擁有算法和模型創(chuàng)新的能力,但缺乏大規(guī)模 Scale Up 的資源,需要依托擁有真機本體、仿真、動捕、互聯(lián)網(wǎng)爬取等不同資源的企業(yè),共同形成一個開放的素材或?qū)嵱?xùn)平臺。

      產(chǎn)學(xué)研的邊界正在模糊,如果還抱著傳統(tǒng)大學(xué)的思路,就會被時代淘汰。高校應(yīng)該靈活擁抱變化,允許教師和學(xué)生深度參與產(chǎn)業(yè)合作,例如到創(chuàng)業(yè)公司擔(dān)任首席或獲取行業(yè)真實案例。

      我們的最終目標(biāo)是,高校追求影響力,企業(yè)追求盈利,兩者互為補充,并不矛盾。高校可以作為 “Trainer”,培養(yǎng)基礎(chǔ)技術(shù)人才,而企業(yè)提供 “真實的作業(yè)題”,讓產(chǎn)學(xué)研結(jié)合更加緊密。

      岑峰: 您在 AgiBot World 開源后,有沒有進一步和產(chǎn)業(yè)界進行合作的具體想法?

      李弘揚: 回顧自動駕駛的經(jīng)驗,偉大的數(shù)據(jù)集(如 Waymo、nuScenes)往往與一家擁有資源的、具有驅(qū)動力的公司強綁定,因為只有公司有資源和動力來做這件事(例如 Waymo、New THINGS)。

      AgiBot World 在發(fā)布后,Open Drive Lab 團隊將保持中立,AgiBot World 未來需要依靠整個 Community(社區(qū)) 來維護。我們團隊傾向于保持中立,但未來計劃與多方資源進行合作,例如硬件本體廠商提供真機采集,仿真和互聯(lián)網(wǎng)數(shù)據(jù)公司提供合成數(shù)據(jù)和 Web Data,動捕公司提供行為數(shù)據(jù),等等。

      我們希望依托這些資源,最終形成一種開放式的素材平臺或?qū)嵱?xùn)廠。盡管目前國內(nèi)的新型研發(fā)機構(gòu)還停留在比較初級的階段,但我相信這是朝著好的方向發(fā)展。我個人仍對未來樂觀,相信在未來一兩年內(nèi),具身智能領(lǐng)域一定會迎來像 ImageNet 或 Waymo 那樣的劃時代數(shù)據(jù)集。

      岑峰: 您如何看待機器人領(lǐng)域中真機數(shù)據(jù)和合成數(shù)據(jù)的長期關(guān)系?

      李弘揚: 包括動捕、遙操在內(nèi)的真機數(shù)據(jù)、仿真數(shù)據(jù)和互聯(lián)網(wǎng)第一視角的 Web Data。這肯定是一個三者協(xié)同發(fā)展的關(guān)系。

      在數(shù)據(jù)量上,Web Data 肯定最多,其次是仿真,真機最少,它不是一個固定的“數(shù)據(jù)金字塔”結(jié)構(gòu),三者的比例是可以調(diào)整的。

      我認為仿真數(shù)據(jù)是非常必要的。 仿真數(shù)據(jù)在處理剛性物體(如 Pick and Place)時非常有效,但在處理對柔性物體(如疊衣服)等任務(wù),仿真在短期內(nèi)很難解決。因此,真機數(shù)據(jù)是不可或缺的。

      長期趨勢上,大方向是真機和仿真兩個方向都要努力。真機團隊要研究 Data Efficiency(數(shù)據(jù)效率)和 Low-Cost Efficient Data Collection System(低成本高效數(shù)據(jù)采集系統(tǒng));仿真團隊要攻克自身的痛點。終有一天兩者會“會師”,屆時主要問題將是調(diào)節(jié)比例和解決 sim to real gap。

      岑峰: 會師的時候是不是就是您之前提到的,真機數(shù)據(jù)普及化的具身智能的 ImageNet 時刻?

      李弘揚: 是的。具身智能目前還遠遠沒到自動駕駛的下半場(以真車數(shù)據(jù)為主)。實現(xiàn) ImageNet 時刻需要滿足的條件是硬件穩(wěn)定性與形態(tài)的統(tǒng)一,具身智能本體形態(tài)差異極大,從五六個自由度的機械臂到幾十個自由度的人形機器人。只有等到硬件形態(tài)、靈巧手、視觸覺等達到相對統(tǒng)一,真機數(shù)據(jù)才會有用。只有硬件的穩(wěn)定性得到保障,形成了持久的影響力,才能被稱為 ImageNet 時刻。


      04

      數(shù)據(jù)服務(wù)模式創(chuàng)新、仿真與訓(xùn)練整合的平臺化

      岑峰:楊總,在具身智能的領(lǐng)域,您認為仿真技術(shù)最終會發(fā)展成獨立的一個產(chǎn)業(yè)鏈,還是成為一個標(biāo)準(zhǔn)化的工具,賦能所有的具身智能公司?光輪在這樣的一個趨勢下會怎么看?會做怎樣的一個布局?

      楊海波:我覺得仿真肯定是越來越受到重視了。相較于自動駕駛,具身智能對于仿真的需求更為迫切,要求也更高。這主要是由于具身智能面臨著數(shù)據(jù)嚴重短缺和多樣性場景獲取困難等根本性問題,這些挑戰(zhàn)可能只有通過仿真才能有效地解決。。

      在現(xiàn)階段,光輪仍主要根據(jù)客戶的具體需求,提供定制化的仿真合成數(shù)據(jù)服務(wù)。同時,我們正致力于構(gòu)建一個“仿真與算力相結(jié)合的平臺”,旨在通過提供標(biāo)準(zhǔn)化的接口,直接服務(wù)于模型的訓(xùn)練過程。我們?yōu)槭裁纯梢宰鲞@個平臺底層?是因為我們已經(jīng)在仿真這塊構(gòu)建了很多 Benchmark ,定義了很多具身仿真的事實標(biāo)準(zhǔn)。

      例如,我們提出了一個名為 “LW Ready”(光輪就緒仿真完備)的資產(chǎn)和場景標(biāo)準(zhǔn)。這不僅僅要求資產(chǎn)達到物理真實性(Physical Ready),還要求其能支持遙操作,并滿足強化學(xué)習(xí)(RL Ready)的需求。基于這些積累的行業(yè)認知、經(jīng)驗和規(guī)范,我們正逐步構(gòu)建這一仿真平臺。未來,我們的服務(wù)模式可能將從單純的“購買數(shù)據(jù)”轉(zhuǎn)向“在我方平臺進行訓(xùn)練”,即提供算力與數(shù)據(jù)整合的服務(wù)。,這是我們持續(xù)演進的方向,盡管目前仍處于為客戶提供定制化數(shù)據(jù)解決方案的階段。

      岑峰: 您提到的這種模式是類似于云計算這樣的整合平臺模式嗎?

      楊海波: 是的,可以類比。

      岑峰: 光輪的仿真合成數(shù)據(jù)與世界模型生成的數(shù)據(jù),兩者之間存在怎樣的關(guān)系?它們分別發(fā)揮著何種作用?以及光輪將如何規(guī)劃其數(shù)據(jù)產(chǎn)品布局?

      楊海波: 這是一個行業(yè)普遍關(guān)注的焦點。我們的仿真合成數(shù)據(jù)實際上也服務(wù)于世界模型開發(fā)企業(yè),這些世界模型在生成數(shù)據(jù)時往往缺乏物理信息真實,因此它們需要我們的數(shù)據(jù)來彌補這種物理信息的缺失,從某種意義上說,它們也是我們的客戶。

      剛才李老師也提到了數(shù)據(jù)金字塔,關(guān)于具身數(shù)據(jù)金字塔,我們的理解是:

      塔底(量大價低): 例如視覺模型生成數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù),主要用于預(yù)訓(xùn)練,目標(biāo)是覆蓋更廣泛的多樣性。

      中間層: 仿真遙操合成數(shù)據(jù),質(zhì)量和成本適中。

      塔尖(量少質(zhì)高): 真機數(shù)據(jù),質(zhì)量最高,主要用于后續(xù)的微調(diào)(Finetuning)。

      我們致力于成為一個以仿真合成數(shù)據(jù)為中心,提供全要素數(shù)據(jù)解決方案的供應(yīng)商。這意味著我們不僅提供核心的仿真合成數(shù)據(jù),其邊界也將向上和向下擴展:向下延伸至服務(wù)視覺模型生成的數(shù)據(jù),向上則會涉及真機數(shù)據(jù)。

      岑峰: 光輪將重點關(guān)注數(shù)據(jù)金字塔的哪一個部分呢?

      楊海波: 我們關(guān)注所有部分,但我們重點的技術(shù)和能力演進方向在于仿真合成數(shù)據(jù)這一層。雖然我們一定會涉獵真機數(shù)據(jù)等,但我們的中心始終聚焦于中間層,即仿真合成數(shù)據(jù)。


      05

      數(shù)據(jù)飛輪的構(gòu)建:硬件演進與虛實融合

      岑峰: 請教一下高總,您認為未來的硬件,比如說像傳感器、計算芯片的發(fā)展,會如何影響數(shù)據(jù)采集與處理的方向?艾歐是否已經(jīng)針對這些趨勢調(diào)整自己的一些工具鏈?

      高飆: 硬件無疑是具身智能這座大廈的基石,其演進必將深刻地影響整個行業(yè)的數(shù)據(jù)范式。未來的硬件發(fā)展將體現(xiàn)在以下幾個方面:

      首先,新型傳感器將提升數(shù)據(jù)的維度和保真度。例如,更高分辨率的視觸覺傳感器、柔性電子皮膚等的出現(xiàn),使得機器人能夠獲得更接近人類的感知能力。這些傳感器不僅能捕捉觸覺、滑動、材質(zhì)等細微信號,還具備高動態(tài)響應(yīng)能力。這意味著我們采集到的數(shù)據(jù)將不再是簡單的動作和圖像,而是包含越來越多豐富的物理交互的多模態(tài)數(shù)據(jù)流。我們正在持續(xù)更新工具鏈,以支持這些新的模態(tài)數(shù)據(jù),包括時間同步、數(shù)據(jù)預(yù)處理等功能,以及針對觸覺、力控信息的數(shù)據(jù)可視化和標(biāo)注工具,幫助研究者和客戶更好地理解和利用這些提升后的數(shù)據(jù)。

      其次,隨著傳感器硬件的成熟,其成本下降和普及也將是一個必然過程。例如,平價激光雷達的出現(xiàn),使得終端機器人也具備了 3D 環(huán)境感知能力。這種傳感器的普及要求我們的采集系統(tǒng)具備更大帶寬的存儲和數(shù)據(jù)處理能力。

      第三,邊緣計算能力的提升使得“邊采集邊處理”成為可能。例如,我們在自研的動捕服中集成了端側(cè)預(yù)處理模塊,能夠在采集數(shù)據(jù)的過程中實時完成姿態(tài)解算、傳感器抗干擾和系統(tǒng)監(jiān)測等功能。這些硬件能力的提升,不僅提高了數(shù)據(jù)質(zhì)量,也顯著加快了后續(xù)數(shù)據(jù)后處理的效率,讓數(shù)據(jù)采集本身更高效、更閉環(huán)。這是推動具身真機數(shù)據(jù)成本逐漸降低,并最終迎來李老師所說的 ImageNet 時刻的必備條件。隨著具身行業(yè)硬件的推陳出新,我們的工具鏈也在不斷地成長和完善。

      岑峰: 在具身智能的數(shù)據(jù)飛輪這樣一個過程中,合成數(shù)據(jù)如果要成為獨立的一個商業(yè)化產(chǎn)品,艾歐作為全鏈路的服務(wù)商將會扮演怎樣的一個角色?

      高飆: 我們判斷,在未來相當(dāng)長的一段時間里,具身智能的發(fā)展將依賴于真實數(shù)據(jù)與合成數(shù)據(jù)的協(xié)同驅(qū)動。純粹依賴真機采集成本高、速度慢;而單純依賴合成數(shù)據(jù)則會面臨 "Sieem to Real Gap"(仿真與真實世界的差距)和物理真實性等挑戰(zhàn)。我們認為更可行的路徑是構(gòu)建一個虛實融合的高效數(shù)據(jù)閉環(huán):用少量高質(zhì)量真實數(shù)據(jù)冷啟動,通過合成數(shù)據(jù)進行大規(guī)模增廣,在仿真環(huán)境中驗證策略,最終再回到真實環(huán)境部署并收集反饋,形成持續(xù)迭代的數(shù)據(jù)飛輪。

      在這個閉環(huán)中,艾歐希望扮演一個類似于連接器的角色。我們看到了幾個核心機會點:

      第一,將真實世界的采集能力遷移到仿真環(huán)境。目前很多模型依賴強化學(xué)習(xí)在仿真中試錯,效率較低,且獎勵函數(shù)難以覆蓋復(fù)雜的長尾任務(wù)。艾歐積累的遙操作和多模態(tài)數(shù)據(jù)采集工具鏈,可以復(fù)用到仿真環(huán)境中,讓人類操作員在虛擬世界中遙控仿真機器人執(zhí)行任務(wù),生成高質(zhì)量的專家示教數(shù)據(jù)。這種“人在環(huán)路”的仿真數(shù)據(jù)生成方式,能夠在合成數(shù)據(jù)中保留人類真實操作的動作和決策邏輯。我們正與光輪等伙伴合作推進,打通動捕遙操作系統(tǒng)與高保真仿真引擎,構(gòu)建虛實結(jié)合的數(shù)據(jù)生成流水線。

      第二,成為合成數(shù)據(jù)的質(zhì)量驗證方。當(dāng)合成數(shù)據(jù)成熟到可以 API 形式對外服務(wù)時,如何評估其質(zhì)量將成為關(guān)鍵。我們認為,真實世界采集的高質(zhì)量人類示范數(shù)據(jù)或真機行為數(shù)據(jù),應(yīng)該成為衡量合成數(shù)據(jù)可信度的標(biāo)準(zhǔn)。艾歐長期積累的不同機器人構(gòu)型、多模態(tài)、多任務(wù)真實數(shù)據(jù)集,可用于構(gòu)建 Benchmark,評估不同合成數(shù)據(jù)源在任務(wù)成功率、行為合理性及物理一致性等方面的性能。未來,我們計劃開源更大規(guī)模的數(shù)據(jù)集,共同推動具身行業(yè)的發(fā)展。

      岑峰: 從艾歐的視角上看,要突破哪些目前被忽視但是又很關(guān)鍵的問題?

      高飆: 在達到通用智能體這個終極目標(biāo)之前,還有很長的路要走。我們認為,當(dāng)前被忽視但又很關(guān)鍵的問題是:找到一個能讓“商業(yè)閉環(huán)”和“數(shù)據(jù)閉環(huán)”同時存在的落地方式。

      目前,單純?yōu)榱瞬杉瘮?shù)據(jù)而搭建數(shù)據(jù)采集場的模式,成本極高,很難通過這種模式達到 ImageNet 時刻。我們認為,需要有一個商業(yè)閉環(huán)的過程,讓機器人首先在真實環(huán)境中“用起來”。

      舉例來說,即使機器人在工廠擰螺絲的效率(如 70%)暫時不如人類工人,但它在工作中同時產(chǎn)生真實場景的數(shù)據(jù)。這些數(shù)據(jù)對于模型公司和本體公司而言,是極有價值的資產(chǎn)。機器人在當(dāng)前工作效率不及人類時,其產(chǎn)生的數(shù)據(jù)價值加上其工作價值,可能超過一個單純的人類崗位所產(chǎn)生的價值。

      通過這種方式,讓機器人在真實環(huán)境中先運行起來,積累數(shù)據(jù),進而在一些垂直場景跑通具身小模型(如商超模型、醫(yī)院模型)。通過真實的商業(yè)閉環(huán)和數(shù)據(jù)的反哺,不斷迭代,這才是最終通向通用智能體出現(xiàn)的前置階段。


      06

      觀眾問答:長尾數(shù)據(jù)與服務(wù)場景的挑戰(zhàn)

      岑峰: 有觀眾提問,具身智能領(lǐng)域應(yīng)如何解決數(shù)據(jù)長尾問題?

      高飆: 數(shù)據(jù)長尾問題在技術(shù)和學(xué)術(shù)層面尚未獲得根本性解決,即便是已進入下半場的自動駕駛行業(yè)亦是如此。長尾問題涉及地面低矮障礙物、各種不規(guī)則的掉落物等難以窮舉的場景。

      鑒于長尾問題在根本上難以消除,我們只能通過工程化策略和落地實踐來緩解。主要的解決途徑包括:

      數(shù)據(jù)層面的增強: 以真實數(shù)據(jù)為基礎(chǔ),利用仿真技術(shù)進行數(shù)據(jù)增廣,特別是在真實環(huán)境難以模擬的情況下,可完全采用合成數(shù)據(jù)來生成長尾場景,以增加數(shù)據(jù)量。

      主動探索與失敗注入: 在真實數(shù)據(jù)采集中,不僅要記錄成功的案例,更要主動設(shè)計和誘導(dǎo)異常、失敗案例。例如,在一個收拾玩具的任務(wù)中,故意誘導(dǎo)機器人抓取失敗,然后記錄其從失敗中恢復(fù)并重新拾取的完整動作,這種“失敗數(shù)據(jù)注入”能有效緩解長尾問題。

      模型學(xué)習(xí)方法創(chuàng)新: 引入小樣本學(xué)習(xí)(Few-shot Learning)或元學(xué)習(xí)(Meta-Learning)等新方法,使模型具備快速適應(yīng)和舉一反三的能力,例如通過一到兩次的人類示范,快速啟動新的長尾任務(wù)。

      解決長尾問題需要數(shù)據(jù)和模型學(xué)習(xí)方法兩個維度共同努力,構(gòu)建一個持續(xù)收集長尾數(shù)據(jù)并反哺模型的飛輪。從學(xué)術(shù)角度根本解決此問題,仍需長期努力。

      岑峰: 楊總,您對于長尾問題有何補充?自動駕駛的 Corner Case 與具身智能的長尾數(shù)據(jù)有何異同?光輪如何應(yīng)對這些挑戰(zhàn)?

      楊海波: 在自動駕駛領(lǐng)域,我們主要通過合成數(shù)據(jù)解決角點案例(Corner Case)。合成數(shù)據(jù)的核心優(yōu)勢之一就是處理這些罕見且關(guān)鍵的案例。鑒于我們已大規(guī)模服務(wù)于國內(nèi)外頭部車企,我們認為這在自動駕駛中是行之有效的解法。

      不過,我傾向于將其稱為“長尾場景數(shù)據(jù)”而非“角點案例”,因為后者常給人以稀少的感覺,而實際上它是一個非常龐大的長尾分布。對于具身智能而言,當(dāng)前仍處于發(fā)展早期階段,數(shù)據(jù)積累不足,因此探討長尾問題尚為時過早,長尾現(xiàn)象通常在模型進入后續(xù)訓(xùn)練(Finetuning)階段才會顯現(xiàn)。

      岑峰: 具身智能在服務(wù)業(yè)有巨大需求。艾歐如何看待并實現(xiàn)類似護工這類需要與人互動的垂直場景?

      高飆: 在當(dāng)前階段,單純依靠 AI 模型來處理護工與人的互動是比較困難的。用戶期望機器人具備人類情感,但目前大語言模型的交互效果與公眾預(yù)期仍存在差距。

      從我們的實踐來看,一種更為落地的方案是采用人機協(xié)同的遠程遙操作。即機器人背后由真人控制,通過攝像頭和麥克風(fēng)與病人實時交互。這種模式能讓患者感知到機器背后有真人的存在,從而在接受護理服務(wù)時更為安心。

      盡管目前市場上也有利用 AI 模型進行情感陪伴的產(chǎn)品,但多數(shù)大型語言模型的用戶數(shù)據(jù)顯示,將其用于情感交流和傾訴的比例很低。目前 AI 陪護應(yīng)用更適合心智尚未成熟的兒童,例如 AI 陪伴玩具,這是 AI 完成陪護任務(wù)中較為落地的場景。

      岑峰: 楊總,對于具身智能在服務(wù)業(yè)的落地,您如何從數(shù)據(jù)角度實現(xiàn)閉環(huán)?

      楊海波: 在這個問題上,仿真和合成數(shù)據(jù)是放大器和加速器。當(dāng)一個預(yù)訓(xùn)練模型需要進入特定服務(wù)場景進行后續(xù)訓(xùn)練時,傳統(tǒng)方法是直接在真實場景中采集數(shù)據(jù)。

      我們更傾向于采用 “Real to 2Sim”(真實到仿真)再到 “Sim to 2Real”(仿真到真實)的路徑:

      Real to 2Sim: 將目標(biāo)服務(wù)場景(例如醫(yī)院病房)在仿真環(huán)境中重建出來。

      Sim Training: 模型首先在仿真環(huán)境中高效地進行大規(guī)模訓(xùn)練。

      Sim to 2Real: 模型訓(xùn)練成熟后,再部署到真實環(huán)境進行微調(diào)。

      這種方式能極大地加速和提高效率。同時,我也認同高總的觀點,在模型尚不穩(wěn)定的現(xiàn)階段,一定程度的遙操作是必要的,它既能保障操作安全,也能在實踐中持續(xù)收集高質(zhì)量數(shù)據(jù),從而驅(qū)動數(shù)據(jù)飛輪高效運轉(zhuǎn)。

      岑峰: 感謝兩位嘉賓們的深入討論。最后,請嘉賓用一句話總結(jié)今天的討論,并展望具身智能數(shù)據(jù)的未來。

      楊海波: 仿真合成數(shù)據(jù)是通往具身智能的必經(jīng)之路。

      高飆: 具身智能的未來不在于誰擁有最多的數(shù)據(jù),而在于誰能夠最快地讓數(shù)據(jù)飛輪轉(zhuǎn)起來。艾歐智能愿意成為推動數(shù)據(jù)飛輪轉(zhuǎn)動的第一推手。


      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      分享:
      相關(guān)文章
      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 99久久精品费精品国产一区二区 | 人妻精品中文字幕| 亚洲人成综合网站7777香蕉| 国内精品久久久久伊人aⅴ| A成片人| 国产三级精品三级在专区| 亚洲人妻av伦理| 亚洲人成电影在线播放| 国产亚洲av嫩草久久| 欧美另类精品xxxx人妖| 亚洲图片另类| 家居| 中文字字幕乱码视频高清| 国产成人亚洲综合网站小说| 亚洲精品综合网站| 国产欧美日韩在线在线播放| 日韩av影院在线观看| 国产传媒在线观看| 韩国午夜福利片在线观看| 午夜福利影院不卡影院| 国产亚洲天堂另类综合| 国产九色AV刺激露脸对白| 色香色欲综合网| 麻豆tv入口在线看| 性按摩玩人妻hd中文字幕| 色狠狠一区二区三区香蕉| 色综合久久成人综合网| 国产呦交精品免费视频| 亚洲精品字幕| 国产精品一二| 国产主播无套内射一区| 少妇下面好紧好多水真爽播放| 亚洲欧美精品综合在线观看| 狠狠88综合久久久久综合网 | 精品人妻| 超碰97人妻| 上海av电影在线观看| 人妻丝袜中文无码AV影音先锋专区 | 怡春院AV| 中国少妇无码专区| 一起草AV|