0
雷峰網(wǎng)訊 12月12日,第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。
本次大會為期兩天,由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。大會共開設三個主題論壇,聚焦大模型、具身智能、算力變革、強化學習與世界模型等多個議題,描繪AI最前沿的探索群像,折射學界與產業(yè)界共建的智能未來。
作為 AI 產學研投界標桿盛會,GAIR自2016年創(chuàng)辦以來,始終堅守 “傳承+創(chuàng)新” 內核,是 AI 學界思想接力的陣地、技術交流的平臺,更是中國 AI 四十年發(fā)展的精神家園。過去四年大模型驅動 AI 產業(yè)加速變革,歲末年初 GAIR 如約而至,以高質量觀點碰撞,為行業(yè)與大眾呈現(xiàn)AI時代的前沿洞見。
在12月13日的“數(shù)據(jù)&一腦多形”專場,上海人工智能實驗室青年科學家王靖博進行了以《從虛擬走向現(xiàn)實,構建通用人形機器人控制與交互策略》為主題的演講。
長期以來,人形機器人的研究是否必要一直存在著爭議。演講伊始,王靖博博士就對此做出了回應。他指出,由人類搭建的真實生活環(huán)境,也面向人類的各種需求,這決定了人形必然是一種相對通用的方案。在數(shù)據(jù)維度,互聯(lián)網(wǎng)上有大量來源于人類日常生活的第一人稱及第三人稱數(shù)據(jù),其中包含的運動邏輯和操作邏輯,對于模型訓練來說都是可用資源。在應用層,人形機器人的交互邏輯、安全性等研究,最終也會回饋到人自身。
而人形機器人現(xiàn)階段研究的核心問題之一,就是如何在仿真中訓練機器人,并使其在真實世界中實現(xiàn)穩(wěn)定、可泛化的運動與控制。由于仿真環(huán)境與真實物理世界之間存在的差異,人形機器人的技能訓練與部署長期面臨著Sim2Real的鴻溝。對此,王靖博博士介紹了其團隊的最新成果,通過對日常生活環(huán)境的集成性構造,以及創(chuàng)新的感知和表示方案,顯著提升了復雜地形下運動策略的遷移成功率。其核心在于用體素化的點云表示壓縮環(huán)境信息,并在仿真中引入機器人本體的激光雷達自掃描,以更好地對齊仿真與真實的傳感器數(shù)據(jù)分布,從而使機器人能提前感知地形變化,如臺階、吊頂,并預先規(guī)劃動作,而非依賴碰撞后的力反饋。
此外,王靖博博士在演講中提到了構建統(tǒng)一的動作技能表征,作為基礎的人形機器人運動控制模型,可以進一步拓展在有效的可遷移的人形機器人感知方案下的動作與技能選擇,使得人形機器人可以在基礎的運動之外完成和場景的交互已經多種球類運動。
在演講中,王靖博博士進一步指出,人形機器人的控制策略正從“盲走盲動”轉向“感知驅動”,融合視覺、激光雷達等環(huán)境感知,以實現(xiàn)機器人在復雜、非結構化環(huán)境中的自主導航與交互是必然趨勢。關于人形機器人的未來,王靖博博士認為,當前的模型參數(shù)量和學習方式限制了技能容量和更多元控制形式的探索。長遠來看,構建容量更大,更高效利用數(shù)據(jù)的方案,例如離線的監(jiān)督學習,是提升機器人技能通用性和長程控制能力的可行路徑。
以下為王靖博的現(xiàn)場演講內容,雷峰網(wǎng)(公眾號:雷峰網(wǎng))進行了不改變原意的編輯整理:
大家好,我是王靖博,來自上海人工智能實驗室具身智能中心。我們主要研究方向是人形機器人的技能學習以及Sim2Real相關課題。
我今天的報告是想分享最近人形機器人全身控制方面的進展,正好今天也站在2025年的年底,對明年我覺得比較重要的問題做一些展望。首先很多人會對人形機器人或者人形角色有這樣的疑問,就是我們?yōu)槭裁磿パ芯窟@樣一個課題。在真實世界中做機器人,為什么一定要做成這么一個人形的形態(tài)?在虛擬世界里建模的時候,為什么也特別關心人類這樣一種特定的對象?
選擇人形角色作為研究對象,主要基于以下三方面原因。首先,現(xiàn)實物理世界的生活場景大多圍繞人類需求搭建,因此針對人形角色開展的研究方案具備天然的通用性。其次,從數(shù)據(jù)維度分析,除自然風光與動物相關數(shù)據(jù)外,互聯(lián)網(wǎng)中蘊藏著海量源于人類日常生活的數(shù)據(jù)集,無論是第一人稱還是第三人稱視角,均包含豐富的人類運動與操作邏輯,可為研究提供充足的數(shù)據(jù)支撐。最后,人形角色研究具備顯著的應用價值,以自動駕駛領域為例,其核心目標之一便是保障人機交互過程中的安全性,避免車輛對行人造成傷害。綜上,從研究對象的適配性、數(shù)據(jù)資源的豐富度到應用場景的實用性來看,人形角色都是理想的研究載體。
本研究的核心主題聚焦于人形角色中央控制系統(tǒng)的構建方法。研究中,所有人形角色的訓練均在仿真環(huán)境中完成,最終目標是實現(xiàn)模型從仿真到真實物理世界的遷移,達成人形角色的自主化運行。具體而言,研究重點關注以下兩個關鍵問題:其一,技能的真實世界落地及仿真到現(xiàn)實遷移(Sim2Real)的核心要點,包括行走、奔跑、跳躍、下蹲等基礎技能的習得方式,以及如何在不同人形硬件平臺、高噪聲環(huán)境下完成穩(wěn)定部署,確保機器人可靠執(zhí)行各類技能;其二,技能的精準調用與靈活組合策略,例如上樓梯動作需實現(xiàn)雙腿交替抬升的協(xié)同控制,側踢動作則要求單腿支撐身體平衡的同時完成另一腿的精準抬起。此外,系統(tǒng)還需具備語言指令的精準理解與執(zhí)行能力,能夠在真實非結構化地形中實現(xiàn)無碰撞運動,確保人形角色在復雜場景下的穩(wěn)定運行
關于具體的控制方案怎么做,今天我就不展開細講了。我想和大家重點探討的,是另一個核心話題——就是如何把高頻感知,也就是perception,和控制策略(control policy)深度結合起來。
大家可以先想一想:我們?yōu)槭裁幢仨氁龈兄c控制的融合?首先,對于人形機器人來說,我們肯定不希望它只能在平地上活動吧?那最基礎的一點,它就必須具備理解環(huán)境幾何結構的能力。其次,如果我們想讓它從A點走到B點,再完成拿取物品的任務,它就必須精準掌握自己的位置,以及目標物體的位置。第三點也很關鍵,機器人所處的環(huán)境里不只有它自己——實際應用中,我們往往需要它和其他角色產生交互,所以這種互動能力(interaction)對它來說至關重要。
基于這幾點,我們可以把問題簡化一下。我們先從最基礎的問題入手,就是人形角色的局部運動(local motion)。我們絕不希望人形機器人只能局限在平地上活動,就像大家在機器人馬拉松這類視頻里看到的那樣,在平坦地面上,靠人操控搖桿才能移動。
給大家舉個具體的場景:假設我有一臺人形機器人,讓它從這個門進來,要在一間結構非常復雜的屋子里活動——這里到處都是障礙物,還有樓梯、吊頂之類的遮擋物,最終目標是讓它順利從門口走到二樓的門口。在這個任務場景下,機器人的感知需求就會收斂成幾個核心研究方向:比如腳下的地形是什么形態(tài)、周圍的物體是什么、頭頂上方的環(huán)境又是什么樣。我們希望能打造這樣一套控制策略,能夠使得這個人形機器人在擬人運動的同時,把這些所有障礙都避開。
那為了實現(xiàn)這樣一件事,第一個比較基礎的思路,是用RGB相機。但用RGB相機做Sim2Real(仿真到現(xiàn)實遷移),會面臨不少問題。如果大家用過Isaac Lab這類仿真器就知道,仿真環(huán)境里的光照、紋理和真實世界差距很大,渲染出來的圖像和真實場景完全不同。要是基于這種仿真圖像去做Sim2Real遷移,你會發(fā)現(xiàn)訓練出的策略根本無法理解真實世界——在這種情況下,模型完全沒法適配真實環(huán)境的樣子。第二個問題是RGB相機缺乏幾何信息。我們做最基礎的局部運動(local motion),核心是要理解地形,但RGB圖像沒法直接呈現(xiàn)任何幾何信息,這也是個很棘手的問題。
第二種方案是深度相機,這也是很多人在研究的方向。早年有些工作,確實有用深度相機做環(huán)境重建或者避障的嘗試。但我想做的,是一套不需要預建地圖的控制策略。而且我們大概率需要讓這個感知方案和最基礎的強化學習(RL)策略一起訓練,所以深度相機同樣會存在Sim2Real的鴻溝。在仿真環(huán)境里,深度數(shù)據(jù)都是非常干凈、邊緣銳利的幾何形態(tài),但在真實世界中,用深度相機采集到的數(shù)據(jù)完全不是這樣。另外,深度相機的感受野也比較小,覆蓋范圍有限。
第三種方案是用激光雷達這類傳感器。雷達確實有優(yōu)勢,它獲取的幾何信息相對準確,探測范圍也足夠大。但這類幾何傳感器依然存在問題,比如一些異常點(outlayer)很難在仿真中模擬;而且從實際應用角度來說,雷達掃描會有100到200毫秒的延遲,不像RGB相機或深度相機那樣能達到很高的感知頻率。
其實總結一下,我們想做一個優(yōu)秀的、帶感知的局部運動(local motion)系統(tǒng),核心要解決這幾個問題:首先得明確面對的是何種環(huán)境,其次要確定采用什么樣的感知方案,第三是明確對環(huán)境的表征形式,最后還要解決如何與局部運動策略進行聯(lián)合訓練(joint training)的問題。把這幾點綜合起來,就是我們最近開展的一項核心工作。
首先來看環(huán)境構建的問題。我們整合了日常生活中可能遇到的多種環(huán)境類型,做了一個集成化的環(huán)境構建。比如包含走臺階、高臺,旁邊有小柜子需要繞行、有門需要避讓的常規(guī)場景;也涵蓋了梅花樁這種更極端的地形,還有頭頂存在不同形式吊頂?shù)膱鼍啊@種情況下,就需要機器人識別出頭頂?shù)恼系K物,然后自主采取下蹲姿勢通過。我們做這樣的環(huán)境集成,核心目標就是讓機器人能習得一套“多場景通用”的控制策略,適配不同環(huán)境的需求。
第二個重點工作,是我們在感知方案和環(huán)境表征上做了創(chuàng)新。我們沒有選擇深度相機或點云這種常規(guī)形式,主要有兩個原因:一方面,就像剛才提到的,直接用深度相機的話,很難模擬真實世界中的噪聲,Sim2Real過程中的噪聲問題沒法妥善解決;另一方面,如果直接用點云,不僅存在大量異常點(outlayer)噪聲,還包含很多冗余信息,需要對每個點逐一進行表征,效率很低。但實際上,我們的核心需求只是知道“附近有沒有障礙物”,只需要一種非常緊湊(compact)的表征形式就足夠了。所以最終,我們選擇把點云轉化為體素(voxel)形式來做環(huán)境表征。
第三件事,這是從實際應用(in practice)的角度出發(fā)的。我們用Isaac Lab做仿真的時候,發(fā)現(xiàn)它本身并不支持對機器人本體的雷達掃描。所以我們額外做了工作,把機器人本體的掃描功能加上來,目的就是進一步縮小Sim2Real的鴻溝。另外,有了這樣的環(huán)境表征后,我們還需要讓它能在算力非常有限的平臺上實時運行。這里我們也做了優(yōu)化,沒有選擇大家常用的3D CNN,而是對不同高度的體素做了切片處理,這樣就能快速完成對地形的表征。
我們也把我們的方法和很多現(xiàn)有方法做了對比。其實,局部透視運動(perspective local motion)是一個非常經典的問題,之前很多研究是用深度相機、點云來做的。相比于這些方法,我們的優(yōu)勢主要有兩點:第一,我們對機器人做了改裝,它的視場角(FOV)足夠大,能全面感知周圍環(huán)境,所以實現(xiàn)全向運動完全沒問題;第二,我們支持多種地形的訓練,再加上剛才說的本體掃描改裝方案,讓機器人能實現(xiàn)全地形運動。
關于剛才提到的本體掃描問題,我們也專門做了對比實驗——就是看“是否加入本體掃描”,對仿真中輸入信息的影響。結果發(fā)現(xiàn),這也是一個很關鍵的Sim2Real鴻溝:除了之前說的傳感器本身的噪聲問題,加不加本體自掃描,會讓系統(tǒng)性能產生非常大的差異。我們的實驗證明,加上本體自掃描后,仿真中傳感器的表現(xiàn)能和真實世界更好地對齊,系統(tǒng)性能也會顯著提升。
這是我們論文里的一些測試演示視頻(demo),大家可以看到,機器人能穩(wěn)定通過很多復雜場景,比如上高臺??赡苡信笥褧f,之前也看過一些機器人盲走的演示,覺得上高臺、走臺階不算特別新奇的事。但大家可以注意一個細節(jié):之前很多盲走方案,機器人必須等腳碰到臺階,獲得了力反饋之后,才知道前方有障礙,進而抬起腳步。而且,抬起多高的高度,其實它是沒法提前知曉的。
之前那種靠力反饋觸發(fā)動作的方式,其實是一種非常不安全的形式。而我們的方案加入了合理的感知模塊,就能解決這個問題。比如demo里左上角上高臺的場景,機器人在還沒碰到高臺的時候,就提前做好了抬腳動作的規(guī)劃——它能感知到前方環(huán)境的變化,進而主動調整自身行為。
包括應對吊頂?shù)膱鼍耙彩且粯樱何覀兊臋C器人不會等到碰到吊頂才反應,而是提前感知到頭頂?shù)恼系K物,就主動做出規(guī)避動作。甚至面對連續(xù)的吊頂區(qū)域,在沒有空隙的地方能自主下蹲通過。這其實就是帶感知的局部運動(perception local motion)一個非常核心的優(yōu)勢——預判性,也是它區(qū)別于傳統(tǒng)盲走方案的關鍵性質。
最后還有一點感悟想和大家分享?,F(xiàn)在行業(yè)里大家一直在討論Sim2Real的鴻溝問題,我們做完這項工作后,也有了一些自己的見解。其實很多方案在仿真環(huán)境里表現(xiàn)得非常好,比如做帶感知的局部運動時,在仿真中給一個非常干凈的熱力圖(heatmap),或者其他類型的3D觀測數(shù)據(jù),仿真中的成功率能做到很高,甚至接近100%。但大家如果實際去做部署就會發(fā)現(xiàn),這些方案在真實世界中的表現(xiàn)往往非常不穩(wěn)定,和仿真結果的差距很大。
我們認為這并不是一個很好的Sim2Real的解決方案,我們也測了一下自己的策略,發(fā)現(xiàn)我們這個方案的Sim2Real表現(xiàn)是非常一致的。其實我覺得這是一份非常好的性質,就是你可以在simulation里很好地研究你的策略,讓Sim和Real的表現(xiàn)盡可能一致,所以你也就可以得到一個很可信的to Real的控制策略。
講完感知,這里我想延伸一下:我們肯定不希望機器人只懂運動這一件事。大家今年也看到了很多機器人翻跟頭的演示,各種各樣的控制策略層出不窮。但我們最終的目標是,讓機器人擁有一個相對通用的行為基礎模型控制策略——它不僅能走路、翻跟頭,還能完成各類交互任務,并且把我們剛才說的感知能力融合進去。
要實現(xiàn)這個目標,有個核心問題需要解決:當我們想建模這類通用行為時,機器人會掌握很多技能,還要面對復雜環(huán)境,這就需要我們建模一個“行為隱變量”(behavior latent)。如果沒有這個隱變量,相當于機器人只有一個狀態(tài)(state),由狀態(tài)直接決定動作,環(huán)境因素無法影響它的行為選擇。這樣的機器人就像個提線木偶,只能完成單一、程序化的執(zhí)行過程,根本談不上通用性。
但如果有了這個行為隱變量,情況就不一樣了:機器人可以根據(jù)環(huán)境選擇不同的隱變量,也可以根據(jù)任務選擇不同的隱變量,從而完成各種各樣的任務。包括我們剛才說的感知信息輸入、交互信息輸入,這些都能通過隱變量實現(xiàn)技能的靈活組合。可能有朋友會問,這和Sim2Real有什么關系?其實這是圖形學領域長期關注的經典問題——如何構建高質量的行為隱變量,而它恰恰是解決Sim2Real通用性問題的關鍵之一。
我們把建模這種運動隱變量(motion latent)的任務,分成了兩類形式:
第一類是任務無關的:我不關心機器人要執(zhí)行什么具體任務,只關注當前狀態(tài)到未來狀態(tài)變化的隱變量。比如它向左走、向右走都可以,核心是捕捉運動本身的規(guī)律,和具體任務脫鉤。
第二類是任務相關的:這種隱變量會直接參與任務決策。比如機器人處于站立狀態(tài)時,輸入不同的運動形式或控制模式,就能在這個狀態(tài)下匹配到不同的任務相關隱變量。這樣一來,面對不同任務時,我們可以直接實現(xiàn)隱變量的快速遷移(shot transfer),不用再額外訓練一個高層控制器(high-level Controller)去尋找合適的隱變量。
所以我們團隊選擇了第二條路——打造一個“任務感知型”(task-aware)機器人。為了實現(xiàn)這個目標,我們分了四個步驟推進:
第一步是數(shù)據(jù)重構(retargeting)。因為我們的模型需要基于人類數(shù)據(jù)學習,所以先做了一輪數(shù)據(jù)重構工作,把人類的運動數(shù)據(jù)適配到機器人模型上。
第二步是訓練代理智能體(proxy agent)。我們在仿真環(huán)境中,利用所有可獲取的特權變量(privileged variables)訓練了一個模型。簡單說,就是在理想環(huán)境下,先讓模型學習到基于重構數(shù)據(jù)的最優(yōu)行為表現(xiàn),打下基礎。
第三步是設計控制模式與掩碼(mask)。既然是任務感知型,就需要明確常用的控制模式。我們設計了一些基礎控制模式,并通過掩碼的形式實現(xiàn)控制模式的選擇,讓機器人能精準匹配對應任務的行為需求。
第四步是師生學習(teacher-student)。因為最終要落地到真實世界,我們通過師生學習框架,把教師模型(理想環(huán)境下的proxy agent)和學生模型(適配真實環(huán)境的模型)的隱變量分布盡可能對齊,從而實現(xiàn)Sim2Real的遷移。
這里補充一句,我們這個工作做得比較早,大概今年7月份就完成了。雖然今年大家已經看到很多類似的演示,但在當時,這算是一個比較通用的控制策略,還是有一定前瞻性的。
除了基礎的運動跟蹤(motion tracking),這個模型還有不少實用能力。比如輸入“下蹲”的姿態(tài)指令,模型會生成對應的參考姿態(tài)并執(zhí)行;輸入向前、向后、向左、向右的運動指令,模型能在隱變量空間中找到不同隱變量的線性組合,精準控制機器人完成相應運動。
我們還做了一些趣味測試,比如模仿人形機器人運動會上“忍者式跑步”的動作。測試發(fā)現(xiàn),這個模型支持全身遙操作(whole-body teleoperation),不管是原地行走,還是一些復雜的全身運動,都能很好地完成?;谶@個策略,機器人還能實現(xiàn)原地起立這類幅度較大的動作。
另外,我們也對隱變量做了深入分析:既然是隱變量模型,它的隱變量是否具備結構化特征?我們在仿真到仿真(Sim2Sim)的場景下做了測試,通過T-SNE可視化發(fā)現(xiàn),向前、向后、向左、向右這些運動對應的隱變量特征分得非常開,而且能清晰看到不同運動狀態(tài)之間的過渡可能性,這說明我們的隱變量確實捕捉到了運動的結構化信息。
我們還做了一個很有意思的實驗:以回旋踢動作為例,我們發(fā)現(xiàn)如果只給機器人根部運動模式(root mode)的隱變量,它只會轉圈,不會踢腿;如果只給關鍵點(key point)相關的隱變量,因為沒有轉圈的運動基礎,也無法完成踢腿動作。但把這兩個隱變量做線性組合后,機器人就能順利完成一整套完整的回旋踢動作。
更重要的是,當某個動作表現(xiàn)不好時,我們可以用真實標簽(GT)的隱變量去引導模型,幫助它找到合理的隱變量來完成動作。同時我們發(fā)現(xiàn),當部分策略效果不佳時,通過在線再訓練(online retraining),能快速搜索到更優(yōu)的隱變量,而且我們的方法收斂效率很高。
在對比實驗中,我們把這個模型和“萬能模型”(one-for-all model)、“任務專用模型”(task specialist)做了比較。結果顯示,我們的方法比任務專用模型在訓練集上的表現(xiàn)更好,能有效對抗過擬合;同時,比不帶隱變量的方法擁有更高的跟蹤精度。
剛才講的都是無交互的任務,接下來我們思考:帶交互的動作,能不能用這套任務感知型行為基礎模型(task-aware BSM)來完成?我們做了一些嘗試,發(fā)現(xiàn)交互類任務的數(shù)據(jù)有兩個明顯特點:一是建模精度要求高,比如數(shù)據(jù)采集時動捕設備精度不夠,就容易出現(xiàn)穿模問題;二是數(shù)據(jù)稀缺,市面上缺乏足夠多的交互類數(shù)據(jù),很難構建通用的跟蹤器。尤其是想讓交互場景多樣化,難度就更大了。
針對這個問題,我們借鑒了“對抗性運動先驗”(adversarial motion prior)的思路,采用生成式模仿學習(generative imitation learning)的框架。核心思路是:不做強制的運動跟蹤,而是用運動先驗來約束機器人的運動合理性,同時把任務獎勵(task reward)融入訓練中。因為我們要做的是基礎模型,肯定不希望它只會做訓練過的技能,更希望它像真正的基礎模型一樣,能零樣本(zero-shot)或少樣本(few-shot)地組合已有技能、適配新場景,不用從頭學習,或者能高效掌握新技能。
為了實現(xiàn)這個目標,我們做了三個針對性設計:第一,因為是多任務控制器,我們希望本體狀態(tài)編碼器能接觸到各類任務,所以采用了分離式設計,讓不同任務的任務頭相互獨立、互不干擾;第二,構建了大規(guī)模多樣化仿真環(huán)境,設計了大量不同類型的交互任務——比如對同一類物體,設計了搬運、乘坐、跟隨等多種交互形式,還對物體做了大量數(shù)據(jù)增強;第三,為不同任務設計了專屬掩碼。對比實驗顯示,這種通用的感知編碼器比非通用的編碼器效果更好,且性能方差更低。
有了剛才這些基礎技能之后,接下來要解決的核心問題就是技能組合——我們也針對性地提出了一套相對高效的方法論。大家可以想一個典型場景:比如有搬箱子的任務,同時又需要在復雜地形上完成,最終目標是讓機器人在復雜地形里搬著箱子上樓梯、下樓梯,再把箱子放到指定位置。這其實是人形機器人應用中很常見的復合任務,也是我們要解決的核心問題。
基于我們的方法,具體怎么實現(xiàn)呢?分四步走:第一步,直接復用已有技能的表征——我們已經有“搬箱子”對應的任務表征(token),可以直接拿來用;第二步,引入地形專用的表征器(tokenizer)——因為任務要在復雜地形上完成,需要精準的地形感知,所以專門加一個負責地形感知的表征器;第三步,調用通用本體感知器——我們的本體感知器已經訓練過大量任務場景,見過各種自身狀態(tài)的可能性,能很好地適配復合任務的本體狀態(tài)需求;第四步,動作適配加速收斂——為了讓復合任務的訓練更快收斂,我們會在動作層面做一些適配,過程中凍結各模塊之間的關聯(lián)參數(shù),只開放少量與任務相關的參數(shù)進行再訓練(retraining)。從實驗結果來看,我們方法的成功率曲線(黃色曲線)表現(xiàn)最優(yōu),遠超當時其他三種主流的最先進(state-of-the-art)方法。
我們的方法還具備很強的遷移適配能力(shift adaptation),不管是更復雜的地形,還是超長程的任務,都能穩(wěn)定應對。當然,我們最終的目標是實現(xiàn)這套方法的端到端Sim2Real遷移,具體要分三步推進:
第一步,數(shù)據(jù)重構與對齊。和之前的工作一樣,先做人類運動數(shù)據(jù)的重構(retargeting);在此基礎上,還要把重構后的數(shù)據(jù)與行為對應的物體(object)、物體間的位置關系做精準對齊,同時標注出機器人與物體的交互狀態(tài)。
第二步,技能學習。沿用我們剛才提到的任務感知型模型框架,完成復合技能的學習。
第三步,感知模塊適配。這一步需要解決機器人與物體的相對感知問題,比如精準判斷機器人與物體的距離、獲取交互對象的位姿。我們在這個工作里初期用了比較簡單的方案——直接貼AprilTag來做位姿定位;不過后續(xù)發(fā)現(xiàn),現(xiàn)在有很多優(yōu)秀的6D位姿估計模型,比如FoundationPose,完全可以實現(xiàn)更精準的位姿處理,后續(xù)可以整合進去。
這里有個關鍵注意點:在做這類交互性策略的Sim2Real遷移時,我們的域隨機化(domain randomization)做得更全面。大家之前做基礎的 Whole-Body Control(WBC)或移動(locomotion)任務時,可能只對機器人本體做域隨機化;而我們除了本體,還對物體及物體位置的觀測做了域隨機化——比如物體的質量、摩擦系數(shù),都做了隨機化處理。另外,真實世界中對物體的觀測必然存在誤差,所以我們在訓練時,還會對輸入策略的物體觀測數(shù)據(jù)加入擾動,讓模型提前適應真實環(huán)境的不完美性。
第二個關鍵設計是深度相機的感知優(yōu)化,讓它能覆蓋更大的前方視野,確保復雜地形和交互物體都能被精準感知。我們還發(fā)現(xiàn),通過人為定義簡單的交互邏輯(比如“走到物體旁→搬起物體→完成任務”),就能引導機器人完成與環(huán)境中不同物體的交互。大家現(xiàn)在看到的,就是我們在仿真環(huán)境中跑出來的結果——本體狀態(tài)數(shù)據(jù)、環(huán)境感知數(shù)據(jù)等多維度數(shù)據(jù)協(xié)同工作,支撐整個交互任務的完成。
我們也把我們的方法和兩種主流方法做了對比:一種是基于跟蹤的方法(tracking-based),另一種是不引入任何人類運動先驗的方法。對比結果很明確:首先在成功率上,因為交互類數(shù)據(jù)本身比較稀缺,基于跟蹤的方法靠硬約束去擬合,成功率很低,尤其是在多樣化(diverse)環(huán)境下;其次,人類運動先驗能顯著提升任務表現(xiàn)——比如雙臂協(xié)同向下夾取物體,這種符合人類運動邏輯的先驗,能大幅加速模型收斂,同時提高任務成功率。
我們還測試了方法的多樣化適配能力,在仿真環(huán)境中表現(xiàn)很理想。大家可以看到,紅色曲線是參考運動(reference motion),我們的方法在只給少量參考運動的情況下,就能實現(xiàn)更豐富多樣的交互行為,相關演示(demo)也能證明這一點。而且我們的測試不局限于搬運任務,還包括坐下(sit down)、躺下(lying)、物體轉運(把物體從一個位置放到另一個位置)等多種交互任務。我們可以通過人工選定任務目標,讓機器人精準執(zhí)行。至少在控制策略層面,我們已經成功把仿真環(huán)境中解決復雜交互任務的能力,遷移到了真實世界中,解決了之前Sim2Real遷移在交互任務上的核心痛點。
與此同時我們還做了更多嘗試,比如在快速運動的物體下,比如說足球。我們改進了它的感知模式,比如可以用動捕,或者用一個更快速的感知方式,使得它直接用形態(tài)學處理去處理高速運動的物體,然后讓它完成比如連續(xù)撲救,或者把任務設成躲球,做連續(xù)躲避。
最后,我想和大家分享一些關于未來的思考。其實今天我想強調的是,從整個人形機器人運動控制領域來看,今年我個人感覺是一個關鍵的時間節(jié)點——我們正從“盲走盲跳”,比如機器人跳舞這類純運動演示,走向“感知驅動”(perceptive)的新階段。這個趨勢不只是我們團隊觀察到,今年年底英偉達等企業(yè)也做了相關探索,他們的方案可能更激進一些。比如我們團隊的方案還用到了激光雷達(LiDAR),沒有采用RGB相機的形式;但今年能看到,有些公司選擇用RGB相機,通過光照和材質的合成、對齊,盡可能讓仿真和真實世界中傳感器的感知一致。
第一步,數(shù)據(jù)重構與對齊。和之前的工作一樣,先做人類運動數(shù)據(jù)的重構(retargeting);在此基礎上,還要把重構后的數(shù)據(jù)與行為對應的物體(object)、物體間的位置關系做精準對齊,同時標注出機器人與物體的交互狀態(tài)。
具體來說,他們會優(yōu)化相機畸變(distortion)、相機視角(camera view)的對齊,然后在仿真環(huán)境中做盡可能多的域隨機化(randomization),讓訓練出的策略在真實世界中具備基礎的導航和控制能力。比如VIRAL團隊實現(xiàn)了大概50多次的連續(xù)抓取,能在兩張桌子之間完成任務;還有DoorGym的工作,實現(xiàn)了純Sim2Real的開門任務。
第二步,技能學習。沿用我們剛才提到的任務感知型模型框架,完成復合技能的學習。
所以我個人認為,未來一些偏離線(offline)的方法可能會成為突破口:當我們收集到足夠多的數(shù)據(jù)后,通過離線方法結合監(jiān)督學習(supervised learning)的形式,有可能把模型參數(shù)量做大,至少達到2019、2020年BERT的參數(shù)量級別,甚至向GPT的參數(shù)量級別靠攏。而更大的模型,或許能賦予機器人更長程的控制能力。
另一個未來的重要方向是“規(guī)?;瘮U展”(scaling up)。從整個控制領域的發(fā)展來看,我們肯定希望控制器能掌握越來越多的技能。但從實際實踐經驗來看,無論是板載算力的限制,還是在線強化學習(online RL)的訓練方式,目前都不太支持用超大模型來實現(xiàn)——模型參數(shù)量的限制,直接制約了技能容量和更多控制形式的探索。
以上就是我的分享,謝謝大家。
雷峰網(wǎng)文章
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。