家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

本文作者：劉潔

2024-09-06 11:52

導語：是誰為提高機器人學習效率操碎了心，終于在動作分塊里找到了希望。

斯坦福大學的 Chelsea Finn 團隊又出新成果了。

Chelsea Finn 團隊一直是斯坦福走在具身智能研究前沿的團隊之一，之前火遍全網的 ALOHA 炒菜機器人就是出自這個團隊之手。團隊領頭人 Chelsea Finn 的創業公司 Pi 更是創立不到一個月就拿下來自紅杉資本、OpenAI 等公司的7000萬美元融資。雷峰網雷峰網(公眾號：雷峰網)

最近，Chelsea Finn 團隊在研究中發現，雖然延長動作塊能夠提升策略捕捉時間依賴性的能力，但這樣做會減少對機器人近期狀態的觀察，導致在隨機環境中更容易出錯。

為了克服這個難題，他們開發了一種雙向解碼（Bidirectional Decoding, BID）新型算法。BID 能將動作塊化與閉環操作相結合，通過在每個時間步采樣多個預測并尋找最優化的一個，增強擴展序列的時間一致性，同時在隨機環境中實現自適應重新規劃。

為了驗證 BID 算法的效果，他們在 Franka Kitchen 數據集上進行了模擬測試，發現機器人在家庭環境中的表現還不錯。他們還用 Franka Panda 機器人做了真實實驗，結果顯示 BID 顯著提高了機器人在目標移動時的放置成功率。

這些測試不由得讓人聯想到了他們之前做的炒菜機器人，也許這個團隊正計劃把 BID 應用在 ALOHA 上，準備給家務機器人來個全面的技術升級。

值得一提的是，這個團隊中有一半都是華人面孔，之前開發 ALOHA 的也全是華人學生。

目前，論文已在arXiv公開，相關代碼也已開源。

論文標題：Bidirectional Decoding：Improving Action Chunking via Closed-Loop Resampling

論文地址：https://bid-robot.github.io/static/BID_paper.pdf

項目網站：https://bid-robot.github.io/

代碼地址：https://github.com/YuejiangLIU/bid_diffusion

https://github.com/Jubayer-Hamid/bid_lerobot

論文概覽

研究問題

本文旨在解決機器人學習中的挑戰，特別關注動作分塊，即在沒有中間重新規劃的情況下預測和執行動作序列的過程，這些序列通常來源于人類示范。面臨的挑戰包括在捕捉時間依賴性與對隨機環境中意外變化的反應之間的權衡，以及不同示范之間的風格變異性較大。

該研究的動機在于通過對動作分塊進行更深入的分析和提供實用的解碼算法，來增強機器人系統的學習和執行過程。所要解決的問題包括：

動作分塊中時間依賴性與反應性之間的權衡

不同示范之間的風格變異性較大

需要一種實用的解碼算法以提升機器人行為克隆的性能。

提出的方法

本文提出了雙向解碼（BID）方法。

BID 是一種推理算法，將動作分塊與機器人學習中的閉環操作相結合。它在每個時間步采樣多個預測，并基于向后一致性（與先前決策的對齊）和向前對比（與更強策略的結果的接近度）來優化選擇。

這種綜合方法增強了長動作序列的時間一致性，同時保持了適應動態環境變化的靈活性。BID在各種機器人任務中顯著優于現有的閉環方法，代表了機器人系統學習和執行過程的重大改進。

實驗與結果

數據集

本文在三個數據集上進行了實驗：Push-T、RoboMimic 和 Franka Kitchen。

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

對于Push-T數據集，本文在七個任務上評估了所提出的雙向解碼（BID）算法，包括將物體放入人類手持的杯子中。實驗中使用的機器人是Franka Panda，配備了兩臺相機，提供256 x 256像素分辨率的視覺觀察。本文還評估了BID在大批量和現有推理方法下的可擴展性和兼容性。

對于RoboMimic數據集，本文使用了五個任務，即Lift、Can、Square、Transport和Tool Hang。每個任務的訓練數據集包含300個從多個人類演示中收集的回合。

對于Franka Kitchen數據集，本文在涉及四個或更多物體的測試案例上評估了學習到的策略，這是一個具有挑戰性但在家庭環境中實際應用的機器人操作任務。

真實世界實驗

本文還通過兩項現實世界實驗進一步評估了提出的 BID。

動態放置實驗

他們共收集了150個演示回合，包括50個干凈且一致的演示和100個嘈雜且多樣的演示。實驗中使用的機器人是 Franka Panda，并采用基于視覺的擴散策略進行操作。

機器人的任務是將其抓手中的物體送入人類手中的杯子中。每次演示包括四個主要階段：(a) 隨機初始化機器人位置，(b) 接近目標杯子，(c) 在目標杯子附近減速，(d) 釋放物品。目標杯子的位置可能會在演示過程中發生變化。

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

值得注意的是，BID 在動態設置中的成功率與靜態設置相似，這表明它有可能將動作塊擴展到不確定環境中。

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

動態拾取實驗

本文評估了不同方法的性能，包括普通的開環和閉環采樣、BID 的開環和閉環采樣，以及 EMA 的閉環采樣。

機器人的任務是拿起一個杯子，并將其放在附近的碟子上。四個主要階段是：(a) 初始化機器人，(b) 接近目標杯子，(c) 抓住目標杯子，(d) 拿起杯子，(e) 將杯子放到目標碟子上。目標杯子的位置可能會在一個過程中發生變化。

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

結果表明，在動態環境中，相比其他方法，BID 的成功率至少提高了2倍，同時在靜態環境中保持了其性能。

BID技術解讀

動作分塊有利于對演示中的時間依賴性建模，但卻犧牲了對隨機環境中意外狀態的反應能力。他們選擇通過閉環操作銜接長的動作塊來解決這一問題。

他們的主要假設是，雖然任何一對樣本共享相同潛在策略的概率很低，但從大量樣本中找到一致的一對樣本的可能性要高得多。這種直覺促使他們將閉環動作分塊問題理解為在每個時間步采樣的一批計劃中尋找最優動作。

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

其中 ? 是動作塊集合，?? 和 ?? （B和F都是下標，飛書文檔打不出來）是兩個衡量時間依賴性的標準，接下來將會詳細描述這兩個標準。

?_B 指的是逆向一致性。

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

這里，ρ 是一個衰減超參數，用于解釋不確定性隨時間增長而增加的情況。這種后向損失鼓勵相鄰步驟之間采用類似的潛在策略，同時允許逐步適應不可預見的過渡動態。

?_F指的是正向對比度。

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

其中 ?+=??{?} 是強策略 ? 預測的正集合，?? 是弱策略 ?′ 預測的負集合，而 ? 是樣本大小。

下圖展示了逆向一致性和正向對比度標準對樣本選擇的影響。

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

由于 BID 中的所有步驟都可以并行計算，因此在現代 GPU 設備上，總體計算成本仍然適中。

團隊介紹

Chelsea Finn

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

Chelsea Finn 博士畢業于加州大學伯克利分校，師從Sergey Levine。她曾在 Google DeepMind 工作過 6 年，現在擔任斯坦福大學計算機科學與電子工程系的助理教授，也是 Pi 的聯合創始人。

Chelsea Finn 的研究興趣是機器人和其他代理通過學習和交互發展廣泛智能行為的能力。她的實驗室 IRIS 專注研究大規模機器人交互智能，隸屬于 SAIL 和 ML Group。

團隊其他三位華人學生包括：

Yuejiang Liu

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

Yuejiang Liu 是 IRIS 實驗室的博士后，博士畢業于瑞士洛桑聯邦理工學院。他專注于研究自監督學習、因果表征學習和測試時間適應，并將其應用于計算機視覺和多代理系統。

Annie Xie

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

Annie Xie 畢業于加州大學伯克利分校，曾在伯克利人工智能研究（BAIR）實驗室和 Sergey Levine 一起工作，現在是 Chelsea Finn 指導的博士生。她的研究重點是開發在最少人工監督下學習的機器人系統。

Maximilian Du

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

Maximilian Du 今年學士畢業于斯坦福大學，主修計算機科學、心理學（輔修）和創意寫作（輔修），在 Chelsea Finn 的 IRIS 實驗室從事機器人學習工作，現在是 Chelsea Finn 即將入學的博士生。雷峰網雷峰網

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

劉潔

編輯

發私信

當月熱門文章

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明

論文概覽

研究問題

提出的方法

實驗與結果

數據集

真實世界實驗

動態放置實驗

動態拾取實驗

BID技術解讀

團隊介紹

Chelsea Finn

Yuejiang Liu

Annie Xie

Maximilian Du

家務機器人或將再更新？Chelsea Finn團隊推出BID新算法，機器人一鍵變聰明