0
現代化社會,哪些工作場景最需要機器人的幫助?
在工業領域,有著名的機器人“四大家族”——發那科、ABB、安川、庫卡,經過百余年的發展技術越發成熟,在工業場景已經得到深入而廣泛的應用。
相比之下,生活場景中的服務型機器人歷史則短得多。
例如在餐飲場景,烹飪過程的標準化程度遠遠不如工廠流水線,這為烹飪機器人的研發帶來了很大難度,在烹飪流程、烹飪方式、火候控制等環節,存在著諸多難題。
直到近年來這一方向才逐漸有所發展。
在2022年舉辦的北京冬奧會上,烹飪機器人已經進入智慧餐廳,烹飪中餐、西餐的各種菜品。
根據國外調研組織Market Research Future 發布的報告,2022年~2026年間,全球機器人烹飪設備的市場規模將成長至超1億美元,年復合增長率近20%。
南佛羅里達大學計算機科學與工程系教授孫宇多年來一直致力于機器人領域相關研究,早在2015年便已開始嘗試將知識圖譜應用于機器人任務規劃。
大模型技術出現之后,為人機的協同交互帶來了巨大的影響。
雖然與小語言模型的模型架構和與訓練目標類似,但大語言模型在大幅度擴展了模型大小、預訓練數據和總計算量(擴大倍數)后,不但能夠更好地理解自然語言,并根據給定的上下文(例如 prompt)生成高質量的文本,還展現出了一項全新的特征:涌現。
涌現為大語言模型帶來的幾種最具代表性的能力——上下文學習、指令遵循、循序漸進的推理等,使其在機器人研究發揮出更大的作用,大語言模型開始成為機器人任務規劃研究中的一項重要工具。
自去年以來,孫宇教授開始嘗試將大語言模型應用在烹飪機器人任務規劃之中。
近期,相關論文之一《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability,上線初創期刊《人工智能與機器人研究國際期刊》(IJAIRR)。
借此契機,孫宇教授向雷峰網介紹了該論文的研究過程,以及烹飪機器人研究中存在的難題。
論文鏈接:
https://gairdao.com/doi/10.1142/S2972335324500029
https://www.worldscientific.com/doi/10.1142/S2972335324500029
機器人任務規劃即根據機器人的能力、任務需求及環境條件等因素,為其制定一系列詳細的行動方案,使其在復雜的環境中,高效、安全、準確地完成任務。
在這一過程中,有許多復雜的因素需要考慮。
例如,機器人的移動路徑需要適應工作環境中障礙物的分布,以避免碰撞;
任務執行的時間與順序需要根據實際情況進行優化;
在交互方式上,還需要保證機器人的行為與指令易于理解等等。
早在2015年,孫宇教授及其團隊就開始將知識網絡在機器人任務規劃之中,基于網絡進行烹飪領域相關知識的采集和整合,指導機器人執行烹飪任務。

南佛羅里達大學孫宇教授
研究中使用的知識網絡,正是由孫宇教授所帶領的機器人概念和行為實驗室(RPAL)所發明的面向功能對象網絡(Functional Object-Oriented Network,簡稱 FOON)。
這是一個存儲功能對象和操作信息的中心知識網絡系統,可以通過處理在線視頻、文本獲取功能對象和操作信息。
經過一定的標注和矯正,這個知識網絡可以很可靠的提供各種烹飪任務規劃樹。如果要求的烹飪任務的功能單元(functional unit)是FOON里有的,FOON可以給出100%正確和高效的任務規劃樹。
如果要求的烹飪任務的功能單元是FOON里沒有的,但很相像,這個知識網絡可以給出非常可靠高效的任務規劃樹。
但是如果要求的烹飪功能單元與FOON里功能單元沒有任何相關,FOON就很可能給出錯誤的規劃樹。因為知識網絡是封閉的,機器人無法無限延展超出知識網絡范圍的內容。
直到大語言模型的出現,為這項研究帶來了新的轉機。
烹飪機器人如何才能生成一個知識庫中不存在的任務?
隨著大模型技術的發展,自去年以來,孫宇教授及其學生Sadman Sakib博士開始嘗試使用大語言模型技術(LLM)進行機器人任務規劃。

Sadman Sakib博士
在自然語言處理、任務規劃和執行以及人機交互等方面,GPT-4展現出強大的能力。
論文中以烹飪任務為例進行了介紹。

在接收到用戶關于烹飪某樣食物的指令后,傳統的機器人規劃方法通常只會生成一個任務計劃,而該論文通過GPT-4這一語言模型的提示工程,生成了多個不同的高級任務規劃,并以任務樹的形式進行展現。
這些任務樹為機器人提供了多種可能的執行方案,不同方案的資源需求、并行時間、風險各有不同。
利用Graph Merger(圖形合并器)將這些任務樹合并成一個統一網絡后,再通過比較和分析剔除其中不可靠的組件,例如執行成本過高的節點,再將篩選出的正確、有效的組件進行集成,最終形成一個最優的解決方案,極大地提高了規劃的準確性與整體任務執行的效率。
由于機器人無法直接執行高級任務計劃,GPT-4還需要扮演翻譯者的角色,將這一高級任務計劃從自然語言的形式轉化為低級的PDDL計劃,用PDDL語言來描述并求解規劃任務,使人類可以理解的語言轉換為機器人可以理解的指令。
例如,當烹飪機器人收到“制作一碗包括胡蘿卜、卷心菜和豆子的面條”這一任務后,GPT-4生成了多個高級任務計劃,并將其合并、篩選得到一個最優的任務樹,將其轉化為PDDL計劃,把這項工作分解成“拿起瓶子”、“將油蔥瓶子中倒進鍋里”等動作序列,再由機器人執行。
值得一提的是,孫宇團隊通過研究表明,合并食譜可以通過讓食譜共享信息并學習多樣化的子任務方法,從而發現創新的烹飪方法。
于是研究團隊創建了多個食譜及其對應的任務樹,并合并為一個網絡后,成功將不同食譜中的烹飪步驟和技巧融合在一起,形成了新的烹飪流程。
這些融合后的任務樹不僅展示了烹飪任務的多樣性,還揭示了不同子任務之間的潛在聯系和互補性,構建出了一個更為豐富和復雜的烹飪網絡。
“也就是說,有了這個網絡,不僅能實現傳統菜肴的制作,還能夠創造出更加新穎、獨特的菜品,為烹飪藝術注入了新的活力。”
孫宇教授指出,對這項研究進一步優化后,將開發出更加高效和智能的烹飪機器人或系統。
孫宇教授從事機器人領域的研究已二十余年。在USF,孫宇教授帶領的機器人概念和行為實驗室(RPAL)多年來圍繞機器臂抓取和操作、人機交互、醫學影像及虛擬現實、機器觸覺及力學傳感控制等諸多方向進行了大量研究。
后來在機器人任務規劃研究中得到大量應用的FOON這一成果,就是出自RPAL。

孫宇教授與RPAL實驗室成員合照
大語言模型和知識網絡FOON有天然的互補性。以GPT-4為代表的大語言模型,雖然能夠從開放的網絡環境中學習各種任務規劃,但產生的規劃卻未經把關,無法保證其正確性。
而有FOON里整合的任務規劃樹是經過人工標注和驗證過100%正確的,但是它是有限的和不完全的。
所以可以用大語言模型來產生多個不保證正確的任務樹,然后用FOON的結構特點來合并這些任務樹,消除不正確的功能單元,由別的樹或FOON里正確的功能單元所取代,來提高正確率。
此外,該研究具有很好的泛化能力,并不局限于烹飪場景,只需調整少量組件或不調整組件,即可為許多不同工作場景中的機器人找到最優計劃。
孫宇教授指出,當前的機器人任務規劃研究中仍舊存在許多挑戰。
當機器人遇到任務規劃或運動規劃錯誤、系統故障等情況時,可能會導致任務失敗,如何使機器人任務失敗后自助糾正計劃錯誤是一項至關重要的課題。
團隊未來的研究將進一步關注環境反饋的影響,嘗試使機器人借助視覺系統與GPT-4準確地識別與更新環境狀態,從而減少或避免機器人糾正計劃錯誤時的人為干預,使其自主應對任務失敗的情況。雷峰網(公眾號:雷峰網)雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。