0
作者丨齊鋮湧
編輯丨馬曉寧
在無人機邁向通用飛行智能體的進程中,具身智能正成為其實現認知躍遷的核心技術路徑。雷峰網第八屆 GAIR 全球人工智能與機器人大會,邀請到了具身智能在飛行機器人賽道的頭部玩家微分智飛創始人兼CEO高飛,來聊聊具身智能的一個細分領域——飛行具身智能,并探討了世界模型在其中的作用。
本文整理自高飛與AI科技評論的對話:
01
傳統無人機和飛行具身智能
AI科技評論:您提出“飛行具身智能”這一概念,它與傳統的無人機智能有何本質區別?
高飛:具身智能的本質是“智能機器人”,賦予各種機器人認知、推理和泛化決策的能力,對于飛行也不例外,將會重新定義飛行機器人。拿操作類的機器人打比方,雙臂具身智能和傳統工業機械臂的本體很相似,甚至可能完全長得一樣,但雙臂具身智能具備幾個關鍵能力:泛化通用、自主決策。就是這些能力,讓它和傳統機械臂很不一樣。
同樣,飛行具身智能和傳統無人機最大區別在于智能。傳統無人機是一種machine,最多是一種 automatic machine(自動機器)。但是飛行具身智能,要做的是autonomous甚至intelligent & smart machine,這里的對象是聰明、易于交互、有經驗、可以泛化的,和人一樣能理解語言、環境、做推理的載體。飛行具身智能,可以在斷網、無衛星信號、無人操控的情況下,獨立完成感知-理解-決策-執行的全閉環流程,相當于物理世界中的飛行智能體。
02
機器人是一個面向對象的學科
AI科技評論:您作為一名90后,既是浙大長聘副教授、博導,學術背景很扎實,同時又是微分智飛創始人,一邊發paper一邊科技創業,能不能結合學術角度,聊聊您對具身智能的看法?
高飛:我算是一個機器人領域的學院派學者。機器人領域有一個非常顯著的特點,它不是面向方法的學科,而是一個典型的面向對象的學科。它的核心目的就是要把機器人造出來并且能work,在過程中使用的方法總是為這個目標服務。
所以你會發現很多機器人學者都是全棧工程師和實用主義者,對新思想接受度很高。AI結合實體,完成從信息輸入到自主學習到任務執行的閉環,這就是具身智能。在 AI 技術的加持下,無論是基于大模型的大腦能力,還是小腦上端到端強化學習帶來的運控能力,還是群體上的分布式群腦能力,都可以讓機器人和無人機產生質變。本質上,機器人學者看到了重新定義機器人,做新一代真正“智能的”機器人的巨大機會,在這樣的時代機遇面前,我認為推動技術落地的機會必須要把握。
AI科技評論:“機器人不是一個面對方法,而是面向對象的學科”這點很有意思,現在很多在做具身智能的從業者,都是從自動駕駛轉過來的,能展開講講其中的原因么?
高飛:自動駕駛本質上是一種地面輪式機器人,受自身運動學,以及交通規則、人類車輛交互方式等復雜場景約束。目前自動駕駛領域的技術,本質是機器人技術在平面移動領域的投影。
在過往的機器人領域,大家認為足式機器人很難work,更不用說產業化,所以做足式的少;做輪式機器人(包括自動駕駛)和無人機這類移動載體的更多。現在隨著技術的發展,更多形態的機器人讓大家看到了落地的曙光,很多自動駕駛的從業者自然會轉向新領域,并且將相近領域的knowhow帶過來復用。
AI科技評論:那就聊聊飛行具身智能的應用場景吧,能在哪些場景 work ?
高飛:整體來說,我們(微分智飛)現在還處于探索和小批量驗證階段,正尋找有更大市場空間和技術匹配度的方向。
在泛巡檢、泛測繪類任務中,我們已經有了一些交付量,積累了上千次實飛數據。目前我們主要面向高危、人工作業困難的場景,產品能在全程自主決策下完成復雜環境的信息采集;這些采集的信息能幫我們進一步訓練模型,讓基座模型更能適應特定行業的共性需求。更多場景我們正在逐一解鎖,比如在市政安防領域,飛行具身智能可以輔助智能巡邏和快速應急。
AI科技評論:聽起來確實很有想象空間,之前了解到飛行具身智能有一個非常關鍵的部分,叫做“分布式集群技術”,可以展開說說么?
高飛:這個領域的發展很快,我早期在港科大解決單體自主導航,進入浙大工作后開始研究集群協同。
和傳統的無人機集中控制不一樣,分布式集群技術,類似人類軍訓走方陣,每個人的分工不同,每個個體會獨立思考決策,屬于分布式智能協同,這就要求集群中的每一個個體既能自主智能,同時又要高效溝通和分工,不能起沖突。
現在我們能做到在仿真里同時控制 1, 000 個飛行機器人,并且是完全分布式的架構。在真實的場景下,我們可以實現數十機規模的分布式自主搜救、協同建圖,甚至多機協同搬運。
AI科技評論:很有意思,能聊聊“分布式集群技術”這個領域的學術成果么?(雷峰網(公眾號:雷峰網))
高飛:我們第一次實現分布式集群自主導航,是在2022 年的一篇《Science Robotics》工作中。這篇工作被評價為“邁出了無人機集群走出受限實驗室場景的重要一步”,是一個重要的里程碑,它證明了多個小型無人機只靠非常便宜的機載傳感器和芯片,就可以實現分布式的自主導航、避障和建圖。
AI科技評論:您如何看待世界模型在飛行具身智能領域的應用?當前有哪些機遇、挑戰與局限?
高飛:這是一個令人興奮的方向。如果說具身智能是讓飛行機器人有了大腦,那么世界模型就是讓這個大腦能夠預演未來和認識空間。在我看來,它得價值主要體現在應用和認知層面。
首先是應用層面,它能模擬、能預測。飛行機器人的容錯率很低,炸機的成本很高。我覺得世界模型本質上是一個針對未知空間和未來時間的預測器。它能輔助機器人提前推演不同飛行路徑帶來的后果;也能作為一個高保真的仿真器,生成大量長尾場景數據,用來訓練和驗證。
更本質的是認知維度的補全。現在的 LLM或者說MLLM主要解決的是邏輯。但飛行機器人是在三維物理世界里運動的,光懂邏輯不夠,還必須懂幾何結構和演變規律,世界模型同時具備這三種能力。打個比方,當機器人面前有一棵樹,世界模型不僅能讓它知道“那是樹”,還能理解樹的三維結構、甚至預判樹枝怎么搖。
當然現在還是面臨一些挑戰, 比如模型的準確度、實時性,以及怎么把這么大一個模型“塞進”機載計算單元里,還要保證毫秒級響應,這也是大家正在攻關的方向。但一旦走通,它很可能成為機器人智能的通用基座,未來只需要微調,就能適應各種真實任務。(雷峰網)
03
在自己的科研成果上,
沒有人比自己理解更深刻
AI科技評論:您在知乎上發過一篇關于讀博的神貼,引起很多學生的共鳴,能聊聊您的學習經歷和創業契機么?
高飛:我的求學經歷很簡單,我是 18 歲上大學,從一個小鎮青年考上浙大,選擇了自動化專業,之后申請了港科大的直博。我的老師當時給我布置的博士畢業課題是讓飛行機器人可以實現全自主(full autonomous)導航,能夠在實驗室門口一鍵起飛,全程無人干預,自動飛到學校門口,什么時候做出來就什么時候畢業。
博士畢業后我回到浙大工作,那時我覺得還有很多東西想做,所以組建了一個團隊來解決這些問題。2019 年到2024 年期間,我在科研方面做出了一些有影響力的成績,比如野外環境下的自主集群、無人機導航規劃系統等,完成了多項國際首創成果,這些成果還是讓人比較有成就感的。
但我始終抱有將技術落地的愿望。我認為生產力是有三個層次——科學、技術和應用。科學是在發散探索新方向;接下來是技術,就是由發散的諸多科研探索收斂而成的、有較大落地可能的技術路徑;最后是應用階段,也可以說是工程化、產品化階段,就是讓已經收斂的技術路徑產生切實應用價值,直到最后有人愿意為此買單。
作為學者,我在研究的過程中逐漸意識到,要真正實現一項新技術的完整閉環,必須走到應用階段——無論是自己推動還是交給別人去做。當然,在自己的科研成果上,沒有人的理解比自己更深刻,因此還是自己去做更直接和有效一些。
當然,最后促使我選擇現在創業的部分原因還有具身智能這個巨大的時代機遇:將AI賦能到機器人實體上,將會創造無限可能。
AI科技評論:最后一個問題,你覺得具身智能現在是一個泡沫么?(雷峰網)
高飛:我認為具身智能的泡沫有,但是沒有大家想象得那么大。
大家想到機器人,都會下意識地期待它是聰明的、能思考的個體(甚至群體)。但是長期以來,機器人實際上是停留在類似流程自動化、工業自動化的專用設備階段。這很“機器”,但很不“人”。
要實現真正智能的機器人,關鍵是機器人的“腦”。過去這些年學界和產業界在小腦和本體上都取得了一些突破,但大腦層面仍幾乎是一片空白,更不要提代表群體智能的群腦技術了。我認為具身智能是能真正推動機器人大小腦和群腦發展的關鍵變量,是歷史性的機遇;當下具身智能不是一場泡沫,而是一個歷史性拐點。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。