0
| 本文作者: 齊鋮湧 | 2025-12-31 15:55 |
過(guò)去兩年,具身智能的火熱源于一個(gè)共同期待:大語(yǔ)言模型的出色能力有目共睹,若將其接入機(jī)器人,有望賦予機(jī)器人更聰明的大腦,從而為行業(yè)打開(kāi)新空間。 然而熱鬧兩年后,具身智能仍沒(méi)有標(biāo)準(zhǔn)答案,卻出現(xiàn)了很多細(xì)分領(lǐng)域,智能飛行機(jī)器人就是其中一個(gè)重要分支。
浙江大學(xué)控制學(xué)院長(zhǎng)聘副教授、博士生導(dǎo)師高飛,就是這個(gè)領(lǐng)域的一位非常優(yōu)秀的年輕學(xué)者。
高飛的主研方向包括空中機(jī)器人、自主導(dǎo)航、集群協(xié)同、具身智能,提出了國(guó)際首個(gè)非結(jié)構(gòu)化場(chǎng)景下的自主飛行集群系統(tǒng),發(fā)表多篇Science Robotics、TRO等頂級(jí)期刊、學(xué)術(shù)會(huì)議論文,并創(chuàng)立了微分智飛。
高飛是國(guó)家優(yōu)青基金獲得者,獲IEEE TRO、IROS等多項(xiàng)最佳論文提名,入選2023-2024全球前2%頂尖科學(xué)家、2025《麻省理工科技評(píng)論》“35歲以下科技創(chuàng)新35人”(MIT TR35)亞太區(qū)榜單等。
在剛剛結(jié)束的 GAIR 2025,高飛教授在雷峰網(wǎng)舉辦的GAIR大會(huì)現(xiàn)場(chǎng),做了主題為《智能飛行機(jī)器人研究進(jìn)展及產(chǎn)業(yè)應(yīng)用》的分享,他的演講風(fēng)格極具畫面感:他用《普羅米修斯》的無(wú)人機(jī)編隊(duì)鏡頭引出“分布式集群”終極形態(tài),又用《流浪地球》的混亂場(chǎng)景對(duì)比強(qiáng)調(diào)“去中心化”的重要性。
以下是具體內(nèi)容,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))做了不改變?cè)獾木庉嫼驼怼?/p>
01
飛行機(jī)器人的愿景和無(wú)人機(jī)技術(shù)演進(jìn)
我是高飛,來(lái)自浙江大學(xué),也是微分智飛的創(chuàng)始人。今天想和大家分享我們對(duì)智能飛行機(jī)器人這個(gè)賽道的理解,以及我們團(tuán)隊(duì)正在做的事情。
為什么要做“智能飛行機(jī)器人”?因?yàn)槲覀冋J(rèn)為,通用飛行智能已經(jīng)到了爆發(fā)的前夜。我小時(shí)候第一個(gè)夢(mèng)想是開(kāi)飛機(jī),后來(lái)雖然沒(méi)當(dāng)成飛行員,但一直沒(méi)放棄用別的方式飛上天?,F(xiàn)在,我們想用 AI 打造聰明、安全、能自主決策的飛行平臺(tái),讓它們?cè)诟鞣N復(fù)雜環(huán)境中完成任務(wù)。
大家最熟悉的飛行平臺(tái)是旋翼無(wú)人機(jī)。2015 年以前,無(wú)人機(jī)更像是高級(jí)遙控玩具,主要依賴人工操控。2015 年之后,機(jī)器人學(xué)開(kāi)始給無(wú)人機(jī)賦能,逐漸出現(xiàn)了跟蹤避障、自主導(dǎo)航、集群導(dǎo)航等技術(shù)。下一個(gè)里程碑,我們認(rèn)為就是“具身智能”。
具身智能強(qiáng)調(diào)的是一個(gè)有實(shí)體的智能體,通過(guò) AI 持續(xù)學(xué)習(xí)和信息迭代,實(shí)現(xiàn)對(duì)環(huán)境的理解、任務(wù)的執(zhí)行,以及跨場(chǎng)景的泛化和通用能力。對(duì)應(yīng)到地面的人形機(jī)器人,我們也希望有一個(gè)通用的飛行載體,能在天上完成各種任務(wù)。
我博士入學(xué)時(shí),老師給我播放了電影《普羅米修斯》的片段:一個(gè)小型智能飛行器在復(fù)雜環(huán)境中自主穿梭。老師說(shuō),有一天我們要做出這樣的無(wú)人機(jī),這是我們團(tuán)隊(duì)的愿景。
在群體層面,我們希望打造分布式、去中心化的無(wú)人機(jī)集群——核心是讓集群能夠靈活、自適應(yīng)地完成大規(guī)模任務(wù)。這一架構(gòu)設(shè)計(jì)的必要性,也在電影《流浪地球》里印證:片中拔掉中心控制器后,幾千架無(wú)人機(jī)集體墜落——這就是中心化架構(gòu)的缺陷。我們要做的是無(wú)需中心節(jié)點(diǎn)也能協(xié)同作業(yè)的分布式系統(tǒng)。它是很小的一個(gè)智能飛行載體,可以在復(fù)雜的環(huán)境下知道自己該往哪里去,該怎么飛,該怎么感知環(huán)境。同樣的,在群體上我們想要它具備規(guī)?;⒎植际交透哽`活的特性,可以做大規(guī)模的任務(wù),可以干很多很多的事情。
02
天空端具身智能的四大挑戰(zhàn)
具體來(lái)說(shuō),飛行天空端的具身智能和地面端的相比有哪些獨(dú)特的挑戰(zhàn)?
首先是數(shù)據(jù)很少,前面的嘉賓也一直在討論數(shù)據(jù),大家有沒(méi)有想過(guò)無(wú)人機(jī)該怎么采集數(shù)據(jù)?
答案是沒(méi)法采集數(shù)據(jù),因?yàn)槟悴豢赡苋ス瓦@么多穿越機(jī)的飛手做高精度的飛行控制,幫你去采集數(shù)據(jù)。在實(shí)踐中不具備可行性:第一個(gè)是飛手專業(yè)技能的習(xí)得需要一定的門檻,第二個(gè)飛行數(shù)據(jù)采集過(guò)程易發(fā)生設(shè)備損毀或人員安全事故,導(dǎo)致采集成本與風(fēng)險(xiǎn)不可控。
第二是場(chǎng)景復(fù)雜:無(wú)人機(jī)被造出來(lái)一定是在天上飛,在室內(nèi)、室外各種各樣的地方飛,所以它的場(chǎng)景跨度大、環(huán)境差異顯著。所以從我們?cè)O(shè)計(jì)它的算法的時(shí)候,無(wú)論是端到端架構(gòu)還是模塊化的感知方案,均需具備跨場(chǎng)景泛化能力,其核心是實(shí)現(xiàn)環(huán)境語(yǔ)義的抽象建模:即從差異化顯著的場(chǎng)景中,提煉通用化的環(huán)境表征規(guī)律,這個(gè)事情會(huì)很難。
第三是易受干擾和零容錯(cuò),我們知道無(wú)人機(jī)的飛行需要和空氣高頻的交互,因此它很容易受到氣流的擾動(dòng),系統(tǒng)需具備極強(qiáng)的動(dòng)態(tài)抗擾能力;更關(guān)鍵的是,無(wú)人機(jī)在飛行過(guò)程中零容錯(cuò),一旦發(fā)生了任何的剮蹭,會(huì)直接 墜毀;它沒(méi)有像地面機(jī)器人一樣可停駐待機(jī),想清楚了再動(dòng)作的機(jī)會(huì)。
最后是算力很弱、傳感器很弱,它很容易受到各種擾動(dòng),也不能支持非常大的模型在端上的實(shí)時(shí)運(yùn)行。
以上這些挑戰(zhàn),也是我們正在攻克的難關(guān),我想當(dāng)我們攻克了以后,它也會(huì)成為獨(dú)特的技術(shù)護(hù)城河。
03
我們團(tuán)隊(duì)在做什么?整個(gè)業(yè)界進(jìn)展什么樣?
我會(huì)把我們的工作分為環(huán)境感知、小腦本體歸控、大腦端側(cè)決策、群體協(xié)同智能和飛行操作一體化這幾個(gè)方面。
在歸控方面,我們要跨過(guò)傳統(tǒng)飛控的高 latency(高延遲)瓶頸,打破其對(duì)推力輸出與底層姿態(tài)控制的平均化、低上限約束,最終實(shí)現(xiàn)端到端直通電機(jī)的高動(dòng)態(tài)極限飛控。
在感知層面,我們要兼具高動(dòng)態(tài)感知和復(fù)雜語(yǔ)義信息的融合,從而為“端側(cè)大腦”提供支持,使其具備對(duì)復(fù)雜長(zhǎng)程任務(wù)的自主生成能力,以及在未知場(chǎng)景中實(shí)現(xiàn)泛化理解與決策的端側(cè)智能。
在集群方面,我們追求分布式的群體協(xié)同,大家還記不記得我上一頁(yè) PPT 里面電影《流浪地球》的片段,下一時(shí)刻發(fā)生了什么呢?他們把中心控制器給拔了,所以天上的幾千架無(wú)人機(jī)全部掉下來(lái)了,那就是不夠去中心化,不夠分布式導(dǎo)致的。
最后是飛行操作,我們希望不僅可以做飛來(lái)飛去的眼睛,也可以是飛來(lái)飛去的手。
所有做的這些目的都是為了 answer back(回應(yīng)) 黃仁勛的這句話:“只有三種機(jī)器人可以大規(guī)模的量產(chǎn),人形機(jī)器人、無(wú)人機(jī)和汽車?!?/p>
04
展開(kāi)聊聊五維技術(shù)體系:從“小腦”到“群腦”
接下來(lái)就是具體的技術(shù)分享。
第一個(gè)是小腦技能,我們正在著力打造敏捷、輕量、多任務(wù)的本體運(yùn)控小腦。
這里重點(diǎn)介紹的就是我們最近在做的 sim to real (仿真到現(xiàn)實(shí))端到端強(qiáng)化學(xué)習(xí)技術(shù)。我們的無(wú)人機(jī)可以通過(guò)搭載單顆機(jī)載攝像頭,在沒(méi)有額外的傳感器,沒(méi)有深度信號(hào)輸入的條件下,直接將視覺(jué)圖像映射成為控制指令,這個(gè)模型可以在端側(cè)跑到超過(guò)100Hz的運(yùn)行頻率,確保無(wú)人機(jī)通過(guò)實(shí)時(shí)微調(diào)自身的姿態(tài)去動(dòng)態(tài)適應(yīng)環(huán)境,這些都是真實(shí)的場(chǎng)景,不是仿真。
當(dāng)然,我們的訓(xùn)練會(huì)大量使用仿真合成數(shù)據(jù),即便環(huán)境在變化,它也可以很好的從里面穿越,因?yàn)樗哪P褪窃诙藗?cè)高頻運(yùn)行的,所以它不斷的微調(diào),而不是在飛之前提前看清楚環(huán)境,規(guī)劃好一條航跡,然后一次性的飛過(guò)去。我們的無(wú)人機(jī)也可以 穿越連續(xù)多個(gè)的狹窄環(huán)境,這些完全都是自主的。
像這樣的飛行能力,我們的系統(tǒng)甚至可以超越人類高水平飛手水平。面對(duì)狹窄的不規(guī)則縫隙,只要經(jīng)過(guò)少量的 fine tune (微調(diào))也可以很好地適配,這里是一個(gè)在白光環(huán)境下一鏡到底的拍攝,可以看到全程無(wú)人機(jī)穩(wěn)定穿越、應(yīng)對(duì)自如。這一系列優(yōu)化的核心目標(biāo),是確保技術(shù)完全滿足實(shí)際飛行場(chǎng)景的落地需求,實(shí)現(xiàn)全場(chǎng)景可靠適配。
當(dāng)然,我們后面會(huì)展示一些一腦多形的應(yīng)用,可以用在地面上或者其他場(chǎng)景,但其中我們最看重的還是飛行,所以我們從day 1開(kāi)始就要解決數(shù)據(jù)少以及算力低的問(wèn)題。這里,我們做了一個(gè)長(zhǎng)鏈路動(dòng)作的人機(jī)對(duì)抗項(xiàng)目,我們還設(shè)計(jì)了特技飛行,讓這個(gè)無(wú)人機(jī)自主連續(xù)穿越 6 個(gè)框,在每一次穿框的最高點(diǎn)都要頭朝下地倒轉(zhuǎn)穿過(guò)去,所以它并不是平飛的畫圈,而是倒過(guò)來(lái)穿過(guò)去。這樣的飛行動(dòng)作是很難的。
我們請(qǐng)了一個(gè)高水平的飛手做對(duì)比,左邊是算法自動(dòng),右邊是飛手飛的。可以看到兩邊軌跡的質(zhì)量有非常大的差異。而且,飛手在飛行之前其實(shí)已經(jīng)訓(xùn)練了三個(gè)小時(shí),并不是把他拉到一個(gè)從來(lái)沒(méi)見(jiàn)過(guò)的環(huán)境就來(lái)做對(duì)抗,我們也充分地保證這次對(duì)抗的公平性。
我們現(xiàn)在最小的端到端網(wǎng)絡(luò)可以跑在一個(gè)非常小的飛機(jī)上,它的總重量只有 50 克,可以用極低成本的傳感器和算力芯片支撐自己端到端的導(dǎo)航避障,。
為了支撐小腦(控制層)和大腦(決策層)的數(shù)據(jù)采集和模式訓(xùn)練,我們打造了一個(gè)高效可靠的自動(dòng)化數(shù)據(jù)采集系統(tǒng)和數(shù)據(jù)合成管線。這里就是一個(gè)像素級(jí)的數(shù)字孿生仿真系統(tǒng),左邊是仿真系統(tǒng)里渲染的圖像,右邊是真實(shí)的實(shí)拍畫面,可以看到幾乎可以達(dá)到以假亂真的效果。我們的端側(cè)感知也可以捕捉快速運(yùn)動(dòng)的物體,在極端的情況下可達(dá)到 1000 FPS。借助這些優(yōu)異的規(guī)控和感知能力,就可以實(shí)現(xiàn)動(dòng)態(tài)環(huán)境下的自主作業(yè)閉環(huán),比如說(shuō)動(dòng)態(tài)的車載起降等。
大腦層面,是我們團(tuán)隊(duì)最近重點(diǎn)關(guān)注和投入的方向。
我們認(rèn)為具身智能的本質(zhì)是通用和泛化。所以跨本體和跨場(chǎng)景一定是我們的 ultimate solution(終極解決方案),或者說(shuō)是本質(zhì)的追求。
在整個(gè)具身行業(yè)內(nèi),短期內(nèi)我們可能會(huì)為了落地做一些特定場(chǎng)景的 overfitting(過(guò)擬合),但長(zhǎng)期核心目標(biāo)還是要實(shí)現(xiàn)跨越本體和場(chǎng)景的通用能力,比如說(shuō)這里看到,我們自主研發(fā)的路徑規(guī)劃的大腦,不僅可以支撐各種各樣的旋翼無(wú)人機(jī),用在固定翼上也完全沒(méi)有問(wèn)題,當(dāng)然還需要做少量的適配工作。這項(xiàng)工作甚至可以拓展到地面的輪足機(jī)器人等不同載體上。可以看到,我們給該機(jī)器人提供走迷宮的路徑規(guī)劃技術(shù)支持。單次規(guī)劃的時(shí)間在 10 毫秒以內(nèi),而且完全通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)直出,輸入的是地圖,輸出的是最優(yōu)路徑。
這是我們團(tuán)隊(duì)最近的視覺(jué)語(yǔ)言三維重建基礎(chǔ)模型,我們的飛行機(jī)器人可以通過(guò)語(yǔ)言文字去下達(dá)指令,端側(cè)和邊緣側(cè)都部署著多模態(tài)大模型和基礎(chǔ)模型,它可以對(duì)環(huán)境有很好的認(rèn)知,并且邊重建邊腦補(bǔ)獲得上帝視角來(lái)輔助全局規(guī)劃。
我們會(huì)告訴它“你去做外立面的測(cè)繪,飛到建筑物內(nèi)部做探索,去看一下房頂,看一下房門......”它可以把語(yǔ)言里承載的模糊的邏輯信息和它視覺(jué)采集到的圖像進(jìn)行高效對(duì)齊,理解你在說(shuō)什么,完成從 理解、推理到?jīng)Q策的閉環(huán)。
比如說(shuō)在一些工業(yè)場(chǎng)景的應(yīng)用里面,我們下達(dá)“請(qǐng)你飛到四層樓去探索一下這棟建筑”的任務(wù),飛行機(jī)器人就會(huì)自己飛到第四層樓,沿著樓梯找上去,然后兩邊探索完,最后因?yàn)樗鼪](méi)有別的路可以下來(lái),所以會(huì)沿著路徑再返回,把環(huán)境內(nèi)的關(guān)鍵信息帶回來(lái)。在任務(wù)的全過(guò)程中都是沒(méi)有 GPS、沒(méi)有人為操作的。在更復(fù)雜的環(huán)境下,我們甚至可以在礦山內(nèi)部使用,這是一個(gè)非常惡劣、復(fù)雜而且事先未知的環(huán)境。那為什么要做這個(gè)呢?
因?yàn)槲覀兊膲?mèng)想就是做出普羅米修斯那種突破智能飛行機(jī)器人:一方面把無(wú)人機(jī)越做越小,另一方面也在不斷的挑戰(zhàn)極端場(chǎng)景下的技術(shù)極限——在復(fù)雜的、沒(méi)有信號(hào)(包括衛(wèi)星信號(hào)和人的通訊遙控信號(hào))的情況下,實(shí)現(xiàn)極致的自主決策和自主導(dǎo)航。這里的核心是“智能”: 你只需要給它一個(gè)任務(wù),它便能獨(dú)立規(guī)劃路徑、避障穿行,穩(wěn)穩(wěn)抵達(dá)目的地。
此外,自主決策是說(shuō),它并沒(méi)有不知道要去哪,它要自己根據(jù)自己的任務(wù)自主生成 next best target (下一最優(yōu)目標(biāo)點(diǎn))——這是一個(gè)復(fù)雜的決策任務(wù),對(duì)模型的泛化能力要求非常高。否則很難實(shí)現(xiàn)遇到一個(gè)陌生環(huán)境就可以完成這個(gè)任務(wù),這里的所有場(chǎng)景對(duì)于這個(gè)無(wú)人機(jī)來(lái)說(shuō)都是第一次見(jiàn)。完成了任務(wù)后它會(huì)自動(dòng)返航,把里面的信息帶回來(lái)。
第四部分是集群,我們其實(shí)在單體以外一直強(qiáng)調(diào)分布式集群。集群不僅要追求規(guī)模化部署能力,更重要的是具備極致的靈活性與動(dòng)態(tài)自適應(yīng)性。從 設(shè)計(jì)之初,我們便將 “分布式協(xié)同” 作為集群技術(shù)的底層架構(gòu)核心,確保系統(tǒng)從根源上適配多場(chǎng)景動(dòng)態(tài)需求。
我定下的目標(biāo)就是要做一個(gè)完全分布式的架構(gòu),因?yàn)檫@樣是最靈活的,分布式的架構(gòu)才能保證任何個(gè)體在加入或者退出時(shí),不會(huì)影響其他個(gè)體的任務(wù)執(zhí)行。就像人一樣,每個(gè)人都是在獨(dú)立感知環(huán)境,獨(dú)立地用自己的大腦做決策。但是當(dāng)我們構(gòu)成一個(gè)群體的時(shí)候,我們有共同的上層目標(biāo),只要沒(méi)有人使壞心往一處使,就能很好的把這個(gè)事情完成。
這也是一個(gè)一鏡到底的 demo,10架無(wú)人機(jī)組成的集群從一側(cè)進(jìn)入這個(gè)樹(shù)林,再?gòu)牧硪粋?cè)飛出來(lái)——全過(guò)程也是沒(méi)有人干預(yù)的,且是陌生的環(huán)境,我們使用的傳感器也只有機(jī)上的 Stereo camera( 雙目視覺(jué))、 MEMS 慣導(dǎo)以無(wú)源式 UWB 收發(fā)裝置(沒(méi)有部署基站,通過(guò)無(wú)人機(jī)間點(diǎn)對(duì)點(diǎn)測(cè)距實(shí)現(xiàn)協(xié)同定位),無(wú)任何額外輔助設(shè)備。只用了這三種傳感器,所有的計(jì)算都是在端側(cè)完成。我們現(xiàn)在最大規(guī)模去支撐的分布式的集群可以做到 1, 000 架以上,這里是今年年初發(fā)表的一篇 TRO,在論文里面我們呈現(xiàn)了1, 000 個(gè)無(wú)人機(jī)的分布式集群避障。
當(dāng)然這是一個(gè)仿真實(shí)驗(yàn),我們現(xiàn)在還沒(méi)有實(shí)力去做千機(jī)的真實(shí)實(shí)驗(yàn),可能未來(lái)會(huì)實(shí)現(xiàn)??梢钥吹皆陲w行中,每個(gè)個(gè)體都需要感知障礙物和周圍其他個(gè)體的運(yùn)動(dòng),通過(guò)分布式協(xié)同決策實(shí)現(xiàn)自主導(dǎo)航與實(shí)時(shí)避障。在地圖的中心區(qū)域,大家會(huì)聚集在一起,這是一個(gè)沖突高發(fā)區(qū)域,他們會(huì)恰好躲開(kāi)彼此碰撞。這項(xiàng)工作目前是學(xué)界考慮了無(wú)人機(jī)高階動(dòng)力學(xué)的、實(shí)時(shí)的、分布式的最大規(guī)模無(wú)人機(jī)運(yùn)動(dòng)規(guī)劃算法框架。
我們非常強(qiáng)調(diào)群體的協(xié)同性和個(gè)體主觀能動(dòng)性的結(jié)合,比如這個(gè)實(shí)驗(yàn)中我們讓 16 個(gè)無(wú)人機(jī)保持某種隊(duì)形。如果你牢牢保持這個(gè)隊(duì)形,前面有障礙物,是不是會(huì)撞上去?所以每個(gè)個(gè)體都需要實(shí)時(shí)的靈活決策“我現(xiàn)在是不是應(yīng)該繞行,什么時(shí)候再回歸我的隊(duì)伍去 reform(調(diào)整)成我預(yù)先指定的隊(duì)形?”同樣的,這些環(huán)境都是未知且沒(méi)有 GPS的。
接著說(shuō)我們做的應(yīng)用,比如說(shuō)多機(jī)協(xié)同三維重建,這里三架無(wú)人機(jī)在大范圍環(huán)境下做協(xié)同測(cè)繪,它們可以更好地做任務(wù)調(diào)度,比如說(shuō)你去測(cè)繪這里,我去測(cè)繪這里,最后在一個(gè)約定的地方做地圖的快速拼接。我們也可以做多機(jī)調(diào)運(yùn),目前我們已經(jīng)開(kāi)始了這方面的商業(yè)化。這里是我們的實(shí)驗(yàn)演示 demo,上面的三個(gè)發(fā)光的是無(wú)人機(jī),下面那個(gè)紅色的是一個(gè)載荷。
這里的實(shí)驗(yàn)對(duì)于實(shí)時(shí)規(guī)劃是很難的,因?yàn)槲覀円獙?shí)時(shí)地做力的分配;要保證這幾根繩子不會(huì)纏在一起;以及沒(méi)有任何一個(gè)無(wú)人機(jī)在偷懶。這項(xiàng)工作剛剛被 TRO conditional 接收,應(yīng)該很快就會(huì)上線。同樣我們要保證這個(gè)隊(duì)形的協(xié)同避障,可以看到在一個(gè)狹窄區(qū)域下,他們會(huì)主動(dòng)地改變自己的隊(duì)形,從里面穿過(guò)去,所有的規(guī)劃都是可以實(shí)時(shí)運(yùn)行的,所以你可以在飛行過(guò)程中給它下達(dá)新的指令,它們就會(huì)規(guī)劃出新的航線到達(dá)目標(biāo)點(diǎn)。
這里面的一個(gè)核心貢獻(xiàn)點(diǎn)是我們構(gòu)建了精細(xì)化的動(dòng)力學(xué)模型——考量繩子朝向、拉力大小、力矩大小等關(guān)鍵變量,不僅可以保證飛行的穩(wěn)定安全,甚至?xí)紤]下方載荷的姿態(tài),這樣的話如果里面是液體它也不會(huì)傾覆掉。這里是個(gè)更大規(guī)模的一個(gè) 5 機(jī)的協(xié)同搬運(yùn),我們確信沒(méi)有一個(gè)個(gè)體在其中是偷懶的。傳統(tǒng)協(xié)同搬運(yùn)中容易出現(xiàn)無(wú)人機(jī)在飛,但它的繩子是完全不受力的。
最后是飛行操作,我的理想是不僅要做一個(gè)靈活的飛行的眼睛,還要做飛行手,這個(gè)是我們這項(xiàng)技術(shù)的 demo。
我們把大模型部署在邊緣側(cè),這樣就可以和人做各種各樣的交互,它可以理解你的意圖,通過(guò)語(yǔ)言、文字甚至動(dòng)作,來(lái)理解你要干什么,幫你拿飲料、拿可樂(lè)等等。我們可以看到它是怎么工作的:它其實(shí)就是一個(gè)手型的無(wú)人機(jī),一個(gè)欠驅(qū)動(dòng)機(jī)械手的構(gòu)型,它可以通過(guò)單電機(jī)的神驅(qū)裝置讓自己本體發(fā)生形變,具備人手的指尖捏取或者掌心抓握的兩種不同的動(dòng)作模態(tài),因?yàn)槿说氖钟泻軓?qiáng)的包裹性,所以可以抓各種不同的東西。當(dāng)然這個(gè)東西做不了地面操作類機(jī)器人的精細(xì)操作,因?yàn)樗杂啥群艿停挥兄虚g、前后和旋轉(zhuǎn)的形變這幾個(gè)自由度,但是它可以很好地做到“抓了就跑”這個(gè)動(dòng)作。
比如在戶外我們就可以用它做一些物品的快速投遞,我們正在研發(fā)這個(gè)樣機(jī),希望在有朝一日我可以坐在辦公室里用它去幫我下樓取咖啡。
這里其實(shí)很多地方都很難,但是可能大家感知不到,比如說(shuō)可以看到它在抓一個(gè)東西之前和抓東西之后飛得都很穩(wěn),其實(shí)這個(gè)非常困難,做過(guò)無(wú)人機(jī)的同學(xué)可能知道,別說(shuō)抓東西了,只要產(chǎn)生了形變,無(wú)人機(jī)的轉(zhuǎn)動(dòng)慣量、質(zhì)量、各種物理參數(shù)都會(huì)變化,保持平穩(wěn)飛行就會(huì)很難,更何況它的載荷還在發(fā)生很大的波動(dòng)。此外,我們也可以把它當(dāng)做人手的空間延伸,借助 第一人稱視角眼鏡和單手遙控,給它下達(dá)簡(jiǎn)易的指令。我們會(huì)做端側(cè)的輔助駕駛?cè)バ拚刂浦噶睿詈髱椭瓿扇蝿?wù),把東西抓下來(lái)。
以上就是我們的技術(shù)進(jìn)展,我們正在把飛行具身的三腦:大腦、小腦和群腦,做多個(gè)方向的技術(shù)落地,包括泛測(cè)繪-巡檢,去代替人工進(jìn)入復(fù)雜惡劣的場(chǎng)景采集信息;去做特種安防,提供自主作業(yè)支撐;去做車用級(jí)的飛行 agent,滿足移動(dòng)平臺(tái)協(xié)同需求;此外也可以做通用開(kāi)放的二次開(kāi)發(fā)平臺(tái)。
以上就是我今天報(bào)告的內(nèi)容,謝謝大家(雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。