0
| 本文作者: 胡清文 | 2026-01-08 17:59 |
12月12日,第八屆GAIR全球人工智能與機器人大會在深圳正式啟幕。
本次大會為期兩天,由GAIR研究院與雷峰網聯合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。
作為觀測AI技術演進與生態變遷的重要窗口,GAIR大會自2016年創辦以來以來,始終與全球AI發展的脈搏同頻共振,見證了技術浪潮從實驗室涌向產業深海。2025年,是大模型從“技術破壁”邁向“價值深耕”的關鍵節點,值此之際GAIR如期而至,攜手智者觸摸AI最前沿脈動,洞見產業深層邏輯。
大會上,深圳市海外高層次人才、南方科技大學計算機科學與工程系長聘副教授張進親臨現場,為參會者帶來了一場精彩紛呈的演講分享。
演講一開始,張進教授就向“時空AI”、“具身智能”等當下火熱概念率先拋出了自身見解:無論是具身智能還是智慧健康,都需要對物理世界進行感知理解,并在虛擬世界和物理世界之間建立溝通。因此傳統AI和新型傳感本質上是從不同的角度和路徑走到同一個點,最終實現“殊途同歸”。
基于這一點,張進教授認為傳統AI從語言、文字、視覺等模態出發,生成世界模型探索空間智能。而傳感器、智能物聯網相關領域的學者們一直以來在做的,同樣是為了準確感知物理世界。只不過感知方式從信號處理迭代到機器學習、深度學習,再到如今通過大模型實現面向空間智能的多模態感知。
關于面向空間智能的新型模態感知,張進教授和她的團隊有一些新想法:
1、當下的多模態感知大部分集中在語音、文字、圖像、視頻等形式,存在功耗成本高、隱私性差等問題,我們希望引入更多的新型模態感知如聲波感知、毫米波雷達感知。
2、聲波感知成本低、計算量低,能通過對多個設備對之間的聲波感知,判斷它的方向和距離,未來這項技術有望作為提供連接和方向感知的基礎設施。
3、聲波感知在醫療健康領域大有可為,在未來也許利用小小一副耳機就能實現心跳、血壓、肺功能健康全鏈路監測。但如何實現跨模態檢測、消除個體差異性影響,仍是一項巨大挑戰。
4、如今我們對毫米波雷達的關注點由檢測準確率轉向可信感知,正在思考要如何將視覺的數據合成毫米波數據。
5、接下來我們的主要工作方向有個:繼續做用于物理信息輔助的新型模態理解模型、讓傳統模態與更新型的模態融合理解,用大模型自動生成代碼來檢測物理世界的感知信號。
6、在將來,面向空間智能、物理世界的多模態感知需求會極其大,需要更多像聲波感知、毫米波雷達一樣的新型感知模態在不同場景并發揮獨特優勢。
7、當下新型模態的數據量還是很少,所以未來的研究方向將會集中于數據理解、數據生成等方面。如何生成、如何防御、如何更輕量化的跑在端側等等,這些問題亟需進一步研究。
以下是張進教授演講的精彩內容,雷峰網作了不改變原意的整理與編輯:
聲波感知也好,毫米波也罷,都是為了感知物理世界獲取空間智能,所以今天我要講的是面向空間智能的新型模態感知。
眾所周知,上個月李飛飛院士剛剛提出空間智能是AI的下一個前沿。深圳的反應非常迅速,在上個月底發布的《深圳市“人工智能+”(征求意見稿)》當中就把空間智能模型寫進去了。

實際上無論是現在的具身智能、無人機、智慧健康,都是用來認識和了解物理世界的,只不過大家是從不同的渠道、不同的方向走到了共同的點上,所以我管它叫殊途同歸。
為什么說是殊途同歸?
傳統AI從語言、文字、視覺等模態出發,生成世界模型,探索空間智能。但回過頭看,二十年前我們在無線通信和無線網絡的研究中,就已經開始做無線傳感器網絡了:把所有的傳感器放到山里、放到河里、甚至空中去進行監測。
再往前追溯十年,數字孿生、城市建筑、交通等等都是為了準確的感知物理世界。包括現在我們利用WiFi、手機信號做感知,從有線發展到無線,這些都是我們在試圖感知物理世界的方式。
那么我們是如何做到殊途同歸的呢?
最初我們是用信號處理來完成這件事情,后來我們可以用機器學習、深度學習來理解物理信息,現在我們可以用大模型理解傳統傳感器的信號,從而得到更多的信息,也為我們帶來面向空間智能的多模態感知。
但說實話,現在所謂的多模態感知,都還是集中在語音、文字、圖像、視頻,真正新型的并不多。像激光雷達、點云、深度攝像頭、紅外,稍微有一點與傳統的結合。我們希望能夠引入更多的模態,比如聲波感知、毫米波雷達感知。
聲波感知有哪些最新探索?
毫米波雷達感知目前已經有一些應用了,但聲波感知的應用目前較少。更重要的是,為了更好地理解這些新型模態,我們需要用更新的網絡更好地理解它,所以這也是我們整個正在團隊做的事情,就是希望用這些最新的模型技術,來理解一些新型的傳感器數據。
為什么需要這些新型的傳感器數據?這個事情非常好理解。已有的視覺傳感器復雜度高、依賴光照,還有隱私問題。如果要在小機器人上加一個攝像頭,甚至加一個處理視覺數據的芯片,它的功耗和成本都是不容小覷的。那么能不能用更便宜、更好的方式來做感知呢?

基于此,我們最近幾年都在研究聲波感知。我們所有的設備,例如手機、智能眼鏡、耳機、智能音箱等,全都帶有揚聲器和麥克風。無需要借助額外設備,只要讓它們用揚聲器、麥克風發出一個人聽不到的聲音,將這個聲音打在環境中再返回來,就能夠像蝙蝠一樣感知到周邊的狀況。這種感知方法成本低、計算量低,非常適合機器人應用。
具體來看它有哪些應用呢?例如華為汽車,它在車內的定位已經試圖在做這件事了。以及在筆記本電腦上,已經可以用手來翻頁了,這個動作并不是靠攝像頭來完成,而是通過聲波完成的。還有很多應用,包括智能眼鏡和耳機等設備上的應用。

最早的時候我們還沒有用聲波模型,只是理解信號,用兩個很小、距離很近的兩個揚聲器,發一些特殊的旋轉聲場的信號,就可以做到很精準的厘米級的位置感知,這是需要依賴設備的,在設備和設備之間做定位的時候這一點就非常重要。
除了2D的感知,我們還可以做3D的運動追蹤。其實兩個設備之間去做聲波感知,并非一件容易的事,多設備之間的聲波感知就更為復雜了。在這個過程中要面臨很多的沖突,要怎么去解決這些沖突呢?近幾年我們在跟榮耀、華為等智能設備廠商合作解決這個問題,通過多個設備對之間的感知,判斷它的方向和距離。未來,這項技術有望放到華為OpenHarmony系統中,作為提供連接以及方向感知的基礎設施。
除此之外,我們還在智能交互方面做了很大一部分工作。我們花了很多的精力做智能眼鏡的交互,希望能夠用聲波感知人眼上下左右的表情。比如只需要眨個眼、擠個眉,就可以控制眼鏡的操作。本質其實也是speaker發出聲音,打到麥克風上從而做交互,實現無需抬手僅用眼球就可以控制智能眼鏡。
緊接著,我們還做了不少的東西。如果你現在的智能眼鏡前面有十幾個圖標,在點擊圖標的時候你需要用手滑動它,看到需要點的位置。因此,我們做了一個面部的傳感器,它只需要發出一個稍微高一點的次聲波,就可以非常便捷地進行感知,包括觸摸、滑動等等。未來,這種傳感器如果可以集成在眼鏡上,外觀上可以做到基本隱形。
除此之外,我們還做了隔空的手勢識別。比如華為的智能眼鏡,在旁邊有一個觸控板,只要觸碰到就可以感覺到眼鏡在動造成不適感。那么能不能隔空控制它呢?這個技術挑戰還是蠻高的。

目前,我們有兩種技術:一種是被動感知的技術,手在滑動產生了微弱的聲音,讓麥克風聽到。另一種是主動感知的技術,speaker要發一個人聽不到的聲音,彈回來然后感知它,無論如何都是隔空手勢的感知。
除了在智能眼鏡上做交互之外,我們還發現了很多痛點。例如現在幾乎人手一個藍牙耳機,但是目前對耳機做交互主要還是靠摸,摸它的柄上下不同的位置。尤其是很好的耳機,輕輕一摸聲音的增減幅度就很大,現在我們希望不觸摸它,就可以讓耳機實現感知。
我們首先做的是,讓舌頭頂上顎的不同位置,來告訴耳機現在希望它進行什么樣的操作,這個構想我們最早是從助聽器上得到的。助聽器具備一個很重要的特點,就是需要區分聲音的方向,不光要選擇聲音的強弱,而且還要選擇聲音的方向,并且使用者一般不希望別人知道他戴著這個東西。
因此,我們受了助聽器的啟發,在藍牙耳機上安裝了隔空隱蔽式傳感器,用舌頭就可以控制耳機。它的原理其實很簡單,因為耳道、上顎和口腔是連通的,耳道發一個聲音,打到口腔內再返回去,舌頭不同的位置會使信道產生明顯的變化。通過感知信道的變化,就可以實現隔空隱蔽,這也是今年人機交互頂會上的一份工作。

除了用舌頭來控制耳機之外,接下來我們還做了隔空手勢控制耳機。這個部分其實有非常多的挑戰,包括怎樣設置這個手勢?怎樣防止周圍環境的干擾?選用什么樣的信號?看起來是蠻小的系統,但這里面的技術挑戰還是很多的。在交互上,我們前前后后也做了不少的工作。有一些消費電子類廠商對我們正在做的這些研究很感興趣,所以我們現在也在做進一步的落地工作。
另一方面,我們想稍微聊一下聲波感知在健康方面的應用。實際上用聲波感知做健康的監測,這項研究我們已經做了十多年。在此之前,我們已經做了快20年遠程健康監測。
我們現在想做的事情是,用聲波感知最基本的呼吸、心跳。打個比方,就是把手機放在桌子前面,就可以看你的呼吸、心跳,這部分現在已經做得非常成熟了。 而我們現在做的事情是,拿耳機觀測你的肺功能。
在中國,有非常多的慢阻肺人群,以及哮喘病人需要定期到醫院做肺功能的監測,有時候他不想去,就沒辦法知道自己病情的發展。如果我們在家里戴著耳機,就可以得出跟醫院幾十萬的監測設備類似的肺功能曲線結果,這對用戶來說將是一件非常利好的事情。

為此,我們做了兩方面的工作:第一份工作,用耳機作肺功能監測,但是還需要吹一個很長的管子。第二份工作即今年的研究,現在用耳機做肺功能檢測已經不需要管子了,通過正常說話就可以判斷肺功能的情況。
在做完這件事情之后,醫生告訴我們光知道他們的情況是沒用的,對醫學來說,技術手段不光要監測出狀況,最重要的就是要形成閉環,還需要返回來幫助他們進行康復或治療。
那么要如何在呼吸系統疾病上幫助他做治療呢?醫生告訴我們,肺部訓練是一個很常用的辦法,可以每天做幾十次的腹式呼吸訓練。
但是病人一回家就發現,雖然一開始做的是腹式呼吸,但做了不到2個就又變成胸式呼吸了。所以我們想到可以用聲學攝像機或毫米波雷達來幫助他們做呼吸方式、呼吸深度的評估,從而替代醫生和護士,幫助他們去做呼吸訓練的指導。目前,我們正在跟廣東省人民醫院進行相關合作。
除此之外,我們還用聲波做了房顫監測系統,只要放到手上就可以做監測,使用方法上相對比較容易。想象一下,未來只要戴著耳機就可以知道你的呼吸、心跳、壓力狀況,發出呼吸訓練的提醒,還可以順帶放一些音樂緩解你的壓力。這個方面目前我們正在做,后續還有很多需要進一步完善的地方。

除了聲波感知,我們做了一些關于柔性傳感器的工作。因為我們的研究主要關注醫療健康領域,所以我們嘗試過把柔性傳感器放在耳朵里做血壓監測,放在手腕上進行血壓的監測等等。這一方面我們要解決的核心問題是,原來大多數的數據都是基于光電傳感器和PPG的,如果切換到柔性傳感器它的數據量是遠遠不足的。
這部分的難點主要有兩個,一方面要實現跨模態監測,這一點尤為重要。另一方面,在正常人身上做監測是很容易的,但是在病人身上做檢測就相對困難。未來我們還需要收集更多病人的數據來做相關工作,仍然有很長的一段路要走。
數據匱乏是毫米波雷達感知的關鍵挑戰
最后一部分,我想分享一下關于毫米波雷達的感知。
其實毫米波雷達我們其實做了已經快10年了,之前也做了很多毫米波雷達的SLAM,比如針對材質進行識別,是玻璃、石頭還是沙發?最近我們的關注點反而不是它的檢測準確率了,而是毫米波雷達的可信感知。之前我們嘗試過用毫米波雷達監測人的運動,可以做到把人的Skeleton畫出來、追蹤出來。
在這個工作中要解決的核心問題是,毫米波雷達的數據很少。但視覺的數據很多的,所以我們在思考要如何將視覺的數據合成毫米波數據從而進行分析以及后續的學習和訓練。在做的過程中我們發現,視覺上的欺騙可能會影響毫米波雷達的判斷,所以只能識別還是遠遠不夠的。
舉一個交通相關的例子,假如你前面有一輛車,但是旁邊車輛開門造成一個視覺上的遮擋,這時它就會生成一個信號讓你誤以為前面沒有車,就很容易撞上去。還有一種可能,就是你前面本來沒有車,但是它生成一個信號讓你誤以為前面有車,這個時候剎車就會導致后車追尾,這些情況都是有可能發生的。

那要怎么樣防御這種生成式欺騙呢?后續我們著重做了一些工作。舉個例子,我們可以設置毫米波雷達發射出來的信號,讓它形成幾個不同的通路,使得我們在一個通路下看到的運動速度距離是A,另外一個通路下看到的運動速度距離是B。這樣我們就可以區分真實信號和欺騙信號。
如今大家進到一個陌生的房間里,會很關心屋子里有沒有攝像頭在進行偷拍。也許在未來,如果房間里有入侵的毫米波雷達,不需要偷拍就可以感知到房間里的狀況,那我們要如何探測、發現、并將它清理出房間呢?這個相關研究也是我們后續要做的。

最后,我們來總結一下聲波毫米波雷達的發展歷程。
在初期,我主要做信號相關研究。這也與我的專業背景有關,我的本科碩士都是電子信息專業,博士期間跨專業到計算機,于是開始做深度學習研究。我們最早用的是一些信號處理的手段。隨著深度學習的發展,我們早期的信號處理手段已經遠遠不夠用了,需要在理解物理信號的基礎上,設計針對物理信號的模型。
舉個簡單例子,毫米波雷達的信號是有稀疏性的,會有天線之間角度的關聯性,這種關聯性就不能再直接套用傳統的視覺網絡。我們需要理解它的物理意義,然后在此基礎上設計合理的模型。因此,所以我們慢慢從物理意義做到有物理意義模型。
新型模態感知會走向何方?
在將來,我們的主要工作方向會集中在以下三個方面:
首先,繼續做用于物理信息輔助的新型模態理解模型。舉個例子,現在已經做出了很多毫米波雷達模型,但大都是基于生成點云然后在點云上做理解的。但實際上生成點云這件事本身就已經消耗了很多信息,如果可以直接在原有的信息上做理解,用物理意義結合深度模型來做模型設計,效果將會更好,這也是我們現在的工作方向。
其次,如何讓傳統模態與更新型的模態融合理解。
最后,近兩年大模型非常火熱,并且對各行各業造成了翻天覆地的變化。我們所做的智能感知領域的物聯網相關研究,自然也深受大模型的影響。所以我們也在積極擁抱大模型并做了一些新的工作,比如用大模型自動生成代碼來檢測物理世界的感知信號,然后直接給出結果。

未來,還會有非常多基于大模型的感知模型生成方面的工作。如今這方面的工作才剛剛開始,我相信未來五到十年就會非常繁榮的發展。
總結一下,面向空間智能、物理世界的多模態感知需求是極其大的。傳統的感知模式只有寥寥幾類,而未來我們需要更多的新型感知模式。并且在不同領域需要不同的感知模式,聲波感知、毫米波感知、柔性傳感等新型模態,會適用于不同物體的感知并發揮獨特優勢。
而我們需要做的,就是理解新型的感知模態,設計新型感知模型,從而更好地利用這些新型感知模態的信息,更全面的感知這個物理世界。所以未來的研究方向將會集中于數據理解、數據生成等方面,當下新型模態的數據量還是很少,如何生成、如何防御、如何更輕量化的跑在端側等等,這些問題亟需我們進一步研究。
我的分享就到這里,謝謝。
以下是雷峰網與張進教授采訪對談的精彩內容,雷峰網(公眾號:雷峰網)作了不改變原意的整理與編輯:
雷峰網:您最初的研究領域電子通信與現在跨度很大,是基于什么樣的契機開始做感知研究?
張進:本碩期間我在清華讀的都是電子通信專業,后來去了香港科技大學讀博改學計算機專業,結合過往的學科背景,博士期間我開始研究認知無線電。博士畢業后我開始跟醫院合作,將無線信號技術應用在智慧醫療中,也是在這期間發現了信號也能感知健康狀況。人口老齡化不斷加速發展的背景,讓我意識到智慧健康領域的感知需求將會非常大。
但學界研究和業界需求變革始終是相輔相成的,所以在2014年前后我選擇回到學術界,繼續深耕健康檢測感知技術。研究過程中我開始關注到毫米波雷達在醫療健康領域的適用性,從2014年至今我一直在南方科技大學做毫米波雷達相關的應用研究,并在2018年開始同時做聲波感知的應用研究。因此,我經常告訴我的學生,在找工作時不能只看公司需求的產品跟自己的研究內容是否對號入座,要用系統性思維去拆分需求找到解決問題的突破點,這也是一個成功的博士應該具備的能力。
雷峰網:聲波感知、毫米波雷達這種新型感知技術,會對普通大眾產生什么主要影響?
張進:真正的好技術是“無形”和“無感”的。打個比方,平時我們把藍牙耳機從充電倉里取出來戴在耳朵上,就能立刻自動連接手機。但如果戴上耳機之后還需要在手機上點一下才能開始用,那么用戶的體驗感就會大打折扣。所以我們這種新型感知技術的核心目的,就是幫助設備理解周圍的環境,并具備智能感知周圍環境的能力,從而更加便捷的進行人機交互。
舉個例子,現在我們跟一些AI智能設備互動時,還需要拍個照片或說句話才能讓設備理解我們的目的并執行。在未來,有了更多模態的智能感知技術之后,也許我們無需做任何事,設備就能自動理解周圍環境并執行我們的目的。
雷峰網:新型模態感知技術在推動空間智能發展中起什么作用?未來的感知世界會是什么樣?
王進:傳統的AI是通過視覺、聽覺、文本等內容來讀取信息認識世界,對于物理世界中的距離這種概念它是無法理解的。所以要真想讓空間智能真正的理解物理世界,需要通過物理傳感來進行空間感知,因此我認為新型模態感知技術中的聲波感知、毫米波雷達等物理傳感,在推動空間智能的發展中是必不可少的。
正如剛才所說的,真正的好技術是“無形”和“無感”的,在感知這件事情上也是一樣的。新型感知技術是一個非常復雜的領域,它會針對不同的場景需求和設備限制提供不同的技術支持,聲波感知也好、毫米波雷達也好,一般來說不會有一種感知技術打通一切場景的情況。未來也許會是一樣或者幾樣感知技術結合起來,在特定場景中滿足產品的智能化需求。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。