0
| 本文作者: 梁丙鑒 | 2025-12-31 17:10 |
雷峰網(wǎng)訊 從工廠、礦區(qū)的封閉路段到更加開放的世界,自動駕駛技術(shù)面臨著來自真實交通環(huán)境的多重挑戰(zhàn)。變道超車的車輛、突然打開的車門、橫穿馬路的行人……當(dāng)自動駕駛系統(tǒng)學(xué)著給這些動態(tài)對象進行4D建模、重建和再仿真時,大多數(shù)解決方案仍然依賴于每場景優(yōu)化、已知的相機校準或短幀窗口,這使得它們變得緩慢且不實用。
能否快速、低成本獲得動態(tài)駕駛場景下的仿真數(shù)據(jù),決定了自動駕駛系統(tǒng)在開放世界中的進化速度。在這一背景下,長期深耕神經(jīng)渲染與仿真技術(shù)的趙昊老師團隊,提出了首個面向大型動態(tài)駕駛場景的無姿態(tài)(pose-free) 前饋三維重建框架——DGGT(Driving Gaussian Grounded Transformer)。
趙昊現(xiàn)任清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)助理教授,智源學(xué)者(BAAI Scholar)。他的研究聚焦計算機視覺領(lǐng)域,在三維場景理解、生成式仿真與神經(jīng)渲染等方向深耕多年,研究成果對于自動駕駛及具身智能仿真具有重要意義。
值得關(guān)注的是,趙昊老師將以組委會主席的身份,出席2025年GAIR全球人工智能與機器人大會,并主持世界模型分論壇,分享他在世界模型方面的最新探索。
GAIR大會聚焦人工智能的核心技術(shù)、前沿趨勢與產(chǎn)業(yè)落地,長期吸引來自全球的技術(shù)領(lǐng)袖和科研人士。本屆大會將于2025年12月12-13日在深圳·博林天瑞喜來登酒店舉行,與產(chǎn)業(yè)界和學(xué)術(shù)界的嘉賓共同研討人工智能的下一步發(fā)展。

論文地址: https://arxiv.org/abs/2512.03004
01自動駕駛仿真新 SOTA
DGGT最大的突破,是擺脫了傳統(tǒng)方案對逐場景優(yōu)化、相機標定以及短幀窗口的依賴。通過多頭聯(lián)合預(yù)測結(jié)構(gòu),DGGT只需稀疏、無標定圖像,單次前向即可同時輸出相機位姿、深度、動態(tài)實例與場景表示,重建長序列三維場景。
且該場景表示可直接在Gaussian層面進行編輯,如移除或移動車輛,插入其他場景的新汽車或騎行者等實例。DGGT的高度可編輯性支持擴散精修自動補洞,輸出可用于仿真與數(shù)據(jù)合成。
實驗結(jié)果表明,DGGT在Waymo上達到了 27.41 PSNR,每場景推斷 0.39 秒(3 個視角,20 幀),超過了作為優(yōu)化基線的EmerNeRF、DeformableGS方案和前饋方法,同時保持了速度競爭力。換言之,DGGT比優(yōu)化類方案更迅速,比前饋方案更保真。
同樣令人驚喜的還有泛化性。DGGT將相機位姿從輸入轉(zhuǎn)為模型輸出,通過端到端預(yù)測內(nèi)外參并融入場景表示的方法,打破了跨數(shù)據(jù)集部署的校準壁壘。DGGT模型在 Waymo 上訓(xùn)練,卻能在 nuScenes 與 Argoverse2 上實現(xiàn)強勁的零樣本泛化,在關(guān)鍵感知指標上相比STORM提升超過50%。如在nuScenes上LPIPS從0.394降至0.152(下降 61.4%),在 Argoverse2上從0.326降至0.155(下降52.5%)。
值得注意的是,研究團隊在nuScenes 和 Argoverse2 數(shù)據(jù)集上分別進行了零樣本和從頭訓(xùn)練兩種設(shè)置的實驗評估。在這兩種情況下,DGGT均表現(xiàn)出了SOTA級性能。
此外,系統(tǒng)通過lifespan head建模場景隨時間的外觀演變,并配合單步擴散精修,可有效抑制運動插值偽影,提升時空一致性與渲染自然度。在保證仿真質(zhì)量的前提下,DGGT為自動駕駛仿真推開了一扇邁向高速、可擴展新階段的大門。
02一次前向,完整 4D 場景
DGGT的核心設(shè)計理念,是一次性預(yù)測完整的4D場景狀態(tài),同時清晰地將靜態(tài)背景與動態(tài)實體分離,并保持時間上的連貫性。
具體來說,研究團隊將相機位姿從輸入轉(zhuǎn)為模型輸出,每幀生成像素對齊的高斯映射,并添加一個壽命參數(shù),隨時間調(diào)制可見性以捕捉變化的外觀,隨后使用動態(tài)頭生成密集動態(tài)映射,使用運動頭估計三維運動,用于稀疏時間戳間插值,同時插入單步擴散細化,抑制重影/遮蔽偽影并恢復(fù)細節(jié)。
這產(chǎn)生了單遍、無姿態(tài)的算法,能夠從未擺拍圖像重建動態(tài)驅(qū)動場景,自然支持高斯層級的實例級編輯。
在系統(tǒng)結(jié)構(gòu)上,DGGT 采用 ViT 編碼器融合 DINO 先驗,通過交替注意力得到共享特征,再由多個預(yù)測頭并行輸出:
相機頭估計每一幀內(nèi)外參數(shù);
Gaussian 頭給出逐像素顏色/位置/旋轉(zhuǎn)/尺度/不透明度參數(shù);
lifespan 頭控制時間可見度;
動態(tài)頭輸出運動遮罩;
運動頭顯式估計動態(tài)物體的三維位移;
天空頭穩(wěn)定建模遠景背景。
03動態(tài)駕駛場景仿真新路徑
長期以來,高精度標定設(shè)備和固定路線采集方案,一直限制著動態(tài)駕駛場景訓(xùn)練數(shù)據(jù)的成本和采集效率,DGGT則提出了一種規(guī)避上述限制的全新方案。
將相機位姿轉(zhuǎn)為模型輸出的設(shè)計使DGGT具有了在真實、開放世界中的高度靈活性,同時其多頭聯(lián)合預(yù)測結(jié)構(gòu)支持任意數(shù)量的輸入視圖和長序列處理,克服了現(xiàn)有前饋方法在時序擴展性上的瓶頸,為處理大規(guī)模自動駕駛?cè)罩咎峁┝丝尚新窂健?/p>
更可貴的是,DGGT能在Waymo、nuScenes等大規(guī)模數(shù)據(jù)集上實現(xiàn)SOTA級重建質(zhì)量的同時,仍然保持亞秒級的推理速度。這種既快又好的特性,平衡滿足了工業(yè)界對速度與質(zhì)量的雙重需求,使其具有作為實時的預(yù)處理模塊,集成到自動駕駛系統(tǒng)的訓(xùn)練、仿真與評估流程中的潛力。
總體來看,0.4秒即可完成支持實例級編輯的4D重建,速度與質(zhì)量兼顧的動態(tài)場景建模,以及對跨數(shù)據(jù)集泛化瓶頸的突破,無一不意味著低成本生成動態(tài)駕駛場景訓(xùn)練數(shù)據(jù)的新范式,已經(jīng)距離我們更近一步。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))文章
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。