^{<sub id="jgr5k"></sub>}

清華趙昊最新力作：0.4 秒完成4D高斯重建，自駕仿真新SOTA丨GAIR 2025

本文作者：梁丙鑒

2025-12-31 17:10

導語：性能較現有 SOTA 提升 50%。

雷峰網(公眾號：雷峰網)訊從工廠、礦區的封閉路段到更加開放的世界，自動駕駛技術面臨著來自真實交通環境的多重挑戰。變道超車的車輛、突然打開的車門、橫穿馬路的行人……當自動駕駛系統學著給這些動態對象進行4D建模、重建和再仿真時，大多數解決方案仍然依賴于每場景優化、已知的相機校準或短幀窗口，這使得它們變得緩慢且不實用。

能否快速、低成本獲得動態駕駛場景下的仿真數據，決定了自動駕駛系統在開放世界中的進化速度。在這一背景下，長期深耕神經渲染與仿真技術的趙昊老師團隊，提出了首個面向大型動態駕駛場景的無姿態（pose-free) 前饋三維重建框架——DGGT（Driving Gaussian Grounded Transformer）。

趙昊現任清華大學智能產業研究院（AIR）助理教授，智源學者（BAAI Scholar）。他的研究聚焦計算機視覺領域，在三維場景理解、生成式仿真與神經渲染等方向深耕多年，研究成果對于自動駕駛及具身智能仿真具有重要意義。

值得關注的是，趙昊老師將以組委會主席的身份，出席2025年GAIR全球人工智能與機器人大會，并主持世界模型分論壇，分享他在世界模型方面的最新探索。

GAIR大會聚焦人工智能的核心技術、前沿趨勢與產業落地，長期吸引來自全球的技術領袖和科研人士。本屆大會將于2025年12月12-13日在深圳·博林天瑞喜來登酒店舉行，與產業界和學術界的嘉賓共同研討人工智能的下一步發展。

清華趙昊最新力作：0.4 秒完成4D高斯重建，自駕仿真新SOTA丨GAIR 2025

論文地址： https://arxiv.org/abs/2512.03004

01自動駕駛仿真新 SOTA

DGGT最大的突破，是擺脫了傳統方案對逐場景優化、相機標定以及短幀窗口的依賴。通過多頭聯合預測結構，DGGT只需稀疏、無標定圖像，單次前向即可同時輸出相機位姿、深度、動態實例與場景表示，重建長序列三維場景。

且該場景表示可直接在Gaussian層面進行編輯，如移除或移動車輛，插入其他場景的新汽車或騎行者等實例。DGGT的高度可編輯性支持擴散精修自動補洞，輸出可用于仿真與數據合成。

實驗結果表明，DGGT在Waymo上達到了 27.41 PSNR，每場景推斷 0.39 秒（3 個視角，20 幀），超過了作為優化基線的EmerNeRF、DeformableGS方案和前饋方法，同時保持了速度競爭力。換言之，DGGT比優化類方案更迅速，比前饋方案更保真。

同樣令人驚喜的還有泛化性。DGGT將相機位姿從輸入轉為模型輸出，通過端到端預測內外參并融入場景表示的方法，打破了跨數據集部署的校準壁壘。DGGT模型在 Waymo 上訓練，卻能在 nuScenes 與 Argoverse2 上實現強勁的零樣本泛化，在關鍵感知指標上相比STORM提升超過50%。如在nuScenes上LPIPS從0.394降至0.152（下降 61.4%），在 Argoverse2上從0.326降至0.155（下降52.5%）。

值得注意的是，研究團隊在nuScenes 和 Argoverse2 數據集上分別進行了零樣本和從頭訓練兩種設置的實驗評估。在這兩種情況下，DGGT均表現出了SOTA級性能。

此外，系統通過lifespan head建模場景隨時間的外觀演變，并配合單步擴散精修，可有效抑制運動插值偽影，提升時空一致性與渲染自然度。在保證仿真質量的前提下，DGGT為自動駕駛仿真推開了一扇邁向高速、可擴展新階段的大門。

02一次前向，完整 4D 場景

DGGT的核心設計理念，是一次性預測完整的4D場景狀態，同時清晰地將靜態背景與動態實體分離，并保持時間上的連貫性。

具體來說，研究團隊將相機位姿從輸入轉為模型輸出，每幀生成像素對齊的高斯映射，并添加一個壽命參數，隨時間調制可見性以捕捉變化的外觀，隨后使用動態頭生成密集動態映射，使用運動頭估計三維運動，用于稀疏時間戳間插值，同時插入單步擴散細化，抑制重影/遮蔽偽影并恢復細節。

這產生了單遍、無姿態的算法，能夠從未擺拍圖像重建動態驅動場景，自然支持高斯層級的實例級編輯。

在系統結構上，DGGT 采用 ViT 編碼器融合 DINO 先驗，通過交替注意力得到共享特征，再由多個預測頭并行輸出：

相機頭估計每一幀內外參數；

Gaussian 頭給出逐像素顏色/位置/旋轉/尺度/不透明度參數；

lifespan 頭控制時間可見度；

動態頭輸出運動遮罩；

運動頭顯式估計動態物體的三維位移；

天空頭穩定建模遠景背景。

03動態駕駛場景仿真新路徑

長期以來，高精度標定設備和固定路線采集方案，一直限制著動態駕駛場景訓練數據的成本和采集效率，DGGT則提出了一種規避上述限制的全新方案。

將相機位姿轉為模型輸出的設計使DGGT具有了在真實、開放世界中的高度靈活性，同時其多頭聯合預測結構支持任意數量的輸入視圖和長序列處理，克服了現有前饋方法在時序擴展性上的瓶頸，為處理大規模自動駕駛日志提供了可行路徑。

更可貴的是，DGGT能在Waymo、nuScenes等大規模數據集上實現SOTA級重建質量的同時，仍然保持亞秒級的推理速度。這種既快又好的特性，平衡滿足了工業界對速度與質量的雙重需求，使其具有作為實時的預處理模塊，集成到自動駕駛系統的訓練、仿真與評估流程中的潛力。

總體來看，0.4秒即可完成支持實例級編輯的4D重建，速度與質量兼顧的動態場景建模，以及對跨數據集泛化瓶頸的突破，無一不意味著低成本生成動態駕駛場景訓練數據的新范式，已經距離我們更近一步。

雷峰網文章

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

梁丙鑒

編輯

發私信

當月熱門文章

登頂全球第一后再融10億，星動紀元估值破百億，最多產業方加持的具身企業