0
| 本文作者: 鄭佳美 | 2026-01-14 10:55 |
在單目深度估計中,分辨率越來越高已經(jīng)是一個很常見的趨勢。很多方法可以輸出 2K 甚至 4K 的深度結(jié)果,看起來也確實比低分辨率更細致。
但在實際使用中,這類高分辨率深度并不總是好用。尤其是在三維重建、新視角合成等對幾何一致性要求較高的任務(wù)中,物體邊緣容易發(fā)虛,細小結(jié)構(gòu)經(jīng)常對不齊,結(jié)果并沒有隨著分辨率提升而明顯改善。類似的問題在自動駕駛和機器人導航場景中同樣存在,幾何誤差會影響障礙物邊界判斷和可通行區(qū)域估計,從而增加后續(xù)規(guī)劃與決策的不確定性。
一個很重要的原因在于,現(xiàn)有方法大多仍在固定分辨率下預測深度,再通過插值將結(jié)果放大到更高分辨率。這樣做雖然能夠得到更大的輸出尺寸,但在細節(jié)區(qū)域,本質(zhì)上只是放大了原有的預測誤差。
而對于依賴深度信息進行環(huán)境建模的自動駕駛系統(tǒng)而言,這種誤差不僅影響局部幾何質(zhì)量,還會進一步影響路徑規(guī)劃和決策的穩(wěn)定性。久而久之,人們開始意識到,高分辨率深度面臨的瓶頸,可能并不只是模型不夠復雜,而是預測深度的方式本身存在局限。
基于這樣的觀察,浙江大學彭思達團隊聯(lián)合理想研究團隊,提出了論文《InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields》。這項工作并未急于在既有框架上追求更高指標,而是從深度的表示方式本身出發(fā),重新思考高分辨率條件下深度應(yīng)如何被建模和使用。
圍繞這一思路,研究團隊設(shè)計了一系列覆蓋合成數(shù)據(jù)、真實數(shù)據(jù)以及三維下游任務(wù)的實驗,將這種表示方式放到不同場景中加以檢驗,從而更細致地觀察其在細節(jié)區(qū)域和復雜幾何結(jié)構(gòu)中的實際表現(xiàn)。

論文地址:https://arxiv.org/pdf/2601.03252
研究團隊通過一系列覆蓋合成數(shù)據(jù)、真實數(shù)據(jù)以及下游三維任務(wù)的實驗,系統(tǒng)驗證了InfiniDepth 在高分辨率深度估計、細粒度幾何建模以及大視角渲染方面的有效性。
首先,在研究團隊構(gòu)建的 Synth4K 數(shù)據(jù)集上,對模型進行了零樣本相對深度評測。Synth4K 由五個子數(shù)據(jù)集組成,分別來自不同高質(zhì)量游戲場景,每個子集包含數(shù)百張分辨率為 3840×2160 的 RGB 圖像及對應(yīng)高精度深度圖,能夠真實反映高分辨率場景中的邊緣結(jié)構(gòu)、薄物體以及復雜曲面。

在評測過程中,研究人員同時報告了全圖區(qū)域和高頻細節(jié)區(qū)域的結(jié)果,并采用 δ0.5、δ1 和 δ2 作為評價指標。在全圖區(qū)域內(nèi),InfiniDepth 在五個子數(shù)據(jù)集上均取得了最優(yōu)表現(xiàn)。
例如,Synth4K-1上,InfiniDepth的δ1達到89.0%,明顯高于 DepthAnything 的 83.8% 和MoGe-2 的 84.2%;在Synth4K-3 上,其 δ1提升至 93.9%,相比DepthPro和Marigold 等方法仍具有顯著優(yōu)勢;在 Synth4K-5 上,InfiniDepth 的 δ1 達到 96.3%,在所有對比方法中排名第一。這些結(jié)果表明,在整體區(qū)域內(nèi),該方法在高分辨率條件下具備穩(wěn)定而一致的精度優(yōu)勢。

在進一步針對高頻細節(jié)區(qū)域的評測中,研究人員僅在由多尺度拉普拉斯算子篩選出的幾何變化劇烈區(qū)域計算指標。結(jié)果顯示,所有方法在高頻區(qū)域的性能都會明顯下降,但InfiniDepth 的下降幅度最小,且在多數(shù)子集上仍保持領(lǐng)先。
例如,在Synth4K-1 的高頻區(qū)域內(nèi),其δ1達到67.5%,而 DepthAnything 和 DepthAnythingV2 分別僅為 61.3% 和 60.6%;在 Synth4K-3 的高頻區(qū)域中,InfiniDepth 的 δ1 為 69.0%,相比 MoGe-2 的 63.4% 有明顯提升。整體來看,InfiniDepth 在高頻區(qū)域的 δ1 指標通常比主流方法高出約 5 至 8 個百分點,表明這個方法在邊緣、薄結(jié)構(gòu)和局部幾何變化區(qū)域具有更強的表達能力。
值得一提的是,這類高頻區(qū)域本身并非只存在于合成數(shù)據(jù)中,而是廣泛出現(xiàn)在真實世界的復雜場景中。在自動駕駛環(huán)境下,路緣、護欄、交通標志桿等關(guān)鍵元素往往具有細長、邊界清晰且?guī)缀巫兓黠@的特點,其深度估計精度直接影響車輛對道路結(jié)構(gòu)和可行駛空間的理解能力。因此,在這些區(qū)域中保持穩(wěn)定的幾何表達,對于提升復雜道路環(huán)境下的感知可靠性具有實際意義。
研究團隊還特別指出,這種性能差異并非來自后處理技巧。對于 Synth4K 的 4K 輸出,絕大多數(shù)對比方法需要先在較低分辨率下預測深度,再通過插值方式上采樣到 4K,而InfiniDepth 由于采用連續(xù)深度表示,可以直接在 4K坐標位置預測深度值,因此其在高分辨率評測中的優(yōu)勢反映的是模型原生的分辨率擴展能力。

在真實世界數(shù)據(jù)集上的零樣本相對深度評測中,研究人員在KITTI、ETH3D、NYUv2、ScanNet和DIODE五個數(shù)據(jù)集上報告了 δ1 指標。結(jié)果顯示,InfiniDepth在這些數(shù)據(jù)集上的表現(xiàn)與當前主流方法整體處于同一水平。
例如,在ETH3D上,其 δ1 達到 99.1%,略高于MoGe-2的99.0%;在KITTI 上,其 δ1 為 97.9%,與DepthPro和MoGe等方法基本持平;在NYUv2和ScanNet 上,InfiniDepth的表現(xiàn)也未出現(xiàn)明顯退化。這些結(jié)果說明,即便模型只使用合成數(shù)據(jù)訓練,其連續(xù)深度表示并未對真實數(shù)據(jù)的泛化能力造成負面影響。這種對訓練數(shù)據(jù)分布變化不敏感的特性,在自動駕駛和移動機器人等實際部署場景中尤為關(guān)鍵,因為真實環(huán)境往往與訓練條件存在較大差異,對感知系統(tǒng)的穩(wěn)定性提出了更高要求。

在尺度深度估計實驗中,研究團隊將 InfiniDepth 與稀疏深度提示機制結(jié)合,并在 Synth4K 以及真實數(shù)據(jù)集上采用更嚴格的 δ0.01、δ0.02 和 δ0.04 指標進行評測。雷峰網(wǎng)
在 Synth4K 的全圖區(qū)域中,InfiniDepth-Metric 在 Synth4K-1 上的δ0.01 達到 78.0%,相比PromptDA 的 65.0% 提升顯著;在 Synth4K-3 上,其 δ0.01 達到 83.8%,同樣領(lǐng)先于所有對比方法。在高頻細節(jié)區(qū)域內(nèi),這一優(yōu)勢更加明顯,例如在 Synth4K-3 的高頻區(qū)域中,InfiniDepth-Metric 的 δ0.01 為 37.2%,而 PromptDA 僅為 24.7%,PriorDA 和 Omni-DC 的表現(xiàn)更低。這表明,在細節(jié)區(qū)域和高精度尺度估計任務(wù)中,連續(xù)深度表示能夠帶來更顯著的收益。

在真實數(shù)據(jù)集的尺度深度評測中,研究人員同樣觀察到一致趨勢。在 KITTI 和 ETH3D 上,InfiniDepth-Metric 的 δ0.01 指標分別達到 63.9% 和 96.7%,均優(yōu)于現(xiàn)有方法;在 DIODE 數(shù)據(jù)集上,其 δ0.01 達到 98.4%,在對比方法中排名第一。這說明該方法在引入稀疏深度約束后,能夠在真實場景中實現(xiàn)高精度且穩(wěn)定的尺度深度預測。

此外,在單視圖新視角合成實驗中,研究團隊將 InfiniDepth 預測的深度用于構(gòu)建三維點云并驅(qū)動高斯渲染。實驗結(jié)果表明,相比采用像素對齊深度的方法,在大視角變化條件下,基于該方法構(gòu)建的點云分布更加均勻,生成的新視角圖像中幾何空洞和斷裂明顯減少,整體結(jié)構(gòu)更加完整。這說明連續(xù)深度表示能夠為三維建模提供更加穩(wěn)定和一致的幾何基礎(chǔ)。
這種更可靠的三維幾何結(jié)構(gòu)不僅有利于視覺重建和渲染任務(wù),在自動駕駛和機器人系統(tǒng)中同樣具有現(xiàn)實意義。更準確的空間幾何信息有助于系統(tǒng)對周圍環(huán)境形成更清晰的空間認知,從而為后續(xù)的導航規(guī)劃與決策提供更加穩(wěn)定的感知支撐。
把深度放進三維里再看一次
這些實驗結(jié)果來源于研究團隊圍繞“深度表示方式是否限制分辨率擴展性與幾何細節(jié)恢復能力”這一核心問題所設(shè)計的系統(tǒng)實驗。
研究人員指出,現(xiàn)有單目深度估計方法普遍在固定像素網(wǎng)格上進行深度預測,輸出分辨率與訓練分辨率強相關(guān),高分辨率結(jié)果通常依賴插值或上采樣,從而不可避免地損失高頻幾何信息。為驗證這一問題是否源于表示方式本身,研究團隊提出將深度建模為連續(xù)空間中的映射關(guān)系,使模型能夠在任意圖像坐標位置直接預測深度值。

在數(shù)據(jù)設(shè)計上,為避免真實數(shù)據(jù)集中深度標注稀疏、分辨率有限和噪聲較大的問題對實驗結(jié)論產(chǎn)生干擾,研究人員構(gòu)建了 Synth4K 數(shù)據(jù)集,并進一步引入高頻細節(jié)掩碼,通過多尺度拉普拉斯能量篩選出幾何變化最為劇烈的區(qū)域,從而實現(xiàn)對模型細節(jié)恢復能力的定量評估。

在實驗設(shè)置上,所有對比方法均使用相同分辨率的輸入圖像,并在評測階段統(tǒng)一對齊尺度;對于 4K 輸出,基線方法的結(jié)果通過上采樣獲得,而 InfiniDepth 直接在 4K 網(wǎng)格坐標位置進行深度預測,以確保實驗對比集中反映深度表示和解碼方式的差異。在訓練階段,研究人員并未對整張深度圖逐像素監(jiān)督,而是隨機采樣大量坐標與對應(yīng)深度值進行訓練,這一策略既符合連續(xù)深度建模的設(shè)定,也使得高分辨率監(jiān)督更加靈活。

為驗證各個模塊的貢獻,研究團隊進一步設(shè)計了系統(tǒng)的消融實驗。當移除連續(xù)深度表示、回退到傳統(tǒng)離散網(wǎng)格預測方式時,模型在 Synth4K 和真實數(shù)據(jù)集上的高精度指標普遍下降 8 到 12個百分點;當去除多尺度局部特征查詢與融合機制時,模型在細節(jié)區(qū)域的性能同樣出現(xiàn)一致性退化。這些結(jié)果從定量角度證明,連續(xù)表示和多尺度局部查詢是 InfiniDepth 性能提升的關(guān)鍵因素。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

在新視角合成相關(guān)實驗中,研究人員進一步分析了像素對齊深度在三維反投影過程中造成點云密度不均的問題,并基于連續(xù)深度表示所支持的幾何分析能力,根據(jù)不同區(qū)域?qū)?yīng)的表面覆蓋情況分配采樣密度,從而在三維空間中生成更加均勻的表面點分布。實驗結(jié)果表明,這一策略在大視角變化條件下能夠有效減少孔洞和幾何斷裂。
不同場景下的一致性結(jié)論
綜合上述實驗可以看出,InfiniDepth 的研究意義不僅體現(xiàn)在指標上的提升,更在于研究團隊通過多數(shù)據(jù)集、多指標和多任務(wù)的定量實驗,清楚地表明高分辨率深度估計中幾何細節(jié)恢復能力的主要瓶頸來源于深度表示方式本身。在 Synth4K 這一高分辨率基準上,高頻細節(jié)區(qū)域中普遍達到 5 至 10個百分點的性能提升,直接說明了依賴插值的高分辨率預測在幾何建模上的局限性。
同時,真實數(shù)據(jù)集上的零樣本評測結(jié)果表明,連續(xù)深度表示并未削弱模型的泛化能力,而在引入稀疏深度約束后,其在高精度尺度深度估計中的優(yōu)勢進一步放大。結(jié)合新視角合成實驗可以看到,這種表示方式不僅提升了二維深度圖在細節(jié)上的一致性,也為三維點云構(gòu)建和渲染提供了更加穩(wěn)定的幾何基礎(chǔ)。
在此基礎(chǔ)上,這類連續(xù)深度表示所帶來的穩(wěn)定幾何結(jié)構(gòu),使深度信息能夠更自然地被用于后續(xù)的三維建模與環(huán)境理解。在自動駕駛和機器人系統(tǒng)中,這種高分辨率且一致的深度感知,有助于提升復雜場景下空間建模和導航?jīng)Q策的可靠性。
總體而言,研究團隊通過在高分辨率合成數(shù)據(jù)、真實世界數(shù)據(jù)以及下游三維任務(wù)上的系統(tǒng)實驗,用具體數(shù)據(jù)和指標證明了連續(xù)隱式深度表示在分辨率擴展性、幾何細節(jié)恢復能力以及大視角渲染方面的綜合優(yōu)勢,為單目深度估計的后續(xù)研究提供了清晰而可驗證的方向。
研究背后的工作者
本論文的通訊作者彭思達,現(xiàn)任浙江大學軟件學院研究員。他于 2023 年在浙江大學計算機科學與技術(shù)學院獲得博士學位,師從周曉巍教授和鮑虎軍教授,本科畢業(yè)于浙江大學信息工程專業(yè)。
彭思達教授在三維視覺、神經(jīng)隱式表示以及深度感知等研究方向上具有扎實的研究積累和持續(xù)的學術(shù)貢獻,已在多項國際頂級會議和期刊上發(fā)表高水平論文,并在多項學術(shù)評選中獲得重要榮譽,包括2025 China3DV 年度杰出青年學者獎和2024 CCF 優(yōu)秀博士論文獎。
此外,他在 GitHub 上分享的個人科研經(jīng)驗與學習資料獲得約9.7K 星標關(guān)注,致力于推動空間智能與幾何感知領(lǐng)域的基礎(chǔ)研究與應(yīng)用落地。
彭思達教授的研究興趣從神經(jīng)隱式深度估計進一步拓展至動態(tài)場景建模、空間智能體訓練以及大規(guī)模三維重建等方向,強調(diào)解決具有實際應(yīng)用價值且尚未充分解決的核心問題,推動新技術(shù)在真實行業(yè)場景中的落地與影響。

參考鏈接:https://pengsida.net/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。