<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給張進
      發送

      0

      GAIR 2025 世界模型分論壇:從通用感知到視頻、物理世界模型的百家爭鳴

      本文作者: 張進   2026-01-08 11:08
      導語:具身智能爆發第三年,世界模型凝聚了哪些共識?

      13 日,第八屆 GAIR 全球人工智能與機器人大會世界模型分論壇圓滿成功。

      這場的演講嘉賓是在世界模型領域,研究不同方向的五位青年學者,他們帶來了五場圍繞世界模型的精彩演講,話題聚焦通用感知、三維技術、物理模型、世界模型、數字人重建。通過他們的演講、我們得以窺見當下圍繞著世界模型的研究是多么廣泛與豐富。

      目前,世界模型的研究尚處于起步階段,共識尚未形成,有關該領域的研究形成了無數支流,而這股潮流中,今天到場的幾位嘉賓,用他們的智慧和力量給世界模型領域研究帶來了不同的啟發。

      浙江大學研究員彭思達:面向具身智能的通用空間感知技術

      在“世界模型”分論壇上,首位演講者是浙江大學研究員彭思達。他是浙江大學軟件學院“百人計劃”研究員、博士生導師,研究方向為三維計算機視覺和計算機圖形學。此次他帶來的主題演講是《面向具身智能的通用空間感知技術》,介紹了其團隊近期在賦予機器人通用感知能力方面的多項工作。

       團隊主要聚焦于賦予機器人三項基礎能力:一是相機定位(Camera Pose Estimation),即讓機器人知道自己在空間中的位置;二是深度估計(Depth Estimation),使機器人了解場景中各物體與自身的距離;三是物體運動估計(Object Motion Estimation),讓機器人感知世界的運動狀態。

      這些底層空間感知技術有何作用?首先,它們能為機器人提供關鍵的決策信息。例如,無人機在空間中需要先知道自身位置、與場景目標的距離,才能實現基礎避障;進而還需了解目標物體的運動情況,才能進行追蹤。基于從場景中獲取的三維空間信息,機器人的行為規劃便能得到有力支持。

      其次,這些技術可用于生成訓練數據。當前具身智能領域的一大難題是數據匱乏。以往有人嘗試仿真或遙操獲取數據,但遙操數據雖好卻難以規模化擴展,而仿真技術目前仍與真實世界存在較大差距。 

       彭思達提出,其實可將人類視作一種特殊形態的機器人——具備完整的身體結構與行為模式。若能發明一種數據采集設備,將人類日常行為完整記錄下來,就相當于獲取了機器人所需的行為數據,從而可用于訓練人形機器人。這其中便涉及相機定位、深度估計與物體運動估計等技術。

      相機定位方面,最傳統經典的方法是Colmap。該方法從圖像中提取特征并進行兩兩匹配,再通過增量式運動恢復結構(SfM)得到相機位置。最終每張圖像對應一個相機位置,并共同生成三維點云,形成經典的三維重建流程。

       然而,該流程目前面臨的挑戰在于圖像匹配。團隊發現,傳統匹配方法在惡劣環境或視角差異較大的情況下效果不佳,會影響后續相機位姿估計的準確性。 

       針對這一問題,彭思達所在實驗室于2021年提出一種新方法:不再依賴傳統匹配方式,而是直接使用Transformer大模型進行圖像匹配。具體而言,將兩張圖像輸入LoFTR模型以提取稠密特征,這些特征之間即使在弱紋理區域也能實現良好的匹配。

      深度估計是通用空間感知的關鍵組成部分。去年,彭思達團隊在提升深度估計能力方面取得了三項進展,其中之一是“Pixel-Perfect-Depth”思路。 

       具身智能需要深度估計,是因為準確的深度信息能提升機器人的決策性能。但現有方法普遍在物體邊緣存在“飛點”問題:判別式模型(如Depth Anything)傾向于預測“折中值”以最小化損失,從而導致飛點;生成式模型(如Marigold)雖能從理論上建模多峰深度分布,但因使用VAE進行壓縮,同樣會產生飛點。

      團隊從生成式模型出發,提出了 Pixel-Perfect-Depth 的解決思路:首先移除VAE,直接在像素空間進行優化,以避免VAE帶來的信息損失。然而,沒有VAE后模型需要更全局的視野,因此他們將語言特征整合到DiT模型中,發現這能顯著增強模型對圖像的整體理解能力。 

       將人類行為數據轉化為有效訓練數據,是當前具身智能發展的關鍵。這需要獲取深度信息、相機運動以及人類行為語義軌跡,而語義軌跡的獲取又依賴于三維跟蹤。 

       此前已有方法使用時序匹配進行跟蹤,例如Google的CoTracker:先初始化一組二維像素點,再利用Transformer迭代優化這些點的軌跡。但該方法僅在二維層面進行跟蹤,容易因相鄰區域的干擾而丟失目標,效果受限。

      彭思達團隊的思路是將二維圖像反投影至三維空間,做 3D  tracking。具體做法是:輸入圖像并反投影至三維,獲得三維特征后,在三維空間中初始化一條三維軌跡,再利用Transformer對該軌跡進行優化,從而實現更魯棒的跟蹤效果。該方法被命名為SpatialTracker。

      騰訊ARC Lab高級研究員胡文博:Towards 3D-aware Video World Models 

      接下來,騰訊 ARC Lab 高級研究員胡文博帶來了《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models )的演講主題。

      胡文博表示,2024年初 Sora 震撼面世,雖然 3D 一致性不錯,但對于做三維重建的工作者來說,視頻細節里的垂直性和平整性還有空間。

      同時他意識到,Video diffusion 有潛力作為世界模型的一種表示,但視頻仍處于 2D 空間,而我們的世界是 3D 的,因此如何實現 3D 感知的視頻世界模型,非常值得探索。

      基于這樣的觀測,胡文博想要實現以 3D-aware 出發的 video world models。

      胡文博和團隊決定在重建和生成兩方面發力,重建方面,他展示了包括 2024 年開始陸續做的 video depth (DepthCrafter),從視頻中估計點云以開展 4D 重建任務(GeometryCrafter),以及從單目視頻中重建 motion 的“Holi4D”等工作。

      現場,胡文博并未過多展開從開放世界 2D 觀測重建 3D 信息內容,而是把分享重點放在了以下部分。

      胡文博先分享了靜態場景探索任務 ViewCrafter,借助重建能力生成 3D 點云,以其為條件控制 video diffusion。胡文博表示,這部分的探索生成的圖像可更新點云實現更遠探索,是早期世界模型的 memory 機制。

      這些把 3D 信息用于視頻擴散,單圖探索及點云更新應用,讓現場觀眾們非常感興趣。

      接下來,胡文博還展示了另一部分重要的 work:TrajectoryCrafter。

      這是胡文博在 ICCV 25 的 Oral 工作,其核心是讓用戶通過單目視頻實現對背后 4D 世界的探索,延續 3D-aware 思路,將重建的 3D 信息和原始視頻注入擴散過程,現場展示了指定相機 pose 的動態視頻、子彈時間特效和復現 Dolly Zoom 特效,還原度非常高。

      不僅如此,胡還展示了 VerseCrafter 模型實現場景交互,在單圖輸入重建幾何基礎上,標注可移動物體數據標注流程,可以實現固定相機、只動物體、相機物體同動等交互結果,現在展示了生成的非常逼真的觀測結果。

      最后,還展示了多個玩家或 agent 進行聯機探索場景的 demo。

      胡文博的分享,展示了對世界模型交互方式的新思考,更是讓大家的世界模型應用場景有了更充足的想象空間。

      西湖大學助理教授修宇亮:數字人重建,慢慢都會變成基礎模型的微調任務

      圍繞數字人建模,西湖大學助理教授,遠兮實驗室負責人修宇亮做了主題演講《走出蠟像館,交互新世界:開拓三維數字人研究新疆域》,分享了其關于高精度數字人重建的三項最新進展。

      由于兼具相機位姿變化和人物動作變化的特點,以日常圖像作為三維重建任務素材時,長期以來面臨著臟數據的困擾。傳統解決方案為對圖像進行文本編碼、文字生成 3D 模型兩步走。代價是效率,DreamBooth 和 SDS(Score Distillation Sampling)漫長的優化流程,導致單個數字人建模任務需要 3 至 4 個小時。

      遠兮實驗室的最新成果 UP2You,將上述時間從 4 小時壓縮到了 1.5 分鐘。其核心思想是將臟數據直接轉化成對后續重建友好的多視角正交圖片,在此基礎上套用已有的多視角重建算法,實現提效。

      相較于傳統方案,UP2You 最大的優勢是,其重建質量可以隨輸入圖片數量的增加而穩定變好,理論上可以恢復出更好的幾何結構和紋理。由此日常圖像作為臟數據的弊端得以被規避,數據量的優勢同時被放大。“多多益善”,修宇亮教授總結,“無論圖片有多臟,這個方案只要保證圖片源源不斷。”

      修宇亮教授分享的第二項工作名為 ETCH,旨在根據高精度穿衣人體模型,得到解剖學上正確的內部人體結構。由于此前的嘗試將最外層服裝視為人體皮膚,導致建模結果普遍偏胖。而 ETCH 通過向量,定義了衣服和皮膚之間的厚度關系,從而建模了更準確的內部人體結構。

      在今年的 ICCV 上,ETCH 獲評 Highlight Paper。值得注意的是,ETCH 方案首先將穿衣人體模型采樣為點云,每個點指向內部人體的一個向量。盡管衣服存在非剛體形變,但修宇亮表示,在此類任務中,不完美的旋轉等變性仍可以大量減少訓練所需數據。這也是ETCH工作的創新點之一,它或為首個通過向量定義衣服和人體之間關系的嘗試。

      最后一項工作名為 Human3R,旨在實現人物及場景的實時動態呈現。“你很難只從動作就看懂人在做什么”,修宇亮教授解釋,“但如果把場景也給到你,語義就相對清晰。”

      據介紹,Human3R在同時實現場景重建和人體狀態預測、追蹤的基礎上,可以做到實時 15 FPS,8GB 顯存占用。這意味著僅需一張商用 GPU,即可實現 SOTA 級性能。

      為了實現這一點,Human3R 保留了 CUT3R 的 3D 重建 backbone,以保留其對場景的幾何重建能力,同時新增了一條分支,用于從場景中顯式提取人體點云,并進一步估計該點云所對應的人體姿態。同時,Human3R 還借鑒了 VPT(Visual-Prompt Tuning)策略,以實現高效微調。

      展望未來,修宇亮教授最后分享了自身對于數字人技術的觀察。更強大的通用 3D 重建模型正在讓越來越多數字人重建任務迎刃而解,人體姿態重建,只需要在具有場景感知能力的視覺基礎模型上進行微調。“數字人的重建任務,慢慢都會變成基礎模型的微調任務。”修宇亮教授指出。

      中山大學計算機學院青年研究員,拓元智慧首席科學家王廣潤博士:創新基礎模型,強化物理世界建模

      隨后登場的是,中山大學計算機學院青年研究員、拓元智慧首席科學家王廣潤博士。他帶來了《創新基礎模型,強化物理世界建模》的主題演講,王廣潤博士長期專注于新一代 AI 架構、大物理模型與世界模型等方向。

      在演講中,王廣潤博士首先解釋了物理空間智能的概念。10 年前,端到端是一個非常火的詞,他認為,如今的物理空間智能也面臨著“感知-規劃-執行”端到端的實現,這就需要非常多的數據去訓練,但高質量數據匱乏,難以學習到對齊物理世界的可靠執行策略。

      于是,王廣潤博士的團隊就在推理計算上提出了全局迭代生成,相比于順序生成,全局迭代生成有三種優勢:全局性、漸進精化;快速性以及便于多模態統一。

      王廣潤博士還分享了三種傳統方法,都存在著諸多不足。他們提出了一種全新的模型——原位 Tweedie 離散擴散模型,這個模型可以在 one-hot 單純形上實現嚴格的擴散過程,直接在擴散空間中去噪,而不是依賴嵌入或掩碼,也不依賴馬爾科夫性。

      而且,在去噪的過程可以看出,隨著迭代的變化,token 的語義能夠從一開始t較高時的混亂噪聲逐步隨著t降低去噪為一個穩定的語義表征。

      有了框架之后,就可以開始訓練模型了。王廣潤博士表示,VLA模型存在幾項瓶頸:泛化能力不足、動作控制粗糙、建模范式矛盾。所以他們構建了新的方法——E0 具身大模型,在很多數據集和真機任務上都表現突出,并顯示出了強大的泛化性能。

      王廣潤博士還分享了一個比喻:VLA =“你在監控中心,通過看不同房間的監控視頻,遙操不同房間的機械臂”。其實人的泛化能力已經很強了,但在新環境下,還是需要在線簡單學習。據此,王廣潤博士提出了物理建模與空間建模的解耦。

      最后,王廣潤博士表示自己的實驗室做出了一個 24 小時運行無人機化物理智能評測平臺,提供多種遠程接口,無痛測評 VLA。

      王廣潤博士的報告從框架、模型到基準形成完整閉環,為 AI  從虛擬數字空間走向真實物理世界提供了關鍵技術支撐。

      香港中文大學(深圳)助理教授韓曉光——  3DAIGC:人類安全感之戰

      韓曉光教授在此次大會梳理了三維生成技術的發展脈絡與未來挑戰,并深入探討了在視頻生成與 AI 大模型時代,三維技術所扮演的關鍵角色及其不可替代的價值。

      韓曉光教授表示,三維生成技術在過去十年經歷了飛速發展。早期階段屬于“類別限定”時代,需為椅子、車輛、人臉等不同物體分別訓練獨立模型。隨著 Dreamfusion 等工作的出現,進入了“開放世界”時代,實現了文本生成 3D 模型,但生成速度較慢。當前已進入大模型時代,以 Adobe 的大型重建模型、混元 3D 等為代表,單圖生成 3D 模型的效果和速度均已大幅提升。

      韓曉光教授指出了三維生成的三大趨勢:一是更精細,追求幾何細節的極致表現;二是更結構化,生成模型可自動拆解為部件,以適配游戲、制造等行業需求;三是更對齊,確保生成的三維模型在結構上與輸入的二維圖像精確對應,避免細節錯亂。

      然而,視頻生成(如Sora)的爆發式發展,對三維內容創作構成了“存在性”沖擊。其核心矛盾在于,傳統的三維流程復雜,但最終產出是視頻;而 Sora 等模型可直接從文本生成視頻,跳過了所有三維環節。這引發了行業對三維技術必要性的深刻質疑。

      對此,韓曉光教授分析,視頻生成當前存在細節可控性差、長程記憶缺失等核心難題,這為三維技術留下了關鍵價值空間。他提出了四種可能的結合路徑:一是純 2D 的端到端模型;二是將 3D 仿真作為“世界模擬器”,先生成 CG 視頻再使其逼真化;三是將 3D 信息作為額外控制信號輸入生成網絡;四是利用 3D 合成數據來增強視頻模型的訓練。

      在探討“世界模型是否需要 3D ”時,韓曉光教授認為,世界模型的核心目標是數字化世界規律以實現預測。它可分為三類:服務于人類共同體的宏觀模型、服務于個人探索的虛擬世界模型,以及服務于自動駕駛、具身智能等機器的具身世界模型。他強調,無論是為了滿足 VR/AR 中“可交互”所需的觸覺反饋,還是為機器人提供仿真訓練環境,或是實現從虛擬到實體的智能制造,3D 都是不可或缺的基石。

      演講最后聚焦于AI時代的“安全感”與“可解釋性”問題。韓曉光教授指出,當前AI領域過度追求性能,但以“端到端”和“潛變量”為代表的“黑箱”模型,因其不可解釋性而帶來了不安全感。人類能直觀理解 3D/4D 世界,而高維的潛變量則超出了我們的認知范圍。因此,3D 作為一種人類可直觀理解、可解釋的顯式表示,是構建可信、安全AI系統的關鍵途徑。真正的安全感,源于模型效果與可解釋性之間的平衡,而三維技術在其中將扮演至關重要的角色。

      圓桌環節:有關于世界模型的展望

      圓桌環節,世界模型主題圓桌論壇在趙昊教授的主持下正式開啟。彭思達、胡文博、修宇亮、王廣潤、韓曉光幾位嘉賓齊聚一堂展開了關于世界模型展望的探討。

      彭思達先從“技術替代問題”切入,提到關于世界模型的發展,不能只看算法提升,還必須關注硬件的迭代,同時,彭思達在motion方面也提出了一些見解,他結合 DeepMind 最新工作提出bet,3D  tracking 在2027年會慢慢收斂,與此同時,自監督學習也會出現巨大突破。

      胡文博分享了對世界模型、視頻世界模型和空間智能之間的差異,他認為讓模型理解空間還需要探索,他更致力于做一個給個人用的世界模型,讓使用者可以體驗一些不知道的世界,或者虛構的世界,甚至是他人的世界,這是非常有意義的。

      王廣潤認為世界模型有一個非常標準的應用,就在交互層面,現在已經能從圖輸出很精簡的3D,王廣潤表示很期待從PI0到未來的PI1的過程。

      韓曉光則從3D和視頻模型之間的聯系出發,認為2026年做好3D的骨架和可移動部分對具身智能依舊是非常有用的,并且呼吁更多人繼續做3D方向的探索。

      修宇亮則針對解決數字人的情緒價值問題方向,讓多模態表征統一的角度展開表達,他提出2D和3D數字人無定式,以用戶開心為目標,但需要解決情緒價值難以量化、缺乏基準的問題。

      關于世界模型的重建和生成工作,嘉賓們各抒己見,最終主持人趙昊呼吁這個領域需要共識和合作,一個關于“世界模型”的技術聯盟呼之欲出。「雷峰網(公眾號:雷峰網)


      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      GAIR 2025 世界模型分論壇:從通用感知到視頻、物理世界模型的百家爭鳴

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 久久久无码专区| 自拍视频啪| 人妻综合页| 动漫AV纯肉无码AV电影网| 欧美亚洲综合成人专区| 无码手机线免费观看| 新郑市| 国产av一区二区三区| 99久久婷婷国产综合精品青草五月| 免费看欧美全黄成人片| 无码专区 人妻系列 在线| 黑巨人与欧美精品一区| 精品无码久久久久久国产| 性男女做视频观看网站| 欧美情侣性视频| 国产九九在线视频| 夜夜嗨AV| 亚洲狠狠| 国产欧美网站| 69精品丰满人妻无码视频a片| 亚洲精品视频一一三区| 老太婆性杂交视频| 精品国产亚洲av三区| 黑人巨茎大战欧美白妇| 国内夫妻自拍| 亚洲欧美日韩精品色xxx| 欧美又粗又大又爽| jizzjizzjizzjizz| 国产精品午夜福利免费看| 激情内射亚洲一区二区三区| 亚洲AV永久无码嘿嘿嘿嘿| 99re6这里有精品热视频| 免费男人和女人牲交视频全黄| 国产精品成人一区二区不卡| 国产99久久久国产精品~~牛| 亚洲怡春院| 狠狠色丁香婷婷综合| 中文字幕高清| 中文字幕亚洲区| 午夜69成人做爱视频网站| 亚洲乱人伦aⅴ精品|