視覺模型智能涌現后， Scaling Law 不會到頭

本文作者：王悅

2024-11-22 11:09

導語：Vidu1.5 已拉開技術代差。

Scaling Law 或將終結——這是最近備受熱議的話題之一。該討論最初源自于哈佛大學一篇名為《Scaling Laws for Precision》的論文，其研究表明當下的語言模型在大量數據上經歷了過度訓練，繼續疊加更多的預訓練數據可能會產生副作用。

這釋放的信號是：在自然語言處理領域， Scaling Law 目光所及地到達瓶頸，單純依靠增加模型規模和數據量來提升性能的方法也許不再有效，低精度的訓練和推理正在使模型性能提升的邊際效益遞減。

Scaling Law 在 NLP 的路上確實展現出了「即將到頭」的前兆，但這并不意味著其末日真的來臨。在多模態模型領域，由于多模態數據包含圖像、視頻、音頻等多種類型，在信息豐富度、處理方法、應用領域方面均較為復雜，難以達到較大的訓練規模體量，因此 Scaling Law 尚沒有被真真切切地驗證過。

然而，清華系大模型公司生數科技最新發布的 Vidu1.5 表明，多模態領域的 Scaling Law 才剛剛起步。通過持續的 Scaling Up ， Vidu 1.5 已經來到了「奇點」時刻，涌現出了「上下文能力」，能夠理解記憶所輸入的多主體信息，并表現出對復雜主體更精準的控制能力。無論是細節豐富的角色還是復雜的物體，通過上傳不同角度下的三張圖片，Vidu 1.5 能保證單主體形象的高度一致。

視覺模型智能涌現后， Scaling Law 不會到頭

Vidu 1.5 除了能對單個主體進行精確控制，也實現了多主體之間的一致性。用戶可以上傳包含人物角色、道具物體、環境背景等多種元素的圖像，Vidu能夠將這些元素無縫的融合到一起，并實現自然交互。

視覺模型智能涌現后， Scaling Law 不會到頭

Vidu 在主體一致性方面取得種種突破，不僅是 Scaling Law 法則在發揮作用，根本原因在于其所采用的無微調、大一統的技術架構方案。當前的視頻模型為了實現一致性，大多是采用在預訓練的基礎上再針對單個任務進行微調的 LoRA 方案，而 Vidu 的底層模型跳出業界主流方案，做出了開拓性的改變。

無獨有偶，回顧大語言模型的發展歷程，會發現從 GPT-2 到 GPT-3.5 發生質變的標志，也是實現了從預訓練+特定任務微調的方式到整體統一框架的突破。可以說，Vidu 1.5的推出，開啟了多模態大模型的 GPT-3.5 時刻。

Sora 自年初發布之后，再無其他迭代的新版本，其他家的視頻生成創業團隊也仿佛沒了錨定的方向，大多是在 DiT 架構上進行些衍生性工作。對于這一現象，生數科技 CTO 鮑凡則表示：我們不會在 Sora 劃定好的路線上去追趕，而是從一開始就在走自己的路，瞄準通用多模態大模型的目標，去實現相應的能力。

從早于 Sora 發布全球首個基于 Diffusion 的 Transformer 架構U-ViT，到首次實現用統一的架構處理泛化任務，生數有的不僅是先發優勢，更是持續突破的能力。Vidu 和業界其他的視頻生成模型相比，已經初步形成技術代差。

一、重新設計一個「底層架構」

實現主體一致性，是視頻模型領域一塊難啃的骨頭。「這就好比，你知道發動機對于一輛汽車來講很重要，也知道如果發動機有質的改變，那么汽車的性能也會隨之提升，但就是很難造出來一臺好的發動機。」鮑凡告訴 AI 科技評論。

包括 Sora 在內，國內外的視頻模型都沒有在主體一致性方面有所突破。目前有涉足的是國內的一家大廠，僅局限于實現人臉一致性的控制，難以保證細節、衣服、造型等細節，而且采用的是LoRA微調方案。

Vidu 在主體一致性方面的成果也并非一蹴而就。2024 年 7 月底， Vidu 上線之初就主打解決一致性問題，并能夠較好地實現面部一致的控制；9月份全球首發「主體參照」功能，把對單主體的控制從面部拓展到整個單主體的形象上；11 月上線的 Vidu 1.5 則進一步提升，可以對單主體的不同視角進行高度精準控制，同時攻破多主體控制的難題。

也就是說，Vidu 在 7 月份上線之時就完成了很多視頻生成模型當下正在攻克的事情。

從技術方案上看，其他家都還囿于預訓練+LoRA 微調的方案，這種路線雖然成熟但也存在諸多缺點，諸如因數據構造繁瑣而需要較長的訓練時間、易產生過擬合從而遺忘大量原有知識、無法捕捉細節導致特征不精準。生數則秉承通用性的理念，通過統一的底層模型技術架構去完成，因此不需要單獨再去進行數據的收集、標注、微調，只需要1到3張圖就能輸出高質量視頻。

對比大語言模型的技術演進路線會發現，Vidu 有和大語言模型一致的設計哲學：類似于大語言模型用一個 Transformer 去處理所有的輸入和輸出 tokens，Vidu 作為視頻模型也會將所有問題都統一成視覺輸入、視覺輸出的 patches；在此基礎上，再統一架構，Vidu 也像大語言模型一樣采用單個網絡統一建模變長的輸入和輸出。

視覺模型智能涌現后， Scaling Law 不會到頭

「統一問題形式」是通用模型的起點。更難的地方在于統一架構，現在 Vidu 已經在最初的 U-ViT 上做了一些顛覆性的設計，和 Sora 的 DiT 架構產生了本質區別，在架構上做到更統一。鮑凡坦言，開發這一架構的難度不亞于從頭設計出一個 Transformer。

大一統架構的前身要追溯到 2022 年 9 月，彼時尚在清華大學朱軍教授的課題組讀博的鮑凡就提交了一篇名為《All are Worth Words: A ViT Backbone for Diffusion Model》的論文，提出U-ViT 架構，比 Sora 的 DiT 架構提早了兩個月，將 DiT 拒稿的 CVPR2023 卻收錄了 U-ViT。

2023年3月，朱軍教授課題組再次發布了一項 Unidiffuser 的工作，Unidiffuser 與同階段的 Stable Difussion 1.5 效果基本持平，展示了在視覺任務下的優異能力，更重要是，Unidifuser擴展性更強，能基于一個底層模型完成圖文之間的任意生成。簡單來講，除了單向的文生圖，還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能。之后，而 OpenAI 則是將 DiT 應用于視頻任務，生數作為初創團隊則是先將 U-ViT 應用于圖像任務，從算力集群規模要求更小的任務入手進行驗證。

2024 年 4 月，生數的底層模型架構開始在 U-ViT 架構上做出改變，使得團隊率先推出自研視頻大模型Vidu，然后這種突破也一直持續著，在7月份正式全球上線的時候，Vidu 在人臉一致性問題上成功地實現了驗證。直到本次 Vidu1.5 版本的發布，基于這一架構之上的 Scaling Up 讓多模態模型看到了「奇點」。

回顧大語言模型發展過程，GPT-2 的核心思想是在預訓練階段讓模型通過海量的文本數據進行無監督學習，不依賴于特定的任務；在預訓練之后，GPT-2 使用特定領域的標注數據對模型進行細化調整，使其能夠更好地適應特定任務或應用場景。但到 GPT-3.5 的階段，不再采用預訓練加特定任務微調的模式，只需一個更簡單高效的統一架構能夠去支持多種文本任務，模型已經出現了強大的泛化能力。

視覺模型智能涌現后， Scaling Law 不會到頭

類似于從 GPT-2 到 GPT-3.5 ，實現了從預訓練加特定任務微調到統一通用的技術架構，Vidu 1.5的推出，讓視頻模型正在經歷 GPT-3.5 時刻。也就是說，其他家的視頻模型還在 GPT-2 預訓練+微調的階段，生數的 Vidu 已經到了 GPT-3.5 的階段。

二、視覺上下文時代的智能涌現

統一高效的底層技術架構是 Vidu 的根本所在，但其目前呈現的綜合表現不僅是技術架構使然，更與視頻模型的數據工程密不可分。

在人物特寫畫面中，Vidu 1.5 能夠確保人物面部的特征細節和動態表情變化自然流暢，不會出現面部僵硬或失真的現象。該視頻中，小女孩的表情能實現從高興到悲傷的變化十分自然。鮑凡告訴 AI 科技評論，數據對這些細節方面的精心調控非常重要。

視覺模型智能涌現后， Scaling Law 不會到頭

隨著高質量數據的一同Scaling Up ，鮑凡坦言，在底層的視頻生成模型上也看到了類似于大語言模型的智能涌現。比如 Vidu1.5 能融合不同主體，將角色 A 的正面與角色 B 的反面無縫融合以創造出全新的角色，這是之前沒有預料到的能力。

視覺模型智能涌現后， Scaling Law 不會到頭

除此之外， Vidu1.5 的智能涌現還可以從模型上下文能力提升、記憶能力增強來窺探一二，這體現在對視頻中角色、道具、場景的統一控制。

視覺模型智能涌現后， Scaling Law 不會到頭

這一現象的關鍵是解決了「多圖靈活輸入」的問題，類似于語言模型提升了窗口長度。在與聊天機器人對話的過程中，先通過提示詞給出一個角色設定，之后 Chatbot 就能以這個角色的口吻進行交互對話，這說明語言模型不僅僅處理單一的文本輸入信息，而是通過關聯前后的文本、識別語句之間的關系，生成連貫且符合情境的回答或內容。

同樣的，給視頻模型一個主體照片作為 prompt，那么在下文中無論繼續給出什么新指令，都能生出上文照片中主體相關的視頻。可見，視頻模型要想更穩定地生成一致主體，也需要理解前后輸入的、相關聯的文字或圖片信息，進而根據這些信息生成一致、連貫且有邏輯的內容。

實際上，從單主體一致性到多主體一致性提升的難度也在于上下文長度。在幾個月之前的單主體架構的設計上，就已經兼容現在的多主體一致的架構，而多主體一致相比單主體一致需要更長的上下文長度，從而解決理解更多輸入組合的關鍵問題。

接下來，生數的主攻方向依然會沿著上下文能力這一主線去迭代。「視頻模型上下文能力提升后有很大的想象空間。」鮑凡說道。他進一步解釋，在模型中輸入幾段王家衛的電影切片，就可以生成一系列具有王家衛攝影技巧的視頻片段；喂給模型一些經典打斗動作的視頻，就能生出打斗技巧精妙、打戲畫面精良的視頻。

視覺模型智能涌現后， Scaling Law 不會到頭

Vidu 在上下文能力方面的迭代也有自己的節奏：從初期僅能參考單一主體的面部特征，到現在能參考多個主體，之后預期可以實現參考拍攝技巧、運鏡、調度更因素。在這個過程中，參考對象從具體到抽象，要求和難度逐漸提升。

因為目前還沒有針對視頻模型上下文能力的開源解決方案，所以它并不會像大語言模型一樣，在一家做好 PMF 之后，其他家迅速跟上。從這一角度上來說，Vidu1.5 形成了自己的技術壁壘。

三、不止 Sora 一種答案

「無微調、大一統的技術架構被生數設計出來，視頻模型的智能涌現先在 Vidu 上得以驗證——這些是必然事件。」鮑凡說道。「因為我們團隊成立之初的愿景，就是去做通用的多模態模型。」

生數科技從來沒有走過單一的、針對具體任務進行微調的方案，這與統一高效的架構是相悖的。這也意味著，通用多模態模型是生數的基因所在。

年初 Sora 剛發布之時，各視頻生成創業團隊都在「大秀肌肉」，競爭一度十分激烈。然而行至年終，整個行業有些顯得「后勁不足」，初創公司的進展鮮有較大突破。然而生數科技卻在自己的路線上「精雕細琢」，不僅有規律地提升模型通用性，也不忽略鏡頭感、動態程度等視頻畫面細節。

Vidu 1.5 在基礎模型層面便具備了對鏡頭運動的理解能力，能夠生成如推拉搖移+順/逆時針融合的復雜鏡頭，畫面擁有較高表現力和流暢度。比如，輸入提示詞：模特拍攝，她被鮮花簇擁著，光線明亮且自然，鏡頭順時針旋轉推進拍攝，得到如下畫面。

視覺模型智能涌現后， Scaling Law 不會到頭

在動態性方面，Vidu1.5 生成的視頻動作幅度大且自然，同時新上線了動態控制功能，能準確的控制畫面整體的動態程度。

視覺模型智能涌現后， Scaling Law 不會到頭

描述詞：一個戰士拿著槍在戰場奔襲，大動態

除了視頻能力外，Vidu 也在規劃和布局 4D 模型、音頻等更多模態。其中，基于視頻模型衍生出來的4D 模型，未來能夠對視頻實現諸如「調整 6 度」的更加精確運鏡控制。鮑凡表示，目前的初期階段，團隊會先單獨驗證多模態模型中的各個子領域，最后會整合在通用多模態大模型中。

視覺模型智能涌現后， Scaling Law 不會到頭

生數技術優勢的愈發凸顯，也給了其在國內視頻模型競爭中的底氣。但擺在其前面的挑戰，還有快手、字節等大廠壓倒性的資源優勢。對此，鮑凡回復：當目標足夠明確，并且做出的東西真正能夠解決行業問題的時候，我們朝這個方向持續前進，最終結果總會是正確的。

對標世界范圍內領先的 Sora，會發現生數與 Sora 的關注點并不相同。生數科技的定位是通用多模態大模型，而 Sora 更主張做世界模擬器，希望真實的模擬物理世界。雖然世界模擬器是多模態大模型的一個子問題，但生數的通用多模態大模型會強調解決更多實際問題。

生數并不會完全對標 Sora，更不會跟在 Sora 之后亦步亦趨。Vidu 證明了：視頻模型不只于 Sora 這一個答案。雷峰網(公眾號：雷峰網)雷峰網雷峰網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

王悅

主筆

發私信

當月熱門文章