Pieter Abbeel 新工作“大世界模型”：輕松玩轉(zhuǎn)1小時(shí)長(zhǎng)視頻，一對(duì)一QA視頻內(nèi)容細(xì)節(jié)

本文作者：賴(lài)文昕

2024-03-07 15:13

導(dǎo)語(yǔ)：導(dǎo)語(yǔ)：伯克利發(fā)布的“大世界模型”，究竟大在哪里？

作者：賴(lài)文昕

編輯：陳彩嫻

自3天前Sora發(fā)布以來(lái)，由圖靈獎(jiǎng)得主、Meta首席科學(xué)家Yann LeCun提出的“世界模型”又一次引起了廣泛關(guān)注。

“世界模型”作為Sora的一大核心亮點(diǎn)，被OpenAI寫(xiě)在技術(shù)報(bào)告中。但Sora是否真的如Open AI所說(shuō)，是一個(gè)世界模型，卻引起了行業(yè)內(nèi)的爭(zhēng)論。

在Yann LeCun的愿景中，世界模型是一個(gè)能夠?qū)W習(xí)世界如何運(yùn)作的內(nèi)在規(guī)律的內(nèi)部模型，可以更快速地學(xué)習(xí)，為完成復(fù)雜任務(wù)做出計(jì)劃，并且隨時(shí)應(yīng)對(duì)不熟悉的新情況，所以它很有可能克服目前限制最先進(jìn)的AI系統(tǒng)發(fā)展的難關(guān)。

而在這場(chǎng)爭(zhēng)論持續(xù)之際， UC Berkeley（加州大學(xué)伯克利分校）發(fā)布了一項(xiàng)名為“Large World Model（LWM）”的最新研究成果，今日已成功登上GitHub榜首。

值得一提的是，兩位華人學(xué)者Hao Liu和Wilson Yan為共同一作,指導(dǎo)老師是吳恩達(dá)開(kāi)門(mén)大弟子、伯克利人工智能實(shí)驗(yàn)室主任Pieter Abbeel與計(jì)算機(jī)副教授Matei Zaharia。兩位教授的谷歌學(xué)術(shù)引用次數(shù)均十分耀眼，分別高達(dá)13.8萬(wàn)次與7.4萬(wàn)次。

論文鏈接：https://arxiv.org/pdf/2402.08268.pdf

為了應(yīng)對(duì)由于內(nèi)存限制、計(jì)算復(fù)雜性和數(shù)據(jù)集有等重大挑戰(zhàn)，這個(gè)團(tuán)隊(duì)構(gòu)建了一個(gè)由不同視頻和書(shū)籍組成的大型數(shù)據(jù)集，以Hao Liu先前提出的RingAttention技術(shù)為基礎(chǔ)，對(duì)長(zhǎng)序列進(jìn)行可伸縮訓(xùn)練，并將上下文大小從4K逐漸增加到100萬(wàn)tokens，一次可以分析1小時(shí)長(zhǎng)度的視頻。

100萬(wàn)token，1小時(shí)長(zhǎng)視頻，它還開(kāi)源

大模型的發(fā)展進(jìn)程快得令人驚嘆，但是仍存在不少技術(shù)痛點(diǎn)。比如，目前的語(yǔ)言模型無(wú)法理解世界上某些難以用語(yǔ)言描述的問(wèn)題，且難以處理復(fù)雜冗長(zhǎng)的任務(wù)。

針對(duì)這個(gè)難題，該團(tuán)隊(duì)提出了“Large World Model（LWM）”，因?yàn)橐曨l序列能提供語(yǔ)言和靜態(tài)圖像中沒(méi)有的、有價(jià)值的時(shí)間信息，這使得它們對(duì)于語(yǔ)言的聯(lián)合建模具有特別作用。這樣的模型可以更好地理解人類(lèi)文本知識(shí)和物理世界，從而實(shí)現(xiàn)更廣泛的人工智能能力來(lái)幫助人類(lèi)。

這個(gè)“大世界模型”是否確如其名呢？

在研究報(bào)告的開(kāi)篇，團(tuán)隊(duì)便自信展示了LWM與GPT-4V、Gemini Pro Vision與Video-LLaVA的對(duì)比結(jié)果：將長(zhǎng)達(dá)1小時(shí)的油管視頻輸入并根據(jù)視頻內(nèi)容細(xì)節(jié)提問(wèn)后，只有LWM能提供準(zhǔn)確的答復(fù)。

而除了能讀懂理解長(zhǎng)視頻外，LWM在超長(zhǎng)文本任務(wù)的表現(xiàn)同樣亮眼。LWM 可以高精度地檢索 1M 上下文中的事實(shí)。針對(duì)Gemini Pro 和 GPT-4各自的最大上下文長(zhǎng)度（32K 和 128K）進(jìn)行單針檢索比較時(shí)，LWM在各個(gè)指標(biāo)上的表現(xiàn)均大幅領(lǐng)先。

團(tuán)隊(duì)對(duì)LWM的研究成果作出了以下總結(jié)：

該研究在長(zhǎng)視頻和語(yǔ)言序列上訓(xùn)練了一個(gè)擁有極大上下文尺寸的 transformers 模型，從而設(shè)立了新的檢索任務(wù)和長(zhǎng)視頻理解方面的標(biāo)桿。

為了克服視覺(jué) - 語(yǔ)言訓(xùn)練帶來(lái)的挑戰(zhàn)，該研究采取了以下措施，包括使用掩碼序列以混合不同長(zhǎng)度的序列、損失加權(quán)以平衡語(yǔ)言和視覺(jué)、以及使用模型生成的問(wèn)答數(shù)據(jù)來(lái)處理長(zhǎng)序列對(duì)話(huà)。

通過(guò) RingAttention、掩碼序列打包等方法，可以訓(xùn)練數(shù)百萬(wàn)長(zhǎng)度的多模態(tài)序列。

完全開(kāi)源 7B 參數(shù)系列模型，其能夠處理超過(guò) 100 萬(wàn) token 的長(zhǎng)文本文檔（LWM-Text、LWM-Text-Chat）和視頻（LWM、LWM-Chat）。

分階段的漸進(jìn)式訓(xùn)練，模型能力逐步升級(jí)

是什么訓(xùn)練方法讓LWM具備如此亮眼的能力呢？

LWM的訓(xùn)練步驟主要分為兩個(gè)階段：第一階段是學(xué)習(xí)長(zhǎng)上下文語(yǔ)言模型（Learning Long-Context Language Models），第二階段是學(xué)習(xí)長(zhǎng)上下文視覺(jué)-語(yǔ)言模型（Learning Long-Context Vision-Language Models）。

第一階段時(shí)，團(tuán)隊(duì)將研究重點(diǎn)分為了上下文擴(kuò)展、訓(xùn)練步驟、聊天微調(diào)和語(yǔ)言結(jié)果評(píng)估四個(gè)部分。

在上下文擴(kuò)展中，他們使用RingAttention技術(shù)，通過(guò)分塊計(jì)算和序列并行，理論上可以擴(kuò)展到無(wú)限上下文，僅受限于可用設(shè)備數(shù)量。

RingAttention作為一個(gè)環(huán)形結(jié)構(gòu)來(lái)組織blocks，這樣每個(gè)block只需要與其相鄰的block進(jìn)行通信、交換信息，此結(jié)構(gòu)能夠大大減少通信開(kāi)銷(xiāo)。

分塊計(jì)算則是將長(zhǎng)序列分割成多個(gè)較小的blocks，每個(gè)block包含固定數(shù)量的tokens。這樣，模型只需要計(jì)算每個(gè)block內(nèi)的注意力權(quán)重，而不是整個(gè)序列。

在訓(xùn)練過(guò)程中，序列并行的方法可以并行處理多個(gè)block，每個(gè)block由不同的GPU處理，使模型能在多個(gè)設(shè)備上同時(shí)處理序列的不同部分，從而提高了訓(xùn)練效率。

同時(shí)，由于RingAttention 支持漸進(jìn)式訓(xùn)練，讓模型可以從處理較短的序列開(kāi)始，然后逐步增加序列長(zhǎng)度。于是團(tuán)隊(duì)就采用了漸進(jìn)式訓(xùn)練方法，從32K tokens開(kāi)始，逐步增加到1M tokens，以有效擴(kuò)展上下文大小。這意味著此方法有助于模型逐步學(xué)習(xí)處理更長(zhǎng)序列的能力，同時(shí)保持訓(xùn)練效率。

到了訓(xùn)練步驟的部分，團(tuán)隊(duì)會(huì)初始化模型參數(shù)，然后逐步增加上下文長(zhǎng)度，分為32K、128K、256K、512K和1M tokens共5個(gè)階段，且在每個(gè)階段，會(huì)使用不同版本的Books3數(shù)據(jù)集進(jìn)行訓(xùn)練，這些數(shù)據(jù)集經(jīng)過(guò)過(guò)濾，以適應(yīng)當(dāng)前的上下文長(zhǎng)度。

針對(duì)聊天微調(diào)，團(tuán)隊(duì)構(gòu)建了模型生成的問(wèn)答數(shù)據(jù)集，通過(guò)將文檔分割成固定大小的block，然后使用短上下文語(yǔ)言模型生成問(wèn)題和答案對(duì)。而在長(zhǎng)上下文長(zhǎng)度（如32K tokens）下，則是通過(guò)連接相鄰的block和在序列末尾添加相關(guān)的問(wèn)答對(duì)來(lái)構(gòu)建單個(gè)32K tokens的示例。

在第一階段的最后，團(tuán)隊(duì)對(duì)于LWM的語(yǔ)言能力進(jìn)行了單針檢索、多針檢索、多文本評(píng)估和聊天評(píng)估。

值得一提的是，此研究還對(duì)比了具有 4K 上下文的 Llama2-7B 模型與LWM-Text（從 32K 到 1M）的語(yǔ)言能力。評(píng)估涵蓋了各種語(yǔ)言任務(wù)，證明擴(kuò)大上下文大小不會(huì)影響短上下文任務(wù)的性能。結(jié)果表明，LWM在32K 到 1M長(zhǎng)度下各任務(wù)中表現(xiàn)得同樣好，甚至更好。

這一證據(jù)表明上下文擴(kuò)展不存在負(fù)面影響，突顯了模型適應(yīng)不同任務(wù)要求而不會(huì)在較短上下文中損失效率的能力。

在完成語(yǔ)言模型的訓(xùn)練后，團(tuán)隊(duì)開(kāi)啟了他們的第二階段——學(xué)習(xí)長(zhǎng)上下文視覺(jué)-語(yǔ)言模型。在此階段中，團(tuán)隊(duì)也將研究工作分為三個(gè)板塊，即視覺(jué)架構(gòu)修改、訓(xùn)練步驟和評(píng)估結(jié)果。

對(duì)于視覺(jué)架構(gòu)修改，他們使用了預(yù)訓(xùn)練的VQGAN將圖像和視頻幀轉(zhuǎn)換為離散tokens，并且引入新的tokens來(lái)區(qū)分文本生成的結(jié)束和視覺(jué)生成的開(kāi)始，以及視頻幀的結(jié)束。

而在訓(xùn)練步驟中，團(tuán)隊(duì)從LWM-Text-1M文本模型開(kāi)始初始化，然后在大量結(jié)合文本-圖像和文本-視頻數(shù)據(jù)上進(jìn)行漸進(jìn)式訓(xùn)練。他們分別在1K、8K、32K、128K和1M tokens的序列長(zhǎng)度上進(jìn)行訓(xùn)練，同樣地，每個(gè)階段都是從先前的較短序列長(zhǎng)度階段初始化。

在最終的評(píng)估結(jié)果上，團(tuán)隊(duì)在長(zhǎng)視頻理解、圖像理解和短視頻理解等任務(wù)上評(píng)估了LWM的模型性能并展示了其在處理長(zhǎng)視頻和圖像生成方面的優(yōu)秀能力。

結(jié)語(yǔ)

Sora在2024年拉響了大模型比拼的第一槍?zhuān)沟梦纳曨l技術(shù)躍為時(shí)下焦點(diǎn)，也讓“世界模型”變得似乎不再遙不可及。

在應(yīng)對(duì)長(zhǎng)文本、視頻甚至是多模態(tài)技術(shù)時(shí)，世界模型對(duì)物理世界規(guī)律的理解與應(yīng)用，或?qū)⒊蔀楦骷掖竽Ｐ瓦x手能否在角逐中取勝的關(guān)鍵。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))AI 科技評(píng)論將持續(xù)關(guān)注大模型領(lǐng)域動(dòng)態(tài)，歡迎添加anna042023，交流認(rèn)知，互通有無(wú)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

賴(lài)文昕

資深編輯

關(guān)注具身智能。

發(fā)私信

當(dāng)月熱門(mén)文章