0
| 本文作者: 賴(lài)文昕 | 2024-03-07 15:13 |
作者:賴(lài)文昕
編輯:陳彩嫻
自3天前Sora發(fā)布以來(lái),由圖靈獎(jiǎng)得主、Meta首席科學(xué)家Yann LeCun提出的“世界模型”又一次引起了廣泛關(guān)注。
“世界模型”作為Sora的一大核心亮點(diǎn),被OpenAI寫(xiě)在技術(shù)報(bào)告中。但Sora是否真的如Open AI所說(shuō),是一個(gè)世界模型,卻引起了行業(yè)內(nèi)的爭(zhēng)論。
在Yann LeCun的愿景中,世界模型是一個(gè)能夠?qū)W習(xí)世界如何運(yùn)作的內(nèi)在規(guī)律的內(nèi)部模型,可以更快速地學(xué)習(xí),為完成復(fù)雜任務(wù)做出計(jì)劃,并且隨時(shí)應(yīng)對(duì)不熟悉的新情況,所以它很有可能克服目前限制最先進(jìn)的AI系統(tǒng)發(fā)展的難關(guān)。
而在這場(chǎng)爭(zhēng)論持續(xù)之際, UC Berkeley(加州大學(xué)伯克利分校)發(fā)布了一項(xiàng)名為“Large World Model(LWM)”的最新研究成果,今日已成功登上GitHub榜首。
值得一提的是,兩位華人學(xué)者Hao Liu和Wilson Yan為共同一作,指導(dǎo)老師是吳恩達(dá)開(kāi)門(mén)大弟子、伯克利人工智能實(shí)驗(yàn)室主任Pieter Abbeel與計(jì)算機(jī)副教授Matei Zaharia。兩位教授的谷歌學(xué)術(shù)引用次數(shù)均十分耀眼,分別高達(dá)13.8萬(wàn)次與7.4萬(wàn)次。
論文鏈接:https://arxiv.org/pdf/2402.08268.pdf
為了應(yīng)對(duì)由于內(nèi)存限制、計(jì)算復(fù)雜性和數(shù)據(jù)集有等重大挑戰(zhàn),這個(gè)團(tuán)隊(duì)構(gòu)建了一個(gè)由不同視頻和書(shū)籍組成的大型數(shù)據(jù)集,以Hao Liu先前提出的RingAttention技術(shù)為基礎(chǔ),對(duì)長(zhǎng)序列進(jìn)行可伸縮訓(xùn)練,并將上下文大小從4K逐漸增加到100萬(wàn)tokens,一次可以分析1小時(shí)長(zhǎng)度的視頻。
100萬(wàn)token,1小時(shí)長(zhǎng)視頻,它還開(kāi)源
大模型的發(fā)展進(jìn)程快得令人驚嘆,但是仍存在不少技術(shù)痛點(diǎn)。比如,目前的語(yǔ)言模型無(wú)法理解世界上某些難以用語(yǔ)言描述的問(wèn)題,且難以處理復(fù)雜冗長(zhǎng)的任務(wù)。
針對(duì)這個(gè)難題,該團(tuán)隊(duì)提出了“Large World Model(LWM)”,因?yàn)橐曨l序列能提供語(yǔ)言和靜態(tài)圖像中沒(méi)有的、有價(jià)值的時(shí)間信息,這使得它們對(duì)于語(yǔ)言的聯(lián)合建模具有特別作用。這樣的模型可以更好地理解人類(lèi)文本知識(shí)和物理世界,從而實(shí)現(xiàn)更廣泛的人工智能能力來(lái)幫助人類(lèi)。
這個(gè)“大世界模型”是否確如其名呢?
在研究報(bào)告的開(kāi)篇,團(tuán)隊(duì)便自信展示了LWM與GPT-4V、Gemini Pro Vision與Video-LLaVA的對(duì)比結(jié)果:將長(zhǎng)達(dá)1小時(shí)的油管視頻輸入并根據(jù)視頻內(nèi)容細(xì)節(jié)提問(wèn)后,只有LWM能提供準(zhǔn)確的答復(fù)。
而除了能讀懂理解長(zhǎng)視頻外,LWM在超長(zhǎng)文本任務(wù)的表現(xiàn)同樣亮眼。LWM 可以高精度地檢索 1M 上下文中的事實(shí)。 針對(duì)Gemini Pro 和 GPT-4各自的最大上下文長(zhǎng)度(32K 和 128K)進(jìn)行單針檢索比較時(shí),LWM在各個(gè)指標(biāo)上的表現(xiàn)均大幅領(lǐng)先。
團(tuán)隊(duì)對(duì)LWM的研究成果作出了以下總結(jié):
該研究在長(zhǎng)視頻和語(yǔ)言序列上訓(xùn)練了一個(gè)擁有極大上下文尺寸的 transformers 模型,從而設(shè)立了新的檢索任務(wù)和長(zhǎng)視頻理解方面的標(biāo)桿。
為了克服視覺(jué) - 語(yǔ)言訓(xùn)練帶來(lái)的挑戰(zhàn),該研究采取了以下措施,包括使用掩碼序列以混合不同長(zhǎng)度的序列、損失加權(quán)以平衡語(yǔ)言和視覺(jué)、以及使用模型生成的問(wèn)答數(shù)據(jù)來(lái)處理長(zhǎng)序列對(duì)話(huà)。
通過(guò) RingAttention、掩碼序列打包等方法,可以訓(xùn)練數(shù)百萬(wàn)長(zhǎng)度的多模態(tài)序列。
完全開(kāi)源 7B 參數(shù)系列模型,其能夠處理超過(guò) 100 萬(wàn) token 的長(zhǎng)文本文檔(LWM-Text、LWM-Text-Chat)和視頻(LWM、LWM-Chat)。
分階段的漸進(jìn)式訓(xùn)練,模型能力逐步升級(jí)
是什么訓(xùn)練方法讓LWM具備如此亮眼的能力呢?
LWM的訓(xùn)練步驟主要分為兩個(gè)階段:第一階段是學(xué)習(xí)長(zhǎng)上下文語(yǔ)言模型(Learning Long-Context Language Models),第二階段是學(xué)習(xí)長(zhǎng)上下文視覺(jué)-語(yǔ)言模型(Learning Long-Context Vision-Language Models)。
第一階段時(shí),團(tuán)隊(duì)將研究重點(diǎn)分為了上下文擴(kuò)展、訓(xùn)練步驟、聊天微調(diào)和語(yǔ)言結(jié)果評(píng)估四個(gè)部分。
在上下文擴(kuò)展中,他們使用RingAttention技術(shù),通過(guò)分塊計(jì)算和序列并行,理論上可以擴(kuò)展到無(wú)限上下文,僅受限于可用設(shè)備數(shù)量。
RingAttention作為一個(gè)環(huán)形結(jié)構(gòu)來(lái)組織blocks,這樣每個(gè)block只需要與其相鄰的block進(jìn)行通信、交換信息,此結(jié)構(gòu)能夠大大減少通信開(kāi)銷(xiāo)。
分塊計(jì)算則是將長(zhǎng)序列分割成多個(gè)較小的blocks,每個(gè)block包含固定數(shù)量的tokens。這樣,模型只需要計(jì)算每個(gè)block內(nèi)的注意力權(quán)重,而不是整個(gè)序列。
在訓(xùn)練過(guò)程中,序列并行的方法可以并行處理多個(gè)block,每個(gè)block由不同的GPU處理,使模型能在多個(gè)設(shè)備上同時(shí)處理序列的不同部分,從而提高了訓(xùn)練效率。
同時(shí),由于RingAttention 支持漸進(jìn)式訓(xùn)練,讓模型可以從處理較短的序列開(kāi)始,然后逐步增加序列長(zhǎng)度。于是團(tuán)隊(duì)就采用了漸進(jìn)式訓(xùn)練方法,從32K tokens開(kāi)始,逐步增加到1M tokens,以有效擴(kuò)展上下文大小。這意味著此方法有助于模型逐步學(xué)習(xí)處理更長(zhǎng)序列的能力,同時(shí)保持訓(xùn)練效率。
到了訓(xùn)練步驟的部分,團(tuán)隊(duì)會(huì)初始化模型參數(shù),然后逐步增加上下文長(zhǎng)度,分為32K、128K、256K、512K和1M tokens共5個(gè)階段,且在每個(gè)階段,會(huì)使用不同版本的Books3數(shù)據(jù)集進(jìn)行訓(xùn)練,這些數(shù)據(jù)集經(jīng)過(guò)過(guò)濾,以適應(yīng)當(dāng)前的上下文長(zhǎng)度。
針對(duì)聊天微調(diào),團(tuán)隊(duì)構(gòu)建了模型生成的問(wèn)答數(shù)據(jù)集,通過(guò)將文檔分割成固定大小的block,然后使用短上下文語(yǔ)言模型生成問(wèn)題和答案對(duì)。而在長(zhǎng)上下文長(zhǎng)度(如32K tokens)下,則是通過(guò)連接相鄰的block和在序列末尾添加相關(guān)的問(wèn)答對(duì)來(lái)構(gòu)建單個(gè)32K tokens的示例。
在第一階段的最后,團(tuán)隊(duì)對(duì)于LWM的語(yǔ)言能力進(jìn)行了單針檢索、多針檢索、多文本評(píng)估和聊天評(píng)估。
值得一提的是,此研究還對(duì)比了具有 4K 上下文的 Llama2-7B 模型與LWM-Text(從 32K 到 1M)的語(yǔ)言能力。 評(píng)估涵蓋了各種語(yǔ)言任務(wù),證明擴(kuò)大上下文大小不會(huì)影響短上下文任務(wù)的性能。結(jié)果表明,LWM在32K 到 1M長(zhǎng)度下各任務(wù)中表現(xiàn)得同樣好,甚至更好。
這一證據(jù)表明上下文擴(kuò)展不存在負(fù)面影響,突顯了模型適應(yīng)不同任務(wù)要求而不會(huì)在較短上下文中損失效率的能力。
在完成語(yǔ)言模型的訓(xùn)練后,團(tuán)隊(duì)開(kāi)啟了他們的第二階段——學(xué)習(xí)長(zhǎng)上下文視覺(jué)-語(yǔ)言模型。在此階段中,團(tuán)隊(duì)也將研究工作分為三個(gè)板塊,即視覺(jué)架構(gòu)修改、訓(xùn)練步驟和評(píng)估結(jié)果。
對(duì)于視覺(jué)架構(gòu)修改,他們使用了預(yù)訓(xùn)練的VQGAN將圖像和視頻幀轉(zhuǎn)換為離散tokens,并且引入新的tokens來(lái)區(qū)分文本生成的結(jié)束和視覺(jué)生成的開(kāi)始,以及視頻幀的結(jié)束。
而在訓(xùn)練步驟中,團(tuán)隊(duì)從LWM-Text-1M文本模型開(kāi)始初始化,然后在大量結(jié)合文本-圖像和文本-視頻數(shù)據(jù)上進(jìn)行漸進(jìn)式訓(xùn)練。他們分別在1K、8K、32K、128K和1M tokens的序列長(zhǎng)度上進(jìn)行訓(xùn)練,同樣地,每個(gè)階段都是從先前的較短序列長(zhǎng)度階段初始化。
在最終的評(píng)估結(jié)果上,團(tuán)隊(duì)在長(zhǎng)視頻理解、圖像理解和短視頻理解等任務(wù)上評(píng)估了LWM的模型性能并展示了其在處理長(zhǎng)視頻和圖像生成方面的優(yōu)秀能力。
結(jié)語(yǔ)
Sora在2024年拉響了大模型比拼的第一槍?zhuān)沟梦纳曨l技術(shù)躍為時(shí)下焦點(diǎn),也讓“世界模型”變得似乎不再遙不可及。
在應(yīng)對(duì)長(zhǎng)文本、視頻甚至是多模態(tài)技術(shù)時(shí),世界模型對(duì)物理世界規(guī)律的理解與應(yīng)用,或?qū)⒊蔀楦骷掖竽P瓦x手能否在角逐中取勝的關(guān)鍵。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))AI 科技評(píng)論將持續(xù)關(guān)注大模型領(lǐng)域動(dòng)態(tài),歡迎添加anna042023,交流認(rèn)知,互通有無(wú)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。