<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能 正文
      發(fā)私信給賴(lài)文昕
      發(fā)送

      0

      Pieter Abbeel 新工作“大世界模型”:輕松玩轉(zhuǎn)1小時(shí)長(zhǎng)視頻,一對(duì)一QA視頻內(nèi)容細(xì)節(jié)

      本文作者: 賴(lài)文昕 2024-03-07 15:13
      導(dǎo)語(yǔ):導(dǎo)語(yǔ):伯克利發(fā)布的“大世界模型”,究竟大在哪里?


      作者:賴(lài)文昕

      編輯:陳彩嫻

      自3天前Sora發(fā)布以來(lái),由圖靈獎(jiǎng)得主、Meta首席科學(xué)家Yann LeCun提出的“世界模型”又一次引起了廣泛關(guān)注。

      “世界模型”作為Sora的一大核心亮點(diǎn),被OpenAI寫(xiě)在技術(shù)報(bào)告中。但Sora是否真的如Open AI所說(shuō),是一個(gè)世界模型,卻引起了行業(yè)內(nèi)的爭(zhēng)論。


      在Yann LeCun的愿景中,世界模型是一個(gè)能夠?qū)W習(xí)世界如何運(yùn)作的內(nèi)在規(guī)律的內(nèi)部模型,可以更快速地學(xué)習(xí),為完成復(fù)雜任務(wù)做出計(jì)劃,并且隨時(shí)應(yīng)對(duì)不熟悉的新情況,所以它很有可能克服目前限制最先進(jìn)的AI系統(tǒng)發(fā)展的難關(guān)。

      而在這場(chǎng)爭(zhēng)論持續(xù)之際, UC Berkeley(加州大學(xué)伯克利分校)發(fā)布了一項(xiàng)名為“Large World Model(LWM)”的最新研究成果,今日已成功登上GitHub榜首。

      值得一提的是,兩位華人學(xué)者Hao Liu和Wilson Yan為共同一作,指導(dǎo)老師是吳恩達(dá)開(kāi)門(mén)大弟子、伯克利人工智能實(shí)驗(yàn)室主任Pieter Abbeel與計(jì)算機(jī)副教授Matei Zaharia。兩位教授的谷歌學(xué)術(shù)引用次數(shù)均十分耀眼,分別高達(dá)13.8萬(wàn)次與7.4萬(wàn)次。

      論文鏈接:https://arxiv.org/pdf/2402.08268.pdf


      為了應(yīng)對(duì)由于內(nèi)存限制、計(jì)算復(fù)雜性和數(shù)據(jù)集有等重大挑戰(zhàn),這個(gè)團(tuán)隊(duì)構(gòu)建了一個(gè)由不同視頻和書(shū)籍組成的大型數(shù)據(jù)集,以Hao Liu先前提出的RingAttention技術(shù)為基礎(chǔ),對(duì)長(zhǎng)序列進(jìn)行可伸縮訓(xùn)練,并將上下文大小從4K逐漸增加到100萬(wàn)tokens,一次可以分析1小時(shí)長(zhǎng)度的視頻。


      100萬(wàn)token,1小時(shí)長(zhǎng)視頻,它還開(kāi)源

      大模型的發(fā)展進(jìn)程快得令人驚嘆,但是仍存在不少技術(shù)痛點(diǎn)。比如,目前的語(yǔ)言模型無(wú)法理解世界上某些難以用語(yǔ)言描述的問(wèn)題,且難以處理復(fù)雜冗長(zhǎng)的任務(wù)。

      針對(duì)這個(gè)難題,該團(tuán)隊(duì)提出了“Large World Model(LWM)”,因?yàn)橐曨l序列能提供語(yǔ)言和靜態(tài)圖像中沒(méi)有的、有價(jià)值的時(shí)間信息,這使得它們對(duì)于語(yǔ)言的聯(lián)合建模具有特別作用。這樣的模型可以更好地理解人類(lèi)文本知識(shí)和物理世界,從而實(shí)現(xiàn)更廣泛的人工智能能力來(lái)幫助人類(lèi)。

      這個(gè)“大世界模型”是否確如其名呢?

      在研究報(bào)告的開(kāi)篇,團(tuán)隊(duì)便自信展示了LWM與GPT-4V、Gemini Pro Vision與Video-LLaVA的對(duì)比結(jié)果:將長(zhǎng)達(dá)1小時(shí)的油管視頻輸入并根據(jù)視頻內(nèi)容細(xì)節(jié)提問(wèn)后,只有LWM能提供準(zhǔn)確的答復(fù)。

      而除了能讀懂理解長(zhǎng)視頻外,LWM在超長(zhǎng)文本任務(wù)的表現(xiàn)同樣亮眼。LWM 可以高精度地檢索 1M 上下文中的事實(shí)。 針對(duì)Gemini Pro 和 GPT-4各自的最大上下文長(zhǎng)度(32K 和 128K)進(jìn)行單針檢索比較時(shí),LWM在各個(gè)指標(biāo)上的表現(xiàn)均大幅領(lǐng)先。


      團(tuán)隊(duì)對(duì)LWM的研究成果作出了以下總結(jié):

      該研究在長(zhǎng)視頻和語(yǔ)言序列上訓(xùn)練了一個(gè)擁有極大上下文尺寸的 transformers 模型,從而設(shè)立了新的檢索任務(wù)和長(zhǎng)視頻理解方面的標(biāo)桿。

      為了克服視覺(jué) - 語(yǔ)言訓(xùn)練帶來(lái)的挑戰(zhàn),該研究采取了以下措施,包括使用掩碼序列以混合不同長(zhǎng)度的序列、損失加權(quán)以平衡語(yǔ)言和視覺(jué)、以及使用模型生成的問(wèn)答數(shù)據(jù)來(lái)處理長(zhǎng)序列對(duì)話(huà)。

      通過(guò) RingAttention、掩碼序列打包等方法,可以訓(xùn)練數(shù)百萬(wàn)長(zhǎng)度的多模態(tài)序列。

      完全開(kāi)源 7B 參數(shù)系列模型,其能夠處理超過(guò) 100 萬(wàn) token 的長(zhǎng)文本文檔(LWM-Text、LWM-Text-Chat)和視頻(LWM、LWM-Chat)。


      分階段的漸進(jìn)式訓(xùn)練,模型能力逐步升級(jí)

      是什么訓(xùn)練方法讓LWM具備如此亮眼的能力呢?

      LWM的訓(xùn)練步驟主要分為兩個(gè)階段:第一階段是學(xué)習(xí)長(zhǎng)上下文語(yǔ)言模型(Learning Long-Context Language Models),第二階段是學(xué)習(xí)長(zhǎng)上下文視覺(jué)-語(yǔ)言模型(Learning Long-Context Vision-Language Models)。

      第一階段時(shí),團(tuán)隊(duì)將研究重點(diǎn)分為了上下文擴(kuò)展、訓(xùn)練步驟、聊天微調(diào)和語(yǔ)言結(jié)果評(píng)估四個(gè)部分。

      在上下文擴(kuò)展中,他們使用RingAttention技術(shù),通過(guò)分塊計(jì)算和序列并行,理論上可以擴(kuò)展到無(wú)限上下文,僅受限于可用設(shè)備數(shù)量。

      RingAttention作為一個(gè)環(huán)形結(jié)構(gòu)來(lái)組織blocks,這樣每個(gè)block只需要與其相鄰的block進(jìn)行通信、交換信息,此結(jié)構(gòu)能夠大大減少通信開(kāi)銷(xiāo)。

      分塊計(jì)算則是將長(zhǎng)序列分割成多個(gè)較小的blocks,每個(gè)block包含固定數(shù)量的tokens。這樣,模型只需要計(jì)算每個(gè)block內(nèi)的注意力權(quán)重,而不是整個(gè)序列。

      在訓(xùn)練過(guò)程中,序列并行的方法可以并行處理多個(gè)block,每個(gè)block由不同的GPU處理,使模型能在多個(gè)設(shè)備上同時(shí)處理序列的不同部分,從而提高了訓(xùn)練效率。


      同時(shí),由于RingAttention 支持漸進(jìn)式訓(xùn)練,讓模型可以從處理較短的序列開(kāi)始,然后逐步增加序列長(zhǎng)度。于是團(tuán)隊(duì)就采用了漸進(jìn)式訓(xùn)練方法,從32K tokens開(kāi)始,逐步增加到1M tokens,以有效擴(kuò)展上下文大小。這意味著此方法有助于模型逐步學(xué)習(xí)處理更長(zhǎng)序列的能力,同時(shí)保持訓(xùn)練效率。

      到了訓(xùn)練步驟的部分,團(tuán)隊(duì)會(huì)初始化模型參數(shù),然后逐步增加上下文長(zhǎng)度,分為32K、128K、256K、512K和1M tokens共5個(gè)階段,且在每個(gè)階段,會(huì)使用不同版本的Books3數(shù)據(jù)集進(jìn)行訓(xùn)練,這些數(shù)據(jù)集經(jīng)過(guò)過(guò)濾,以適應(yīng)當(dāng)前的上下文長(zhǎng)度。

      針對(duì)聊天微調(diào),團(tuán)隊(duì)構(gòu)建了模型生成的問(wèn)答數(shù)據(jù)集,通過(guò)將文檔分割成固定大小的block,然后使用短上下文語(yǔ)言模型生成問(wèn)題和答案對(duì)。而在長(zhǎng)上下文長(zhǎng)度(如32K tokens)下,則是通過(guò)連接相鄰的block和在序列末尾添加相關(guān)的問(wèn)答對(duì)來(lái)構(gòu)建單個(gè)32K tokens的示例。

      在第一階段的最后,團(tuán)隊(duì)對(duì)于LWM的語(yǔ)言能力進(jìn)行了單針檢索、多針檢索、多文本評(píng)估和聊天評(píng)估。

      值得一提的是,此研究還對(duì)比了具有 4K 上下文的 Llama2-7B 模型與LWM-Text(從 32K 到 1M)的語(yǔ)言能力。 評(píng)估涵蓋了各種語(yǔ)言任務(wù),證明擴(kuò)大上下文大小不會(huì)影響短上下文任務(wù)的性能。結(jié)果表明,LWM在32K 到 1M長(zhǎng)度下各任務(wù)中表現(xiàn)得同樣好,甚至更好。


      這一證據(jù)表明上下文擴(kuò)展不存在負(fù)面影響,突顯了模型適應(yīng)不同任務(wù)要求而不會(huì)在較短上下文中損失效率的能力。

      在完成語(yǔ)言模型的訓(xùn)練后,團(tuán)隊(duì)開(kāi)啟了他們的第二階段——學(xué)習(xí)長(zhǎng)上下文視覺(jué)-語(yǔ)言模型。在此階段中,團(tuán)隊(duì)也將研究工作分為三個(gè)板塊,即視覺(jué)架構(gòu)修改、訓(xùn)練步驟和評(píng)估結(jié)果。

      對(duì)于視覺(jué)架構(gòu)修改,他們使用了預(yù)訓(xùn)練的VQGAN將圖像和視頻幀轉(zhuǎn)換為離散tokens,并且引入新的tokens來(lái)區(qū)分文本生成的結(jié)束和視覺(jué)生成的開(kāi)始,以及視頻幀的結(jié)束。

      而在訓(xùn)練步驟中,團(tuán)隊(duì)從LWM-Text-1M文本模型開(kāi)始初始化,然后在大量結(jié)合文本-圖像和文本-視頻數(shù)據(jù)上進(jìn)行漸進(jìn)式訓(xùn)練。他們分別在1K、8K、32K、128K和1M tokens的序列長(zhǎng)度上進(jìn)行訓(xùn)練,同樣地,每個(gè)階段都是從先前的較短序列長(zhǎng)度階段初始化。

      在最終的評(píng)估結(jié)果上,團(tuán)隊(duì)在長(zhǎng)視頻理解、圖像理解和短視頻理解等任務(wù)上評(píng)估了LWM的模型性能并展示了其在處理長(zhǎng)視頻和圖像生成方面的優(yōu)秀能力。

      結(jié)語(yǔ)

      Sora在2024年拉響了大模型比拼的第一槍?zhuān)沟梦纳曨l技術(shù)躍為時(shí)下焦點(diǎn),也讓“世界模型”變得似乎不再遙不可及。

      在應(yīng)對(duì)長(zhǎng)文本、視頻甚至是多模態(tài)技術(shù)時(shí),世界模型對(duì)物理世界規(guī)律的理解與應(yīng)用,或?qū)⒊蔀楦骷掖竽P瓦x手能否在角逐中取勝的關(guān)鍵。


      雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))AI 科技評(píng)論將持續(xù)關(guān)注大模型領(lǐng)域動(dòng)態(tài),歡迎添加anna042023,交流認(rèn)知,互通有無(wú)


      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

      Pieter Abbeel 新工作“大世界模型”:輕松玩轉(zhuǎn)1小時(shí)長(zhǎng)視頻,一對(duì)一QA視頻內(nèi)容細(xì)節(jié)

      分享:
      相關(guān)文章

      資深編輯

      關(guān)注具身智能。
      當(dāng)月熱門(mén)文章
      最新文章
      請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
      姓名
      電話(huà)
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說(shuō)
      主站蜘蛛池模板: 国产精品伦子伦露脸| www.18禁| 亚洲AV无码专区首页第一页 | 日本熟妇人妻右手影院| 国产爆乳无码av在线播放| 青娱乐av| 久久无码中文字幕免费影院| 久久丫精品久久丫| 亚欧洲乱码视频在线专区| 国产三级a三级三级| 日本欧美大码aⅴ在线播放| 亚洲av专区一区| 国产中文字幕乱人伦在线观看| 免费男人下部进女人下部视频| 亚洲精品乱码久久久久久蜜桃91| 久久精品a一国产成人免费网站| √天堂资源地址在线官网| 9l精品国产一区二区| 国产精品大屁股1区二区三区| 正在播放国产【乱子】| 亚洲熟女av中文字幕| 国产农村乱子伦精品视频 | 阿合奇县| 久久精品国产久精国产一老狼 | 亚洲国产人成自久久国产| 国产真实乱人偷精品人妻| 国产熟女在线播放| 日韩吃奶摸下aa片免费观看| 中国美女a级毛片| 丰满的少妇一区二区三区| 国产福利视频一区二区| 中文字幕在线日韩| 巨胸的教师在线完整版| 天堂中文在线资源| 国内精品熟女亚洲精品熟女| 色综合精品| 人人爽人人爽人人片a免费| 色综合久久久久久久久久| 成人av片无码免费网站 | 国产人久久人人人人爽| 玖草视频在线观看|