<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能學(xué)術(shù) 正文
      發(fā)私信給我在思考中
      發(fā)送

      0

      大模型“研究源”告急:研究預(yù)測,2026年高質(zhì)量語言數(shù)據(jù)將耗盡

      本文作者: 我在思考中 2022-11-21 10:26
      導(dǎo)語:數(shù)據(jù)存量的增速遠低于大模型訓(xùn)練數(shù)據(jù)集規(guī)模的增速。
      數(shù)據(jù)存量的增速遠低于大模型訓(xùn)練數(shù)據(jù)集規(guī)模的增速。

      作者 | 李梅

      編輯 | 陳彩嫻

      語言模型的縮放定律(Scaling law)表明,其規(guī)模大小取決于可用數(shù)據(jù)的數(shù)量,所以在過去幾年,大約有一半的語言模型是通過擴大數(shù)據(jù)量來改進性能的。

      當(dāng)前,在參數(shù)量上的角逐似乎已進入冷靜期,然而,當(dāng)許多人還在討論模型要不要繼續(xù)做大的時候,模型能不能做大的問題已經(jīng)出現(xiàn)了。

      最近,一項來自 Epoch AI Research 團隊的研究向我們拋出了一個殘酷的事實:模型還要繼續(xù)做大,數(shù)據(jù)卻不夠用了。

      大模型“研究源”告急:研究預(yù)測,2026年高質(zhì)量語言數(shù)據(jù)將耗盡
      論文地址:https://arxiv.org/pdf/2211.04325.pdf

      研究人員預(yù)測了 2022 年至 2100 年間可用的圖像和語言數(shù)據(jù)總量,并據(jù)此估計了未來大模型訓(xùn)練數(shù)據(jù)集規(guī)模的增長趨勢。

      結(jié)果表明:高質(zhì)量的語言數(shù)據(jù)存量將在 2026 年耗盡,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。

      這意味著,如果數(shù)據(jù)效率沒有顯著提高或有新的數(shù)據(jù)源可用,那么到 2040 年,模型的規(guī)模增長將放緩。

      對數(shù)據(jù)端的建設(shè)該重視起來了。



      1

      數(shù)據(jù)存量是大模型數(shù)據(jù)集的規(guī)模上限

      數(shù)據(jù)存量預(yù)測

      數(shù)據(jù)量的多少會限制大模型訓(xùn)練數(shù)據(jù)集的規(guī)模大小,所以要先對數(shù)據(jù)存量的增長趨勢進行預(yù)測。

      在預(yù)測未來語言和圖像數(shù)據(jù)存量方面,研究團隊開發(fā)了概率模型來預(yù)測數(shù)據(jù)累積率。

      近年來無監(jiān)督學(xué)習(xí)在基礎(chǔ)模型領(lǐng)域大為成功,它允許我們使用少量標(biāo)注數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù)、針對多項任務(wù)進行微調(diào),無監(jiān)督模型也被證明能夠為未標(biāo)注數(shù)據(jù)生成有價值的偽標(biāo)簽。所以,這里主要關(guān)注未標(biāo)注數(shù)據(jù)的存量和累計率。

      另外,要預(yù)測數(shù)據(jù)累積率,得先確定哪些因素會導(dǎo)致數(shù)據(jù)的增長。絕大多數(shù)數(shù)據(jù)是用戶生成的,存儲于社交媒體平臺、博客、論壇中。所以決定某一時期產(chǎn)生多少數(shù)據(jù)的因素有三個:人口數(shù)量、互聯(lián)網(wǎng)普及率和每個互聯(lián)網(wǎng)用戶產(chǎn)生的平均數(shù)據(jù)量。研究團隊據(jù)此開發(fā)了一個用戶生成內(nèi)容累積率的模型。

      訓(xùn)練數(shù)據(jù)集規(guī)模增長預(yù)測

      在數(shù)據(jù)存量的預(yù)測基礎(chǔ)上,研究人員進一步估測了未來大模型的訓(xùn)練數(shù)據(jù)集規(guī)模的增長趨勢。

      數(shù)據(jù)集規(guī)模(dataset size)在這里被定義為訓(xùn)練模型所依據(jù)的獨特數(shù)據(jù)點(datapoint)的數(shù)量。不同領(lǐng)域?qū)?shù)據(jù)點的定義不同,對于語言數(shù)據(jù)而言,數(shù)據(jù)點即一個詞,圖像數(shù)據(jù)則定義為一張圖像。

      如果根據(jù)數(shù)據(jù)集規(guī)模的歷史變化來預(yù)測未來的趨勢,那結(jié)果會是“未來會繼續(xù)延續(xù)歷史”,這當(dāng)然不夠準(zhǔn)確,因為實際上可訓(xùn)練模型的數(shù)據(jù)量是有限制的,最大的限制之一就是計算可用性(compute availability)。要對已有模型增加訓(xùn)練數(shù)據(jù)量,當(dāng)然需要更多額外的計算,而計算會受到硬件供應(yīng)以及購買、租用硬件的成本的制約。

      所以,預(yù)測數(shù)據(jù)集規(guī)模時要將計算可用性的限制考慮進去,為此作者團隊也根據(jù)計算可用性和計算優(yōu)化(compute-optimal)的數(shù)據(jù)集規(guī)模做了預(yù)測。

      關(guān)于模型的規(guī)模增長,有一個重要概念是 Scaling law(縮放定律),Scaling law 可用來預(yù)測給定計算預(yù)算(以 FLOP 衡量)下的模型規(guī)模和數(shù)據(jù)集規(guī)模之間的最優(yōu)平衡。具體來說,最優(yōu)的數(shù)據(jù)集規(guī)模與計算預(yù)算的平方根成正比。這項工作便預(yù)測了未來每年將會達到的最優(yōu)訓(xùn)練數(shù)據(jù)集規(guī)模。



      2

      語言數(shù)據(jù)將耗盡于 2026年

      先來看語言模型

      語言數(shù)據(jù)的質(zhì)量有好壞,互聯(lián)網(wǎng)用戶生成的語言數(shù)據(jù)質(zhì)量往往低于書籍、科學(xué)論文等更專業(yè)的語言數(shù)據(jù),在后一種數(shù)據(jù)上訓(xùn)練的模型性能也更好。所以,有必要區(qū)分開來,為了獲得更全面的結(jié)果,作者分別對低質(zhì)量語言數(shù)據(jù)和高質(zhì)量語言和數(shù)據(jù)的存量進行了估測,我們來看看結(jié)果。

      對低質(zhì)量語言數(shù)據(jù)的當(dāng)前總存量進行估測,得到存量為 6.85e13 到 7.13e16 個單詞。如下圖。

      其中,區(qū)間上的1e14 很可能是代表對于資金雄厚的大公司如谷歌可用的語言數(shù)據(jù)存量;1e15 是對于所有科技公司可用的量;1e16 則是全球人類多年間集體產(chǎn)生的量。當(dāng)前每年語言數(shù)據(jù)增長率在 6.41% 到 17.49% 之間。

      大模型“研究源”告急:研究預(yù)測,2026年高質(zhì)量語言數(shù)據(jù)將耗盡
      圖注:低質(zhì)量語言數(shù)據(jù)存量

      接著,以這里的低質(zhì)量語言數(shù)據(jù)存量作為數(shù)據(jù)集的規(guī)模上限來進行預(yù)測,結(jié)果發(fā)現(xiàn),語言數(shù)據(jù)集規(guī)模會先經(jīng)歷快速增長直到數(shù)據(jù)存量耗盡,之后增長速度會大幅放緩。如下圖,數(shù)據(jù)存量耗盡的時間節(jié)點在 2030 年之后。

      大模型“研究源”告急:研究預(yù)測,2026年高質(zhì)量語言數(shù)據(jù)將耗盡

      圖注:低質(zhì)量語言數(shù)據(jù)集規(guī)模增長趨勢

      在高質(zhì)量語言數(shù)據(jù)方面,作者估測了數(shù)字化書籍、公共 GitHub 存儲庫和科學(xué)論文中可用文本的全部數(shù)量,并假設(shè)其占高質(zhì)量數(shù)據(jù)集的 30 %-50%,從而預(yù)測出當(dāng)前高質(zhì)量語言數(shù)據(jù)的總存量為 9e12 [4.6e12; 1.7e13] 個單詞,每年增長率為 4% 到 5%。如下圖。

      大模型“研究源”告急:研究預(yù)測,2026年高質(zhì)量語言數(shù)據(jù)將耗盡

      圖注:高質(zhì)量語言數(shù)據(jù)存量

      這時,以高質(zhì)量語言數(shù)據(jù)存量作為數(shù)據(jù)集規(guī)模上限,發(fā)現(xiàn)了相同的數(shù)據(jù)集規(guī)模放緩模式,但放緩會發(fā)生得更早,在 2026 年之前。如下圖。

      大模型“研究源”告急:研究預(yù)測,2026年高質(zhì)量語言數(shù)據(jù)將耗盡

      圖注:高質(zhì)量語言數(shù)據(jù)集規(guī)模增長趨勢

      再來看視覺模型

      對于視覺模型來說,什么樣的圖像數(shù)據(jù)算是高質(zhì)量數(shù)據(jù),這方面我們目前還了解不多,所以作者這里未區(qū)分高低質(zhì)量。

      經(jīng)估測,作者發(fā)現(xiàn),當(dāng)今互聯(lián)網(wǎng)上的圖像總存量在 8.11e12 和 2.3e13 之間,年增長率約為 8 %。如下圖。

      大模型“研究源”告急:研究預(yù)測,2026年高質(zhì)量語言數(shù)據(jù)將耗盡

      圖注:圖像數(shù)據(jù)存量

      以這一存量作為圖像數(shù)據(jù)集規(guī)模的上限,根據(jù)歷史趨勢和計算最優(yōu)來預(yù)測訓(xùn)練數(shù)據(jù)集規(guī)模的增長,發(fā)現(xiàn)與語言模型類似,圖像數(shù)據(jù)集的規(guī)模會呈指數(shù)增長,直到圖像數(shù)據(jù)存量耗盡,之后增長率會下降。如下圖。

      大模型“研究源”告急:研究預(yù)測,2026年高質(zhì)量語言數(shù)據(jù)將耗盡

      圖注:圖像數(shù)據(jù)集規(guī)模增長趨勢

      作者進一步計算了每種數(shù)據(jù)集規(guī)模每年會遭遇數(shù)據(jù)存量耗盡的概率,包括兩種預(yù)測,一是根據(jù)歷史趨勢的預(yù)測,二是根據(jù)計算可用性的預(yù)測。結(jié)果如下圖。

      大模型“研究源”告急:研究預(yù)測,2026年高質(zhì)量語言數(shù)據(jù)將耗盡

      圖注:低質(zhì)量語言數(shù)據(jù)存量、高質(zhì)量語言數(shù)據(jù)存量和視覺數(shù)據(jù)存量每年發(fā)生耗盡的概率

      對于語言模型而言,數(shù)據(jù)的枯竭將會在 2030 年到 2040 年之間到來;對視覺模型而言,則是 2030 年到 2060 年之間。

      具體來說,低質(zhì)量語言數(shù)據(jù)和視覺數(shù)據(jù)枯竭的日期存在較大的不確定性,但基本上不太可能發(fā)生在 2030 年之前或 2060 年之后。但高質(zhì)量的語言數(shù)據(jù)幾乎肯定會在 2027 年之前耗盡。



      3

      大模型的數(shù)據(jù)瓶頸如何破除?

      上述研究結(jié)果表明,數(shù)據(jù)存量的增長速度遠低于訓(xùn)練數(shù)據(jù)集規(guī)模的增長速度,所以如果當(dāng)下的趨勢繼續(xù)下去,我們的數(shù)據(jù)庫存一定會耗盡。而且,高質(zhì)量的數(shù)據(jù)會更少。

      或許更大的數(shù)據(jù)集能夠替代較低質(zhì)量的數(shù)據(jù)集,但即使如此,數(shù)據(jù)集規(guī)模增長的放緩是不可避免的,因為擴大數(shù)據(jù)集同時也會受到計算可用性的制約。

      如果這項工作的預(yù)測是正確的,那么毫無疑問數(shù)據(jù)將成為做模型繼續(xù)做大的主要制約因素,AI 的進展也會隨著數(shù)據(jù)量的耗盡而放緩。

      但大模型畢竟是數(shù)據(jù)驅(qū)動的。阿里巴巴達摩院基礎(chǔ)視覺團隊負責(zé)人趙德麗博士曾告訴 AI 科技評論,數(shù)據(jù)側(cè)的建設(shè)將會成為每一個做大模型工作的機構(gòu)必須要考慮的問題,大模型有多少能力,往往取決于你有什么樣的數(shù)據(jù)。

      舉個例子,趙德麗博士在從事生成模型的研究中發(fā)現(xiàn),與文生圖大模型相比,做文生視頻大模型要難得多,原因就在于視頻數(shù)據(jù)的數(shù)量遠比不上文本和圖像,更不要談數(shù)據(jù)的質(zhì)量了。相應(yīng)地,目前已有的文生視頻模型的效果都不盡如人意。

      不過,事情或許還沒那么糟。

      這項工作的作者承認,當(dāng)前的預(yù)測結(jié)果更多是基于理想條件下的假設(shè),即目前的數(shù)據(jù)使用和生產(chǎn)的趨勢將保持不變,且數(shù)據(jù)效率不會有大的改進。

      但是,如果未來數(shù)據(jù)效率得到提高,大模型有可能并不需要更多數(shù)據(jù)就能實現(xiàn)同等的性能;

      如果目前看來正確的 Scaling law 被證明為錯誤,那也就是說在數(shù)據(jù)很少的情況下,即使數(shù)據(jù)效率沒有提高,也會有其他更好的擴大模型規(guī)模的辦法;

      如果通過遷移學(xué)習(xí),多模態(tài)模型被證明比單模型模型性能更好,那么也可以增加數(shù)據(jù)存量從而擴大各種數(shù)據(jù)模態(tài)存量的組合;

      就數(shù)據(jù)存量本身,如果對數(shù)據(jù)進行組合使用,甚至可以無限增加數(shù)據(jù)存量;如果社會經(jīng)濟方面發(fā)生重大轉(zhuǎn)變,也可能會產(chǎn)生更多新的數(shù)據(jù)種類,例如等到自動駕駛汽車大規(guī)模普及,那么道路視頻的記錄數(shù)據(jù)將會大大增加。

      以上這些“如果”或許正是大模型的未來所在。

      更多內(nèi)容,點擊下方關(guān)注:
      掃碼添加 AI 科技評論 微信號,投稿&進群:
      大模型“研究源”告急:研究預(yù)測,2026年高質(zhì)量語言數(shù)據(jù)將耗盡

      未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

      公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

      雷峰網(wǎng)(公眾號:雷峰網(wǎng))

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      大模型“研究源”告急:研究預(yù)測,2026年高質(zhì)量語言數(shù)據(jù)將耗盡

      分享:
      相關(guān)文章
      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 无码成人一区二区| 97人妻精品一区二区三区视频蜜桃0.0.0.| 国产一区二区波多野结衣| 波多野结衣av一区二区三区中文| 日韩欧美的偷拍?一区二区| 野花社区视频www官网| 综合一区亚洲| 久久久精品456亚洲影院| 欧美成人精品高清在线播放| 精品亚洲韩国一区二区三区| 国产成人精品综合| 亚洲乱码国产乱码精品精大量| 中国极品少妇xxxxx| 精品国产乱码久久久久久1区2区| 亚洲精品92内射| 欧美乱妇狂野欧美在线视频| 又粗又大网站| 狠狠干影院| 日本youjizz| 精品伊人久久久大香线蕉欧美| 97免费人妻在线视频| 高清无码精品一区二区三区| 夜夜躁狠狠躁日日躁av| 亚洲国产精品久久久久久久| 色翁荡息又大又硬又粗视频| 久久天天躁夜夜躁狠狠ds005 | 少妇被躁爽到高潮| 中国熟妇浓毛hdsex| 国内精品久久久久影院日本| 国产精品成人av电影不卡| 亚洲午夜福利| 国产毛片A啊久久久久| 欧美喷白浆| 熟女熟妇伦av网站| 欧美丰满熟妇bbb久久久| 久久久久久久av| 亚卅精品| 无码AV无码免费一区二区| 无码人妻丰满熟妇区五十路百度 | 精品亚洲一区二区三区在线观看 | 3P网站|