<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給齊鋮湧
      發送

      0

      沖破 AGI 迷霧,螞蟻看到了一個新路標

      本文作者: 齊鋮湧   2025-09-29 11:01
      導語:“大模型戰場,走到了新秩序的邊緣。?” ?作者丨齊鋮湧編輯丨陳彩嫻


      01

      2024年12月14日,溫哥華會展中心座無虛席,ChatGPT之父 Ilya 現身大銀幕,在全球 AI 頂會上, Ilya 向全行業預警:

      「數據壓榨已然到頭,如果無法突破,AGI將難以實現。」

      沖破 AGI 迷霧,螞蟻看到了一個新路標

      彼時,普羅大眾還沉浸一場AI盛宴中,每天睜開雙眼,就能體驗到各種最新迭代的大模型。但臺下觀眾眉頭緊鎖,作為全球頂尖AI學者,他們早已明白這位AI之神的言外之意。

      AI時代,數據猶如工業時代的化石燃料,燃料挖掘殆盡,但AGI并未涌現,大模型領域,被迫走向新秩序的邊緣。

      通往AGI的路上,亟需找到一些新的方向。

      埃隆馬斯克率先出手,2025年中,這位“第一性原理”的忠實信徒,決定開啟重寫人類知識庫的計劃。用“提純數據”的方式,嘗試打開通往AGI的大門。

      沖破 AGI 迷霧,螞蟻看到了一個新路標

      另一些資深學者,則瞄準了多模態。

      斯坦福大學2025春季首次公開課上,AI 頂級研究者李飛飛拋出觀點“視覺不僅是智能的一部分,更是智能的基石”。

      不久后,眾多科學家們一呼百應,逐一驗證“聽說讀寫”等等多種模態,Open AI也發布GPT-4o ,大家期待模型像人類一樣感知與thinking后,能帶領人類瞥見AGI的大門。

      但無論是馬斯克的“提純數據”論,還是多模態的嘗試,都依然沿著現有的自回歸(AR)路徑,在做小步迭代。

      業內逐漸出現另一種聲音:自回歸到底是不是通往AGI的唯一路徑?

      無人能做出確切回答,但大洋對面,早已有一群年輕學者開始嘗試新范式。

      2025年9月11日,上海外灘大會人潮涌動。

      在年輕學者含量最高的AGI見解論壇上,藍振忠和李崇軒官宣了 LLaDA-MoE 的發布。不同于市面上主流模型,這是一個基于擴散理論的新范式。

      沖破 AGI 迷霧,螞蟻看到了一個新路標

      李崇軒(左)、藍振忠發布LLaDA-MoE模型

      最近一兩年,AI 發展迅猛卻極端割裂。

      曾經出現過滑稽一幕,某個大模型一邊已經發展到能秒殺人類博士生和奧數金牌得主,另一邊卻連簡單的中譯英“美國總統拜登……” ,都翻譯錯誤 “US President Boo-”。

      這是因為AI 為了追求速度,翻譯時不得不“邊聽邊猜”,但一旦開頭猜錯就無法收回。

      出現人名截斷、語義顛倒尚可接受,但AI 在嚴肅的醫療診斷領域也時常闖禍。

      明明是“左肺下葉見結節,右肺未見結節,直徑12 mm”,但由于AI “失憶”屬性,導致左右肺判斷顛倒。這些問題的出現,讓很多研究者對當前大語言模型(LLM)的方向提出質疑。

      上海 AI Lab 的青年科學家付杰,在公開場合直言:“他不覺得當前大語言模型的路子是對的”,因為“現在這樣搞出來的LLM根本不懂它為什么能輸出某些答案,本質上可能還是靠記憶”,清華計算機系的崔鵬教授也曾提出質疑,LLM是否真能理解什么是“數”。

      這些基本錯誤的出現,要歸結于一個原因:底層架構。

      當下主流的大模型,底層架構幾乎清一色采用自回歸生成范式,它的特性是單向建模。

      單向建模的原理,是從前往后吐出一個個 token,用上一個字預測下一個字,因為只能從左往右的局限,就導致一個嚴重的缺陷:

      這樣的大模型,既沒有逆向思維,也無法提前看到事物全貌。

      科學家很早就意識到這個巨大缺陷。兩年前,來自英國前沿人工智能工作組、紐約大學、牛津等機構的研究小組發現:一個訓練于「A是B」的語言模型,無法推理出「B是A」。

      他們向大模型提問,大模型明明知道「湯姆·克魯斯的母親是Mary Lee Pfeiffer」,但就是無法答出「Mary Lee Pfeiffer的孩子是湯姆·克魯斯」。

      沖破 AGI 迷霧,螞蟻看到了一個新路標

      論文地址:https://owainevans.github.io/reversal_curse.pdf

      這個現象被寫成論文發布后,不少研究者們復現實驗,并將參數從350M擴展到175B,但「AB逆轉」問題依舊無法解決。

      大家逐漸意識到,這是自回歸范式問題,是底層架構問題。

      后來,靠著堆算力、打補丁,引入深思考 Deep Research 模式,這個缺陷被暫時掩蓋,各大模型頭部廠商還是以日更周更的速度,迭代各種大模型。



      02

      但隨著深思考模式的出現,自回歸范式的缺點不僅無法掩蓋,并被放到更大,藍振忠將自回歸(AR)生成范式的內在缺陷,總結為三點:

      01 生成速度正比于輸出長度(長文本速度慢)

      02 缺乏雙向建模能力。

      03 缺乏直接修正錯誤能力

      藍振忠從谷歌回國后,加入西湖大學,后創立西湖心辰,現擔任螞蟻通用人工智能研究中心主任、西湖大學特聘研究員。在意識到自回歸內在缺陷無法解決,AGI將“撞墻”后,藍振忠開始思考另辟蹊徑。

      他注意到另一個范式:擴散(Diffusion)

      藍振忠意識到,自回歸模型是從左往右預測下一個字,原理是逐步的條件概率;但擴散模型是在去噪過程中逐漸逼近數據分布,在并行中由粗到細去動態修正答案。

      二者區別,類似于分別一根鋼筆單獨畫畫和好幾支鉛筆同時畫畫,鋼筆必須一筆畫成,但在擴散模型里,你可以用多根鉛筆從一個簡單的草圖開始,逐步添加細節,并且隨時可以用橡皮修正畫面。

      這意味著擴散生成模型在生成端,有三個特征正好彌補了自回歸生成范式的缺點。

      第一,擴散模型能做到并行解碼,長文本的推理迭代和算力利用率都更高效。

      第二,能夠雙向建模的優點,讓擴散模型不僅避免了翻譯場景下“邊聽邊猜”和自回歸模型無法「AB逆轉」的缺陷,在多種模態場景中表現也更好。

      第三,擴散模型能做到迭代修正,在生成代碼等場景下,能夠直接部分片段錯誤,不需要每次都重新生成。

      沖破 AGI 迷霧,螞蟻看到了一個新路標

      與此同時,在數據的預訓練中,擴散模型也有不少優勢。

      它類似于完形填空,隨機扔掉一些詞,然后填空。這意味著,同一份數據,自回歸只能訓一兩遍,但擴散語言模型可以拿掉不同的空,多次訓練。

      藍振忠舉了一個例子:

      “比如你拿到一本書,如果只是逐字閱讀下一個字,你對書本內容的理解是有限的,但是如果每次都能往回看一下,那么你對書本的理解是更深的,你能學到的東西肯定更多的。”

      從生成到訓練都有優點,讓藍振忠對擴散語言模型有了極大的信心。

      同時關注到擴散模型優點的,還有李崇軒。

      李崇軒來自高瓴人工智能學院,連續做了很多基于擴散理論的文到圖、文到視頻的基礎研究,是擴散模型方面的知名學者。

      之前,大家都以為擴散模型是用來生圖的,把擴散模型用到語言上看似不可思議。但在他看來,把擴散模型和語言結合,是很自然的想法。

      李崇軒告訴雷峰網(公眾號:雷峰網):擴散模型第一次提出是2015年,他一開始就關注并跟進研究,2021年,擴散模型在生圖領域被證明可行后,越來越多學者和教授關注擴散模型。

      沖破 AGI 迷霧,螞蟻看到了一個新路標

      “在大語言模型中,主流觀點是從左到右的順序,雖然是實際使用非常優的策略,但它的前提是不需要逆向思維,或者不需要反復打磨的情況下。”但李崇軒隱約感覺到:

      “從左往右,并不一定是理論最優解。”

      從理論基本準則上看,大語言模型源于生成范式,而非自回歸獨有,存在其他路徑的可能性。

      2022年,李崇軒敏銳地覺察到“把擴散模型應用到語言領域,理論上是可行的”,于是帶著學生開始了深入的探索,開始嘗試把擴散用到語言上。

      “當時在機器學習領域里面,只有很少一部分人在做這個事情。”

      2024年,OpenAI華人大牛宋飏靠著擴散模型領域的研究,火爆出圈,同一年,他的博士導師斯坦福大學Stefano Ermon教授也發了一篇關于擴散模型的論文,被業界稱為擴散模型的“GPT2時刻”。

      如此多頂尖學者都在關注擴散模型,讓李崇軒非常興奮,他想站在巨人的肩膀上,將擴散模型在語言方面再向前推進一步。

      但要去做一個全新范式的原生大模型,對身處高校的李崇軒來說太難了。高校的算力,工程能力,數據資源等方面都非常局限。

      但幸運的是,因為一些校企合作中,李崇軒跟螞蟻集團有很多交集,校企合作結束后,雙方還一直保持很好的聯系。

      去年以來,螞蟻集團持續加大AGI的基礎研究,在主流模型架構基礎上,加強了前沿技術的實驗。藍振忠出任螞蟻通用人工智能研究中心主任后,開啟了對AGI更純粹的探索之路。

      因為把擴散模型用在語言上的想法高度重合,李崇軒和藍振忠開始密切交流,世界線開始收縮。

      藍振忠跟雷峰網表示:“過去我們(螞蟻)想做這件事情,我其實一直在找這個方向非常優秀的人,李崇軒老師我們是一拍即合。”

      2025年 2 月份,螞蟻和高瓴人工智能學院合作推出了 LLaDA 模型,將擴散語言模型(dLLM)擴展至 8B 參數規模。

      比起現在動輒千億、萬億的模型來說,LLaDA 模型大小和榜單數據遠遠落后,但和業界主流的自回歸(AR)生成范式不同,它是一個原生的擴散語言模型。

      “它意味著我們從一個非常非常迷你的原型系統,一個根本不能說話的原型系統到一個能說話的東西,其實大概一年多就走完了。”

      李崇軒談到 LLaDA 的誕生過程,眼神堅定,語速很快。

      其實,這個從頭開始訓練的新范式模型,不僅“能說話”,還實現上下文學習、指令遵循,在多輪對話方面表現也不錯,性能對標 LLaMA 3 。

      LLaDA 的出現,像是插在山坡上的一面旗幟,讓業內無數學者看到,語言模型在自回歸范式外,似乎還有別的路線走得通。

      LLaDA 發布之后,李崇軒和藍振忠帶著團隊開始了進一步探索,幾個月后,對齊能力更強的LLaDA1.5和多模態版本的 LLaDA-V又先后落地。

      這些自回歸模型里能做到的,擴散語言模型領域也在慢慢補齊。

      用李崇軒的話來說:“我們想把前期能蹚的路都蹚了,這樣才能讓更多優秀的人,進入到擴散語言模型。”事實上正是如此,業內越來越多人開始關注 LLaDA ,并把它作為基礎或主干模型來進一步微調或擴展。

      但“蹚路”并不容易,一個模型想要真正大規模應用,除了模態和對齊能力等,還必須要做到規模化擴展(scaling)。

      經過之前無數自回歸模型的驗證,要做到 scaling ,MoE 是一個必要環節。

      MoE 簡稱“混合專家模型”,是最近大模型領域的熱門詞匯,簡單地說是讓不同“專家”回答不同問題,可以在保持相似算力消耗的前提下,讓模型擴容變大。

      因此 MoE 模式,也是 LLaDA 做大做強的路上繞不開的難題。

      MoE 本身很難訓,外加擴散語言模型不僅是新范式,還是基于稠密架構。

      “在一個新的東西上疊加一個很難訓的東西,難上加難。“

      李崇軒談到訓練 LLaDA-MoE 的過程提到:“一旦某一行代碼數據處理不對就崩了,我們前面拖了兩個月,就是不收斂。”

      但好在藍振忠和李崇軒團隊,吸收了諸多此前螞蟻智能探索的經驗。

      在之前的訓練AI架構中,螞蟻的工程團隊有很強的積累,通過自研 ATorch 訓練框架,已經具備專家并行(EP)等一系列并行加速技術。

      不久前,螞蟻百靈大模型團隊開源了自回歸MoE大模型Ling2.0,在訓練過程中,產生了一組20T的高質量數據。

      這組數據,成了藍振忠和李崇軒團隊關鍵的突破口。

      如此高質量的數據加持,大大加速 LLaDA-MoE 的研發過程。

      2025年9月12日,LLaDA-MoE 正式版發布。

      LLaDA-MoE 的總參數量為 7B ,激活參數量為 1.4B。在約20T數據上,這個從零訓練 MoE 架構的擴散語言模型,驗證了工業級大規模訓練的擴展性和穩定性。

      通向AGI之路,螞蟻踏出了新的一步。也意味著在把 dLLM 訓擴到更大規模的路上,國內團隊又往前走了一步。

      在參與 benchmark 測試中,LLaDA-MoE不僅超越了不少開源稠密 dLLM 模型領域前輩,比如 LLaDA1.0/1.5 和 Dream-7B。而且 LLaDA-MoE 還追平了Qwen2.5-3B 。

      這意味著,稠密擴散語言模型和同數量級訓練的稠密自回歸模型,可以坐在同一桌掰手腕了。

      沖破 AGI 迷霧,螞蟻看到了一個新路標沖破 AGI 迷霧,螞蟻看到了一個新路標沖破 AGI 迷霧,螞蟻看到了一個新路標

      更重要的是,從 1.4B 激活參數、2 倍多參數稠密模型的等效比看,LLaDA-MoE 驗證了一件事:

      MoE 架構的放大效應,在擴散語言模型上同樣奏效。

      這為業內在擴散語言模型的 scaling 上,指出了一條明亮的路。

      盡管 LLaDA1.0完成了從零到一, LLaDA-MoE 更是里程碑般的存在,但在登山的路上,LLaDA-MoE 還有太多的路要走,藍振忠談到LLaDA-MoE 需要克服的困難,滔滔不絕。

      “比如在速度上,理論上比自回歸好,但現在自回歸每秒能吐300個token,但擴散語言模型開源最好也只能吐50個;再比如規模上,雖然可以做到 MoE 了,但更大的規模怎么跑?比如我們這次還沒做類似于block diffusion等等,下一次······”



      03

      采訪尾聲,李崇軒再次提到了“蹚路”,我們想把前期能蹚的路都蹚了。

      “這個方向需要更多聰明的人參與進來,就像自回歸模型的發展依靠了全世界的貢獻,擴散語言模型的發展同樣需要借助社區的力量。”

      因此,LLaDA-MoE在發布的第一時間,就把基礎模型版 LLaDA-MoE-7B-A1B-Base 和指令微調版 LLaDA-MoE-7B-A1B-Instruct兩個版本全部開源。

      沖破 AGI 迷霧,螞蟻看到了一個新路標

      HuggingFace 鏈接:https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base

      GitHub 鏈接:https://github.com/ML-GSAI/LLaDA

      除了模型權重外,團隊還將同步開源針對 dLLM 并行特性深度優化的推理引擎。相比 NVIDIA 官方 fast-dLLM,該引擎實現了顯著加速。

      不僅如此,螞蟻還在持續投入包括基于dLLM的AGI領域,在下一階段,將聯合學界和全球AI社區共同推動AGI新的突破。

      發布會結束后,有媒體問到藍振忠:

      “聽下來這是一個非常前沿的探索,螞蟻拿出來資金和精力投入如此前沿的領域,萬一未來種花得豆怎么辦?”

      藍振忠這樣回答:“如果不去探索那些在別人眼中可能充滿風險的領域,(我們)就只能永遠跟隨他人已經確定的路徑前進。要提升智能的上限,就不能一直 follow。”

      當巨獸仍在摩挲舊地圖,微光已悄然改道。這是螞蟻AGI的回答,也是一位位年輕學者的回答。沖破 AGI 迷霧,螞蟻看到了一個新路標


      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      沖破 AGI 迷霧,螞蟻看到了一個新路標

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产免费视频一区二区| 成人午夜福利视频后入| 欧美色综合| 亚洲中文制服丝袜欧美精品| 国产无人区码一码二码三mba| 阿克苏市| 国产成人无码专区| 先锋成人资源| 蜜臀av一区二区精品字幕| 无码成人一区二区三区| 欧美久久亚洲精品| 国产亚洲精品精品精品| 色色91| 人人爽人人爽人人爽| 亚洲成A人片在线观看无码不卡| 3p视频在线观看| www.91xxx| 欧美成人在线视频| 精品不卡一区| 久久久久无码精品国产不卡| 国产美女久久久亚洲综合| 亚洲精品一区国产精品| 91人妻中文字幕在线精品| 一本色道久久88精品综合| 97久久精品无码一区二区天美| 五月色情婷婷| 少妇一晚三次一区二区三区| 蜜臀久久99精品久久久久久酒店| 国产色综合网| 国产粗大| 久久婷婷国产综合精品| 日本三级香港三级三级人妇久 | 免费VA国产高清大片在线 | 尤物国产在线精品一区| 亚洲国产精品一区第二页| 欧美丰满熟妇xxxx| 久久精品道一区二区三区| 卢龙县| 亚洲日本va午夜蜜芽在线电影| 超碰日韩| 韩产日产国产欧产|