0
作者丨朱可軒
編輯丨陳彩嫻
大模型賽跑兩年后,玩家已逐步分化為三種趨勢:一類玩家仍追隨 OpenAI 的腳步卷大參數基座模型,另外一類燒不起錢的玩家轉頭擁抱應用端,而第三類則自始至終都在摸索如何更高效打造出性能更優的模型。
目前,第一類卷向大參數的玩家也都在尋找高效解決方案,連 OpenAI 此前發布 GPT-4o mini 切入小模型市場,Meta Llama 3.1-8B、微軟 Phi-3-vision 和 Phi-4 14B 、谷歌 Gemma 2 以及阿里 Qwen 2.5 等一系列小模型也都是頭部玩家在做的布局。
算力存在上限已是不爭的事實,而且也并非參數越大就意味著效果一定能達到預期,更何況,如若如果每增長一倍參數規模,效果能力卻并未呈一倍增長,大模型發展起來會很慢:
OpenAI 能用百千億達到 GPT-4 的水平,其他家則可能需要投入更多資源,如此一來要追趕 GPT-5 會更難,因為在 OpenAI 的基礎上再加碼更多算力、參數的可能性不大,這對于大多數無法如同 OpenAI 一般大把燒錢的玩家而言并非理智選擇。
所以可以看到,現如今已有不少玩家選擇投身應用端,不再執著于基座大模型。而繼續堅持的玩家們,則在思考如何基于有限的資源,將每個參數的作用發揮到極致,這才是多數人一致看好的大模型訓練最終方向。不過,現階段,模型參數的能力上限還遠未完全探索到。
沿著這一思路,國內創業隊伍中,面壁和 DeepSeek 憑借高效且開源的模型迅速引發廣泛關注,并在海外社區得到高度評價,經濟學人也曾將他們并稱為中國最具創新能力的大模型公司。
當前,在國內大模型創業玩家隊伍里,除了受到熱捧的六小龍外,面壁和 DeepSeek 這兩只潛力股也已先后加入戰局,大模型明顯呈現出“6+2”格局。
國內每有創新定會在海外先掀起風浪:DeepSeek 在去年發布 DeepSeek-V2 模型因“白菜價”一舉成名后,其近期新發布的 V3 模型則收到了硅谷大佬的一致驚嘆,而面壁此前則曾因 MiniCPM-Llama3-V 2.5 模型被硅谷團隊套殼抄襲一事引發熱議,后續其也因另辟蹊徑聚焦端側而得到業內密切關注。
海內外科技圈對二者技術實力的認可能夠可見一斑,值得一提的是,他們背后的團隊也均來自清北高校,面壁的核心成員大多來自清華 NLP 實驗室,DeepSeek 也偏愛吸納年輕的清北應屆人才。
不過,除前所述,雙方的差異也客觀存在:首先,在稀疏方面,DeepSeek 選擇了從頭訓練 MoE 模型,面向云端,MoE 確為較優方案,但端側則并不適合 MoE,面壁也找到了更適配的方案,其不僅在 MiniCPM-S 系列引入了自研稀疏化方案,還提出了新型類腦高效稀疏 Configurable Foundation Model 架構;
其次,DeepSeek 的高效是高度定制的技術體系,MoE 和 MLA 強綁定,并且主要面向大集群訓練、部署服務,用云提供用戶服務的極致優化,面壁則是面向邊端算力場景進行極致優化,更看重單設備服務的高效性;
再次,DeepSeek 在高效訓練層面小有所成,而面壁在高效推理方面則更為得心應手。值得一提的是,高效性實際上也是模型部署在端側需要攻克的難點問題,而這也是面壁早早開始切入的賽道。
「高效」問題何解?
近日,被稱為“大模型屆拼多多”的 DeepSeek 發布了 DeepSeek-V3 模型,在多項評測成績上,超越了 Qwen2.5-72B 和 Llama 3.1 405B 等其他開源模型,并且實現這一點,僅用了 2048 塊 H800,作為對比,Llama 3 405B 此前共使用了 16384 塊 H100 訓練。
DeepSeek 此番也再度點燃了業內對于高效訓練大模型的熱議,無盡燒錢并非長久之計。據悉,DeepSeek-V3 模型的總訓練成本僅為 557.6 萬美元,訓練時長在 280 萬 GPU 小時。對比來看,GPT-4o 的訓練成本約為 1 億美元,Llama 3 405B 訓練時長則為 3080 萬 GPU 小時。

論文鏈接:https://arxiv.org/abs/2412.19437
眾所周知,基座模型最關鍵的便是解決效率問題,而效率是多樣的,稀疏化包括混合專家(Mixture of Experts,簡稱MoE)可以在增大模型參數規模的同時,保持計算成本遠低于相同參數規模的稠密模型,這也是國內算力普遍有限境況下的必然選擇。
DeepSeek 所選擇的路徑是從頭訓練 MoE,這種方式訓起來相對困難,但也能緩解一些問題。例如,基于拷貝復制得到的 MoE 模型的潛在問題,因為基于拷貝的話, 專家之間會有很多知識的重疊,權重是冗余的,參數的冗余對各專家的支持是重疊的。
同時,從頭訓練的自由度也較高,可以避免老模型的問題,爭取達到 MoE 模型上限。面向云端,MoE 確為當前最優解,但就端側而言,MoE 則不一定為正解,所以,面壁也給出了新的稀疏化方案來解決端側模型問題:
去年,面壁在 MiniCPM-S 系列引入了自研稀疏化方案,通過將激活函數替換為 ReLU 及通過帶漸進約束的稀疏感知訓練來提升大模型的稀疏性,能將 Llama、MiniCPM 稀疏度提升至接近 90%。并且也能夠在保持模型原有水平的基礎上,有效降低模型推理的開銷,與之相比的 MoE 方案則會顯著影響模型效果。
去年底,清華&面壁團隊還提出了一種新型類腦高效稀疏 Configurable Foundation Model 架構。較之于 MoE,CFM 能更本質和宏觀地覆蓋從預訓練到后訓練的模塊化全過程,從結果上,對于大模型“知識密度”極致提升、對于端側模型極速低能耗推理能產生更顯著作用。
據面壁官方介紹,這一架構證實了大模型本身就具有高效稀疏模塊化特性——大模型神經元與人腦類似,在預訓練過程中自發地產生了功能分化與分區的性質,各自負責語言、數學、代碼等能力,且每次計算過程中大模型僅有這些分區的神經元被激活。
因此,CFM 將大模型拆分為預訓練階段產生的涌現模塊(Emergent Brick)與后訓練階段產生的定制模塊(Customized Brick),使得訓練大模型可以像搭積木一樣,通過模塊的檢索、組合、更新、增長,實現復雜能力的組合。

值得一提的是,面壁其實也是國內最早把稀疏激活這塊做起來的團隊。
早在 2021 年 6 月,面壁智能創始人劉知遠牽頭的“悟道·文源”就發布了千億 MoE 大模型 CPM-2 ,參與成員中也包括了面壁的初始團隊。
同年,面壁團隊發布題為《MoEfication:Transformer Feed-forward layers are Mixtures of Experts》的論文,提出將一個稠密的模型轉化為等參數量的 MoE 模型,同樣能實現大幅度推理加速,也證明了只使用顯貴神經網絡 10% 到 30% 的參數就可以保留 95% 的性能。

論文鏈接:https://arxiv.org/abs/2110.01786
劉知遠告訴 AI 科技評論,其創立面壁的初衷就是希望更多人能低成本使用大模型,所以那時他們也做了一套平臺模型的訓練微調,盡可能降低壓縮、微調等環節的成本。
此后,面壁也一直在沿著降本、高效這條路徑不斷探索解決方案。其曾用 MiniCPM 2.4B 的小模型實現了性能對標 Llama 2 13B,而前者具體數據的配比、參數配置都是用十分之一甚至更小的模型訓練、預測出的。這種以小見大的路徑證明了當參數潛力被激發,小模型完全能使用更高效的訓練方式實現更好的性能,找到 20B、50B 甚至更大參數模型的最優解也同樣可能。
再回到 DeepSeek 和面壁選擇路徑的差異繼續探討,DeekSeek 在云端超大規模模型的訓練過程中引入了 MoE 和多頭潛在注意力(MLA)技術,使模型能以更大的 batch size 運行,減少單個請求實際的運算量,同時也降低模型在云端 API 上的推理成本。
也有大模型從業者向 AI 科技評論分析稱,“DeepSeek 的高效是高度定制的技術體系,MoE 和 MLA 強綁定,去掉 MoE 以后 MLA 會比較廢,且其 MoE 也和流水線 Infra 并行強綁定。整體而言,DeepSeek 是面向大集群訓練、大集群部署服務,用云提供用戶服務的極致優化。”
面壁所選擇的路徑則是面向邊端算力場景進行極致優化,其更看重單設備服務的高效性,MiniCPM 在模型訓練技術上優化使得模型知識密度更高,繼而以小參數戰勝大參數模型,MiniCPM 系列端側模型也能夠直接在各種端側設備上本地化運行,提供和云端 API 相當的智能能力,針對面壁所專注的端側場景,DeepSeek 則還沒有提供解決方案。
值得一提的是,Scaling Law 持續面臨著數據和算力資源的上限難題,去年底也曾被業內質疑或將失效。此前,面壁也一直追求在同時間、同參數下能實現更優的 Scaling Law,如今正在探索其他規律。
據劉知遠介紹,他發現大模型行業也有著和摩爾定律相似的規律——隨著數據、算力、算法的協同發展,2020 年發布的 GPT-3 用 1750 億參數達到的能力,到 2024 年 2 月只需要 24 億參數即可達到,大模型的能力“密度”正在提升,這正意味能用更少的參數實現相同的智能水平。
據此,前段時日,劉知遠和團隊也提出了大模型密度定律(Densing Law)—— 模型能力密度隨時間呈指數級增長。據面壁方面介紹,“能力密度”(Capability Density)為給定 LLM 的有效參數大小與實際參數大小的比率。比如一個 3B 的模型能達到 6B 參考模型的性能,那么這個 3B 模型的能力密度就是 2(6B/3B)。
而根據密度定律,面壁得出的推論主要有七點:實現相同能力的模型參數每 3.3 個月(約100天)下降一半;模型推理開銷隨時間指數級下降;模型訓練開銷隨時間迅速下降;大模型能力密度呈加速增強趨勢;模型小型化揭示端側智能巨大潛力;無法通過模型壓縮增強模型能力密度;密度倍增周期決定模型存在“有效期”。

端側如何勝云側?
這套高效優化把模型做小的邏輯,實際上也能順理成章解決模型部署到端側的問題。
從世界范圍的算力分布上來看,OpenAI、Google、Meta 部署了很多大的云端平臺,但如果算上 80 億手機上的芯片,這是非常重要的長尾。事實上,在手機中刷視頻的 APP 里并非所有需求都需要在云側解決,有相當一部分計算是發生在本地的。
劉知遠告訴 AI 科技評論,“明明一個 13B 模型的能力可以用一個 2B 的模型去做,且可以在端側跑得非常快,沒必要去實測、發請求。大模型是計算稠密的任務,從可持續發展、實際落地的角度講,顯然端側的算力完全沒有被釋放,因此 MiniCPM 的效果極有可能就是未來方向。而且不是所有需求都得用GPT-4,有時 GPT-3 也可以滿足。”
自 MiniCPM-V 系列開始,面壁便一直聚焦解決端側模型多模態問題,此次,AI 科技評論注意到,其又推出了 MiniCPM-o 2.6 新模型,體驗鏈接如下:
https://huggingface.co/openbmb/MiniCPM-o-2_6
https://github.com/OpenBMB/MiniCPM-o
據面壁官方介紹,MiniCPM-o 2.6 僅 8B 個參數。與 MiniCPM-V 2.6 相比,MiniCPM-o 2.6 不僅在視覺能力上進行了提升,如強大的 OCR 能力、可信行為、多語言支持和視頻理解,也引入了實時語音對話和多模式直播的新功能,支持雙語實時語音對話,聲音可配置,還可實現情緒/語速/風格控制、端到端語音克隆、角色扮演等趣味功能,并首次支持在 iPad 等端側設備上進行多模態直播。
MiniCPM-o 2.6 此次也全面對標了 GPT-4o 的“全模態實時流式視頻理解+高級語音對話”,不僅支持視頻、語音、文本輸入以及語音、文本輸出,還具備 GPT-4o 級別(人類級別)的低延遲實時交互。
不過,GPT-4o 并未部署在端側,因此存在網絡延遲、服務器帶寬/高并發情況下使用可靠性等隱憂。
除此之外,和 GPT-4o 相比,MiniCPM-o 2.6 的優勢體現在能聽到除人聲之外的背景音,比如撕紙、倒水、金屬碰撞等,值得一提的是,這一點目前市面上大多數部署在云端的大模型也都還無法達成。

此外,面壁這次也特別強調了“真正”的視頻大模型這一點。
AGI 本身其實不只是大模型,拆分其能力包括有推理、記憶、規劃以及與外界的交互,而交互則包含感知和對工具的使用,交互本質上是多模態,需要深刻理解圖片、視頻和聲音。
MiniCPM-o 2.6 能夠感知用戶提問之前的畫面和聲音,并持續對實時視頻和音頻流進行建模,這種方式更貼近人眼的自然視覺交互。而目前市場上有些宣稱支持實時流式視頻理解的模型或產品,其實只能算作照片大模型,其僅在用戶提問后才開始對視頻進行靜態圖片抽幀,無法捕捉用戶提問之前的畫面,缺乏對前文情境的感知。
AI 科技評論也從面壁方面了解到,能實現這些技術上的突破,MiniCPM-o 2.6 背后的技術路徑主要包括以下三個方面:
一是端到端全模態流式架構。主要采用模塊化全模態能力建模架構,實現全模態能力的靈活高效構建。其中核心語言基座為 MiniCPM 3.0 的 4B 模型,通過 ViT 等模型進行視覺和語音編碼,語音生成通過自回歸語音解碼模塊實現。
整體模型以端到端方式,通過連續稠密表示連接,實現端到端的聯合學習,從而支撐較高的模型能力上限。具體地,視覺及語音輸入中非自然語言可描述的模態信息,可通過端到端方式傳遞到語音生成內容中,從而實現生成內容的較高自然度和可控性。
二是低延遲模態并發技術。通過模態多路時分復用技術,實現低延遲的模態并發。將時間域切分成為周期循環的時間切片,在每個時間切片中,分別對視覺和音頻輸入信號進行流式編碼,并對主動輸出語義時機進行判斷。為最大程度降低響應延遲,通過基座模型對用戶語音結束時機進行高級語義判斷,從而避免語音活性檢測引入的長時間等待。
三是端到端全模態流式學習。在視頻中學習觀察多模態環境,根據人物身份,進行社會角色扮演。可以實現預訓練級別的監督微調,以及“外部環境-社會意圖-語言語音行為”之間的對齊關系,從而獲得高級多模態語義知識,有望實現更加高級的心智水平。這有望為全模態大模型驅動具身機器人,參與人類社會活動打下基礎。
面壁已經將端側模型的技術迭代到了新高度,但值得注意的是,把模型做小解決高效性問題是其一,小模型并不完全等同于端側模型,模型要部署在端側,硬件的發展也起到關鍵作用。
當下,端側模型要運行在終端,存在著內存、功耗、算力三大硬件瓶頸。根據 Apple 方面的說法,70 億半精度參數的語言模型要完全加載進終端需要超過 14 GB的 DRAM 空間,Meta 也曾指出,一個約有 5000 焦耳滿電能量的 iPhone,僅支持 7B 模型在 10 tokens/秒的 AI 生成速率下對話不足 2 小時。
但行業發展近況也還算樂觀,“首先,芯片在高度發展,最新芯片已經可以支持百億參數模型,其次,模型訓練技術在提升,兩三百億的模型也能達到 GPT-3.5 水平,關鍵問題在于如何把芯片和模型訓練接起來,這之中就需要優化,不過這塊技術已不成問題,只需等待時機。”面壁智能首席研究員韓旭告訴 AI 科技評論。
務實的理想主義者
當前,許多團隊把追求實現 AGI 作為唯一賣點或奮斗目標,但如同造計算機一般,造出更強大的計算機很重要,將計算機造得低廉,能讓整個社會受益,則需要兼顧應用層面,面壁所做的就是貢獻其中一部分。
面壁對 AGI 的看法更像是務實的理想主義者:AI 最終還是要作為人的工具,從計算機的角度來看,AI 就是為了讓計算機更智能、有理解能力,如何讓 AI 更高效,把人從機械勞動里解脫出來才是應當思考的問題。
在劉知遠的觀點中,未來假如按照 OpenAI 的規劃,五年實現超級智能有太多關鍵問題要解決,scaling prediction 是其中之一,超級對齊也是關鍵問題,即當大模型在某個任務上已經超越人類,有無辦法能繼續提升也還需要探索解法。
而繼續追趕 GPT-4 也只是一個參考,跟隨 OpenAI 并不一定是最正確的選擇,面壁在未來不會只局限于 scaling prediction,更不會把某一問題當做全部,換言之,實現 AGI 必須要堅持自身獨到路線。雷峰網雷峰網(公眾號:雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。