32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

本文作者：鄭佳美

2025-05-15 14:39

導語：資源有限、專注后訓練也能實現強推理。

在大模型競速進入推理能力深水區(qū)的 2025 年，一支神秘的團隊悄然登場。他們不是來自一線大廠的 AI Lab，也沒有高調預熱和融資造勢，而是在 Hugging Face 低調開源了一款 32B 的推理模型：AM-Thinking-v1。

令人驚訝的是，這個中等規(guī)模的稠密模型，在多個關鍵推理評測中擊敗了 DeepSeek-R1，并與超大規(guī)模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 不相上下。

這款模型背后的團隊，是國內一個從未對外披露的研究團隊——A-M-team。他們不依賴私有數據、不依賴海量計算資源，僅憑開源底座和訓練管線的極致設計，就做出了開放社區(qū) 32B 級別中最強的推理模型。

32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

論文鏈接：https://arxiv.org/pdf/2505.08311

性能全面超越 DeepSeek-R1：32B 模型中的“黑馬”

在當前主流評測中，AM-Thinking-v1 也交出了極具沖擊力的成績單，僅 32B 的結構在數學推理（AIME 系列）和代碼生成（LiveCodeBench）中分別取得了 85.3 和 70.3 的高分，不僅全面超越了 DeepSeek-R1（671B MoE 架構），還逼近甚至追平了 Qwen3-235B-A22B 和 Seed1.5-Thinking 等超大規(guī)模 MoE 模型的成績。

把“小體積，大推理”的極限范式展現得淋漓盡致。

值得注意的是，AIME 系列題目來自美國數學邀請賽，結構復雜、要求精準，歷來是衡量模型邏輯思維能力的金標準；LiveCodeBench 則強調代碼可執(zhí)行性和穩(wěn)健性，數據污染難度高，是真實場景下“思考-編碼-驗證”鏈條的嚴苛考驗。

32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

AM-Thinking-v1 模型測試得分表

32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

AIME2024 不同模型尺寸效果對比；x 軸為模型尺寸，y 軸為分數

32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

LiveCodeBench 不同模型尺寸效果對比；x 軸為模型尺寸，y 軸為分數

推特大 V Aran Komatsuzaki 也下場轉發(fā)，并配文：AM-Thinking-v1 正以 32B 的規(guī)模推進著推理前沿性能的邊界。

32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

分數之外，是更具實際意義的任務。當研究人員用 AM-Thinking-v1 去解決典型的“旋轉三角形中紅球反彈”問題時，AM-Thinking-v1 展現出了多步邏輯極強的理解，給出了完整的運動軌跡模擬和對于小球碰撞的判斷。

32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

而在邏輯推理任務中，AM-Thinking-v1 也能保持非常穩(wěn)定的思考過程。

32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

在長文本寫作能力的測試中，AM-Thinking-v1 在表達邏輯和意象捕捉方面也展現出了初步的組織能力。

32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

32B 模型的新上限，是這樣“訓”出來的

與追求超大規(guī)模和大數據堆疊不同，A-M-team 的關鍵突破在于如何用有限的計算和開源數據，最大化32B模型的推理能力。

他們設計了一整套后訓練（post-training）方案，其中包括冷啟動式監(jiān)督微調、通過率引導的數據篩選機制以及雙階段強化學習（Dual-stage RL）。

首先在監(jiān)督微調（SFT）階段，團隊用了一個相對激進但效果很好的設置：把學習率拉到了 8e-5，batch size 也做了加大，還支持最長 32K 的輸入長度。訓練樣本被特別設計成“先思考再回答”的格式。

這個設計幫助模型建立了“先想清楚、再說話”的好習慣。而且，訓練中還能明顯看到模型越來越懂得控制長度、避免啰嗦——這些變化在平均生成長度和終止率上都有反映

32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

其次在數據這塊，團隊完全依靠開源資源，從數學、代碼、科學推理到指令跟隨和通用對話，總共整理出了五類核心任務的數據。

他們花了大量時間做清洗：不僅去重、改寫問題，防止和評測集“撞題”，還對數學數據進行嚴格驗證，甚至用 DeepSeek-R1 和 o4-mini 來交叉比對標準答案。生成的訓練樣本也經過層層篩選，比如用 PPL 算分、檢查重復短語和結構完整性，最終留下的數據干凈又靠譜。

32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

在最后的強化學習（RL）階段，團隊選用了 GRPO 這種輕量級算法，還特別搞了個“難度感知”的策略，意思是：先挑一些模型做得不太好的題來練，等熟練了，再加入一些通用對話和指令跟隨任務來拓展能力。

獎勵機制也挺講究：數學和代碼類的問題用規(guī)則驗證或者直接跑沙盒程序驗證答案；而像 open-ended 回答這種，就讓 LLM 來打分，從有用性、準確性、連貫性這三方面評估，保證模型在各方面都能進步。

當然，為了讓整個 RL 訓練高效跑得動，A-M-team 還在工程上動了不少腦筋。比如他們把推理和訓練分開，用了 streaming rollout 的方式，還配了個前端負載均衡器，能根據每張 GPU 的實際壓力動態(tài)分配任務，最大限度避免“有的卡閑著、有的卡累死”的情況。不僅訓練穩(wěn)，還能大大節(jié)省時間和算力

32B 稠密模型推理能力超越 R1？秘密 AI 團隊發(fā)布推理小模型 AM-Thinking-v1

總的來說，雖然 AM-Thinking-v1 已經在推理上做得很出色，但它目前還不支持函數調用、多模態(tài)輸入，對低資源語言的能力也有待驗證。

不過，即便如此，它已經把 32B 模型的性能潛力挖掘到了極致，也為開源 LLM 社區(qū)提供了一個值得借鑒的思路：不靠堆參數、不靠私有數據，通過細致訓練設計，也能做出足夠聰明的模型。

為什么要做一個 32B 推理模型？

在當前大模型發(fā)展趨勢中，主流路線正不斷追求更大的參數規(guī)模、更復雜的架構（如 MoE）、更龐大的訓練數據和更昂貴的訓練資源。但這條路線的成本極高，同時也帶來了模型部署難、推理延遲高、適配門檻大等一系列現實問題。

A-M-team 選擇反其道而行之，專注在 32B 這一“中尺度模型”的參數區(qū)間，其實背后也有有著明確的考量：他們想探索一種在計算資源可控、數據完全開源的條件下，也能實現強大推理能力的路徑。

具體來說，32B 是一個對研究與應用都更友好的“黃金尺寸”：

足夠強大：相比 7B 或 13B 模型，32B 在能力上能支持復雜的數學推理和代碼生成，具備執(zhí)行嚴肅 reasoning 任務的基礎；

成本可控：相比 100B、200B 甚至 670B 的巨型模型，32B 模型訓練與推理資源需求顯著更低，更適合在企業(yè)或研究機構內部復現、部署和迭代；

部署更友好：在單節(jié)點或小規(guī)模集群上即可運行，可應用于更多落地場景；

MoE 替代探索：它也是對 MoE 路線的替代探索，A-M-team 想要驗證，不使用專家模型，僅靠稠密結構和扎實的后訓練設計，是否也能達到甚至超越 MoE 模型的表現。

AM-Thinking-v1 正是在這樣的問題驅動下誕生的：一個不依賴私有數據、沒有特殊硬件依賴、完全基于社區(qū)資源訓練而成的中尺度模型。

而它的表現也正好印證了這個方向的潛力——不僅在 AIME 和 LiveCodeBench 等高難度任務上超越了 DeepSeek-R1，還在多個維度接近 Qwen3-235B-A22B 這類百億級 MoE 模型。雷峰網(公眾號：雷峰網)簡而言之，AM-Thinking-v1 想要回答的是一個關鍵問題：“大模型能力的上限，能不能用更小的體量實現？” 結果是肯定的。

而這正是 32B 推理模型的價值所在。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

鄭佳美

編輯

發(fā)私信

當月熱門文章