性價比搏擊：Grok 4 Fast 推理成本直降 98%

本文作者：梁丙鑒

2025-09-29 16:12

導語：打響低成本推理之爭。

雷峰網訊幾乎沒有預熱，馬斯克不聲不響把模型調用成本砍掉 98%。

作為低成本推理模型的最新進展，xAI 于上周五發布了其旗艦模型的輕量化版本 Grok 4 Fast。

通過大規模強化學習實現智能密度最大化，Grok 4 Fast 在基準測試上實現了與 Grok 4 相當的表現。同時由于推理任務的平均 token 消耗減少了 40 %，xAI 此次更新將前沿模型的調用成本大幅降低。

據官方測算，Grok 4 Fast 單個推理任務的成本最低可降至原來的 2%。

這已經是一個可以改寫大模型競爭規則的數字。

端到端強化學習

如果要給 Grok 4 Fast 三個關鍵詞，那應該是 AI 搜索、上下文窗口和統一模型架構。

xAI 在一篇博客中介紹，Grok 4 Fast 擁有原生的工具調用能力，這是指 Grok 4 Fast 通過端到端工具使用強化學習進行訓練，在決定何時調用代碼或網頁等工具方面表現出色。

由于背靠 X 平臺的豐富數據，此舉為 Grok 4 Fast 在自主探索能力方面帶來的優勢更為突出。該模型能夠無縫瀏覽網頁和 X 平臺，利用實時數據增強查詢，同時支持跳轉鏈接獲取媒體內容，并以極快速度綜合生成結果。

對于外部工具的自主使用能力，Grok 4 Fast 在 BrowseComp（44.9%）和 X Bench Deepsearch（74%）等基準測試中，表現優均于 Grok 4。

在 LMArena 的搜索競技場中，Grok 4 Fast 以 1163 分位列第一，力壓此前 OpenAI 領先的 o3-websearch，更是優于 gpt-5-search 和 grok-4-search。在文本競技場中，Grok 4 Fast 則排名第八，以一分之差險勝 grok-4-0709版本。

可以看到，Grok 4 Fast 已經顯著優于同等量級的模型，而在搜索相關任務中，模型參數造成的差距則可以被強化學習帶來的推理效率和智能密度所追平甚至跨越。

性價比搏擊：Grok 4 Fast 推理成本直降 98%

即將和 Grok 4 Fast 同期推出的是其兩個版本，grok-4-fast-reasoning 和 grok-4-fast-non-reasoning，即長鏈式思維和快速響應兩種推理模式，均具備 200 萬 token 的上下文窗口。

值得一提的是，Grok 4 Fast 采用了統一模型架構。

此前，在不同推理模式下應用不同的獨立模型已經成為業界通行的選擇。對于僅需要簡單回答和大量推理的任務，手動切換模型的開關對于各個模型廠商來說幾乎已是標配。

而 Grok 4 Fast 此次更新引入了統一架構，其中 reasoning（長鏈式思維）和 non-reasoning（快速響應）兩種模式由同一模型權重處理，推理過程中通過系統提示進行引導。

這種設計進一步降低了端到端延遲和 token 成本。可以預見的結果是，在壓縮調用成本之外，Grok 4 Fast 距離那些對即時響應存在高需求的場景也更近了一步。

SOTA 性價比

SOTA 一日三變，市場對模型性能擠牙膏的戲碼早就沒有了耐心。

xAI 也深知這一點，所以比起循例公布的基準測試結果，此次更新真正的“軍火展示”其實是下面這兩張圖。

性價比搏擊：Grok 4 Fast 推理成本直降 98%

Grok 4 Fast 的 token 效率提升了 40%，加之每個 token 的大幅降價，最終結果是開發者的模型調用成本顯著降低。而此時的模型性能，仍可以基本保持在 Grok 4 的水平。

根據 Artificial Analysis 的獨立評測，Grok 4 Fast 相較于其它公開可用的模型，展現出了 SOTA 級別的性價比。

在官方博客中，xAI 將 Grok 4 Fast 稱為“低成本推理的最近進展”。98% 的成本壓縮一出，馬斯克就差把“我們最便宜大碗”寫在臉上。雖然沒能在追求智能上限的路上甩開友商，但“誰都能用”是在“比誰都強”之外，另一種打遍天下的可行方案。

在此前的很長一段時間里，大模型都是一場暴力美學的軍備競賽，更大的參數規模、算力消耗和更強的推理能力成為了模型廠商競爭的硬指標。GPT-4、Gemini、Llama系列，乃至 xAI 自家的 Grok 4 Heavy，都是這種極致性能追求下的產物。

然而實驗室之外的世界沒有那么關注技術邊界，當大模型以一款產品的角色面向市場，過去的技術路線也在應用場景之前留下了一道道坎，其中最為明顯的就是昂貴的推理成本和漫長的響應時間。

相比之下，曾經被視為閹割性能的小模型，如今卻正在成為應用普及的關鍵角色。

xAI 雖未公布 Grok 4 Fast 的具體參數，但根據命名邏輯的行業慣例，其大概率是在 Grok 4 的基礎上通過蒸餾、架構優化等技術降低了計算負載與延遲。這意味著它能在更低配置的服務器甚至邊緣設備上高效運行，并實現遠低于 Grok 4 Heavy 每百萬 tokens 輸入 3 美元、輸出 15 美元的“奢侈品”定價。

“低成本推理”主打的不是推理，而是低成本。在智能上限短期內突破無望的背景下，每省下一個 token，每個 token 多便宜一點，都是向落地多邁出了一步。而在這場性價比搏擊中，馬斯克先揮出了一記重拳。

參考資料：

https://x.ai/news/grok-4-fast#native-tool-use-with-sota-search

雷峰網(公眾號：雷峰網)文章

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

梁丙鑒

編輯

發私信

當月熱門文章