0
生成式AI的浪潮,正從云端走向端側,而端側AI是生成式AI普及的關鍵。
然而,端側設備普遍對功耗更為敏感,如何在提供足夠AI性能的同時保證低功耗?
Arm的妙招是將專用的矩陣加速單元直接嵌入CPU。Arm終端事業部產品管理副總裁 James McNiven說,“它使端側AI推理可以直接在CPU上完成,從而大幅減少數據在 CPU、NPU或GPU之間的傳輸延遲。”
今年9月,Arm發布了集成第二代Arm可伸縮矩陣擴展 (SME2) 新技術的 Arm Lumex CSS 平臺,相比前代CPU AI性能提升高達五倍,能效也優化了三倍。
在近日舉行的Arm Unlocked 2025 AI 技術峰會深圳站,Arm終端事業部產品管理副總裁 James McNiven進一步解析了Arm全新的Lumex CSS 平臺,集成了基于 Armv9.3 架構的 CPU 集群、搭載第二代可伸縮矩陣擴展 (SME2) 技術的處理器、Mali G1-Ultra GPU、先進的系統 IP,以及針對 3 納米工藝節點優化的量產級物理實現方案。

可以看到,Arm全新平臺的升級都是為了加速端側AI的爆發。可以預見,憑借著Arm正在推進的“平臺優先”戰略,Arm依舊會是生成式AI浪潮里,消費電子、汽車及基礎設施等關鍵領域的領導者。
Arm啟用全新命名體系Lumex,CPU用「妙招」大幅提升AI性能
Arm今年發布新一代產品不再延續此前的命名方式,而是啟用了Arm Lumex的新命名方式。
“Lumex源自拉丁語,意為世界之光,象征著引領人們前行,促進光與人之間更深層的互動,與移動終端作為我們生活中關鍵且主要的互動設備概念相似。”James McNiven告訴雷峰網,“我們也廣泛聽取了包括來自中國市場的生態伙伴反饋,其中包括過往的命名方式確實較為復雜,產品迭代的辨識度不高。因此,我們希望通過此次更名,讓品牌體系更加清晰易懂。”
James強調,Arm Lumex CSS 平臺再次實現了兩位數的每時鐘周期指令數 (IPC) 性能提升,這是Arm連續第六年實現兩位數增長,意味著在相同功耗下可獲得顯著的性能提升。
與連續六年實現IPC兩位數同樣值得關注的是,在CPU中直接嵌入了專用的矩陣加速單元第二代可伸縮矩陣擴展 (SME2),在進一步解析SME2之前,先介紹全新的CPU。
新一代計算平臺更名為Lumex之后,CPU也不再延續此前Cortex的命名方式,而是采用更簡明的C1 命名體系。C1 CPU 集群均基于 Armv9.3 架構而設計,根據不同客戶、市場需求有Arm C1-Ultra、Arm C1-Premium、Arm C1-Pro、Arm C1-Nano四個層級。

Arm C1-Ultra能提供最高的旗艦級設備峰值性能,可實現最高 25% 的單線程性能提升;Arm C1-Premium專為次旗艦市場打造,它的性能在接近C1-Ultra 的同時,整體面積縮減約 35%。
“當任一設備采用了C1-Ultra或者是C1-Premium,該設備就可以被稱為Lumex設備。”James表示。

Arm C1-Pro是新一代的Cortex-A700 系列,Arm C1-Nano是新一代的Cortex-A500系列。
雖然Arm C1 CPU的性能層級不同,但都深度集成了SME2,這是專為加速矩陣運算和相關負載而設計,非常適合移動設備等對功耗和響應速度要求極高的場景。
相比SME1,SME2的性能提升達5倍,能效提升3倍,在低延遲、高實時性應用場景中展現出獨特優勢。

那為什么在CPU中增加矩陣加速是一個在端側滿足AI計算需求的“妙招”?James對雷峰網(公眾號:雷峰網)說,“首先,對延遲極為敏感的場景而言,在CPU內實現矩陣加速,可以顯著提升應用的計算效率,特別是在快速 AI 推理場景中,無需再將任務回傳至NPU,避免了可能導致的內存訪問延遲。其次,幾乎所有設備都會搭載CPU,且Arm CPU 被廣泛采用在絕大多數的移動設備上,這為開發者帶來了極大的便利性。他們無需針對不同的 NPU 架構進行適配,也無需為不同設備重新設計計算邏輯(因為某些終端甚至并不具備 NPU),更可免除考慮安全模型等其他因素。”
當然,為CPU增加矩陣加速的能力大幅提升其AI性能,目的并非要替代GPU或者NPU在處理AI負載時的作用,而是可以根據負載的類型選擇最合適的計算單元,為用戶提供最佳的AI體驗。
語音識別就非常適合使用SME2進行加速,這類任務對響應速度要求極高、數據量相對較小,在 CPU 上直接執行不僅能顯著提升流暢度。
目前,Arm已經與包括支付寶、淘寶等移動應用伙伴合作,基于SME2的集成,優化用戶體驗。vivo與OPPO也推出支持SME2的設備。Arm也與騰訊GiiNEX針對SME2展開游戲方面的合作。騰訊的初步測試結果顯示,啟用SME2后性能提升達2.5倍。Google也確認未來將在Android 系統版本中支持 SME2。
不過,為CPU增加矩陣加速能力并非Arm獨有的妙招,RISC-V也在采用這樣的方式滿足生成式AI的需求,那Arm的優勢是什么?
James表示,“Arm 的最大優勢在于,我們的CPU架構已應用于全球約99%的智能手機之中。對于開發人員來說非常容易統一目標,直接可以部署。”
GPU性能雙位數提升,神經技術明年商用
與CPU性能持續兩位數提升一樣,Arm的GPU也已經連續四年實現了雙位數的性能與能效提升。與C1 GPU命名體系對應,Arm GPU的命名為“Mali G1”。
Mali G1-Ultra是旗艦級GPU,能夠在更低功耗下完成包括照片、視頻在內的大多數推理任務。在各類圖形基準測試中,Mali G1-Ultra 較前代產品實現了20%的性能提升,并引入第二代光線追蹤單元,在跨平臺光線追蹤性能測試 Solar Bay Extreme 上,Arm最新的光線追蹤單元將實現兩倍性能提升。

Arm將光線追蹤性能實現兩倍提升的最終目標,是能夠在游戲中實現更加全面、自然的光照效果——從局部光照逐步邁向全場景光照。這將為游戲團隊帶來更大的創作空間,使他們能夠在同一款游戲中整合更多的光線追蹤組件,從而實現更高質量、更具沉浸感的照明表現。
在GPU層面更值得期待的是Arm在今年8月發布的“神經技術”,這一新技術將被用于明年面世的終端設備。

James介紹,神經技術是Arm未來的重要發展方向。這項技術能幫助開發者更充分地將 AI 能力應用于圖形處理,無論是圖像放大、去噪還是新內容生成,都將帶來更加真實與沉浸的視覺體驗。目前,已有多個開發者社區和游戲工作室在與Arm共同推進這一方向。
當然,Arm面向Vulkan的開放Arm ML擴展能讓開發者更輕易地將AI作為圖形管線的原生部分整合到移動端渲染。
加速端側AI爆發的關鍵——開發者友好
Arm全新的Lumex CSS 平臺在CPU與GPU層面都實現了兩位數性能提升,也帶來了顯著的AI性能增強。
要讓這些性能被充分釋放,開發者友好的生態至關重要,Arm對此投入巨大。
“為了讓開發者更好地發揮 SME2 的潛能,自去年起,我們在 KleidiAI 軟件庫的基礎上,進一步擴大其功能范圍。KleidiAI專為加速AI應用而設計,已與業界主流的AI框架實現深度集成。這意味著無論是舊架構還是最新支持 SME2 的架構,開發者都能獲得一致的性能加速體驗。”James表示。

面向GPU,Arm推出了全球首個全面開放的神經圖形開發套件,旨在將AI渲染集成到現有的工作流程中,使得開發者能夠在硬件面世前一年就能著手進行開發。這一開發套件在今年八月的發布時就已得到六家主要游戲工作室的支持,最近又有一家新的游戲工作室完成了集成測試。
除了更好的性能和開發者友好的生態,端側AI的爆發也面臨其它技術挑戰。James認為,在系統級 IT 設計中,必須確保 CPU 與 GPU 之間,以及它們與存儲系統之間的高效互連。優化數據互連以實現更高效的數據流,是當前面臨的主要挑戰之一。Arm通過優化互連架構,進一步降低數據傳輸過程中的延遲,實現更快速的內部內存訪問。
另一個突出的挑戰在于,AI應用幾乎每隔數月甚至是數周就會出現新的應用形態,涉及不同的數據類型、運算符與指令集。Arm新推出的C1 CPU提供了高度靈活的計算引擎,可以生成并執行幾乎任意類型的運算符,處理各種類型的數據。
另外,和所有AI參與者一樣,Arm也要面對各種不同的場景。Arm的策略是通過微架構來實現不同細分市場的差異化需求。比如Arm C1 CPU的四個層級的產品,既能為客戶提供豐富的選擇,也能讓他們更方便地為目標市場“定制”適配方案。
在消費電子領域之外,Arm還有面向汽車行業的 Arm Zena CSS 計算平臺、面向基礎設施的Arm Neoverse CSS計算平臺,還有即將發布的面向PC市場的Arm Niva平臺。
Arm正通過從云端到邊緣再到端側的全線計算平臺,加速生成式AI的普及。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。