0
生成式AI在經歷了火熱的百模大戰(zhàn)之后,開始進入落地階段。
以工業(yè)機器視覺、可穿戴設備和消費者機器人為代表的邊緣應用,無疑是生成式AI落地的重要場景。
本周,Arm宣布推出了性能相比前代提升4倍的Arm Ethos-U85神經網絡處理器 (NPU),這是一款硬件支持Transformer 架構和卷積神經網絡 (CNN)的AI加速器,能夠以高能效實現邊緣側AI推理。
Arm物聯(lián)網事業(yè)部業(yè)務拓展副總裁馬健表示,“生態(tài)系統(tǒng)中的開發(fā)者在樹莓派設備上評估運行包括 LLaMA 等在內的大模型。邊緣部署大模型和生成式AI用例指日可待,Arm已經為此做好準備。”
全新NPU原生支持Transformer
Ethos-U NPU系列是Arm推出的AI微加速器,主要是滿足邊緣邊緣AI和嵌入式AI的市場需求,此前已經發(fā)布了Ethos-U55、Ethos-U65,并且已經有多個量產產品。
本周最新發(fā)布的Ethos-U85,與上一代產品相比,Ethos-U85 性能提升4倍,同時能效提高了20%,可以滿足工廠自動化和商用或智能家居攝像頭等物聯(lián)網應用不斷攀升的性能需求。

Ethos-U85的主要特性包括:
單周期支持從 128 到 2048 個 MAC單元的配置——在 1GHz 時,算力可支持從 256 GOPS 到 4 TOPS。
支持 int8 權重和 int8 或 int16 激活。
支持 Transformer 架構網絡,以及 CNN 和 RNN。
硬件原生支持 2/4 稀疏性,使吞吐量翻倍。
內部 SRAM 為 29 至 267 KB,多達六個 128 位 AXI5 接口。
支持權重壓縮,采用標準和快速權重編碼器。
支持擴展壓縮。
對于Arm來說,設計出一款高性能的產品難度不大,關鍵在于產品的定義,Ethos-U85相比此前同系列產品一個明顯的不同是支持Transformer模型。
具體實現上,Ethos-U85除了支持Ethos-U55和Ethos-U65 目前支持的算子,通過支持TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR和 ARGMAX等運算,Ethos-U85實現了對Transformer模型和DeeplabV3語義分割網絡的原生硬件支持。
更高的性能往往意味著更高功耗,為了兼顧性能和能效,更好滿足邊緣和端側AI應用的需求,Ethos-U85通過支持元素級算子鏈化提升效率。
通過鏈化將元素級運算與先前的運算相結合,SRAM不必先寫入再讀取中間張量。由此減少NPU和內存之間數據傳輸量,提高NPU的效率。
相比Ethos-U65,鏈化是Ethos-U85在效率提升上的新功能之一,此外還有快速的權重編碼器、優(yōu)化的 MAC 陣列能效,以及提升的元素效率。
參考設計加速邊緣生成式AI落地
目前,Arm Ethos NPU系列產品已有逾20家授權許可合作伙伴,Alif Semiconductor和英飛凌是全新Arm Ethos-U85 NPU的早期采用者。
對于大量邊緣設備的開發(fā)者來說,基于Arm Ethos-U85 NPU開發(fā)和設計產品依舊有比較高的開發(fā)門檻。
降低AI開發(fā)門檻最一個直接的方式就是提供參考設計。
與Ethos-U85同時推出的是Arm Corstone-320物聯(lián)網參考設計平臺。這一全新的參考設計平臺集成了Arm最高性能的Cortex-M CPU——Cortex-M85、Mali-C55 ISP和全新的Ethos-U85 NPU。

除了IP,Corstone-320物聯(lián)網參考設計平臺還有軟件套件,包括固件、所有 IP 的驅動程序、中間件、實時操作系統(tǒng) (RTOS) 和云集成、ML 模型和參考應用程序。
有了配套的軟件套件,軟件開發(fā)者能夠輕松選擇其特定細分市場所需的組件,并使用所選開發(fā)工具為該設備構建物聯(lián)網堆棧。開源應用程序演示了關鍵詞識別、語音識別和目標識別用例。
還附帶了仿真Corstone-320完整系統(tǒng)的Arm虛擬硬件(Arm Virtual Hardware),以及單獨的 CPU和NPU的固定虛擬平臺 (FVP) 模型,能簡化開發(fā)并加速產品設計,支持軟硬件并行協(xié)同開發(fā)。

“為了支持中國廣大的物聯(lián)網嵌入式開發(fā)者,我們將Arm虛擬硬件落地在了百度云上,正在實現與百度BML和EasyDL工具鏈的組合,使基于Arm技術的AI開發(fā)可以在百度飛槳 (PaddlePaddle)上變得更加容易,且實現軟硬件協(xié)同開發(fā)。”馬健說,“在基于 Arm 最新 IP 量產芯片就緒之前,就可以預先做軟件應用的開發(fā)以及 AI/ML 算法的開發(fā)和優(yōu)化。”
Arm在軟件和生態(tài)方面還有一個顯著的優(yōu)勢,那就是Arm 在數據中心、云、邊、端都有統(tǒng)一的工具鏈支持,開發(fā)者可以使用已經熟知的工具鏈,具有投資復用、上手容易等優(yōu)勢。

Corstone-320能夠加速語音、音頻和視覺系統(tǒng),比如智能家居、智能零售、智能工業(yè)制造領域的AI落地。
即便Corstone-320中的Cortex-M85不滿足邊緣AI的需求,Arm也支持從基于 Cortex-A 的系統(tǒng)直接驅動 Ethos-U85 的功能,大幅增加Ethos-U85的適用范圍。
如何應對碎片化和RISC-V挑戰(zhàn)?
性能提升4倍的全新NPU和全新的參考設計平臺,是Arm能夠對外提供的能力。
但要在邊緣市場落地生成式AI,依舊面臨著模型成熟度、邊緣AI平臺的開發(fā),以及生態(tài)鏈對大模型量化和部署支持的問題。

還有不可避免的邊緣市場碎片化的問題,以及RISC-V的競爭。
馬健說,“Arm始終聚焦軟件生態(tài)標準以及硬件標準的投入,幫助整個生態(tài)減少碎片化。”
比如,Arm建立了SystemReady標準,以實現在不同的Arm計算平臺和芯片平臺上,有標準的軟件包。
另外,Arm還創(chuàng)立了PSA Certified認證標準,讓通過PSA Certified 認證的產品和系統(tǒng)有最基本的安全和合規(guī)的保證。
AI方面,Arm提供標準的生態(tài)工具以及軟件工具鏈。
“期待未來通過大模型和多模態(tài),物聯(lián)網碎片化問題可以得到更好的改進。AI 會從單一功能到多功能,甚至是向通用AI的方向演進。”馬健也表示。
至于如何應對RISC-V在邊緣AI市場的競爭?
馬健對雷峰網(公眾號:雷峰網)說,“我們的戰(zhàn)略一直非常簡單,專注做好最優(yōu)秀的產品,使產品更加易用,以及持續(xù)打造強大的生態(tài)系統(tǒng)。歷史經驗告訴我們,只要我們專注做好這三件事情,整個行業(yè)就能夠以互相合作的方式來共同前進,我們會繼續(xù)堅持這一策略,在AI甚至未來的其他市場上取得更大的成功。”
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。