0
| 本文作者: 余快 | 2021-05-21 00:39 |

習慣在針尖上跳舞的合肥君正,在萌芽之時就認識到AI的重要性。
2014年前后,視頻芯片市場已有眾多廠商,且大多鏖戰成像和傳輸。彼時的君正意識到,用模仿的方式硬生生地去打這個市場難以出頭且毫無價值,而AI將成為下一戰場的關鍵。從那時起,AI與算法部門成為君正最早的技術部門之一。
7年白駒過隙,那些或深或淺的腳印現已踏出一條康莊大道:最近,君正正式公開了自己的AI硬件加速引擎和AI開發平臺Magik。
君正視頻事業部副總經理劉遠表示,這套技術從開始至今,經歷了各方面的錘煉:
“從T01到T02再到T31/T40,從computer vision到deep learning再到混合量化,從安防攝像機到低功耗門鈴再到立體機器視覺,從Tensorflow/Caffe到Magik,從第一家客戶試探性接入到大量產品算法落地,這套技術已經從創新研發走到普惠應用。”劉遠說道。
這歷時多年的武器,將往視頻行業投下一枚怎樣的石頭,又怎樣協助下游客戶落地更具競爭力的產品?
如何為端側AI應用提供一套成本親和,性能出眾,功耗低,又易于落地的基礎技術組件?這正是合肥君正一直在思考的命題,也是君正AI技術研發的核心目標。
劉遠指出,經過多年摸索,這樣一套基礎技術組件如今包含:
一系列落地芯片:布局完備,覆蓋高中低階,除AI以外具備完整的各方面競爭力,成本親和,性能均衡,效果出眾,功耗領先,被市場認可并且持續大量出貨。這就像AI和算法落地生根的土壤,越廣闊越好。
一套先進的AI加速硬件:優秀的PPA(Performance, Power, Area),兼具高性能和靈活性,并且通過有效創新,真正突破AI推理在端側產品中的各種瓶頸,使得高發熱,高帶寬,成本冗余等在實際產品中不再是問題。
一個完善的算法開發平臺:敏捷的算法移植過程,除了提供一鍵式算法部署,還提供最先進的量化感知訓練方法論,提供典型網絡的全流程開源代碼,讓算法專家專注于挖掘痛點與數據的價值。
君正的整體AI技術架構如下圖:

其中AI-Engine(AIE)是一整套AI加速硬件,包括CPU,NNA,SIMD,協處理器和RAM Pool等多重加速技術。
主要優勢是“三高三低”:算力高,利用率高,靈活性高;功耗低,外圍成本低,帶寬需求低。
Magik是基于AIE的算法開發平臺,除了基本的工具鏈還包含其他豐富的輔助開發資源。并且支持后量化和更先進的量化感知訓練(QAT)。
“卷積神經網絡的本質是計算,幸運的是,君正一直是國內為數不多的完整CPU計算技術的擁有者,這一點,奠定了我們的AI技術具有較高的發展起點。”
劉遠說道,“而Magik融合了我們這幾年在視覺產品落地上的各種經驗,能夠發揮AIE獨特的領先性能。二者搭配,呈現在行業客戶面前的就是一整套完整的‘芯片+AI算力+AI開發平臺’的解決方案,使得應用者非常容易落地。”
利用這套平臺,可以帶來多方面長遠的優勢:
產品化優勢:這套技術可運行于君正當前和未來的各種芯片當中,下游產業鏈條成熟,碎片化風險低,生態一致性有保障;
商業化優勢:已有大量芯片持續出貨,品牌背書充足,能加快算法賦能和變現的節奏;
成本優勢:包括eBOM成本,算法成本,研發成本等;
性能優勢:可獲得更高的物理算力,更高的利用率;
低功耗優勢:體現在產品端就是發熱明顯低,續航更好,散熱無憂;
“AIE+Magik是君正原生創新的技術,完全自主。T40作為搭載這套技術的最新一代芯片,卻并非第一代產品。”劉遠強調,“在這之前,我們經過了T01/T02/T31等幾代量產芯片的驗證,積累了大量寶貴經驗,到T40這里,AIE+Magik已經十分成熟”。
AI-Engine(AIE)是君正完全自主創新的一套AI加速硬件組合,廣泛支持各類神經網絡加速,如CNN/RNN/GCN等,也支持傳統CV算法和平面運算的加速。得益于公司對CPU技術的掌握,AIE實現了其他一般芯片公司難以做到的CPU與NPU的同構設計。

在全球各種不同的AI加速技術路線中,DSA(Domain Specific Architecture)尤其適合端側推理場景。AIE引用了多種DSA的設計理念,實現了一整套滿足復合算法加速的硬件組成:
支持SMT多核架構的XBurst2 CPU,凝聚了君正團隊20多年的CPU技術精華;
128bit/512bit/1024bit位寬的SIMD指令集,針對向量運算加速;
算力高達2T - 32T的NN加速陣列,針對張量計算加速,支持混合位寬量化
協處理單元,對其他運算加速;
高效RAM pool,深度優化內存帶寬吞吐
實測運行功耗很低,8T算力場景下典型功耗小于500mW,能耗比最低達到了0.05W/T級別
“與云上的AI芯片加速不同,在端側芯片上,4T算力曾經是天花板,這并不是因為硬件無法將算力繼續提高,而是因為端側產品在算力以外有太多的制約因素。”劉遠解釋道,“如果不優先把NPU內部的PPA、帶寬、功耗等關鍵障礙解決,即使再提高計算矩陣的規模,實際芯片也大概率發揮不出來。”
歸納起來,端側算力的瓶頸主要集中在:產品端的資源限制,算法多樣性的挑戰和算法開發環境。
端級芯片在計算資源和成本都面臨限制,無法像云端服務器那么豐富和冗余。
在終端售價,RAM內存容量,ROM模型存儲,發熱控制,DDR的帶寬等方面都面臨極大挑戰。
所以端級產品需要與云端不同的AI加速技術。
君正AIE特別針對端級應用設計,采用專用硬件架構DSA(Domain Specific Architecture),與常見的NPU相比,有明顯的規格優勢:
MAC利用率提升1到2倍,推理速度提升2到4倍;
算法運行的RAM/ROM消耗減少50%~70%;
帶寬降低35%~85%;
發熱減少40%~80%。
無論2C還是2B/G市場,不同應用對AI算法的要求差異很大,即使是相同功能的算法也難以做到單一模型覆蓋所有場景。
其次人工智能學術領域仍然在發展,雖然變化的速度減緩,但未來仍然會不斷出現新的網絡,新的流程,新的算子,新的訓練方法等等,這些決定了目前的AI加速硬件還沒有到達統一收斂的階段。
端級算法本身呈現多樣性,碎片化的客觀現狀。
這就要求芯片中硬件的加速能力非常靈活,能夠應對各種未知算子/算法/網絡/流程的變化,這一點對AI引擎的設計提出巨大挑戰。
君正AIE結合了多年積累的CPU技術,摸索了一套兼顧高性能和靈活性的創新技術:
算力達2T ~ 32T的NN加速陣列,實現千倍加速比;
非標計算協處理單元,實現百倍加速比;
128bit到1024bit位寬的SMID指令集,實現幾十倍加速比;
RAM Pool系統,顯著降低帶寬;
高主頻多核多線程XBurst?2 CPU。
“過去至今各種行業攝像機搭載的AI算法,大多存在‘性能冗余但利用率低’、‘成本偏高但有浪費’、‘功能可用但難以普及’等情況,隨著搭載AIE+Magik的T40逐步到位,能做到8T算力,小于0.5W的加速功耗,并且內置了DDR,這些痛點會得到很大改善。”劉遠表示。
硬件是軀體,軟件和算法是靈魂。如果是AIE是軀體,那么Magik就是靈魂。
Magik是一個面向端側AI應用的全棧式開發平臺。與一般的AI開發工具鏈相比,Magik包含了更豐富的內涵:
全流程,一體化。集模型訓練、優化轉換、部署推理于一體,并提供模型檢查器、調優器、性能分析器等工具;
多框架。全面支持pytorch/tensorflow/mxnet/caffe/onnx等主流框架;
量化感知訓練(QAT)。支持2/4/8/16任意精度混合訓練及轉換優化,在保證精度的同時,能充分利用AIE的計算資源;
靈活性。同時支持QAT和后量化方案,加速應用靈活部署;
開放性。開放人臉/人形等常見算法的從訓練到部署全流程代碼,以及經典網絡的backbones,增強易用性,加速落地。
“Magik不僅僅是一個AI轉換工具鏈,還是一個豐富的開發平臺,”劉遠補充道,“有工具鏈,framework插件,Model Zoo,常用的backbones,還包括一般攝像機非算法的支撐功能,例如成像,編碼,幀數據流,內存復用優化,存儲降維,多目同步,甚至內存泄露防范等都有體現在內,真的值得用一用”。
Magik的一大特色是支持較為先進的QAT方法論。端級AI應用目前大多還停留在后量化方法階段,相比QAT,后量化更像是端級AI的過渡階段。后量化過程相對簡單,但精細度不足,算力容易形成浪費,功耗成本帶寬等難以解決。QAT方法能夠更精細地根據加速硬件的特點調整訓練細節,從而發掘端級AI算力的潛力,達到提升算力利用率,降低功耗,帶寬和成本的效果。
使用Magik的開發過程很容易上手,流程示意圖如下:

“Magik就像一把‘云梯’,幫助客戶快速落地AI算法和視覺產品,它能給行業帶來長期的助力”。
與AIE的發展相輔相成,Magik具有未來小型生態的潛力,其堅實基礎是君正過去,目前和未來所有的算力芯片,只要君正芯片能夠覆蓋到的市場領域,都可以發揮作用。
“早幾年當AI的浪潮滾滾而來,喧囂塵上之時,我們并沒有太多發聲,但并不代表我們沒有行動。”劉遠講道,“當東西沒有真正拿得出手時,我們自己心里這一關就過不去。而現在,AIE+Magik這一套技術,已經服務了很多客戶,并讓不少人嘗到了甜頭”。
據了解,AIE+Magik已經成功服務了超過幾十家客戶,包括一些行業知名品牌,傳統算法公司,行業監控企業,大型互聯網品牌,運營商以及初創極客。
這些服務,遠超算法開發這個層面。要實現設備承載不同的算法運行,首先需要克服算法計算標準化的困難,但這只是端側AI落地過程中挑戰的冰山一角。
除此之外,設備的產品屬性,可量產屬性,消費者體驗屬性以及開發周期等方面都需要大量的投入。
君正完成了各種典型視覺產品的方案積累,例如安防監控,物聯網視覺,低功耗成像,智慧辦公,文字掃描,生物識別,立體視覺等領域都能提供完整的解決方案,讓算法賦能只需要做簡單加法就可以落地。
“這樣做有沒有社會價值,有多大的社會價值,是推動我們每一項產品和技術研發的精神內核。”
北京君正副總經理黃磊曾多次強調。在AIE+Magik的落地過程中,賦能下的各大下游企業的產品價值,都是對這一說法的精準注腳。
“有一家算法專業型的客戶,本身有很強的算法開發能力,基于君正芯片和Magik平臺,開發了全新的產品系列。新產品系列比之前的老產品,成本下降了一個數量級,實現小型化。客戶還獨立完成了人臉識別算法的移植,運行效果十分良好。”
劉遠介紹說,“與此同時,另一家知名的銷售專業型客戶,本身算法能力不強,但是非常清楚消費者痛點。基于君正芯片和Magik平臺,在君正的輔助下建立了算法團隊,利用Magik平臺的開源代碼和網絡,基于自己的數據資源訓練了人形偵測算法,客戶利用消費者優勢,不斷對算法進行迭代,最終以運營方式上線算法,消費者反饋良好,運營轉化率高于預期。”
不知不覺間,優質的服務成為了君正在智能視覺市場的核心競爭力之一。
目前隨著T40芯片到位,很快將有更多搭載AIE+Magik的產品陸續進入市場。基于T40打造的視覺產品,能做到4T/8T算力,能耗比最低達到0.05W/T級別,外圍BOM很簡單,芯片售價做到幾個美金。配合Magik和各種成熟方案資源,T40有望成為AI視覺大市場的細雨春風。雷鋒網雷鋒網雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。