0
AI技術正成為巨頭們保持領先地位的關鍵之一,各領域的頭部公司特別是科技巨頭們,大都花費重金投資AI,但他們很快就遇到一個問題,芯片的算力無法滿足AI算法的需求。因此,國外的谷歌、亞馬遜,國內的百度、阿里都紛紛開始自主研發AI芯片。
值得注意的是,根據公開資料,騰訊投資針對AI芯片的投資直到去年八月才曝光,當時燧原科技宣布獲得騰訊領投的Pre-A輪3.4億元人民幣投資。本周三,燧原科技發布首款云端訓練芯片邃思DTU,這款芯片從啟動研發到發布量產僅耗時20個月,基于該芯片云燧T10加速卡單卡單精度算力達到20 TFLOPS,堪稱業界最強。
不過,燧原科技首款芯片及加速卡云燧T10的發布只是其創業成功的起點。

燧原科技 CEO 趙立東
挑戰AI云端芯片市場的勇氣
縱觀如今的芯片市場,成功的芯片公司背后都有一個極其強大的生態,特別是在高性能計算領域,生態的重要性更加明顯。因此,即便新一輪的AI熱潮引發了芯片行業鮮見的創業潮,但大都選擇了邊緣AI芯片,這是因為其相比云端AI芯片技術難度更低,也可以避開云端AI芯片壟斷的市場格局。
燧原科技顯然是少有的云端AI芯片創業公司。對于為何敢于挑戰云端AI芯片,燧原科技 CEO 趙立東在發布會上表示,我們的信心源自天時、地利、人和。天時是CPU、GPU生態成熟,切入困難,但深度學習爆發式發展僅有7年的時間,這是一個更加開放的戰場,有更大的發展空間。地利是現在是做AI高端芯片的黃金時代,中國有廣泛應用、人口紅利、海量數據、市場機會,既有國家政策引領,也有資本給予支持。人和則是上海近20年在集成電路領域儲備了大量的集成電路人才,同時,上海通過在AI領域的發展,可提供成熟算法、軟件、架構人才,這也是燧原科技選擇上海的重要原因。
對此問題,燧原科技創始人兼 COO 張亞林接受雷鋒網采訪時補充表示,燧原做芯片高舉高打是我們CEO定下來的,這其中包含了我們的家國情懷,也是希望夠做一件對得起選擇創業這個決定的事情。AI發展一個很大的挑戰是模型不夠,但新的模型都掌握在國外大公司手中,比如谷歌,其中很關鍵的是它們有TPU。我們希望能夠提供更強的算力,讓中國人也擁有更多的AI模型。

燧原科技創始人兼 COO 張亞林
不容忽視的是,兩位重要創始人的經歷也十分關鍵。CEO趙立東本科畢業于清華大學電子工程系,后又獲得美國猶他州立大學電子與計算機系碩士學位。2007年加入AMD,歷任計算事業部高級總監、產品工程部高級總監,負責CPU/GPU/APU及多個相關核心IP的研發,團隊規模超過千人,并參與成立中國研發中心。
COO張亞林也曾是AMD的一員,他本科畢業于復旦大學電子工程系,比趙立東晚一年(2008)加入AMD,歷任資深芯片經理、技術總監,曾在AMD上海研發中心領導開發并量產微軟XBOX-ONE系列主芯片、融合芯片APU等多款世界級芯片。
2014年,趙立東離開了AMD加入了紫光通信科技集團任副總裁,2015年3月兼任紫光集團旗下銳迪科微電子公司總裁,2017年3月任紫光集團副總裁。而張亞林直到決定和趙立東一起創業才選擇離開AMD。
雷鋒網認為,兩位核心創始成員都是技術背景出生,都在AMD積累了豐富的經驗,這讓他們不僅能夠判斷市場對于AI芯片的需求,也有自信敢去挑戰AI云端芯片。
首款云端AI加速卡單精度性能全球最高
目前看來,燧原科技在融資和產品上都十分順利。燧原科技2018年3月19日在上海注冊成立,1個月后就完成了2400萬人民幣種子輪融資,并啟動第一顆云端訓練芯片的研發。同年7月,完成騰訊戰略領投的3.4億人民幣Pre-A輪融資。
就算在資本的寒冬,今年5月,燧原科技又獲得了紅點創投中國基金領投的3億元人民幣A輪融資。同月還有一個好消息,首款芯片按計劃準時流片。

從2018年4月開始研發到2019年9月芯片點亮開始軟硬件聯調,燧原科技僅用了14個月的時間,加上產品的正式發布并開始量產,也僅用了20個月。
之所以說是僅用,是因為一款大型CPU和GPU從設計到量產通常需要三年甚至更長時間。燧原科技之所以能快速完成一款復雜芯片從設計到量產,其團隊有大量處理器專家是重要原因。張亞林透露,我們團隊現在有207人,其中很多人從2000年就開始設計處理器,經驗非常豐富。但能夠快速實現芯片從設計到量產還因為團隊文化非常同步,大家的目標都是盡快落地和量產,每個設計指標把控的都很嚴格。

張亞林認為,能夠這么快推出云端訓練芯片簡直就是奇跡,因為這款芯片是從零開始設計。
“邃思DTU的架構有非常大的創新,我們最核心處理器里的架構都是我們從無到有設計的,并且受到專利保護。”張亞林介紹。
另外,邃思DTU基于可重構芯片的設計理念,其計算核心包含32個通用可擴展神經元處理器(SIP),每8個SIP組合成1個可擴展智能計算群(SIC)。SIC之間通過HBM實現高速互聯,通過片上調度算法,數據在搬遷中完成計算,實現SIP利用率最大化。
“端上的可重構更多是低功耗以及可以輕易移植應用。云端的可重構主要的是把整個數學計算變成一種可編程的指令集和可控的流水線,讓數學計算的模型可以重構,這樣可以保證芯片的通用性,也能夠適應快速迭代的AI算法。”張亞林進一步解釋。
最終,燧原科技選擇基于格羅方德12nm FinFET工藝打造邃思DTU,集成141億個晶體管,芯片面積為480平方毫米,采用先進的2.5D封裝。基于邃思DTU的云燧T10也表現不俗:
超強算力:單精度(FP32)下算力20TFLOPS;半精度及混合精度(BF16/FP16)下算力80TFLOPS,而最大功耗僅為225W,能效比領先;
模型通用:支持CNN、RNN、LSTM、BERT等常用人工訓練模型,可用于圖像、流數據、語音等訓練場景;
高速互聯:采用燧原ESL互聯技術,滿足E級數據中心規模部署需求;
接口兼容:標準PCIe接口,廣泛兼容主流AI服務器;
生態開放:支持主流深度學習框架,通過SDK提供深度定制。


張亞林強調,為應對云端數據中心大規模訓練集群的挑戰,我們創造性地提出200GB雙向ESL互聯技術,在1024節點集群規模下,訓練線性度加速比達86%。在相同互聯帶寬下,相比InfiniBand組網,能較大幅度降低組網的復雜度和成本。云燧T10將于2020年第一季度上市。

云燧T10的性能是一個什么樣的水平?做一個簡單的對比,友商同級別最新旗艦單卡的單精度算力為 16.4TFLOPS,云燧T10單卡單精度算力為20TFLOPS。友商旗艦的功耗是250W,云燧T10的最大功耗為225W。ResNeT-50模型的Benchmark無論是FPS還是FPS/W 云燧T10表現都比友商旗艦表現更好。

更小的芯片面積可以實現更成本,加上更高的高每瓦算力讓云燧T10可以達到更高的有效算力,這也是業界越來越關注地衡量AI芯片的指標。
市場策略關乎成敗
更高的有效算力確實能夠吸引客戶,但想要打動用戶易用性和遷移成本同樣關鍵。在產品層面,燧原科技發布硬件產品的同時也發布軟件平臺馭算,目前已經完全支持 TensorFlow,明年上半年將實現對 PyTorch、MXNet、ONNX 等主流深度學習框架提供支持,提供完整的編譯、調試、調優工具鏈,并在硬件層開放SDK,為深度開發者提供細粒度算力編程接口。

趙立東接受采訪時表示,我們搭建一個最基礎的,支持TensorFlow的堆棧,但要提供完整、易用、友好的界面和工具,不是一朝一夕可以做到的,需要更長的時間。
在持續完善軟件平臺的同時,為了能實現無縫遷移燧原科技也有自己的方法。趙立東稱之為熱啟動,也就是在產品研發的過程中,就與業界合作伙伴進行技術交流和項目合作,將市場的需求融合到產品的開發過程。這樣可以讓產品更快在實際場景中落地。
張亞林表示,我們和客戶做有限接觸的時候,先是去適配他們主要的模型和業務形態,從他們的業務模型中進行泛化和抽取,通過交流我們獲得了不少信息,然后再去適配,這樣客戶就能夠很容易地進行遷移。
但對于燧原科技這樣一家初創公司而言,在精力有限以及面對強大競爭對手的時候,策略以及合作伙伴的選擇至關重要。燧原科技選擇的初期客戶都是現有產品能夠很好支持的合作伙伴。

趙立東介紹,目前我們已經與騰訊針對通用人工智能應用場景的項目開展密切的合作,未來也將會擴展到更多AI應用場景。
據悉,燧原還將面向云服務公司、傳統領域的行業服務公司、AI超算中心和智慧城市選擇合作伙伴。趙立東表示,三個方向都在談可能的合作伙伴,我們希望與合作伙伴不是純粹的供應商和客戶的關系,而是能夠一起進行深入合作,為他們做一些深度定制。我們希望能夠以點實現破冰的突破,然后由一個點變成多個點,由點連成線,再由線形成面,逐漸擴大。
深度定制也正是燧原科技進入云端AI芯片市場的策略。趙立東表示:“在壟斷市場,所有客戶都希望有新的選擇,這樣他們才能稍有議價能力,因此市場有這樣的痛點。除此之外,他們還希望有更高的性價比和能效比,特別是在落地的場景可以實現的有效性能。”

“科技公司們想要在競爭中不一樣,取得更好的成績就需要做差異化。但是在壟斷市場,想要得到的技術支持將會非常有限,這也會限制差異化的實現。所以我們希望和客戶深度定制合作,幫客戶實現差異化。”趙立東進一步表示。
但隨著AI模型的成熟,市場對云端AI訓練需求的增速將會降低,云端AI推理的市場規模將會迅速增加,并有望在2022年超過訓練市場。對此,趙立東表示,云端AI訓練的需求不會降低,因為還有很多公司因為價格的原因還沒有機會進來,這也是我們首先推出的是云端訓練芯片的原因,這是市場目前最迫切需要也是量最大的。未來我們也會推出云端推理芯片,但因為推理比訓練芯片對功耗和成本更加敏感,所以我們也會謹慎選擇市場的切入點。

雷鋒網小結
燧原科技成立于2018年的資本寒冬,不僅融資沒有受到影響,還成為了目前騰訊投資的一家AI芯片初創公司,這其中重要的原因是騰訊提出的產品熱啟動的概念與燧原科技創始人的理念不謀而合。作為為數不多的云端AI訓練芯片的初創公司,燧原科技從產品研發到發布量產僅用了20個月的時間,這是其創始團隊實力的體現,當然也是其執行力非常好地說明。
不過,性能參數漂亮的芯片發布和量產只是AI芯片初創公司成功的開始,燧原科技高性價比、高能效比的硬件,持續完善的軟件平臺,以及差異化、定制化的市場策略能否獲得更多合作伙伴的認可,才是其走向下一步成功的關鍵。
挑戰云端AI訓練芯片市場困難很多,風險很大,但云燧T10的發布讓我們對中國AI的發展增加了信心。
相關文章:
騰訊首投國內AI芯片公司,成立僅5個月專注數據中心深度學習芯片
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。