0

記錄與存儲,是人類文明永恒的話題。
從遠古時代世界各地的人類不約而同在石壁作畫后,信息的存儲與傳播開始刻進人類基因,并經歷了萬年的進化。
從結繩記事、甲骨文,到竹簡、紙張,再到打孔紙、軟盤、硬盤,到磁帶、磁盤、光盤,一直演化到SSD/閃存,存儲經歷了脫胎換骨的變化。
幾乎每一次數據存儲的變革,都伴隨著人類社會和經濟發展的飛躍。
過去,在各類高科技、熱門賽道中一直是計算站在聚光燈下,存儲常被忽視。
但外界的忽視并不妨礙其“黃金配角”的地位,無論曾經的元宇宙,還是AIGC,亦或是“當紅炸子雞”大模型,在任何一個時期最熱賽道的底層,都能找到存儲。
阿里云,也開始了存儲領域底層技術的攻池略地。
在云計算時代,算力、網力、存力,共同構筑了云計算的基礎。隨著云上業務的迅猛發展,通用算力和AI算力以指數級迅速增加,網絡從25G、100G、200G、400G快速演進,并將進入800G時代。而以SSD為代表的存力,同樣面臨了新的挑戰和訴求。
以大模型訓練為例,數據規模大、訓練時間長,DL網絡層多、連接多,每層都需要存儲權重、偏置闡述,激活函數、輸入輸出數據、模型結構等都需要存儲,這就對存儲帶寬和I/O性能提出了更高要求。
訓練大模型的幾個難點,本質上都是圍繞如何利用好數據這一核心命題展開。臺前,是熱火朝天的大模型“百模大戰”,臺后,是算力和存力的底座在嗡嗡作響。
算力是生產力,存力亦是。
市場對于存儲的技術創新需求呼之欲出,存儲產業需要軟硬件全方位的技術升級。
計算機有三大核心存儲部件:閃存芯片(數據的最終存儲地)、內存芯片(用于暫存SSD內的眾多管理表項、數據緩存)、SSD主控芯片。
而SSD主控芯片是SSD的大腦,負責主機交互、協議解析與執行、數據讀寫、數據糾錯、數據管理、后臺任務、帶外管理。換句話說,SSD的功能、性能與可靠性均由其實現。
作為一顆為云計算場景定制的芯片,鎮岳510在性能、時延、能效和可靠性等關鍵指標方面,均達到業界第一梯隊水平。其每秒可處理高達340萬筆IO,這一數字意味著一顆鎮岳510的性能,相當于1萬塊高性能HDD的性能總和。在時延方面,鎮岳實現了業界領先的超低的時延(4μs),比業界SSD降低30%以上;在可靠性方面,平頭哥同樣注入了創新技術,其自研的高性能LDPC糾錯算法,讓編碼效率逼近香農極限,直接把數據恢復的可靠性再優化了一個數量級,每讀取百億億筆數據,才可能有一筆數據糾錯失敗。
這樣的紙面實力不僅僅是這顆芯片進入SSD主控芯片市場的敲門磚,在新舊技術更迭之際,更有望成為數據中心存儲芯片領域的新選擇。正如平頭哥產品總監周冠鋒所說,這是鎮岳510入局的最佳時機。
阿里云盤古是伴隨阿里云飛操作系統誕生的,過去十幾年經歷了多次技術演進,并經歷了十多年雙11的淬煉,是阿里巴巴的數據存儲底座,同時也支撐了阿里云各類存儲服務產品。
而這一階段的盤古在存儲架構、分布式數據冗余算法、運維管控等技術上一是成果斐然,但在底層硬件上更多的是采用行業標品。
阿里云資深技術專家吳忠杰告訴雷峰網(公眾號:雷峰網),之前用通用硬件做云計算、云存儲,定義的硬件不是圍繞云計算使用的方式去,效率不是最佳。
以SSD為例,設計之初,需要兼容傳統HDD盤的使用模式和各種軟件的使用習慣,SDD提供的接口也需要與HHD盤保持一致。
為此,平頭哥需要在SSD內部做一個極其復雜的FTL,以維護映射表,模擬快設備的接口給上層的分布式系統。
但傳統存儲往往是單一應用,而云計算平臺,單個節點所承受的IO規模比傳統的更大。
如果再采用傳統的網卡、硬件以及TCP/IP協議棧來去做阿里云的存儲系統,CPU將處于不停處理中斷、解包、TCP/IP協議棧的狀態,效率只會越來越低。
傳統的方式下,IO是一個瓶頸點。
此外,行業標品的合作流程,是阿里云提交一些需求清單,但廠商能不能滿足這些需求,是未知數。
開發環節,雙方配合并不深入,這些需求未來可能會出現在發布的產品里,也可能不知道在哪個環節,因此,產品交付到云團隊后會暴露大量問題。但那時候所有的設計已經落地,無法返工,只能在下一階段進行迭代和修復,如此,整個周期拉得非常長。
隨著云計算承載的業務規模越來越大,行業通用標品已經難以全滿足云計算數據中心場景下對超大規模、需求多樣、高性價比、安全可靠以及軟硬件一體化等方面的要求。
換句話說,云計算已經在定義硬件。
海量數據、業務多樣背景下,云計算對于軟硬件一體化的系統實際上提出了更高的要求。
在云存儲領域,需要從芯片層面就進行深度的定制化,以此來解決各種復雜場景下的兼容性問題。
鎮岳510,正是云定義硬件的產物,也是一款為云而生的存儲主控芯片。
云定義硬件之所以能破除IO瓶頸,是因為它基于垂直、端到端的視角,根據上層軟件的工作,結合硬件接口、使用方式等硬件的特性去設計,如此,無論是功耗還是IO效率,亦或是NAND Flash的插儲和性能,端到端的整體效率能能達最優,減少了大量無用功。
阿里云與平頭哥之間,無論從早期的需求階段還是開發過程,雙方最大程度進行了協同。“怎么樣結合上層的存儲系統去定義底層芯片的行為,有什么功能是需要卸載到盤內部的,又有哪些功能是我們在系統可以為SSD做減負的,我們在需求定義階段為此花費了很長時間。”吳忠杰表示。
這種端到端的協同設計,以云定義硬件的模式,極大地提升了芯片開發整個環節的效率。
鎮岳510的誕生則意味著,其打破了這一結界,用軟件定義全新的硬件,讓底層硬件向前邁進了一步。
阿里云并非為了硬件而做硬件,而是從全棧角度考慮,重新定義硬件與軟件之間的邊界,邊界之間如何進行相互協調,讓整體的效能達到最優。
這也是阿里云和傳統分離的數據中心、分離的數據機房所更具有價值的核心點。
鎮岳510作為平頭哥旗下第一顆SSD主控芯片,云開始與底層芯片全方位融合聯合設計,強大的技術積累下,極致的性能,復雜負載下的穩定時延,更優的TCO,更高的存儲密度,更先進的接口,給用戶提供更好的體驗。
軟有盤古,作為自主研發的中國首個分布式云存儲系統,讓存儲更加穩定可靠、擁有更大的容量和更高的性能。
硬有鎮岳510,更強存力、更高可靠等特點,還通過為云定制,帶來更優秀的存儲體驗,阿里云的存儲系統也實現了硬件能力的躍遷。
面對數字經濟對海量存儲和快速存儲的需求,阿里云的存儲后備軍軟硬綜合實力一流,在存力競爭上已經領先一個身位。
如果說數據是核心生產要素,負責為數字經濟的各種場景應用提供源源不斷的“生產資料”的存力,就是數字經濟的底座。
高并發互聯網應用、萬億參數的大模型井噴和爆發的時代,云計算被公認為最核心的基礎設施。而未來十年,決定云計算實力的不僅僅是規模,軟硬件一體化的自研計算體系才是云服務商的立身之本,只有在計算、存儲、網絡等核心技術和產品的研發上持續創新才能搶占定義權。雷峰網雷峰網雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。