0
| 本文作者: 劉伊倫 | 2025-10-31 09:55 |

“有的項目花兩三年時間把利用率做到30%,但設備壽命只有五年,等真正跑順的時候,硬件已經過時了。”并行科技COO喬楠對雷峰網說。
他并不諱言行業的盲區,算力行業看似門檻低,“有錢就能砸進去”,但很多進入者根本不懂市場行情以及技術選型,買錯算力規格、配錯應用場景以及無法提供客戶需要的技術服務,最終造成資源閑置。
在市場實踐中,技術問題引發的業務困境并不少見。
為布局智算產業,某上市公司在對服務器設備的組網方式、存儲方案、機頭選型等細節毫無了解的情況下,便盲目與頭部人工智能公司簽訂合作方案,后續因無法交付符合要求的集群設備,最終只能發布公告終止雙方合作。
“早期國內的算力市場面臨的最大問題就是組網,但國內不超過20個團隊具備組網的能力,而這其中主要還是互聯網大廠。”一位從業者表示。
已經投入到實際應用場景中的集群,也同樣會面臨技術風險,甚至可能因直接關聯業務運轉而造成更大影響。
某集團旗下DeepSeek云服務曾發生的長達12小時宕機事件,其直接誘因在于算力調度算法存在設計缺陷,在業務訪問高峰期,算法無法對平臺內的算力資源進行有效分配與動態調度,導致部分虛擬機因持續面臨算力資源供給不足的問題,最終出現崩潰,進而引發整體云服務宕機。
這些案例都指出:技術服務能力才是算力業務可持續運營和發展的關鍵。
隨著裸金屬租賃業務趨向成熟,智算云成為了市場的新焦點,而技術服務能力則是左右智算云競爭格局的關鍵變量。
大廠憑借資金實力、生態規模與全鏈路技術儲備,在智算云場景中占據天然優勢。反觀中小智算云公司,既難在算力規模上與大廠抗衡,也容易在技術服務的全面性上陷入被動,若找不到差異化競爭方向,很容易被擠壓生存空間。
“云業務雖遵循馬太效應,但并非只有大廠能存活,像混合云、政府云等細分領域,都有專業玩家的生存空間。并行科技從誕生起就深耕超算領域,積累的人才、經驗與技術方法論都可以直接復用。這種‘細分領域做深做透’的策略,正是中小玩家在大廠環伺下的生存關鍵。而沒有構建壁壘的玩家,時間線拉長后都會被逐步淘汰。”喬楠說道。
二十余年的高性能計算經驗讓喬楠對智算產業有更深刻的理解,他曾擔任英特爾高性能計算團隊經理,2015年9月加入并行科技擔任應用總監,后升任首席運營官,主導技術應用落地與業務運營。
基于這樣的認知,他推動并行科技打造“算力買手”模式,將超算時代的資源調度經驗延伸到智算云服務,實現1小時內為客戶匹配到最合適的算力資源,讓供需雙方高效匹配。
隨著算力行業逐步進入后半場,市場的關注點也從“算力大單”、“算力貿易”回歸到算力本身的技術、效率與適配性。幫助過多家芯片廠商做優化的并行科技,對國產芯片在當下的競爭環境中如何突圍有怎樣的理解?在超算這一細分賽道做到業內領先,又對大廠圍獵下的智算云競爭生態有何看法?以及如何評定智算集群的效率,算力優化的終局又是什么?
喬楠向雷峰網分享了圍繞算力產業從硬件、軟件到行業生態的多維度洞察,為便于理解,訪談內容經編輯:
國產芯片突圍策略:摒棄對「峰值性能」的過度追求,注重撬動生態杠桿
雷峰網:國內算力集群90%以上用英偉達服務器,行業里似乎有個共識,英偉達存在斷崖式領先的優勢,您如何看待國產芯片和英偉達的差距?
喬楠:英偉達并非斷崖式領先,現在英偉達可能就領先一到兩年。我們研究了英偉達的多款產品,他們現在最大的問題是芯片性能逐步接近天花板,無論是集成度還是核心浮點計算能力的平衡性,這從英偉達的芯片結構大小和成本構成就可以看出,之前是一個快速發展的曲線,現在已經平緩了許多。
在CPU時代,計算部件的工藝提升是最容易的,存儲部件和網絡部件的提升的速度是遠遠落后于CPU的,這會導致存儲墻、網絡墻的出現,從而影響真實應用的效率,真實應用只能達到理論峰值性能的10%-20%,而這已經是優化到極致的水平。
現在GPU也開始類似的情況,在開源案例里,真實應用下最高效率是峰值性能的50%。英偉達從V100、A100、H100、H200到B200的迭代中,內存帶寬利用率的提升速度、通訊訪存比的優化速度,都跟不上計算性能的提升速度,使得它真實的應用的效率并沒有達到計算性能提升的水平。
雷峰網:您如何看待國產芯片的發展,國產芯片現在比較好的切入點是什么?
喬楠:國產芯片要系統的去看芯片設計,如何更好的做到應用性能的提升,而不是看標稱峰值,現在國產芯片很多標稱峰值也不低,但實際跑起來比不上英偉達,原因就在于芯片組的資源是有限的,比如你把90%的芯片設計都做成適合Transformer的核,但是把顯存設計的特別小,那效率就有可能大打折扣,可能理論峰值性能是英偉達的幾倍,但是效率就低很多。在所有推理場景中,顯存帶寬和顯存容量是很重要的指標,H20的峰值性能只有H100的五分之一,但顯存容量和顯存帶寬很高,所以之前在國內很受歡迎。
另一方面,芯片行業需要更多的投入生態和上下游建設,英特爾芯片組的人數跟做生態的人數比例是1:5,生態是最難的,很多國產芯片廠商會覺得自己規模較小、人手不夠,這個時候就要尋找合適的上下游合作伙伴,可能你生態投入1個人就能撬動業內的10個人。
最后是市場容量的問題,以前全球只有兩家GPU廠商,AMD和英偉達。當下,在沒有出海的情況下,國產GPU廠商爆發到了十幾家,不可能每一家都能存活下去,中國這個市場每年能增長50%,但廠商想要活下去還是要找到自己的細分賽道。(國產算力替代“來勢洶洶”,關于國產GPU廠商更多的產品細節及幕后故事,歡迎添加作者微信 YONGGANLL6662 交流更多信息)
雷峰網(公眾號:雷峰網):如果國產芯片廠商找到并行科技,并行科技能怎么幫他去豐富生態?
喬楠:主要是兩個方面,一個方面是我們有一個團隊可以幫助國產芯片廠商做移植適配,去加速產品的應用落地。另一方面,用戶使用并行科技的算力,其實并不在意底層用的是什么芯片,只要求輸入輸出的速度更快,并行科技打造了一套幫助國產芯片做驗證的架構,驗證精度、算法、性能沒問題,就可以用性價比最好的國產芯片的解決方案。
雷峰網:并行科技提到要“提升基礎架構設計能力”和“優化基礎支撐組件”,具體的實施路徑是怎樣的?
喬楠:核心優化邏輯是“從硬件到軟件的全鏈路適配優化”,具體分三個方向落地:
第一個是性能診斷工具,我們做了Paramon應用運行性能分析平臺,它就像“CT掃描儀”,能夠掃描智算集群,找出硬件設計問題和軟件適配問題,然后找到關鍵路徑以及熱點函數,從硬件設計和軟件優化相結合的方式去提升整體系統的性能。
第二個是國產芯片的適配,現在英偉達的middleware(中間件)、SDK和生態都是最好的,很多國產GPU的適配性存在問題,需要做大量移植和優化。并行科技有個幾十人的優化團隊與國產芯片廠商保持合作,最近一年已經把上百款應用移植到國產GPU上,取得不錯的成效,具備一定的競爭力,并不像外界所說的與英偉達的差距很大。
第三個是生態合作與人才儲備。比如,中國最優秀的體系架構人才來自于清華,而清華最優秀的體系架構人才來自于計算機系,其中的一個創業團隊就是清程極智,并行科技與清程極智會在底層架構設計上進行合作。另外,我們每年舉辦PAC并行應用挑戰賽,現任Meta超級智能實驗室成員的余家輝就是PAC2015屆冠軍,2014屆冠軍目前在并行科技做優化方向。
最后是要盡可能刺激需求的發生,讓需求更快、更廣泛地落地。一個是創新應用場景的發現和推廣,一個是降低成本。降低成本又分兩類,一類是硬件成本的下降,它基本是摩爾定律式地往下降,每年25%,但這是遠遠不夠的,所以大部分的成本下降來自于軟件棧成本的下降,以DeepSeek為例,百萬Token的成本翻番地往下降。年初到現在,并行科技在DeepSeek上做的優化基本上實現了幾十倍的性能提升。
智算云“生存戰”:大廠圍獵下,押注「細分賽道」或是唯一生路
雷峰網:當下的算力行業暴露了許多問題,比如服務器租金下降引發的違約退租,您覺得這些現象背后的核心原因是什么?
喬楠:表面是短期的供求關系問題,但是核心是算力行業的“重資產+快折舊”屬性,再疊加部分參與者的認知偏差。
首先,算力是個重資產投入的行業,投入后的出清過程較長,屬于典型的投入高但回本周期長的生意。設備投下去后利用率上不來,運營方只能虧本經營,能做到收入覆蓋電費,都算挽回了部分損失。
其次,行業看似門檻低,“有錢就能砸進去”,但很多進入者根本不懂技術選型,比如買錯算力規格、匹配錯應用場景,導致算力資源的錯配。
地方的一些指導也存在偏差,認為可以參照IDC建設的成功經驗,適度提前布局算力基建,但算力設備的使用年限很短,是一個快速折舊的產品,一般折舊周期就5年,很多地方的項目耗費很大精力,用兩三年的時間把服務器的利用率做起來,往往這個時候設備就過時了。好在國家今年已經注意到這個問題了,也在出臺一些政策。
雷峰網:算力資源錯配嚴重,那智算云、算力平臺或算力網,是不是解決這一問題的有效手段?
喬楠:肯定能在一定程度上解決供需錯配的問題,核心邏輯很簡單,無論是“東數西算”還是算網協同調度,本質都是用“連接”把分散的需求和供給匹配起來,加快交易節奏。
以并行科技為例,我們通過算力網絡模式已接入47家智算中心和15家超算中心,并根據用戶不同的行業屬性和應用場景的差異化,對一些算力集群進行適當改造,把這部分算力資源與用戶的場景和應用特征相匹配,提升算力中心的利用率。算網不只是“技術調度網”,更是“交易調度網”,不能只盯著技術參數,還要幫供給端找到精準需求,這才是解決錯配的關鍵。
雷峰網:并行科技有通過改造算力集群,從而提高其算力利用率的具體案例嗎?
喬楠:早期我們對接過一個供應商,他們把算力集群的計算訪存比設計得特別小,導致集群只能支撐10%左右的工作負載,基本處于“閑置”狀態。我們介入后,第一步是加大存儲和內存配置,調整硬件適配邏輯;第二步是通過算網平臺篩選適配的用戶場景,比如把它對接給計算壓力中等的科研項目。改造后,這個集群的工作負載提升到60%,而且接入了上千個客戶。
雷峰網:并行科技針對不同場景推出了超算云、智算云、智造云,這么細分的布局是基于什么判斷?
喬楠:之前在英特爾、聯想及HPC廠商做超算的人,后來都散落在智算這個行業里,業內共識是智算就是超級計算的一個細分場景,優化的方法論和設計的方法論都一樣,只不過針對的場景是GPU場景,本質上都在遵循更快、更強的原則。
超算云、智算云、智造云是針對不同場景的超級計算機云化產品,這是并行科技跟云大廠的區別,云大廠這幾年才開始布局智算,但并行科技從誕生的第一天起就在做這個事情,所以并行積累了很多人才、經驗和Know-how,這些積累可以讓并行科技在任何底層還是超級計算機的風口上復用。
雷峰網:您提到超算和智算的方法論相通,那是不是可以理解為,有超算經驗的團隊做智算,會有“降維打擊”的效果?
喬楠:2003到2004年期間,我就在參與優化聯想深騰6800超級計算機,籃球場大小的設備,幾百臺設備總共發揮的算力是4 TFlops,現在一張GPU算力卡就遠超這個水平。當然,浮點精度有差異,早期是雙浮點,現在是半精度,差了8倍左右,但從量級上看,過去是T級,現在是P級(1PFLOPS=1000TFLOPS),20年里芯片集成度提升了很多。
從超算到智算,有很多經驗確實能復用,而且效率差距很明顯。比如一個從零開始的智算團隊,要run up起來至少需要3到5年,而有超算經驗的團隊,一兩個月就能落地。
雷峰網:云業務很注重營收規模,技術收斂之后,如何面對與大廠的競爭?
喬楠:營收規模是成功的必然因素之一,只要符合馬太效應的業務,都會有這樣的特性,但這不意味著最終只有一兩家公司能勝出。
跟傳統的云業務一樣,會有很多在細分賽道里存活下來的企業,有混合云、政府云,并行科技是超算這個細分領域的第一名,只要能夠找到一個細分的業務場景,這個業務場景跟云大廠有一定的差異化,就能夠活得還不錯,但把這件事情做好也面臨比較高的門檻,長期來說小玩家一定會消失,但是會有一批細分領域的領頭羊活下來。
雷峰網:并行科技打造的“算力買手模式”很受行業關注,這種模式的核心是什么?
喬楠:算力買手模式的本質,是用并行的專業能力幫用戶避坑,核心是從需求出發,1小時內匹配最優算力。
第一步是需求拆解,比如,用戶說要跑大模型訓練/推理,就需要進一步問清楚“模型參數(7B/13B/70B)、訓練周期、精度要求、成本預算”,同時把程序的應用運行特征畫出來,是計算密集型,現存帶寬密集型,還是網絡通信密集型?這是第一層分析。再細展開,例如,計算密集型又可以拆成對fp32,fp16,fp8的GPU利用率的呈現。我們把用戶的需求和應用特征一層層列出來,就可以把模糊需求轉化為具體參數,比如“需要16張顯存≥40GB的GPU,計算密集型,FP8精度要達到xxpflops浮點峰值,顯存帶寬與節點內節點間帶寬不是主要瓶頸,GPU機頭的內存帶寬要達到300GB/s,單卡時成本≤2元,等等”。
第二步是資源篩選,并行科技接入了幾百家超算、智算中心和算力廠商的資源,會根據用戶參數自動篩選,排除不符合的選項。比如用戶要單卡時成本≤2元的,就排除溢價高的廠商,最后剩下3-5個候選。
第三步是方案整合,我們會對候選資源做二次驗證,比如測試某款國產GPU的模型適配度、某智算中心的網絡穩定性,然后把最優資源整合到并行的算法平臺里,給用戶提供一站式服務。
雷峰網:算力的高投入意味著很多時候需要為客戶提供定制化服務,這會不會導致公司的人員壓力很大?
喬楠:按照二八定律,對大客戶肯定要實行定制化服務。對于中小客戶,并行科技會提供7×24小時的服務,并且是分鐘級的響應,工程師幾乎都是碩士生,這個活還是很苦很累的。
不過,AI時代我們也做了一些智能客服去做補充,基于我們之前積累的數據以及專家庫開發了一套客服系統,包括消息傳送以及智能的數據挖掘。目前,我們已經積累了幾百萬條技術服務相關的數據,這都是私域數據,訓練出來的系統有很高的專業度,現在基本上服務響應每年能夠提效25%。
雷峰網:并行科技的服務也在遵循摩爾定律。
喬楠:對,我經常跟技術服務的負責人說,你今天服務了一卡時,你明年再服務一卡時的含金量就下降了不少,我們的服務也需要遵循摩爾定律,不斷擴大服務的效率。
智算集群迭代方向:異構推理存在合理性,優化的終局是打通產業鏈
雷峰網:現在開源模型越來越多,很多行業也打造了垂直模型,模型數量增加對AI Infra這一層會有什么樣的影響?
喬楠:肯定是好事,開源模型越來越多會對AI架構、AI Infra產生刺激作用。
知識的開放、架構的開放會吸引越來越多的人參與進來,底層的體系架構能夠產生正反饋,就會有越來越多做AI Infra的人參與開源模型的優化和合作,形成一個正循環,這是軟硬件雙方互相協同開放之下產生的。
早在CPU時代,異構一直是體系架構和軟件層面之間的一個矛盾。英偉達的強大主要在于CUDA生態,而打造CUDA生態的原因就是傳統CPU的編程模型不適合GPU,開發者在GPU上進行開發門檻太高。
開源模型多了之后,Paramon就可以在開源模型上去做非常多性能數據的采集,使我們對不同硬件的理解加深,并推動相應的硬件進行改造,讓強大的開源模型有越來越多的硬件去匹配,如果行業內都是封閉模型,就很難去推動這個事。
雷峰網:國產算力替代讓異構集群的概念很火,但有業內人士認為異構集群是一個“事倍功半”的偽命題,您如何看待這一觀點?
喬楠:首先異構有很多定義,多個集群異構、單個集群多個節點異構以及節點內部不同的異構,以及單個集群不同芯片的異構。異構集群是具備合理性的,以DeepSeek為例,它有Prefill階段和Decode階段,這對硬件的要求是不一樣的,一個是計算密集型,一個是顯存密集型的,這兩個階段完全可以拿不同的硬件去匹配,這個就是具備合理性的異構。
很多人認為異構集群有問題,是因為在訓練場景里,異構集群是不成立的。訓練場景的算法是把一個任務分到不同的計算單元,每個計算單元和計算節點做相同的任務,而且他們非常緊耦合的互相通訊來同步一些進展,在這種條件下,就會出現木桶短板效應,任何一個節點的性能差都會影響到整個集群的性能,使得整個集群的性能以最差的節點為單位×整個節點的數量。推理階段的算法變化使得異構集群有了可能性,而且有可能會提升性價比且降低成本。
所以說在未來的多場景下,國產芯片廠商一定要找到一個細分產品,然后成為第一名,好比一些芯片,甚至不是馮諾依曼架構、不是以計算為中心點去設計,而是以顯存為中心點去設計,這些可能性都是存在的。
雷峰網:很多人會用MFU(模型算力利用率)評價集群效率,您覺得評價集群效率的核心指標是什么?
喬楠:MFU是主要指標,但不是唯一指標,影響集群效率的第一因素是利用率,如果集群整體利用率低,那單節點利用效率再高,整體效率還是差。比如一個集群有100個節點,只用到20個,就算這20個節點MFU達到90%,整體效率也只有18%。
其次,MFU的解讀要結合場景,尤其是推理場景。比如有的推理集群MFU絕對值很高,但SLA(服務質量)差,幾秒鐘才輸出一個Token,那MFU再高也沒意義,用戶要的是“有效輸出”。MFU的真正價值是“衡量非計算部件的瓶頸”:MFU越高,說明存儲、網絡等非計算部件的瓶頸越小,計算部件能更高效運轉,所以行業才一直拿MFU作為一個主指標,而這里面其實也藏著很多發展的趨勢。
雷峰網:有業內人士認為“最大程度地利用計算資源”其實就是算力優化這個道路上最終評價技術好壞的標準,您如何看待這個觀點?
喬楠:利用計算資源很重要,但不是終局,終局是設計,利用是現有的拼湊,最根本的是設計好計算資源,而設計的定義就有很多方面,比如不是設計計算資源,而是設計計算資源網絡,單一的結點、單一的集群只是在這個層面上的性能點,但是從全局點來說,利用率的矛盾大于部件的性能,全局算網的級別是高于單節點或單集群的性能的。
此外,如果終局是利用,那只能在賣場的這個層面,但終局其實是要打通產業鏈的,就不僅僅局限于算力部件,甚至是IDC、能源,把產業鏈的每一個點優化到極致。
雷峰網:算力行業在逐步走出早期泡沫階段,您對算力行業未來的發展趨勢有怎樣的研判?
喬楠:做好算力服務的難度是非常大的,高投入、高風險,你一旦做不好,可能就會造成算力資源的錯配。現在硬件飛速發展,摩爾定律在一定程度上依然發生作用,而軟件的發展是十倍于摩爾定律的。這就意味著你今天采購的設備,它適合DeepSeek3.0,但DeepSeek4.0出來后,它的應用的熱點有可能完全變了,對硬件的要求也就變了,前期的硬件投入就可能血本無歸。
對芯片廠商也是一樣的,有些硬件大廠早期用INT8計算格式,但現在FP8才是主流,這就會導致廠商推動這一部分業務比較艱難,因為它的準確度受到了影響。當然現在也及時推出了FP8,但是業內是不是會變成FP4呢?也很難判斷。
算力是一個周期性的行業,有淡季和旺季,幾年供過于求,幾年又供不應求。因為本質上這是一個比較滯后,但是出清時間比較長的行業,大家說算力緊張了開始建設了,建完一年過去了,所以他是滯后的,但是出清又艱難,這就導致了周期性,而周期性本質就是錯配。
但行業整體是向上發展的,只是有波峰波谷,所以長期是樂觀的,短期是痛苦的,現在是很殘酷的,未來也只有少數細分領域的頭部玩家能存活。
專題介紹
2023年來,智算產業迎來爆發式增長。但兩年過去,國內智算企業的生存狀態如何?在技術突破與場景落地中做了哪些新探索、又面臨什么新挑戰?智算行業的未來還有什么想象空間?本專題與一眾智算領域的先鋒從業者對話,回顧近年智算行業在技術與商業上的拓展實踐歷程,并展望未來發展方向。即便身處行業氣候更迭之際,從業者們憑借智慧與韌性、懷揣對智算未來的堅信,開辟多樣化發展路徑。對此專題感興趣的從業者,歡迎添加微信 YONGGANLL6662 共同參與討論。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。