0
| 本文作者: 周蕾 | 2025-09-08 10:51 |
5:30 A.M.
天空已露出魚肚白,但從事水產養殖的農戶最怕在這個時候看見“魚肚白”:經過一整夜的消耗,魚塘中的氧含量已降至全天最低,等五六點鐘養殖戶起身巡塘時,極有可能發生“翻塘”現象。
中易物聯的工作重心之一,就是在魚塘內布放水質傳感器采集水質數據,實時告警提醒養殖戶。物聯網系統的24小時穩定在線,對于降低翻塘概率有不小幫助。
7:30 A.M.
上班高峰期到來,許多人步履匆匆,涌入街角的利客便利店購買早餐。一杯豆漿、一個包子的下單,背后是訂單同步、會員積分抵扣等一系列操作,近千家門店的數據片刻間洶涌而至,這也是對利客便利店后臺系統的集中考驗。
10:30 A.M.
菲尼基的換電系統即將進入流量高峰期——數以千萬計的外賣騎手整裝待發,他們會借助換電柜換上新電池,再開啟新一天的送餐工作。技術人員會緊盯換電系統的狀態,視流量洪峰的情況來決定是否臨時擴容。
6:30 P.M.
放學后的中小學生開始攻克家庭作業和今日新學的知識點。數萬人同時在線呼叫AI家教“寒雪老師”,進入一對一“名師”輔學模式。智能精準學的技術人員需要確保“寒雪老師”和每位學生每一次的提問、追問、講解100%精準流暢,幫助學生省出更多“操場時間”。
這些看似瑣碎平凡的日常場景,背后是無數中小企業在服務器與代碼間的堅守。企業期盼的,是鄉村中的魚塘又度過了平靜的一夜,是便利店“支付成功”的聲音安心地響起,是外賣騎手換電的等待時長又節省了一秒,是學生聽到AI家教流暢的一句應答。
中小企業的成長,大致可分為三個階段:初出茅廬期、業務爆發期、技術進階期。究竟在不同的時期里,他們需要怎樣的陪伴和支持?我們與五家中小企業聊了聊他們的經歷,以下是他們的故事。
處在啟動階段的中小企業創業者們深知,穩定性是業務“站穩腳跟”的前提,更是他們發展的安身立命之本。最好在此基礎上,能再節省一部分IT成本。
中易物聯的經歷是一個絕佳的例子。位于武漢的中易物聯,從2015年左右開始與阿里云合作。這是一家以智慧漁業云平臺為核心產品,為水產行業提供物聯網一站式系統解決方案的高新技術企業,主要產品就是水質監測設備,監控養殖池塘的水環境指標。
要保一池蝦蟹魚類安然存活,實屬不易:如開頭所說,下半夜池塘易缺氧,養殖戶夜間休息難以及時巡塘,或醉酒或熟睡,錯失挽救良機;夏天還容易碰到農村電網不穩定,電壓波動燒毀設備。
有時還會遇上運營商凌晨系統升級,中易物聯還會無法順利致電養殖戶,通知他們巡查魚塘。
而一旦出現險情,留給養殖戶和中易物聯的時間只有30分鐘左右;如果是高溫天,這個時間還要再縮短,去晚了恐怕只能看見一池塘翻了肚子的魚。
CTO余峰華表示,他們的業務場景實在是對服務器穩定性、安全性、故障響應速度要求極高,“客戶會直接質疑你們企業,如果一年毫無預兆地掉線三四次,更加不會考慮繼續使用我們的系統。”
他回憶,那時正值業務初期,用戶分散,規模不算大,自建機房需要自購服務器、招運維、研究硬件,再算上后期擴容和硬件升級的賬,還是上公有云劃算——但十年前國內做公共云做得好的廠商極少,中易物聯很快把目光鎖定了阿里云。
2015年1月30日,中易物聯的第一個測試服務器部署在了阿里云青島節點上。
非凸科技也有類似的考慮。CEO王浚澎告訴雷峰網,他們的目標是面向機構和個人投資者提供智能算法和交易整套解決方案,在交易時段提供穩定優質服務,如果A股交易期間,尤其是開盤時段,保障鏈路和信號傳輸順暢至關重要,否則網絡問題可能影響大量券商及眾多機構客戶和個人投資者。
股票市場瞬息萬變,決勝于微秒之間。網絡的擾動耽擱了哪怕一秒,都有可能造成不小的損失。穩定性就像是巨額數字前的“1”,沒有這個“1”,其他的因素都是后面無意義的“0”。
非凸科技創業初期規模較小,人手也有限,需要將重心放在業務發展上,當時經過選型調研,基于穩定性和成本綜合考量,選擇了阿里云ECS云服務器,如今七年時間過去,現在非凸科技部署在阿里云不同節點的ECS服務器數量有幾十臺甚至上百臺。

啟動期的中小企業需要將有限的人手和精力,盡可能投入到業務上,因此運維便捷、部署門檻低、服務響應快,也同樣是他們看重的特性。
中易物聯的工程師回顧:“由于當時云計算還屬于新生事物,云服務器的部署與使用大家都還不是很熟悉,阿里云的工程師積極指導和及時解決。我們的服務涉及到硬件,得前往偏遠的鄉村地區。一開始,軟硬件都不成熟,加之客戶所在位置信號不好,經常在半夜會出一些問題,我們兩邊的工程師(阿里云和中易物聯)都不辭辛勞,連夜解決系統問題。”
非凸科技CEO王浚澎進一步提到,使用阿里云后,不用擔心硬件故障和硬件升級問題,不用跑機房或聯系托管人員,阿里云有專人支持,解決了運維難題,讓他們可以專注于核心業務發展。同時他也表示,自建機房即使有豐富儲備和多路網絡準備,仍無法完全避免波動。因此,即使有托管機房,非凸科技仍借助阿里云服務提升穩定性,其多地部署方案也提高了服務確定性。
同樣考慮了服務穩定可靠和數據安全的企業,還有菲尼基。這家企業從2019年開始和阿里云合作,主要為外賣騎手、社區居民及商用低速車輛用戶提供智能換電軟硬件系統整套解決方案,致力于在日常出行高峰時段保障穩定高效的換電服務。尤其在早晚用電高峰期間,換電柜電力供應和系統穩定運行至關重要,一旦出現服務中斷,將直接影響大量用戶及眾多配送訂單的完成時效。
除了可靠和安全,他們也有自己的顧慮:自建的數據中心,包括購買服務器、存儲設備,執行托管,成本是一方面,靈活性也有影響,自己的技術團隊能不能保證服務的高可用性、高可靠性?
菲尼基CTO高志星也講到,他們看中了阿里云彈性計算的靈活性,投入成本和時間成本都有所節約,采用阿里云產品前后,菲尼基節省的IT成本大約在原來的40%左右。
雷峰網了解到,包括菲尼基在內的一批中小企業,使用的是第八代企業級計算實例g8a,并標配eRDMA加速功能,將網絡延遲降至8微秒,顯著提升集群間通信性能。同時,它們還全面采用了NVMe技術,并支持共享盤功能,使得存儲延遲降低至百微秒級別。
而最近新推出的第九代AMD企業級實例,包含u2a、g9ae、g9a 三個系列。其中,u2a 實例為阿里云推出的首款基于AMD處理器的通用算力型實例,性能相比u1實例高20~35%,價格低9~22%,可幫助中小企業實現快速的成本降低;g9ae 實例基于 AMD 最新 TurinD 處理器,搭配阿里云最新CIPU架構,采用物理核設計,算力性能比g8a最高提升67%,性能提升67%。這意味著在大規模的數據處理器集群中,用以前三分之一的機器,完成相同的數據任務處理,通過技術實現降本;而 g9a 實例搭配的是 AMD TurinC 處理器,CPU睿頻最高達4.1Ghz,對那些需要強大的單進程處理能力的業務,是一個非常好的選項。
當中小企業在創業荊棘中劈出生路時,阿里云彈性計算已悄然成為他們“后勤組”的一員,為啟動階段的他們省去了一些后顧之憂。省下的每一分IT成本,都是業務擴張的彈藥;解放的每一寸運維心力,都化作開拓新賽道的利器,或許可以換來工程師和養殖戶的安心入眠,也讓換電柜得以遍布大江南北。彈性計算已不僅是技術底座,更是創業公司把“敢想”轉化為“敢試”的杠桿支點。
中小企業們走過了啟動期,一切步上正軌,但有時會出現超出預料的業績爆發,例如某件新產品突然爆紅出圈。企業這時通常還在慶祝自己迎來了“潑天的富貴”,卻很容易忽略一點:后臺系統做好承接爆發的準備了嗎?
智能精準學就親身經歷過業務爆發對后臺系統的挑戰。
這家教育科技公司成立于2018年,2024年推出了全球首位超擬人一對一家教“寒雪老師”,半年時間迅速拿到該賽道的第一個銷售top1。“AI家教名師,就是‘寒雪老師’”的口號走進家長內心。
創立之初,智能精準學就在使用阿里云的彈性計算。“我們用阿里云彈性計算的產品挺多的,應該基本上都用過。”在交流的過程中,CTO李貴賓從ECS、ACK、VPC數到了高性能存儲、OSS對象存儲和GPU云服務器,種類之多連他自己也十分感嘆。無狀態容器和其他阿里云的創新產品,他們也有所嘗試。
2024年10月開始,智能精準學的“寒雪老師”正式上線銷售,僅半年時間就成為抖音高端AI大屏學習機的銷售第一,整體用戶數幾乎是以每周翻倍的速度在增長。

“銷售走得很快,而整個流量的增長,其實我們一開始沒有很快感知到。”團隊沉浸在業務迅速發展的喜悅當中,而流量洪峰的新挑戰已經站在門外。
“寒雪老師”的用戶流量分布有顯著周期性。一般來說,周一到周五晚上放學后的6-10點,流量會比白天大概要高好幾倍。另一個比較有風險的時段是周末,不上學的孩子們從早上8點一直到晚上10點會隨時呼叫“寒雪老師”,尤其是周末的兩個白天。
在某個周末,阿里云彈性計算向技術團隊推送預警策略,智能精準學的團隊同時發現,整個系統的響應在變慢。
“技術同學收到了運維短信。”他們第一時間登上阿里云控制臺查看,發現流量的峰值比以往高了五六倍,超出了他們的預料。
同時還有大量的超時請求,多項數據指標都在上漲,技術團隊沿著整個鏈路查看服務負載情況,由于當時集群規模由十余臺服務器組成,進一步排查發現關鍵服務模塊的QPM(每分鐘查詢量,Queries Per Minute)已遠超預設閾值。很快他們通過故障診斷工具FG(Fault Diagnosis Graph),最終確認服務瓶頸所在。
所幸阿里云的整體彈性策略足夠健全,團隊運維只需對一些基礎配置進行操作,例如調整負載配置,實時監控了系統響應時間和錯誤率,也基于ARMS(阿里云應用實時監控服務,Application Real-Time Monitoring Service)配置了動態閾值規則,并與集成的Kubernetes容器編排系統打通,進行快速擴容操作,通過Kubernetes集群管理平臺新增了3個服務實例。
算下來,總共就是30秒的時間,完成了從動態節點的申請,到擴容,再到流量引入,包括容器鏡像拉取與服務啟動階段。系統抖動并沒有持續太久,擴容后系統負載也迅速回落至正常范圍。
“阿里云的資源快速拉起,無論是ECS還是容器,都做得相當不錯。”李貴賓透露,今年他們曾經嘗試過自主拉起一些特殊狀態的服務,從基礎鏡像的構建到資源的拉起,相比起使用阿里云,自主拉起的整個過程得用上兩分鐘。“這兩分鐘對我們來說,是一個至暗時刻,因為什么都不能做。”
他感慨道:“尤其像我們這種業務正在快速突破的、大規模服務用戶的企業,阿里云彈性計算的這種專業、強大、這種彈性能力和高效的協同的賦能對我們極其重要。”
遇到“業務爆發挑戰系統承載”情況的,還有菲尼基。
目前菲尼基的系統服務著兩百多萬外賣騎手。受到近期外賣大戰的影響,換電頻次直線上升。加上各地運營商也在搶占市場,設備大量投入到市場當中并接入菲尼基的服務,這就導致菲尼基的壓力倍增。
高志星告訴雷峰網,他們也借助了阿里云的彈性計算能力,在不調整應用架構的大前提下,迅速對系統進行擴容。
前面提到的智能精準學和菲尼基,都來自創新行業,創建初期已有自建技術團隊,但對于來自傳統行業的企業而言,情況又有些不一樣,他們是怎樣在推進深度數字化的同時,應對客流高峰、業務爆發的?利客便利店就是一個經典案例。
內蒙古利客便利店在全國擁有近千家門店,電子支付、會員積分同步、跨店調貨等操作在后臺匯聚成密集的數據洪流。一開始,利客便利店的后臺由供應商提供并運維,沒有組建自己的技術團隊。隨著業務規模擴大,尤其在實時支付和調取貨物信息環節,磁盤I/O和內存性能瓶頸突顯,無法順利應對近千家門店的數據同步要求,嚴重制約業務擴展進度。
利客決定將核心系統遷移至更加自主可控的技術平臺。在技術選型過程中,阿里云作為綜合云服務提供商進入評估視野,其基于AMD EPYC處理器的云實例因出色的性價比引起關注。
經過多輪技術溝通與場景驗證,利客團隊與阿里云共同深入梳理了便利店供應鏈系統的關鍵需求,雙方通過多次方案論證與性能壓測,最終選定第八代AMD企業級ECS實例作為核心部署方案,相較原有方案CPU算力提升約50%,顯著改善了近千家門店數據同步延遲的問題。
當無數學生在周末打開學習機與“寒雪老師”say Hi,當無數用戶在周末搶大額紅包點起了外賣,很少有人知道智能精準學和菲尼基的技術團隊曾直面過這樣的“流量海嘯”。以秒計算的擴容戰役,成了創業公司對抗不確定性的經典注腳。
原來突如其來的業務爆發,會讓中小企業喜上眉梢,也會成為系統瀕臨崩潰的信號。而增長越迅猛,地基越需堅不可摧。阿里云彈性計算也用十余年的陪伴,為他們托住那些搖搖欲墜的“爆單時刻”。彈性計算早已不僅是成本優化器,更是業務海嘯中的救生艇,搭載中小企業從“敢試”前往“敢贏”的彼岸。
而另一場更深刻的變革已雛形漸顯,創業者們眺望起了遠方的海域——AI。
前文提到的“寒雪老師”。是搭載在智能精準學AI家教機上AI家教,為K12學生提供全語音交互和一對一個性化輔學服務。這位老師要手把手帶著孩子寫作業,精準定位到孩子學習薄弱項,背后需要的AI能力之復雜、之強大,可想而知。

智能精準學的AI科學家向雷峰網介紹,常規的拍照搜題、知識點搜索、推理和計算,可以直接調用阿里云一些公開的API,但文本轉語音(TTS)和語音轉文本(ASR)就得從零做起,因為教育領域會有很多具體的場景,比如理解學生稀奇古怪的提問,比如講解過程中涉及數學物理的符號公式。
實時性也是對AI能力的一大考驗。用戶會希望這位數字家教能在1.2-1.8秒之后就給出回復,因為這是人類正常對話的神經反應速度,在這個區間內返回才不會讓用戶察覺到明顯的延遲。但現在很多公開的語音能力,通常用于翻譯或是會議記錄,并不太涉及反應速度這一指標,智能精準學的科學家們也要在此做出不少努力。
既然是可以互動的家教,那么輔導能力也得過硬。這背后的數據,首先需要包括大量題庫和解題的過程,看懂數學幾何圖、物理電路圖等等,其次模型要學會像老師一樣在黑板上寫寫畫畫,像老師一樣看得懂學生寫在草稿紙上的操作,還要“看得到”學生的表情反饋。
工作的第一環節是訓練,面對顯卡資源短缺的困境,阿里云穩定的算力供應保障了模型的持續運行,助力智能精準學節省硬件成本、高效創新。AI科學家Peter表示,訓練最怕過程有中斷,一旦中斷,之前投入的費用可能就打水漂了,因此在算力選擇時做了許多橫向比較,綜合穩定性和效率各方面因素選擇了阿里云。
在深度學習領域,阿里云GPU云服務器的多卡并行計算能力,大幅提升了智能精準學“寒雪老師”的模型迭代效率,其監控管理工具更是讓故障問題排查時間減少50%。
在推理部署上,Peter透露,一是考慮到推理速度,二是如前文所說,用戶通常在工作日晚上集中使用,可以利用其彈性特質,避免高峰期資源不足、閑置期資源浪費。他們曾對比試驗過,如果供應商的基礎設施管理軟件,其彈性設計不夠健壯,就便是有充足的物理機器,也容易導致他們在高峰期搶占不到資源,或是無法正常運行。
有阿里云這類高質量的GPU集群支持,智能精準學也加速迭代模型、加快產品推出進度。“我們的‘寒雪老師’是與目前市場上學習機有代際差的產品。而且這個代差只會實質性地拉大。”
以智能算法見長的非凸科技,也看中了阿里云彈性計算在AI上的支持,靈活試驗、小步快跑是他們使用阿里云發展AI能力的心得。CEO王浚澎告訴雷峰網(公眾號:雷峰網),非凸的業務核心本就需要大型計算支持,今年公司又重點發力AI方向,自建了AI實驗室。但自建機房年建設費用高達幾千萬,部分業務偏實驗性或靈活性,非凸會借助阿里云的服務來對這部分業務進行前期驗證,等驗證通過后用機房進行進一步拓展和采購,如此一來,可以省下一部分成本。
他透露,目前階段非凸的自建機房與阿里云是互補關系,一方面阿里云靈活性強、穩定性高,適合線上服務;另一方面自建機房用于離線訓練,二者可以發揮各自優勢構建公司開發體系。
對一些中小企業而言,需要關注的不止有遠方AI的探索,眼前的硬件與彈性計算產品之間的協同,對業務可靠性和連續性的影響,也是一道重要考題。菲尼基CTO高志星表示,菲尼基會根據實際需求靈活配置硬件資源,可有效平衡成本與性能;也會通過集群方式分攤冗余,降低系統風險。
誠然,聚光燈下總是那些大公司跌宕起伏的故事,但在聚光燈之外的世界,無數中小企業的故事同樣值得被看見。他們或許沒有動輒千萬的IT預算,但他們對技術創新的渴望、對業務增長的追求同樣熾熱。某種比技術更深刻的變化正在發生,微小而動人,他們的每一步都是充滿勇氣的嘗試。
而阿里云彈性計算,自2010年發布至今,已用十五年時間,默默成為這些“勇敢嘗試”背后最穩定的支撐。
近幾年來,AMD與阿里云共同將彈性計算能力不斷進化,整體可靠性、穩定性和算力都持續提升,這使得中小企業在應對流量沖擊時更加游刃有余,也為他們提供了以更低成本在AI上探索創新的機會。
技術的溫度,在于它從未忘記托舉起那些看似微小的夢想。
它用穩定、可靠、彈性的算力,默默守護了千行百業無數個拼搏的日與夜,讓每一次創新的“敢想敢試”,都有了最堅實的支持。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。