機器人端側模型的十字路口

本文作者：朱可軒

2024-12-25 09:34

導語：大模型、機器人與芯片廠商的拉力賽。

作者｜朱可軒

編輯｜陳彩嫻

自 2023 年以來，以大模型為代表的人工智能與以具身智能為代表的機器人成為科技發展的兩股重要力量。與此同時，將人工智能算法、尤其是大模型應用于進一步提升機器人智能水平也成為一個自然而然的趨勢。

在這個背景下，“機器人學習”、“具身大腦”成為炙手可熱的名詞。

據 AI 科技評論與多位業者的交流，我們發現諸如“具身大腦”的定義并不單一，更通俗廣泛來說，凡是將人工智能算法與機器人相結合，用于提升機器人在交互、感知與控制上的技術派系都能被列入具身大腦或機器人學習的范疇。

從當前情況來看，國內專攻機器人模型的廠商大約可以分為身體控制派和交互感知派，而按技術源頭則可以粗略分為幾類：

一類是視覺感知派，如穹徹智能、有鹿、若愚科技；一類是強化學習派，如 Physical Intelligence；一類是語言模型派，如面壁智能、巖芯數智、自變量等等。

在解決機器人大腦問題上，不同技術派別有不同的路徑之分與觀點差異。單純從過去一年的行業實踐而言，研究基礎模型出身的大模型派在機器人領域的落地最為焦慮。

除去激烈的市場競爭，更本質的原因是：端側模型在機器人終端的落地，中間還隔著芯片的開發，由此機器人廠商、大模型廠商與芯片廠商之間形成了一段三角拉力關系。

而從目前來看，這段三角關系正在進入膠著的負增強反饋：

首先，端側模型應用在機器人上需要適配芯片，但芯片的迭代是基于市場需求的：當前機器人還沒有從專業級產品走向消費級產品，出貨量遠不如手機、PC 等硬件設備，因此適配機器人端側模型的芯片姍姍來遲；

其次，機器人消費市場的擴大，極大依賴智能水平的提升，即 AI 模型的迭代，但 AI 模型的升級需要大量真實世界的高質量數據，依賴于其能搭載在機器人產品上與用戶進行交互；

最終，具身 VLA 的實際效果離消費級可用的精度要求和準確率還相差甚遠，機器人的智能水平迭代變緩，出貨量更少，又反過來影響芯片的研發與出貨成本。由此三者難舍難分。要打破這個“不可能三角”、走入正反饋增強，需要一方主動打破僵局。

模型廠商期望是芯片廠商，芯片廠商希望是機器人廠商，而機器人廠商或又寄希望于模型廠商……那么，誰會是最終的破局者？

大模型在機器人終端的落地是端側 AI 的一個縮影，至少在短期內，將大模型商業化寄希望于機器人領域或困難重重。

大模型能為機器人做什么？

大模型在提升機器人智能水平過程中扮演著「大腦」的角色，主要體現在泛化與規劃能力上，但目前在一些大模型接到機器人的具體操作中，大模型更多是幫助機器人進行簡單的任務理解與拆分。

具體來看，一方面，目前機器人依然在執行逐個任務，更多停留在交互層面，沒有看到學習能力的增強，多模態任務的實現；另一方面，機器人也更多在執行短期動作（疊衣服、做菜、打開微波爐），很少用到大模型的規劃能力，如能一次做幾十上百步。

例如，面壁智能目前聚焦的目標是讓機器人能夠完成更加多樣復雜的、長線的、多步操作的任務，執行準確率更高、泛化性更強、糾錯能力更好，當下正在逐個擊破。

事實上，前述目標往往是需要在長程規劃、工具調用、模型協同等全方位能力上具備極高專業性的，這是大模型廠商所擅長的領域。相比之下，機器人公司在這些方面的積累和突破可能會較為困難，因此，通過合作引入端側模型，也能夠更高效地解決問題。

就泛化性而言，大模型掌握世界知識、常識知識以及物理建模的能力，幫助機器人實現泛化能力的提升十分關鍵，但從前沿成果上來看，泛化性這一部分也還屬于初期摸索階段。

RockAI 所選擇的路徑便是如此，其旗下 Yan 架構大模型的技術路線是，將文本、語音、視頻以及機體參數做一個整體對齊，然后一起輸入給大模型。

VLA 大腦模型則通過提升物理建模能力來增強泛化性的，如操縱未見過的東西、理解每個物體的重量等等。不過，在業內看來，VLA 的實際效果離消費級可用的精度和準確率要求都還相差較遠。

整體看來，大模型原有的能力暫未在機器人側發揮出來，大模型的泛化、規劃、糾錯等能力在機器人側的應用都還比較初步。此前，字節跳動 GR-2 就曾將文生視頻的嘗試加入到 default 的 policy model 里，但機器人做若干具體的任務這方面也還在探索中。

機器人端側模型的十字路口

字節 GR-2 通用機器人

而大模型能力無法發揮、智能化難以提升的背后，其一是行業還沒摸索到真正適合機器人的模型框架：目前有的工作基于多模態大模型，也有的工作基于 Diffusion Policy 的（如RDT 1B），也有兩者結合各自負責大小腦建模的，但還沒有像 LLM 一般走向統一的架構。

此外，不同形態的機器人對大模型會有不同的要求，短時間內可能實現的設備泛化是形態一致，但不同參數的機器人，形態可能還是相對比較一致的。

不同的輸入方式對于大模型也存在挑戰，如四足機器人和雙足機器人的行走控制方式差異非常大，在大腦層面，向前走可以統一，但底下細致的操控方面差異很大。

這意味著，并沒有哪種機器人形態更有利于大模型快速實現設備泛化。當下，大模型的大腦派與機器人的肢體派的融合情況，存在知識壁壘，正在摸索互相打通。

除前述以外，其中最大的難點當屬數據——模型廠商很難獲取到大量的、多元化（從視覺、語言到動作）的預訓練數據，還處在 case by case 的階段，很難提升模型執行任務的泛化性，以及在這基礎上去探索更難的場景。

舉例來看，目前的機器人還無法做到精確控制手部動作，就是因為缺乏多元指令微調數據集：

大模型精準控制機器人用手拿東西，要先輸出目標物的坐標，而如果是一個五指靈巧手，還要輸出五個手指握東西的點位。而模型先通過視覺與傳感器判斷坐標，然后握住再拿起來，這樣的操作在理論上可行，但現在的模型水平甚至無法達到這種程度。

RockAI CMO 鄒佳思告訴 AI 科技評論，「目前，手部控制還是交給機器人廠商的小腦來做，我們只需要告訴機器人要執行的動作，比如揮手，我們核心解決的問題是對指令尤其是模糊指令的識別。」

過往指揮機器人得要用特別精確的指令，而且很多指令都是寫死的。今年的 WAIC 在進行機器人直播時，有的機器人翻車就是因為指令說得不對，更本質是機器人無法理解自然語言，端側模型則能提高機器人對自然語言的理解能力。

「機器人大腦」的三角關系

再回到數據不足本身，當中的關鍵問題其實在于機器人廠商暫未實現量產，還無法從專業級轉變為消費級產品。

從此前無人駕駛的演進歷程來看，特斯拉起初也并非依靠自動駕駛獲取第一批用戶，而是靠車機本身的性能，之后隨著用戶數量增多，產生的數據也愈發變多，這樣才有了數據訓練模型，進而改進無人駕駛，形成所謂正循環。

但反觀機器人當下的實際應用場景，現如今機器人的購買對象主要還是研究人員和偏業務的團隊，并且還要先交錢再生產，實際應用場景顯然不夠多。

針對這一情況下，也有業者向曾向 AI 科技評論分析過破局的關鍵：依賴所有數據都采集自用戶不太現實，如果有團隊能夠標注出第一版數據，可能可以解決這一問題。

不過，要做到這一點并不容易，因為機器人的數據采集并不像大模型一樣從互聯網下載語料就可以，而是需要真機采集后做標注，而且機器人所需的數據是多元化的，除了語言外還包括觸覺、聲音、力等信息，這一系列過程會非常艱難且昂貴。

不僅如此，在訓練方式上也面臨挑戰。由于機器人訓練需要真實場景，相比于以往的大模型，在強化學習、機器人的穩定性等方面，實際訓練成本都要更高，目前學術界也還在探索解法。

換言之，機器人大模型本身的數據標注會比文本類、識別類模型更困難，需要一臺真實的設備才能完成，這也是需要研究攻克的難點，真機采集數據比仿真數據更好、更真實，仿真數據則有些像大模型在做數據合成。

在訓練具身大腦的問題上，從預訓練數據去學習物理世界、學習普適的操控能力以及學習具身場景普適的規劃能力，其實仿真數據也可以行得通，但沒有真機數據那么真，前提是要足夠多樣到能適配各種設備、場景。

同時，具身場景的機器人數據和文本大模型的數據存在些許差異：從數據角度前者會多一維，如景深、3D 點云，但如果從多模態的角度，并沒有太多區別，只是模態維度會更多一點。

這意味著，大模型在機器人的環境適用性確實起到一個比較大的作用，但大模型是否會幫助機器人數據采集，業內也仍持觀望態度。

數據之外，算力也是現階段機器人端模型發展的關鍵瓶頸之一。

目前，國內研究基礎大模型的主力軍雖然也陸續在發力「端側小模型」，但起步比較晚、技術進展較緩慢，其當下重點仍舊放置在云端大模型上，如智譜 GLM-130B、百川、騰訊混元、零一萬物 Yi 等。

這些大模型的參數規模動輒上千億，需要大量的算力支持，而機器人搭載的板卡算力往往是非常小的，如若要跑上千億的大模型，機器人就需要部署非常高算力的板卡，如此一來，成本高、功耗高、散熱等都會成問題，當下最先進的聯發科 9400 芯片或許都跑不起來。

所以，這些云端模型沒法在機器人本體上離線部署，這也是面壁智能、RockAI 這些廠商存在市場價值的原因之一。

而如若聯網調用的話，執行任務時機器人會存在延時長的情況。據 AI 科技評論了解，一款國產機器人曾與一家云端大模型廠商合作，在機器人上搭載云端大模型、讓機器人去完成取水的操作時，就曾面對類似問題。

在業內看來，端側 3B 小模型在任務泛化、智能理解等任務上肯定沒有云端千億、萬億大模型強，但 3B 模型也能擁有基礎的圖像理解、自然語言交互與知識庫問答等能力，這就已經能解決機器人的大部分智能需求。

另外，也有觀點認為，實際上，機器人的本體構型差異不影響模型研發，而研究機器人大模型主要考慮兩個因素：

一是算力環境，比如一般來說，機器人的算力模組主要用 Orin，然后使用 Intel 做運控，也有小型機器人會搭載 ARM 芯片，那么模型廠商需要將模型與不同的芯片適配；二是機器人肢體參數不同，也需要做一些簡單的適配，但適配成本也不高。

肢體參數不同具體來講就是，同樣是機器人，但身高分別是一米六和一米八，這兩個機器人的臂展、臂長和手臂能旋轉的角度也是不一樣的，這就需要機器人大模型的算法指令與本體高度適配。

這也是云端模型在機器人本體上跑的 Bug 之一——云端模型與機器人本體無法完成高度的適配。

而對于模型廠商來說，機器人的肢體參數相當于「模態」。以 RockAI 為例，其只關心模型輸入的模態、以及模型跑在什么樣的環境上。模態包括視覺、語音、語言等輸入，也包括機器人自身搭載的傳感器所收集的信息，以及機器人本體零部件的參數，這些對機器人而言全是輸入。

只要輸入不一樣，機器人都需要做一些簡單的適配，不過，一般適配成本都不高，最大的成本還是芯片適配，當前，受制于算力，大模型朝兩端升級的難度較高，中間則相對較低。

一方面往大了做，由于需要大量數據和算力，萬億參數模型會非常難做，模型本身并非難點，主要難在資金投入上。不僅要有萬卡集群，而且集群中途不出差錯是難度系數非常高的事。

另一方面往小了做。如若大模型基于 GPU 只跑在云端，其實是相對容易的；但要做小、跑在手機、機器人等終端上，則不是易事。

目前，端側模型 3B 模型的難點主要在底層卡的運維和構建上，除了 3B 外，4B-8B 的模型也都可以應用在機器人上，關鍵是設備搭載的芯片大小，4090、A100 都可以搭載。

許多業者對于機器人端側的算力也保持樂觀態度，在他們看來，機器人端的算力限制其實沒有手機那么強，能搭載的算力選擇更多，隨著芯片的進一步發展，或許千億級別的模型也能夠在端側落地。

不過，需要看到的是，機器人廠商普遍傾向于用低功耗芯片，現在很多機器人廠商都還在用驍龍 6，而驍龍 6 每年的出貨量上千萬臺，相當于在近五六年里，中低端芯片占據了芯片市場的主流。

其不愿意選擇高算力的 GPU 的原因在于，從實踐中來看，一般情況下，人形機器人脫離電源后能堅持一個小時，一旦加了高算力板卡，可能 20 分鐘就會沒電。

但是，端側模型要跑在較低功耗的 CPU 上是非常難的，因為算力不夠：

業內基于 Transformer 架構跑 3B 大小的模型，在驍龍 7 上跑不了，在驍龍 8 上跑起來則需要做量化和壓縮，一旦如此操作，多模態能力便會出現大幅下降，需要在能力和算力需求之間尋求平衡點，這會進一步阻止機器人廠商采購模型的動力。

從當前情況來看，許多模型廠商正在做這方面的權衡取舍，在此之中關鍵則在于推理優化水平的高低：模型做小、落在端側上，需要工程人員將模型優化，使其在量化后仍能保持性能、速度和對算力的要求。

有機器人領域從業者向 AI 科技評論透露，像智譜、百川這樣的大模型基座，不是不考慮端側，而是做不了的問題，現在手機廠商與機器人的廠商，基本在 RockAI、面壁與通義三者中選擇。

回到芯片的問題，就算是機器人廠商愿意用高算力 CPU 或者 GPU，也會面臨成本問題：

從手機廠商的例子中來看，小米使用高通 8 的手機都是售價 5000 塊以上，如果疊加大模型，價格或許會接近一萬，而高端機的消費人群也是少數。要等到聯發科 9400 或者驍龍 8 占領市場，還有三至五年的時間窗口。

值得一提的是，機器人端大模型還面臨著本體的挑戰，業內研究有發現本體是一個特別大的瓶頸，更有觀點認為，整個行業可能還沒到模型、數據挑戰階段。

如何跳出「死循環」？

機器人大模型要向前邁進需要倚靠三方合力，不能只是大模型廠商的一廂情愿，而是要同機器人廠商、芯片廠商聯合起來，共同鑿開一條光明之路。

當前，也有不少大模型廠商給出了解決方案，比如以智源、智譜等為代表的單位就設計了一個端云協作的大小模型協同訓練和部署的方式：

首先在云端訓練大模型，然后通過知識蒸餾、模型量化等方式得到一個小模型，再把這個輕量化的小模型部署在終端上，如果終端搭載一個英偉達的板卡，就可以部署一個小如 1B 的模型。目前理想汽車就已經能夠在英偉達的板卡上部署 2B 的模型。

這種做法既能保持住大模型的能力，也可以更高效地部署。

也有像 RockAI 這樣的廠商，基于非 Transformer 架構在一些搭載了純 CPU 或 CPU+NPU（低端芯片）的機器人上跑起來，來降低算力要求和功耗。（關于非 Transformer 架構的更多內容，可以閱讀 AI 科技評論往期報道：《誰將替代 Transformer？》）

另外，由于芯片有迭代周期，需要三年、五年甚至更長的時間。雖然有說法認為，小模型跑在端側上的壁壘是芯片，但并不是說芯片廠商研發出了最新的芯片，第二年所有設備廠商就會更新換代。

基于此，市場的機遇則在于存量市場，換言之就是，有沒有大模型廠商能在現有算力的基礎上滿足機器人的智能需求。

RockAI 也在做這方面的布局，鄒佳思告訴 AI 科技評論，「我們現在做端側和高通、聯發科、英特爾、ARM、華為的芯片都有適配過，用了四個月時間完成了華為昇騰 910 和 310 系列芯片的適配工作，包括訓練卡和推理卡。」

「樂聚之所以選擇與我們合作，也是因為我們能做他們的存量市場。這意味著他們不需要等高通或英特爾發布更高性能的芯片才能跑模型，這樣是有問題的，因為相當于還得等硬件先發展。」

所謂芯片適配，其實是現階段為了對芯片的 AI 算力進行充分利用，讓模型運行更加高效，必須針對模型架構、依托芯片計算單元特點，對推理框架進行優化。

這項優化工作不僅需要對芯片計算單元、推理算子有足夠的理解，還需要對模型結構有足夠的認知，因此需要芯片廠商與模型公司共同協作才能快速推進。

也有觀點認為，現在很多端側模型無法落地，不是因為機器人的硬件不行或需求不足，而是大模型的技術還不夠成熟和完善，所以無法觸及到那么大的市場。

不過，雖然通過現有芯片也能做許多圖像、音頻等處理，但有些任務還是需要突破芯片困局后才能進一步實現，比如實時捕捉視頻、識別實時視頻流這一點，依靠現階段的芯片性能便無法實現。

舉例來看，讓機器人描述在環境里看到了什么，它實際上看到的是一張照片，如果在它面前做一個打叉的手勢，因為這個手勢是連貫的動作，機器人可能捕捉不到（因為只能識別圖片），只能捕捉到其中一個動作，那么它也許就無法理解這個動作的意思。

而要想識別視頻流、捕捉中間動作過程，則對算力有著極高的要求。

「視覺這塊我們現在做不上去，有更高算力芯片后就會好辦了。哪怕是基于 9400 芯片，當前的大模型廠商都很難把視頻能力放上去。」有機器人領域從業者告訴 AI 科技評論。

所以，芯片廠商實現高端芯片的突破，將芯片做到高算力、低功耗并行也是當下所需，芯片的躍升會給模型帶來更多機會。

值得一提的是，電池廠商輔助延長續航也十分關鍵，但遺憾的是，如今的電池廠商在機器人市場還未發力，這歸根到底是機器人市場不夠廣闊所致。

有業者向 AI 科技評論透露，「目前發展較好的機器人廠商一年出貨量能有幾百臺已經算很高了，但對于電池廠商而言，這種程度的出貨量遠遠不夠，在他們看來不值得投入大量金錢與人力去做技術突破。」

最終，回歸到出貨量的破局，這方面還得靠機器人廠商自身拿主意，首先就是要本體做得足夠更好，穩定性高，能克服各種復雜惡劣地形，覆蓋多種場景等。

目前，PC、手機端也有端側模型，但后者的出貨量很顯然遠大于機器人，數據量也會更大。

如此來看，端側芯片的迭代會更多放在手機、PC 等硬件設備上，機器人側的芯片迭代速度會更慢，無法支撐模型需求，模型的迭代也會受險阻，而算法迭代減緩，機器人智能水平迭代減緩，出貨量就更小。

在業內的構想中，如果能解決出貨量的問題，之后量產得到提升，隨之場景也能增多，如若一年能量產上千上萬臺，自然而然會有上游廠商找過來，資源也會跟著涌進來。

不過，值得一提的是，PC、手機端的競爭正逐步走向白熱化，因為其端側模型已經走向自研。據 AI 科技評論了解，vivo 的云端模型是基于智譜做的，但本地是完全自研的。

這也意味著機器人側大模型的創業空間會比較大：在對于端側模型的需求上，機器人最主要的交互方式是語音和視覺，核心訴求是實現擬人化，即整個交互下來機器人更像是個人，手機則無需特別擬人，主要是完成日常工作，目前發力點在于打通系統應用。

長期來看，模型廠商、芯片廠商與機器人廠商都還有很大的探索提升空間，面對當下存在的量產不足、芯片困境以及數據量不足，以至于難以提升智能水平的閉環問題上，亟需三方積極向彼此靠攏，并有一方跳出來主動破局。雷峰網雷峰網(公眾號：雷峰網)

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

朱可軒

編輯

發私信

當月熱門文章