0
| 本文作者: 楊依婷 | 2025-12-18 14:29 |
2025年12月12-13日,第八屆GAIR全球人工智能與機器人大會在深圳·博林天瑞喜來登酒店正式啟幕。
作為AI 產(chǎn)學研投界的標桿盛會,GAIR自2016年創(chuàng)辦以來,始終堅守“傳承+創(chuàng)新”內(nèi)核,始終致力于連接技術(shù)前沿與產(chǎn)業(yè)實踐。
在人工智能逐步成為國家競爭核心變量的當下,算力正以前所未有的速度重塑技術(shù)路徑與產(chǎn)業(yè)結(jié)構(gòu)。13日舉辦的「AI 算力新十年」專場聚焦智能體系的底層核心——算力,從架構(gòu)演進、生態(tài)構(gòu)建到產(chǎn)業(yè)化落地展開系統(tǒng)討論,試圖為未來十年的中國AI產(chǎn)業(yè),厘清關(guān)鍵變量與發(fā)展方向。
GAIR 2025「AI 算力新十年」專場上,清華大學深圳國際研究生院副教授王智發(fā)表了題為《工業(yè)機理 × 大模型:行業(yè)大模型的系統(tǒng)約束與可控推理的研究進展》的主題演講,系統(tǒng)闡述了他對工業(yè)大模型訓推和落地實踐的核心判斷。

當智能制造從自動化走向智能化,工業(yè)大模型被視為關(guān)鍵一躍,卻也直面著真實產(chǎn)線中數(shù)據(jù)稀缺、算力受限、成本敏感的三重挑戰(zhàn)。這不僅是一個算法問題,更是一個需要貫通學術(shù)前沿與產(chǎn)業(yè)實踐的復雜系統(tǒng)工程。
在此背景下,清華大學深圳國際研究院的王智教授與其聯(lián)合團隊,選擇了一條“從場景中來,到場景中去”的攻堅路徑。他們依托國家基金委重點項目,聯(lián)合深圳信息職業(yè)技術(shù)學院、匯川技術(shù)等合作伙伴,在過去一年里,將研究扎根于工業(yè)質(zhì)檢、具身智能、程序生成等具體場景,試圖拆解并回應(yīng)那些最實際的問題:如何用大模型升級傳統(tǒng)規(guī)則系統(tǒng)?如何讓機器自主理解并執(zhí)行任務(wù)?如何在弱算力、弱網(wǎng)絡(luò)的工廠環(huán)境下,讓智能模型真正“跑起來”?
與單純追求模型規(guī)模的常見敘事不同,王智教授團隊的工作呈現(xiàn)出鮮明的“工程思維”與“成本意識”。他們的探索從底層的數(shù)據(jù)生成與表征優(yōu)化出發(fā),延伸至模型規(guī)劃、分布式訓練與推理加速的全鏈路,其目標并非打造一個萬能的“工業(yè)GPT”,而是構(gòu)建一套能讓大模型技術(shù)適配工業(yè)嚴苛約束、實現(xiàn)低成本高效部署的方法論體系。
這背后,是一個更為深刻的議題:當通用人工智能的浪潮席卷而來,工業(yè)領(lǐng)域究竟需要怎樣的大模型?它的知識如何注入機理與約束?它的智能又如何與機器人、產(chǎn)線、網(wǎng)絡(luò)環(huán)境協(xié)同共生?王智教授的匯報,正是對這一議題的一次階段性答卷。
以下為王智教授演講精彩內(nèi)容的精編整理,雷峰網(wǎng)(公眾號:雷峰網(wǎng))作了不改變原意的編輯:
非常榮幸能在此與大家分享我們的研究工作。
我們團隊承擔了國家基金委的重點項目,此次匯報主要涵蓋項目啟動大半年來取得的研究進展。需要說明的是,今天所展示的成果,是我們與深圳信息職業(yè)技術(shù)學院、匯川技術(shù)聯(lián)合團隊共同完成的。同時,我們也基于此基礎(chǔ),與普渡科技、越疆科技合作開展了深圳市重點研發(fā)計劃項目的研究,相關(guān)內(nèi)容也一并向各位匯報。
首先介紹項目背景。當前,智能制造正加速融入智能化元素,以工業(yè)大模型為代表的行業(yè)大模型已成為發(fā)展的必然趨勢,因此,針對智能制造行業(yè)大模型展開深入研究,顯得尤為迫切。

在本項目中,我們圍繞幾個關(guān)鍵方向開展了應(yīng)用示范探索:其一,如何將傳統(tǒng)基于規(guī)則的小模型質(zhì)檢方式,升級為大模型驅(qū)動的質(zhì)檢;其二,開展工業(yè)具身智能研究,推動大模型與機器人深度融合;其三,進一步探索大模型在工業(yè)編程領(lǐng)域的應(yīng)用——例如,能否讓大模型生成PLC程序,從而實現(xiàn)對整條產(chǎn)線的優(yōu)化?這是我們項目初期確立的幾個重點問題。

傳統(tǒng)模型在具有明確工藝機理、且受成本制約的工業(yè)場景中,存在一定的缺陷。我們通過梳理發(fā)現(xiàn),現(xiàn)有數(shù)據(jù)往往缺乏對工業(yè)機理、工業(yè)約束與成本約束的控制;同時,模型的訓練與推理也面臨算力與效率的雙重挑戰(zhàn)。這些不足,正是我們開展此項新研究的出發(fā)點。
接下來,我將以點線結(jié)合的方式,向大家匯報我們近一年來的研究進展及最新思考。我們主要針對三大挑戰(zhàn)展開攻關(guān):一是行業(yè)應(yīng)用中的數(shù)據(jù)短缺問題;二是工業(yè)模型重訓練與微調(diào)時算力網(wǎng)絡(luò)資源的不足;三是工業(yè)場景對推理效率的嚴苛要求。圍繞這些挑戰(zhàn),我們在四個方向進行了布局:數(shù)據(jù)制備、模型規(guī)劃、分布式訓練以及推理加速,其中特別聚焦于以視覺語言模型(VLM)、視覺語言動作模型(VLA)為代表的具身模型的加速。

首先是工業(yè)跨場景數(shù)據(jù)的生成與融合。這里我主要以具身智能與工業(yè)場景結(jié)合為例。現(xiàn)有數(shù)據(jù)多通過遙操、工廠記錄等方式采集,成本高、局限性大,且難以嵌入背后的工業(yè)機理知識。
為此,我們提出了虛實融合的數(shù)據(jù)制備智能體框架,旨在實現(xiàn)低成本、高質(zhì)量的合成數(shù)據(jù)生成。項目周期為三年,目前已完成約三分之一。
我們主要在以下三方面取得了進展:一是物理可靠場景的重建,經(jīng)歷了從影視、聲音、網(wǎng)絡(luò)至3D高斯的進展;二是結(jié)構(gòu)化場景的生成與編輯;三是探索利用大模型進行場景泛化與數(shù)據(jù)生成。相關(guān)工作已發(fā)表為論文,考慮到今天可能大部分觀眾來自產(chǎn)業(yè)界,在此選取部分內(nèi)容展開說明。

我們首先探索了利用NeRF(神經(jīng)輻射場)等隱式神經(jīng)表征來刻畫工業(yè)場景所需的多模態(tài)數(shù)據(jù)。這類表征具有跨模態(tài)兼容性強的優(yōu)點,能夠統(tǒng)一表達音頻、時序、3D及2D數(shù)據(jù),但其缺點是速度慢,因此我們的工作重點圍繞加速展開,包括優(yōu)化3D數(shù)據(jù)采樣方向、以及針對2D數(shù)據(jù)重點進行減枝與優(yōu)化,從而顯著提升了隱式神經(jīng)表征的效率。

然而,3D隱式神經(jīng)表達的速度瓶頸依然突出。為此,在第二階段,我們將重心聚焦于可視化3D數(shù)據(jù),并將研究范式從影視聲音表達過渡到3D高斯表征,但3D高斯模型體量較大,對大范圍場景進行表征和傳輸時,仍面臨存儲與帶寬的壓力。
我們在現(xiàn)有工作基礎(chǔ)上進行了拓展:當前研究大多集中于提升失真性能,卻難以在給定存儲大小限制下重建場景,我們重點解決了這一問題。
此項工作主要包含幾個部分:首先,通過測量分析,我們明確了3D高斯重建中與模型大小最相關(guān)的超參數(shù)及其影響關(guān)系,從而改變了傳統(tǒng)“先重建后優(yōu)化”的范式,轉(zhuǎn)向在訓練中直接針對高敏感度參數(shù)進行優(yōu)化。同時,我們在算子層面也進行了加速。圖中展示了我們的實驗效果,其核心優(yōu)勢是能將模型壓縮到足夠小。
在當前一味追求重建質(zhì)量的紅海競爭中,我們從延遲、帶寬與設(shè)備限制角度對3D高斯進行優(yōu)化,這一思路獲得了ACM Multimedia評委會的認可,成為1500余篇投稿中入選最佳論文候選的6篇之一。
我們相信,這項技術(shù)不僅可用于預(yù)訓練數(shù)據(jù)制備,也將推動沉浸式多媒體體驗的發(fā)展,其核心挑戰(zhàn)依然是帶寬與質(zhì)量之間的平衡。
前兩項工作主要關(guān)注數(shù)據(jù)的底層表征。在獲得表征后,還需將其編排成完整場景。為此,我們開發(fā)了基于大模型的結(jié)構(gòu)化場景生成與編輯方法。
首先,我們嘗試將場景結(jié)構(gòu)化為JSON或XML等格式,進而利用大模型進行編輯。當然,這不可避免地會產(chǎn)生“幻覺”問題。我們引入了一種力引導結(jié)構(gòu)來消除違背常識的布局,例如防止沙發(fā)嵌入墻體或物體姿態(tài)不合理。經(jīng)過優(yōu)化,我們能生成既真實又多樣化的場景布局。
擁有了場景和物體資產(chǎn)后,下一步便與本次會議的主題緊密相連:我們能否制備出真正有用的數(shù)據(jù)?這是對我們已有多個模塊的綜合應(yīng)用。核心問題很直接:能否不通過人工示教或遙操,就讓機器自主運動并完成任務(wù)?既讓語言類模型已經(jīng)有了泛化能力,我們又可以相對比較真實、快速地生成數(shù)據(jù),這是我們的初衷。
這個初衷想達到什么樣的效果?
我們拍攝一張實驗室真實場景的照片,不進行任何示教,就憑空仿真去生成一系列的這個行為記錄,用行為記錄數(shù)據(jù)對VLA模型進行微調(diào),它能否工作?
我們測試了這一流程的可行性。結(jié)果表明,該流程充滿希望,盡管目前仍存在一些邊界案例。模型已能識別操作點并泛化出運動軌跡,但偶爾仍會出現(xiàn)不滿足物理約束或動作不合理的情況。
在實驗室環(huán)境下,這樣生成的示教數(shù)據(jù)已經(jīng)具備實用價值。

例如圖示,完全無需人工示教,雖然生成的動作在重心平衡、操作點定位上存在偏差(如澆花時未考慮水杯滿溢狀態(tài)的重心變化),但模型成功率從零提升到了75%。我們甚至發(fā)現(xiàn),遙操100條數(shù)據(jù)與我們自動生成1000條數(shù)據(jù)所能達到的效果是相近的。
這是我們在不同場景下的實驗結(jié)果。目前受限于實驗室本體與場景的規(guī)模,我們希望未來能對此框架進行更大范圍的擴展。我們已經(jīng)部分解決了生成速度、任務(wù)泛化與場景編排的問題。展望未來,在不同本體協(xié)作的背景下,是否會產(chǎn)生新的有趣現(xiàn)象?我們也期待與各位同行深入交流。
在數(shù)據(jù)制備的最后部分,我們還探索了智能體級別、決策級別的數(shù)據(jù)制備。具體場景是:在具身智能研究中,多個智能體需協(xié)作完成任務(wù),如何制備這類數(shù)據(jù)?我們搭建了一個仿真環(huán)境,讓多個智能體在同一3D場景中協(xié)作,并記錄其交互數(shù)據(jù),作為未來訓練智能決策的基礎(chǔ)。
在此過程中,我們重點解決了智能體間的協(xié)作維護問題,設(shè)計了一種分布式信念結(jié)構(gòu),以實現(xiàn)高效通信。基于此,智能體能夠以盡可能少的通信量,協(xié)同完成打掃、收納、偵查、巡檢等任務(wù)。

第二部分,是針對工業(yè)機理約束的大模型設(shè)計。需要澄清的是,我們不是做基模的設(shè)計,而是研究如何利用大模型來編排策略、工具鏈及其他智能體。工業(yè)場景的核心約束之一是成本,這不僅指推理成本,更包括所串聯(lián)工具鏈本身的運行成本。為此,我們研究了融合拓撲約束與成本反饋的高效任務(wù)規(guī)劃方法。

這是我們的總體框架。傳統(tǒng)大模型調(diào)用工具也能完成任務(wù),但其產(chǎn)生的動作序列成本可能較高,例如導致機械臂不必要的彎折或調(diào)用高算力算法。
為控制成本,我們進行了兩方面設(shè)計:一是將各類工具Token化,使其能被語言模型像處理詞匯一樣進行編排;二是將任務(wù)執(zhí)行產(chǎn)生的成本消耗轉(zhuǎn)化為獎勵信號,通過強化學習過程來優(yōu)化工具調(diào)用策略。
大家可能會問:將大模型用于娛樂對話尚可,但在視頻處理、工業(yè)控制等嚴肅場景,其成本與延遲是否可接受?為此,我們與字節(jié)跳動合作了一個項目,針對視頻服務(wù)場景,研究大模型在帶寬預(yù)測、碼率優(yōu)化等任務(wù)中的實際效能。
基于真實數(shù)據(jù)的測試,我們發(fā)現(xiàn)了一些規(guī)律:
首先,大模型確實具備良好的泛化能力,能夠適應(yīng)網(wǎng)絡(luò)領(lǐng)域的任務(wù),我們對碼率自適應(yīng)、任務(wù)調(diào)度、帶寬預(yù)測三類任務(wù)進行了驗證。其次,在網(wǎng)絡(luò)任務(wù)中,模型性能似乎存在某種“縮放定律”提前飽和的現(xiàn)象,未必需要特別大規(guī)模的模型。此外,我們提出了大模型路由機制:并非所有任務(wù)都需經(jīng)過大模型處理,常規(guī)任務(wù)可直接由傳統(tǒng)規(guī)則或算法處理;只有當任務(wù)超出傳統(tǒng)算法能力范圍時,才路由至大模型,從而在某種程度上保證軟性的延遲上限。

第三部分,是關(guān)于弱算力、弱網(wǎng)絡(luò)環(huán)境下的分布式訓練。這部分研究起步稍晚,目前我們已完成流水線規(guī)劃和梯度壓縮方面的工作,目標是在算力網(wǎng)絡(luò)資源受限的條件下,更高效地利用資源對模型進行后訓練或微調(diào),以適應(yīng)不同場景需求。
這兩部分工作理論性較強。

我們改進了Top-k梯度壓縮方法,該方法雖能有效減少通信量,但在非獨立同分布數(shù)據(jù)場景下性能可能下降。我們提出了一種新的壓縮機制,使其在聯(lián)邦學習等場景下能達到與未壓縮相當?shù)氖諗啃阅堋?/p>
無論模型是預(yù)訓練還是微調(diào)得來,最終都需在類工業(yè)或工業(yè)場景中快速部署。我們重點針對具身智能模型(如OpenVLA框架)進行加速優(yōu)化。與通用語言模型相比,這類模型包含幾個顯著模塊:視覺感知、視覺語言理解(VLM)以及策略生成(通常基于擴散模型)。我們的工作可概括為對這三部分分別進行優(yōu)化,手段包括參數(shù)量化、輸入量化、通道剪枝以及KV Cache優(yōu)化。

首先,在視覺感知部分,其輸出數(shù)據(jù)受模型參數(shù)與輸入數(shù)據(jù)通道的共同影響,我們發(fā)現(xiàn)模型結(jié)構(gòu)與輸入數(shù)據(jù)之間存在耦合關(guān)系。因此,我們提出了一種多維度聯(lián)合輕量化方法,針對感知模塊進行加速:對于某些數(shù)據(jù),在數(shù)據(jù)層面進行剪枝對后續(xù)任務(wù)影響更小;而對于其他數(shù)據(jù),則更適宜在模型層面進行過濾,這些特性能夠在我們框架中被自動學習。感知數(shù)據(jù)輸入后,需經(jīng)VLM處理。我們對此也進行了優(yōu)化,主要發(fā)現(xiàn)時間與空間維度可以聯(lián)合壓縮:在VLM感知階段,Token序列具有關(guān)聯(lián)性,不可隨意混排;同時,不同Token的重要性也不同。我們據(jù)此提出了時空聯(lián)合壓縮優(yōu)化框架。
接下來是策略生成部分的擴散模型加速。
值得一提的是,在我們實驗室的測試中,前端的感知與VLM部分耗時約占3%,策略生成部分約占1%,但兩者均有加速空間。對于擴散模型,我們主要通過緩存機制,以存儲換計算。我們的特點是將KV Cache的粒度細化至“塊”級別,這雖然增加了緩存單元的數(shù)量,但也為優(yōu)化提供了更細的指導。我們摸索出了“塊”在時序上的參考規(guī)律。
初步實驗表明,在算法相同的情況下,僅優(yōu)化“塊”緩存策略就能帶來顯著的速度提升。
進一步地,我們不僅利用“塊”在時序上的參考性,還探索了同一transformer模塊內(nèi)不同“塊”之間的空間參考性。我們發(fā)現(xiàn),同一空間內(nèi)的“塊”也具備相似性,可相互參考,從而進一步節(jié)省計算,我們還觀察到一個有趣現(xiàn)象:在動作生成過程中,只需參考后續(xù)的部分“塊”,而對前面序列的參考可以大幅減少。
下面簡要介紹我們在專項任務(wù)中開展的應(yīng)用場景示范。
首先,針對智能產(chǎn)線機器人。我們?nèi)诤鲜窘虜?shù)據(jù)與生產(chǎn)數(shù)據(jù)對模型進行微調(diào),再結(jié)合前述加速技術(shù),逐步解決單點問題,最終集成為復雜的工程系統(tǒng),使其能在真實產(chǎn)線場景中可靠工作。
第二,針對質(zhì)檢任務(wù)。我們利用大模型進行工具調(diào)用。在某些行業(yè)企業(yè)中,質(zhì)檢部門已積累了成百上千個檢測工具,我們的方法能結(jié)合成本考量,智能調(diào)用這些現(xiàn)有工具鏈。
最后是總結(jié)與展望。
我們的工作是從通用大語言模型向工業(yè)大模型過渡的探索。我們發(fā)現(xiàn),工業(yè)大模型在數(shù)據(jù)層面需要融合3D信息與物理約束,場景需多樣化;在訓練層面需適應(yīng)弱網(wǎng)弱算環(huán)境;在訓練與推理層面,均受到效率與具體場景的嚴格限制。
我們承擔的重點專項隸屬于國家基金委工業(yè)互聯(lián)網(wǎng)方向。結(jié)合工業(yè)互聯(lián)網(wǎng)與邊緣網(wǎng)絡(luò)的發(fā)展趨勢,我們未來兩至三年的重點攻克方向包括:模型加速、語義通信、網(wǎng)絡(luò)自主化以及多智能體協(xié)同等。
以上是我今天的分享內(nèi)容,涵蓋了我們團隊的開源項目進展及實驗室成果轉(zhuǎn)化情況。
謝謝大家。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。