國內「端到端模型」能圍剿特斯拉FSD嗎？業內人士：我們技術至少晚了一年

本文作者：盧潔萍

2024-03-18 14:28

導語：端到端模型上車，給高階智駕劃開了一條新路徑，哪怕無法一步到位，但車企與Tier1依然義無反顧地投身到這場浪潮中。

“我們的原創性技術創新能力比較弱，一般都會跟隨國外頂尖廠商的先進技術路線去探索，比如特斯拉。悲觀地看，我們比全球最Top的技術進展晚了一年左右。”

智能駕駛算法方案商創始人宋文向新智駕直言。

“不過，端到端這條路線是清晰的，車企與Tier1一定會把現有的模型往端到端方向去做。”

2023年5月初，馬斯克在推特上表示，特斯拉將發布FSDV12版本，該版本將采用端到端的AI技術。

這是一種新型的AI模型，采用BEV+Transformer技術架構等方式來實現感知決策一體化，以達到輸入原始數據后便能輸出最終執行指令的效果。這項技術令該版本比以往減少了數十萬代碼，讓汽車在沒有數據連接的情況下仍可在不熟悉的路段地形上行駛。

如今，國內眾多車企與Tier1，幾乎無人不談端到端，這也成為車企和Tier1爭相殺出重圍的一條新路徑。

“做端到端，是順應趨勢”

自特斯拉公布FSD V12版本后，一股名為“端到端”熱潮席卷國內智駕圈，與此同時，BEV、Transformer、Occupancy占用網絡也成為業內熱詞。

如果把端到端比作高階智能駕駛要前往的終點，BEV+Transformer更像是旅途中的一座橋梁，也可將其視為一種工具，而Occupancy占用網絡則是一種可疊加使用的輔助“武器”。

2023年，特斯拉FSD V12展示了端到端模型上車的效果，這是建立在FSD V11所使用的BEV+Transforemer架構與占用網絡的基礎上來實現的。

特斯拉快節奏地發布新成果，使得國內主流車企與Tier1意識到這是一個未來趨勢，開始快馬加鞭地追趕。

在過去，智能駕駛從業者大多將整個自動駕駛任務劃分為感知、預測、決策、控制等模塊，由于每個模塊的技術棧相差很大，且難度高，所以每個工程師都獨立負責其中一或兩個模塊。

因此目前已量產的智駕模型，也大多采用傳統模塊化的架構，即按照感知、預測等功能來劃分成不同的多個小模型，每個模型都要單獨對其進行訓練和優化，且下游規控環節仍以規則為主。

與傳統模塊化架構不同的是，端到端模型是由多個小模型（即神經網絡）級聯而成，并且只需通過訓練這一個大模型，就能達到優化和提升各個功能模塊的能力，從而減少傳統架構下對逐一模塊訓練所帶來的研發成本。

一位算法方案開發工程師說到，“將感知與決策融合到同一個模型中，使得端到端模型能有效避免聯級之間的誤差值，無需任何人工規則介入，更加接近人類駕駛行為的高階智駕。”

國內「端到端模型」能圍剿特斯拉FSD嗎？業內人士：我們技術至少晚了一年

（新智駕整理制圖）

技術落地大戰爆發前夕，搶先一步的是學術預研。

2023年6月，上海人工智能實驗室、武漢大學及商湯科技聯合提出的《Planning-oriented Autonomous Driving》（以路徑規劃為導向的自動駕駛）獲得CVPR 最佳論文獎。

論文中， UniAD 框架被首次提出，成為業界首個感知決策一體化的自動駕駛通用模型。

基于此，研究人員將感知、預測和規劃等三大類主任務、六小類子任務（目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規劃）整合到統一的基于 Transformer 的端到端網絡框架下，實現全棧關鍵任務駕駛通用模型。

宋文認為，端到端模型上車，是帶領智能駕駛邁向高階的康莊大道。不管是Tier1還是車企，只要手握海量的有效數據、具備算法研發和工程落地能力，就能率先一步，領先同行。

因此，車企和Tier1們也不甘示弱，都在端到端模型這條跑道上發力沖鋒。

2022年10月，極越汽車開始重寫智駕系統的算法架構。在算法上，極越的BEV+Transformer架構是基于此前百度阿波羅的純視覺方案。

2023年12月，理想汽車完成了OTA5.0更新，從發布的 AD Max 3.0 來看，在端到端架構的支持下，理想汽車整合了BEV大模型、MPC模型預測控制以及時空聯合規劃等能力，還新增了Occupancy占用網絡算法。同時，理想還利用自研的神經先驗網絡NPN（NeuralPriorNet）為BEV打“補丁”。

此外，為了處理復雜的交通紅綠燈信息，理想汽車曾表示，其采用信號燈通行意圖網絡TIN（Traffic Intention Net）來解決，而TIN正是端到端模型。

2023年10月，毫末在AI Day上推出大模型應用，依靠其曾發布的DriveGPT，毫末可通過將圖文和文圖的交叉特征做匹配，再將其放到大語言模型中，針對形成于特征空間的搜索（query）特征。大模型可在不需做太多準備的情況下，根據場景需求將存量數據進行重新標注。

另據知情人士透露，早在2023年8月，元戎啟行就已將端到端模型上車。

正如宋文所透露，“實力強的企業將有望在1-2年內推出端到端模型，慢慢地，供應商與常規企業也會跟進，這是一個可以確定的趨勢。”

在各家競相追逐端到端模型上車之際，業界被反復追問——端到端模型是否會成為高階智能駕駛的技術終局？

云驥智行高級感知算法工程師兼端到端技術負責人王庭琛向新智駕表示，智能駕駛技術最終的發展方向應是更貼近人類開車的行為模式，至少與人類駕駛行為相似的模塊之間具有更強更緊密的關聯。

昇啟科技創始人兼CEO孫琪傳達出與王庭琛相似的觀點。

孫琪向新智駕指出，高階智能駕駛最終的技術架構應是完全端到端的方案，以毫米波雷達、激光雷達等多傳感器、多模態的輸入，作為端到端的輸入端，車輛的控制命令成為輸出端，跳過了中間的定位、預測、規劃、決策等模塊，只有輸入和輸出這兩端，這是將來的技術框架。

商湯絕影智能駕駛高級總監武偉認為，如果多模態的AI Agent能發展得特別充分，達到接近AGI程度的AI agent會是一個終極方案。然而，在到達終局狀態之前，使用專用的多模態大模型驅動的高階智能駕駛軟件系統，將會是比較理想的狀態。

武偉補充表示，在這種狀態里，科研人員可能需要使用海量的多模態數據，以從自監督和半監督中出來一個人類駕駛行為的模型。（端到端模型上車能否到達高階智駕技術終局，業界仍存各種觀點爭議，歡迎添加編輯微信lujiepinga交流）

端到端入局者：主機廠VS Tier1

端到端模型賽道上，正在“狂飆”的陣營可分為主機廠與Tier1兩大派別，他們分別手握算法與數據兩大“武器”。

車企最大的優勢在于積累了海量的C端用戶數據以及建立超算中心。

以特斯拉為例，特斯拉的“影子模式”隨時都在準備數據采集，該模式在采集車內車外動/靜態數據時，效率相對更高。而國內華為、小鵬、理想汽等車企均具備數采能力，并聯手設立超算中心。

小鵬與阿里云共建了扶搖智算中心，其訓練算力為600PFLOPS，理想汽車和火山引擎合作共建了訓練中心，算力為1200PFLOPS，蔚來汽車的”智算中心“算力則高達1400PFLOPS。

另外，小鵬汽車的XNGP搭載BEV視覺感知系統XNet和華為的ADS2.0，基本都訓練出了可實裝上車的車載大模型產品。

武偉表示，“車企的優勢在于數據，有些車企配置高階傳感器的車已經在路上行駛，基于這種方式，車企能利用好更多車輛的數據。此外，為了落地一些量產項目，車企采購了大量高精度地圖，這對研發端到端算法真值系統起到較大的促進作用。”

除了數據，算力也是車企比Tier1更具優勢的方面。

算法方案商工程師葉帆說道，在數據、算力與算法三大要素里，因為算力與資金實力有著緊密聯系，算力的實現門檻也許最低。“只要有足夠的渠道去購買足夠多的算力，用錢就能解決。與資金實力雄厚的車企相比，Tier1的資金實力較弱，所以在算力方面不占優勢。”

Tier1的優勢點，則或許在算法層面。

昇啟科技創始人孫琪表示：“通常來說，主機廠專注于集成類工作，且手握足夠大的數據量，Tier1則算法能力更強，因此，未來兩個陣營聯手起來，Tier1深度綁定主機廠，才能把各自的優勢發揮出來。”

事實上，從本質上看，使得兩者能互補的原因在于工作模式的不同，而不在于能力的差異。

車企的智能駕駛團隊通常服務于自身的量產項目，追求算法的可維護性與穩定性，這種開發模式注重產品的周期性管理和工程化落地，從而使得車企對于算法層面的更新并不敏感，大部分主機廠更傾向于謹慎跟隨行業內其他公司的進展。

而Tier1智駕廠商往往采取敏捷開發的原則，更擅長對新體系新架構進行嘗試和捕捉，因此在端到端模型上，供應商擁有先發優勢和試錯經驗。

但至于數據方面，王庭琛并不認為現在數據量是拉開車企與Tier1廠商差距的因素，他指出，“當端到端模型進入一個穩定使用的平臺期時，才會遇到數據量的瓶頸，但當到那個時期，Tier1的數據閉環和自動標注的鏈條也將變得更成熟。”

由于目前端到端模式還處于冷啟動階段，因此當下數據的質量比數量更為重要。在一定程度上，算法迭代速度也會成為制約企業競爭力的關鍵。

武偉以UniAD算法舉例表示，他透露道，“在整體冷啟動過程中，把數據質量以及模型訓練做好，并且能擁有較好的訓練方式，這些是關鍵。區別于BEV+Transformer體系相對較為收斂，端到端模型還處于快速的進化過程中，所以，算法迭代速度可能也會決定其競爭力的高低。”

黎明時刻尚遠，終局前夜該如何探索

如AI創業一樣，端到端模型走向技術落地，途中注定要經歷寒冬與黑夜。多位業內人士均表示，“ 這還需要很長一段時間，短短五到十年內很難實現 ”。

從已公布的案例來看，目前國內針對高階智駕的端到端模型尚未到達理想狀態，這體現在其各個模塊還包含著大量的人工先驗。

商湯絕影的交通研發總監武偉對新智駕表示，“現在的端到端模型中，還包含了用于做檢測任務、地圖任務、做預測等不同任務Transformer，并用Query方式進行連接。但人類開車時，并不會先檢測再跟蹤，繼而做地圖規劃，最后預測這些步驟。”

這些算法模塊是人為設計的，然后被開發者采用串聯的方式來實現端到端。因此，武偉認為，也許去除掉人工先驗的端到端模型，才是最優的方案。

不可否認的是，當下在感知端，小鵬、理想汽車、蔚來等車企都采用BEV+Transformer架構，而在下游規控環節仍使用規則，這使得國內新勢力們與特斯拉的端到端方案仍相差不少距離。

這是國內新勢力車企們要追趕的方向，更是智駕Tier1廠商的機會。

有業者對新智駕指出，要想更快地突出重圍拿到和車廠合作的機會，Tier1必須具備數據閉環能力。

這意味著Tier1必須擁有從數據采集、挖掘、處理、標注、模型訓練與優化，最終到模型部署這整個過程的能力。

這就需要Tier1讓量產車、采集車在路側實地采集交通場景，再通過技術手段還原成仿真場景，進入測試環節用于算法測試，進而更新和升級量產車。

數據閉環能力對Tier1來說，最直觀的體現是成本端。具體來看，就是可通過利用條件觸發的場景采集、云端自動標注以及自動化仿真測試等環節減少大量人工成本。

云驥智行王庭琛告訴新智駕，端到端模型訓練需要的樣本量以及對于場景豐富度的要求遠遠大于模塊化算法系統，使用傳統的人工采集標注數據方式不利于控制成本。

因此，Tier1自研數據閉環系統和云端測試平臺能有效降低模型訓練支出，更有利于加快對端到端模型的開發與迭代。

數據閉環，只是實現端到端模型落地的技術環節之一。端到端模型要從demo走向量產落地，那還需要經歷不斷的技術迭代階段。

以UniAD方案為例，端到端走向量產，需要在任務適配和數據采集方面下“功夫”。

首先，在任務適配上，端到端模型需要適配到現有智能駕駛落地的狀態，比如與現在智能駕駛基于行泊一體、城市無圖、城區領航輔助等技術方案適配。

如果端到端模型上車，則整個setting（設置）都需要做出改變，如車道保持、定速巡航等功能的實現都需要以某個固定速度或者某個導航目標任務設為前提，作為條件輸入。

比如原始的UniAD框架就是一個局部的高階智能駕駛方案，每一步都會給出一個行駛路線的信息，如加減速、轉向等數值指令，但由于這是局部的智能駕駛方案，如果人類司機不給它輸入信號并規劃路線，它就會一直進行車道保持的智能駕駛。

“而當UniAD方案真正與量產產品適配時，則需增加算法處理模塊，以接收和融合更多人類或車機系統的條件信息輸入。例如指令變道時的撥桿指令、導航地圖的路徑規劃指向等，定速巡航時的定速目標等。”武偉補充說道。

從這個角度看，當下的UniAD和量產落地的方案相比，兩者在問題的設定上存在一定差異，因此，武偉認為，在算法方案上，研發人員需要重新訓練該模型。

其次，數據采集方面，端到端模型這一環節非常復雜。

以UniAD為例，武偉透露，從感知、規控再到地圖，這三個環節數據采集的結果，整體都要實現匹配，這就對各玩家數據采集真值處理的精度、靜態和動態物體的匹配、時間戳與位置的對齊等都提出了很高的要求。

“這整個過程中也存在很多‘坑’，研發人員需要持續去解決，并建立一個數據壁壘。基于海量的數據積累，中間的網絡才能適用得更好。”武偉解釋道。

因此，從任務設定到數據采集，都是端到端模型在研發過程中需要不斷提升的。

這是一個循序漸進的過程。

毫末智行技術總監潘興提出了一個解決思路，“首先，某些場景條件下，若當前使用的方法在算法或應用層面已取得較好的效果，我們可繼續擴大場景范圍，或準備更多數據。

盡管在做完這兩步工作后依然會遇到新的問題，但可進而再解決問題，直到在新的場景范圍內取得更理想的效果，這是長期持續且相互迭代的過程。”（端到端模型部署上車還有哪些新的“解題思路”，歡迎添加作者微信lujiepinga交流）

完全端到端上車，尚需時日

顯然，抵達完全的端到端上車，需要漫長的試錯時間。

在這期間，端到端模型的發展會經歷一些過渡階段。正如王庭琛向新智駕說道，“由于龐大的網絡架構對于低算力芯片及小規模數據集并不友好，采用部分端到端的方案或許是當下折中的架構策略。”

折中的方案，同時還帶來了性價比優勢，這體現在算力消耗與部署可實現程度上。

王庭琛表示，使用同一個模型來完成目標檢測跟蹤與軌跡預測，這種綁定了感知和預測模塊的方案，反而不會增加更多的算力消耗，且能提升目標軌跡預測精度。

如今不少廠商都在端到端模型做創新的嘗試。在2024年CES上，Mobileye創始人Amnon Shashua就傳達了Mobileye對端到端模型新的理解及相關方法論。

Amnon Shashua表示，端到端系統可分為兩類版本。

第一種是輸入圖像，輸出的是對車輛的控制結果，它僅僅是一個單體引擎或者一個深度網絡，它接收圖像并輸出轉向和制動控制指令——這屬于完全端到端系統。

而第二種端到端系統則只負責感知。

這兩種版本都存在不同的優缺點。

完全端到端系統的問題在于缺乏透明度，我們不知道系統在做決策時到底在做什么。其次，我們沒有控制能力。第三點是平均故障間隔時間難以把握。

來看另一個端到端系統版本，它只和感知有關。由于駕駛策略和控制車輛這兩部分是人為可干預的，因此人類就把握了透明度和控制能力，但依然會存在一個問題——如何讓感知算法堆棧能達到很高的 MTBF（平均故障間隔時間）要求。

針對這個問題，Mobileye提出達到高MTBF的方法是，將端到端系統作為一個包含許多組件的系統當中的一個組件，各個組件互為冗余。

Amnon Shashua還表示，端到端解決方案包括可分解的方案，以及端到端系統方案。

其中可分解方案的優勢在于其特別擅長處理邊緣場景，而端到端系統方案則有利于提高舒適度，因為它為場景內所有物體創造了一致性，盡管它不擅長邊緣場景的處理。

因此，從國內車企與Tier1的現狀出發，在缺乏如特斯拉或Waymo那個級別的數據驅動的情況下，在主流架構下逐漸合并內部單元，進行部分端到端模型的部署，或許是更具有性價比的一種嘗試。

與此相似的路線，是使用各種各樣小的、級聯的端到端模型去替換已有的功能模塊。通過這種途徑，Tier1和車企推動級聯的端到端方案逐步進化到完整端到端模型，并實現上車，這成為一種必然趨勢。

孫琪向新智駕舉了一個例子，“感知、定位、預測、規劃、決策、控制等模塊都會被拆分為很多小的模塊，并把這些小模塊變得神經網絡化。盡管早期是級聯的端到端的神經網絡，但能慢慢過渡到最終一體化的端到端網絡，以逐步實現端到端模型落地。”

獲得解題思路之后，那么，“我們應該如何去評估一套好的端到端模型？”這是目前整個智能駕駛行業內，不管是車企還是Tier1都在試圖探索的問題。

王庭琛向新智駕表示，他認為，端到端模型上車最終的評估指標，還是要以閉環仿真為主。

閉環仿真，簡單而言，就是在planning規劃環節中，端到端模型能規劃出一條車行駛軌跡，而這條軌跡會對同個場景里其他車輛的行駛造成影響，該規劃結果的好壞，最終會直接影響整個場景里的行駛體驗。

結語

縱觀智能駕駛行業，降低成本與提升用戶體驗，成為車企與Tier1追求的長期目標。

端到端模型上車能否降低智駕成本以及上車后的潛力有多大，其核心是未來客戶對智駕體驗的預期。

不妨從不同場景出發來討論。

若客戶只追求在高速公路上一路向前駕駛，端到端模型上車與如今的智駕方案并不會產生本質的區別。如果客戶的預期是在城市復雜路況下駕駛，端到端模型上車能帶來安全、更接近人類駕駛的智駕體驗，那面向更高階的智駕功能，未來端到端模型上車所發揮的潛力會更大。

目前，端到端模型訓練需要高價的研發成本，包括大量的GPU設備、大規模多層次的數據標注、大算力端側計算平臺等，都給企業帶來巨額成本。

端到端模型的優勢，則在于其能夠為智駕方案帶來系統架構層面的提升。

因此，當未來端到端模型在業內實現量產并被廣泛使用時，其配套訓練和部署的成本也將有望被控制在車企與消費者可接受的范圍，從而在提升智駕體驗的同時，把降本落到實處。

此時此刻，對于高階智駕，車企與Tier1都踏上了追求安全、更接近人類駕駛體驗的征途。

而如今涌現的端到端模型，更像一條黑夜中新的路線，一種新的解題思路，端到端模型上車有望給用戶帶來的安全、高階智駕體驗，或成為車企爭先抵達的彼岸。

（應受訪者要求，宋文為化名。）

雷峰網#雷峰網(公眾號：雷峰網)#雷峰網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

盧潔萍

編輯

vx: lujiepinga，歡迎多多交流

掃描關注作者微信

發私信

當月熱門文章