0

雷鋒網 AI 科技評論按:自動駕駛是人工智能落地的重要應用之一,許多業界公司和學校實驗室都在以自己的方法研究自動駕駛系統。本次雷鋒網 AI 科技評論請到了許華哲博士介紹他們團隊研究的端到端自動駕駛系統。
許華哲是UC Berkeley 博士,師從 Prof. Trevor Darrell。對計算機視覺、自動駕駛、強化學習感興趣。本科畢業于清華大學電子工程系。

這次分享主要基于徐華哲和他的同學們發表的CVPR2017的收錄文章「End-to-end Learning of Driving Models from Large-scale Video Datasets」,這是對端到端自動駕駛的一個嘗試。除了文章本身,許華哲也會介紹學術角度上自動駕駛領域中有意思的任務和問題。

分享的內容包括:
自動駕駛的前世今生
許華哲他們發表的超大規模數據集
為了解決自動駕駛問題,如何用數學公式定義它
論文中構建的FCN-LSTM模型
論文中用到的新技巧“Learning with privileged information”,以及實驗結果

自動駕駛主要分為這樣幾類:基于規則的自動駕駛系統,端到端的自動駕駛系統(輸出直接是對車的操作),綜合性方法(Intermediate,決策系統的輸入是前處理系統的輸出)。最后還有一個研究方向是對未來會發生的事情做預測以便規避風險。

圖中是基于規則的自動駕駛系統的經典工作,檢測出路上的車和車道,然后進行決策。

基于規則的系統,好處是在工業界得到了廣泛使用,比如GoogleX的自動駕駛就是以基于規則的系統為主;以及系統的可解釋性非常強。不好之處是難以應對不確定的情況,以及在復雜的情況下無法對所有可能的操作進行建模。

完全端到端的方法中早期的典型工作是ALVINN,淺層神經網絡的結果已經表明端到端學習有形成自動駕駛系統的潛力。

Yann LeCun提出的DAVE已經可以回避路上的障礙物。

在2017年10月最新的文章中,已經可以通過高階的運動意圖對低階的實際駕駛操作進行條件(conditioned)控制,在許華哲看來已經是水平最領先的文章。

不過話說回來,這個領域影響最大的還是NVIDIA的這篇文章,第一次借助三個攝像頭用端到端的方法開起了真車。

端到端駕駛的好處是,模型可以直接對圖像輸入作出回應,不需要人類干預;壞處是,系統對于不同的車輛系統需要逐一校準,以及解釋性差

這項綜合自動駕駛系統的典型方法中,用深度學習方法學到一系列行駛中的路況信息,然后把這些路況信息輸入決策模型;決策模型中則可以再設定一些規則。


這種方法的解釋性介于端到端和基于規則的系統之間,但還是需要人工定義許多規則,仍然有“無法完全定義系統規則”的問題

未來視頻預測的目的是幫助訓練自動駕駛系統,效果還有很多提升的空間,但是許華哲認為與現階段各大自動駕駛平臺的自動駕駛模擬器相比,這方面研究的意義還有待討論。

接下來,值得聊的話題是數據集。大家都知道ImageNet對深度學習領域有著深遠的影響,因為它提供了檢驗算法的絕佳條件。

從近年的錯誤率顯著下降來看,大家都認為圖像分類問題是一個近乎于解決了的問題,ImageNet就在其中起到了非常大的貢獻。

那么,許華哲認為自動駕駛領域也需要一個起到同樣作用的數據集,它應當由眾包得到,應當是真實的、足夠難的、有一個明確的任務目標

對于任務目標,他們把它公式化為了一個預測車輛未來位置的問題。
這樣做的好處是,泛化性強,可以運用于對任意的車輛,也可以用未經過校準的數據;他們的模型是可以端到端訓練的;同時模型可以一次預測多個方向

模型中要預測的egomotion用方向角α和位移s描述,這樣也就不需要直接對車輛內的方向盤和踏板進行控制,簡化了系統的前期研究。

模型的數學定義如上圖,評估給定的狀態s和動作a的得分,其中s包括視覺信息和車輛的當前狀態;a可以是分離的幾個狀態,也可以是連續的數值輸出;最精確的是輸出6個自由度上的運動


下一個問題就是如何評估這個模型。借助數據集的話,借助語言模型里perplexity預測的思路,把過去的狀態作為序列,預測序列中的下一個元素
在他們的數據集之前,大家比較熟悉幾個數據集包括KITTI、Cityscape、英特爾的GTA。

KITTI的特點是數據量比較小,但圖像質量高,數據種類豐富,橫向很寬

Torcs是在游戲里采的數據

Cityscape是一個高質量的圖像語意分割數據集,但是并沒有放出對應的視頻

英特爾的GTA數據集也是以語意分割為主,雖然基于虛擬的游戲環境但是很逼真,可以看作最接近真實世界的游戲

幾個數據集做對比的話,場景的豐富程度上KITTI力壓所有數據集,其余更多方面則都有缺失

時長方面,Oxford的最長,圍繞城市采了200小時數據。

這幾個數據集都不算令人滿意。為了大幅度提升時長和豐富程度,許華哲他們想到了眾包的方法,與Uber合作,采集、使用了司機視角的視頻。這個數據集的特點是基于真實世界的、第一人稱視角,從右側樣例里可以看到內容也非常豐富。

最重要的是,這個數據集也是足夠長的,比現存的任何數據集都要多出2個數量級。

這樣對比下來,他們的數據集BDD-V就全面領先于其它的數據集

BDD-V數據集更多的指標如上圖,30fps/720p,包括了慣性傳感器IMU、陀螺儀Gyroscope、GPS和指南針的數據,而且是全面開放的。許華哲還偷偷透露,除了這個視頻數據集,他們還會同步發布其它用于駕駛任務的高質量、大規模數據集。

這里正式介紹文章中的內容,一張圖像輸入到模型中后,模型要判斷車如何行駛,最后輸出中綠色部分表示可能的動作的概率分布(離散或者連續)。

論文中使用的模型結構是Dilated Fully Convolutional Networks+LSTM+Segmentation Loss。FCN用來保留空間信息,LSTM對之前時間中的信息加以利用,Segmentation語義分割則是為了把車輛從背景中分離出來(這部分屬于Privileged Learning,等下還會講到)。

上圖顯示的是預測離散的車輛動作(也就是前后左右)的結果,G代表ground truth,P代表預測的結果。

對于紅綠燈也作出了合理的預測結果(黃燈時前進和停止一半一半,紅燈時預測結果都是停止)


對于預測連續的車輛動作,沿著路的時候能判斷出“不能右轉”,到了路口就有了更多方向的選擇

在連續預測中,有個重要問題是能否預測多個模態。可以看到,到了路口時預測結果明顯分為了兩個部分。



這里,為了更好地展示模型學到的特征,徐華哲從模型中抽出了conv-4層學到的特征。對于右側的街道圖,左側是模型注意力的heat-map;兩圖并不是完全對齊的??梢钥吹剑熊嚲€、紅綠燈、騎車的人和汽車(表現為兩個車輪)都獲得了很高的注意力。

Privileged Learning是指,模型一邊預測未來的運動,一邊訓練一個語義分割網絡,然后用語義分割網絡更好地幫助模型做運動預測。P1、P2是Baseline,P3是帶有Privileged Learning之后的結果,對圖中這樣“半輛車”的情況有更好的識別能力。

總結整篇論文
首先介紹了一個不依賴執行機構的自動駕駛通用模型
收集、公開了最大、最豐富的基于真實世界的數據集
提出了新的網絡架構,能夠輸出多模態行為
確認了Privileged Learning方法的有效性,進一步提升了預測效果
第一個長度可以和人類一生開車時間相比的訓練數據集
數據、模型和代碼可以在 https://github.com/gy20073/BDD_Driving_Model 看到。

未來他們也還會繼續采集、擴充數據集。目前總長度(最下方)大概是一個人一生開車時間的一半,未來希望擴充到10萬個小時。

同時他們也在改進模型,并在測試場地上把真車開起來。 秋天時他們也會再發一兩篇文章。
徐華哲最后還解答了幾個在線觀眾提出的問題。
完整視頻在這里
感謝嘉賓分享。更多分享請繼續關注我們。
雷鋒網 AI 科技評論整理
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。