0
| 本文作者: 奕欣 | 2018-03-07 11:34 | 專題:CVPR 2018 |
雷鋒網 AI 科技評論按:本文作者為美國伊利諾伊大學(UIUC)張曉帆,他為 AI 科技評論撰寫了基于 CVPR 錄用論文《CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes》的獨家解讀稿件,未經許可不得轉載。
論文地址:https://arxiv.org/pdf/1802.10062.pdf
來自北京郵電大學和美國伊利諾伊大學(UIUC)的研究者們提出一種適用于密集人群計數的空洞卷積神經網絡模型 CSRNet。該網絡模型擺脫以往廣泛應用于人群計數的多通道卷積網絡方案,在大幅削減網絡參數量和網絡訓練難度的同時,顯著提升了人群計數的精度和人群分布密度圖的還原度。該研究已被 CVPR 2018 接收。
人群計數和人群密度估計有著重要的安防應用場景。隨著城市人口的日益增長,在地鐵站,商場,各種節日集會中,超額聚集的人群帶來潛在危險,極容易造成踩踏、騷亂等悲劇。因此,人群計數和人群的密度分布估計成為安防領域的熱門課題。近年來,人群計數的算法性能在與深度學習的結合下得到了很大的提升。
人群計數的目的是找出特定場景中的人數,而人群密度分布估計需要獲取空間密度信息和人數(密度圖求和)。人群計數的難點在于,場景的變化跨度大,目標的尺度變化不盡相同,人和人、人和景物之間存在不同程度的遮擋等等。如圖 1 所示,三張圖均包含了 95 人,但是他們的空間分布完全不同。

圖 1 人群計數場景
作者研究發現,被廣泛運用在人群計數上的多通道卷積網絡(MCNN)存在著結構冗余、參數繁多、訓練困難的局限性。此類多通道卷積網絡在不同通道上采取大小不等感受域的卷積網絡,以適應不同場景(如高、中、低密集程度)的人群計數需要。但研究發現,不同通道學習到的特征重合度很高(圖 2),并沒有因場景密集程度不同而出現明顯差異。多通道網絡表現冗余。為作對比,作者采用一個參數更少、更深層、更易訓練的單通道卷積網絡(A deeper CNN),獲得比多通道網絡更好的效果(表 1)。
圖 2 多通道卷積網絡中的大、中、小通道在 ShanghaiTech PartA 中的測試表現相似
表 1 更深的單通道卷積網絡使用較少參數卻在 ShanghaiTech PartA 中獲得更小誤差
此外,作者為了避免過度使用降采樣而導致密度圖的分辨率損失,在網絡的后半部分引入了空洞卷積層,利用空洞卷積增大感受域并維持分辨率(圖 3),并提出 CSRNet 網絡模型(表 2)。CSRNet 后端四組不同的配置在 ShanghaiTech PartA 中性能測試如表 3。

圖 3 使用卷積+池化+上采樣(上)與空洞卷積(下)輸出同樣分辨率圖像,空洞卷積可保留更多圖像細節
表 2 CSRNet 網絡結構,卷積以參數命名為(conv kernel size – channel – dilation rate)

表 3 CSRNet 的四種后端配置在人群計數中精度對比,其中方案 B 精度最高
由于采用比多通道網絡更簡單的結構,CSRNet 在訓練時可直接采用端到端訓練并快速復現實驗結果,也可利用遷移學習提高訓練效果。得益于簡單、規整的網絡結構,CSRNet 對硬件實現更加友好,可以高效地部署在物聯網設備中。
實驗表明,CSRNet 在四個公開人群數據集(ShanghaiTech dataset、the UCF CC 50 dataset、the WorldEXPO'10 dataset、the UCSD dataset)和一個車輛數據集(TRANCOS dataset)上均達到了最高水平的精確度(State-of-the-art Performance),詳見表 4 至表 8。

表 4 ShanghaiTech 數據集測試結果
表 5 UCF CC 50 數據集測試結果
表 6 WorldExpo' 10 數據集測試結果

表 7 UCSD 數據集測試結果

表 8 TRANCOS 數據集測試結果
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。