0
雷鋒網 AI 研習社按,DeepLab 是一種用于圖像語義分割的頂尖深度學習模型,其目標是將語義標簽(如人、狗、貓等)分配給輸入圖像的每個像素。經過三年左右的發展,目前 DeepLab 具有如下功能:
DeepLabv1:結合深度卷積神經網絡,使用空洞卷積(atrous convolution)進行語義分割
DeepLabv2:基于 DeepLabv1 的優化,使用空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)對物體進行有效的分割
DeepLabv3:采用多比例的帶孔卷積級聯或并行來捕獲多尺度背景,基于圖像特征優化 ASPP
DeepLabv3+ :對 DeepLabv3 的擴展,包括一個簡單而高效的改善分割結果的解碼器模塊
目前來說,在圖像語義分割上,DeepLabv3+ 已是業內頂尖水準。就在近日,谷歌宣布開源 DeepLabv3+,語義分割研究黨的福利來啦。
雷鋒網 AI 研習社將相關信息編譯整理如下:
語義圖像分割(Semantic Image Segmentation)是為圖像中的每個像素分配一個語義標簽(如「路」、「天」、「人」、「狗」)的任務,能應用于新的應用程序中,例如基于 Pixel 2 和 Pixel 2 XL 智能手機肖像模式產生的淺景深效果,手機實時視頻分割。分配這些語義標簽需要精確定位物體的輪廓,因此比其他視覺實體識別任務(例如圖像分類或邊框檢測)有著更嚴格的定位精度要求。

今天,我們很高興地宣布將谷歌目前最新的、性能最好的語義圖像分割模型——DeepLab-v3+開源(在 TensorFlow 中實現)。這一次的發布包含建造在一個強大的卷積神經網絡(CNN)主干架構之上的 DeepLab-v3+ 模型,用于服務器端部署。
此外,我們還公開了 Tensorflow 模型訓練和評估代碼,還有已經在 Pascal VOC 2012 和 Cityscapes 語義分割任務上預訓練過的模型。
自從 3 年前研究出 DeepLab 模型,我們不斷改進 CNN 的特征提取器,實現更好的對象尺度建模,對上下文信息的進行更好的吸收,改進訓練程序,應用越來越強大的硬件和軟件,這些使 DeepLab-v2 和 DeepLab-v3 得到不斷改進。
在使用 DeepLab-v3+時,我們可以通過添加一個簡單但有效的解碼器模塊來擴展 Deeplabv3,從而改善分割結果,特別是用于對象邊界檢測時。我們進一步將深度可分離的卷積應用于空洞空間金字塔池化(atrous spatial pyramid pooling)和解碼器模塊,從而形成了一個用于語義分割的更快速、更強大的編——解碼器網絡。

基于卷積神經網絡(CNNs)的現代語義圖像分割系統已經達到了精確的水平,這在五年前是難以想象的,這要歸功于方法、硬件和數據集的發展。
我們希望與廣大的研究社群分享我們的系統,這樣一來,學術界和工業界的團體能夠更容易地復制和改進現有系統,在新的數據集上訓練模型,并為這項技術設想新的應用。
GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab
相關論文:
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
Xception: Deep Learning with Depthwise Separable Convolutions
Deformable Convolutional Networks — COCO Detection and Segmentation Challenge 2017 Entry
Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
Rethinking Atrous Convolution for Semantic Image Segmentation
雷鋒網 AI 研習社編譯整理。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。