0
近日,Facebook 發布了一項新的研究,該研究探索了實例分割的新方法。與掩模 R-CNN 驅動的標準方法相比,TunSoMeM 為探索分割研究提供了新的方向。本文是有關這項研究的具體內容。
研究內容:
我們引入了一個稱為 TensorMask 的新框架,它使用了一種密集的滑窗技術來進行非常精確的實例分割。TensorMask 設計了新穎的結構和算子,以豐富、有效地捕捉 4D 幾何結構密集圖像的表示。這是第一次使用這種方法,在質量和數量上取得與 Facebook 人工智能開創性的邊界框驅動框架 Mask R-CNN 并駕齊驅的成果。
工作原理:
最近,直接滑動窗口范式見證了邊界框對象檢測的復興,這種方法使得在不需要后續細化步驟的情況下,在單個階段準確檢測對象成為可能。但是,由于實例模板是復雜的二維幾何結構,而不是簡單的矩形,因此這種方法在實例分割任務中效果不大。當在二維規則網格上密集滑動時,實例遮罩需要具有尺度自適應大小的高維 4D 張量來有效表示。
Tensormask 使用結構化的、高維的 4D 幾何張量來實現這一點,這些張量由具有明確像素單位的軸的子張量組成。這些子張量啟用具有幾何意義的操作,例如協調變換、上下縮放和使用縮放金字塔。與此相反,以前的嘗試,如 DeepMask,使用了非結構化的 3D 張量,缺乏清晰的幾何意義,這使得表示更難操作。
為了在滑動窗口中有效地生成遮罩,我們使用各種張量表示,其中子張量表示遮罩值。例如,對齊的表示是這樣的:它的子張量枚舉重疊它所有窗口中的掩碼值。如下圖所示,對齊表示使使用粗糙子張量能夠更好地預測更精細的分辨率掩碼。

以前的掩模表示方法要么效率較低,要么容易產生偽影。TensorMask 提出的對齊表示對于密集、重疊的對象最有效。
我們使用 TensorMask 框架開發了 Tensor Bipyramid,這是一種新的金字塔結構,可以自然地捕捉任務的幾何結構,其中大對象在粗略位置具有高分辨率遮罩,小對象在精細位置具有低分辨率遮罩。利用張量雙錐結構的最佳張量矩陣模型達到 37.1 AP——代表平均值的標準度量——而掩模 R-CNN 對應物達到 38.3 AP。
為什么重要
與掩模 R-CNN 驅動的標準方法相比,TunSoMeM 為探索分割研究提供了新的方向。使用 TensorMask,對于高性能實例分割,不再需要邊框。這種新的、互補的方法有助于推進將目標和背景分割徹底統一為單一模型的研究。這項研究將有助于我們更廣泛地理解稠密掩模預測的任務,是不斷創新和建立更強大的圖像理解系統的重要組成部分。
閱讀全文:
雷鋒網雷鋒網雷鋒網
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。