專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

本文作者：叢末

2019-11-16 17:22

專題：ICCV 2019

導語：ICCV2019 攜 7 篇論文參會！

雷鋒網 AI 科技評論：雖然 ICCV 2019 落幕已近兩周，但是這場對于華人研究者而言具備「轉折點」意義的國際學術頂會在大家心中掀起的波瀾，想必依舊未了。

在今年這場 CV 領域的學術盛宴中，我們一如既往地看到了不少長期活躍在國際學術舞臺上的華人研究者老面孔，與此同時，也有一些新面孔帶著豐碩的學術成果出現在了大家視線的聚焦點。

其中就包括今年帶了 7 篇論文參加 ICCV 的來自香港大學的羅平教授。作為一位在將深度學習應用到 CV 領域中做出了很多開創性工作的研究者，他的相關工作對于這一細分領域的研究者而言可能并不陌生：最早將深度學習用于行人、人臉分割、與人臉生成，首先提出 CNN 求解 MRF 用于語義分割等。與此同時，他做的人臉關鍵點工作還是多任務深度學習的代表性工作。

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

值得一提的是，羅平教授與今年在 ICCV 上獨占鰲頭的商湯科技也有著不少淵源和交集： 2011 至 2014 年在港中文攻讀博士時師從湯曉鷗和王曉剛兩位計算機視覺領域的領軍人物，2016 至 2017 年又曾在商湯研究院訪問任研究總監。

在 ICCV 現場，AI 科技評論也基于他本次帶來的工作成果跟他聊了聊，不僅如此，對話也談到了羅平教授最初開始研究將深度學習應用到 CV 領域的契機和背景以及湯曉鷗和王曉剛兩位老師對他職業生涯所帶來了影響。

以下為 AI 科技評論與羅平教授的對話實錄：

AI 科技評論：您的研究組今年在 ICCV 發表了 7 篇論文，主題涉及到深度表征學習、深度自學習、多目標對抗網絡等，其中哪幾篇是您比較看重的，采用了怎樣的方法，實現了怎樣的成果？

羅平：我們今年在 ICCV 發表的 7 篇論文中，涉及到白化和歸一化方法（Switchable Whitening）、結構化搜索 NAS、相機重定位、服裝圖片檢索、噪聲標簽自學習方法、網絡的攻擊和防御等研究主題。

其中比較重要的工作一個是關于連續單路徑結構化搜索，另一個是關于白化和歸一化的工作：

在結構化搜索的工作中，跟以往 DARTS 類的多路徑方法不同，我們做的是單路徑 NAS，這種方法的優勢是計算量比較低，缺點是表達能力也較低，即能夠搜索到的結構較少。對此，我們定義了卷積操作的連續可微空間，即把一些卷積操作建模成一個連續的可微模塊，這些模塊能夠表示任何卷積操作——即便是沒有被手動定義出來的操作也能表示，從而既能保證表達能力，又能夠通過單輪搜索保證較高的搜索速度。
另一項白化和歸一化工作叫做 Switchable Whitening。每個神經網絡都需要做歸一化，比如說 Batch Normalization（批量標準化），它其實是白化的一種特殊形式，而在這項工作中，我們將白化和歸一化進行了融合，可以為整個網絡的不同層和圖像學習白化和歸一化方式。此項工作，與探討前向傳播的計算和反向傳播的二階梯度優化算法有著不少聯系。

AI 科技評論：在完成論文期間有哪些可以分享的故事嗎？或者說遇到過哪些比較大的挑戰和困難？

羅平：挑戰和困難肯定是有的，這里可以分享下我的一個學生的故事，我們今年 ICCV 的 7 篇論文中，有 2 篇論文的第一作者都是他。

他本科期間學的專業側重物理，博士剛開始轉向現在的研究領域，適應得并沒有那么快，但他具備挖掘新問題的能力。例如他的從大量噪聲標簽中自學習特征表達（Deep Self-Learning From Noisy Labels）這項工作其實已經開展了一年，但是在這個過程中又發現了其他新的問題，例如網絡的攻擊和防御，所以他同時進行了這兩項研究工作，并在 ICCV 2019 上一下發表了 2 篇一作論文。

AI 科技評論：本次參加 ICCV 重點關注的工作有哪些？

羅平：我覺得今年 ICCV 有一些還不錯的文章，就比如最佳論文《SinGAN: Learning a Generative Model from a Single Natural Image》，雖然這篇論文受到了一些質疑，但我相信之后會有非常多的研究者去開展更加深入的研究，其中也包括我們團隊正準備投稿 CVPR 2020 的一篇文章。

AI 科技評論：今年 ICCV 華人在論文數量上的表現一如既往地出色，然而在獎項上卻稍有些遺憾，您作為華人研究者中的一員，如何評價華人在本次會議上的整體表現？

羅平：華人研究者論文數量很多，質量也很好。比如第一篇最佳論文提名得主（《Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation》）就來自華人團隊，另外愷明所在團隊的論文（《Deep Hough Voting for 3D Object Detection in Point Clouds》）也獲得了最佳論文提名。

與此同時，今年 ICCV 的 Workshop 很多都是華人組織的。比如說今年我們也組織了一個主題為「統計深度學習」的 Workshop，探索如何從更深的層次去解釋神經網絡。是本屆 ICCV 最大的 workshop 之一。

AI 科技評論：您在計算機視覺和深度學習做出了一系列開創性的成果，例如在 2012 年就開始將深度學習用于行人、人臉分割、與人臉生成等領域，您從什么時候開始做這個方向的研究？當時是基于怎樣的契機選擇這一研究方向？

羅平：我們 2011 年就開始做深度學習了，確實開始得比較早。湯曉鷗老師團隊算得上是亞洲計算機視覺領域最早進行深度學習研究的團隊。我一開始做的就是人臉生成，時間上相比于 2014 年提出來的 GAN 要早很多，我在 2011 年的第一工作主要是讓一個側臉的圖像直接恢復為一個正臉的圖像。

我和歐陽萬里老師是湯老師組里最早做深度學習的兩個人，一個在湯老師所在的信息工程系，另一個在王曉剛老師的電子工程系，也就是一個系一個人開始嘗試做深度學習，而當時也只有我們兩個人在嘗試，因為大家都不知道深度學習是什么以及能夠做什么。

我們也并沒有一開始就嘗試使用卷積神經網絡，因為大家開始關注到卷積神經網絡，其實是在 2012 年的 ImageNet 比賽上取得了很大的成功以后。我們最早的時候使用的還是一些例如玻爾茲曼機這樣的模型，而這種模型對于人臉生成和人臉分割方面的工作都有不錯的效果，當時整個組也逐漸意識到這應該是一個非常有前景的研究方向。

有趣的是，我們 2014 年在 NIPS（后改名 NerulPS）上發表的工作就是人臉生成的工作，即網絡可以輸入任意角度的人臉并輸出任意角度的人臉，而 GAN 也是在 2014 年發布的。

近幾年來，我個人的工作重點慢慢轉向一些基本的深度神經網絡的學習和分析，比如白化和歸一化、通過構造基本操作的連續可微空間改進單路徑網絡結構化搜索等。

AI 科技評論：您博士期間是從湯曉鷗和王曉剛教授，怎樣評價兩位老師對您研究生涯的影響？

羅平：我博士期間的導師是湯曉鷗老師和王曉剛老師，他們給我帶來的影響是非常大的，包括從論文選題到實驗到寫作風格，剛開始都需要通過學習和模仿來得到提高。

后來參加了很多不同的會議，例如 CVPR、ICML 上都可以讀到非常多風格不一的論文，通過持續學習然后就逐漸發展出了自己的風格，比如說我們團隊最近在 ICLR2019 發表的 2 篇論文、在 ICML2019 發表的 1 篇論文，都能夠反映出我們逐漸形成的一些風格和研究方向。

總而言之，對于湯老師跟王老師給我帶來影響，可以用「感恩」二字來概括。

AI 科技評論：了解到您在 5 年內發表論文 70 余篇，Google Scholar 引用 8000 多次，作為一位學術成果豐碩的年輕一代研究者，從學術論文的角度，對于其他后輩研究者有什么經驗或者說方法論可以分享的嗎？

羅平：對于一些學生，我想提到的一點建議是：盡量不要去摘一些唾手可得的果子。

有一些研究工作可能已經結出了比較成熟的果子，并且生長在比較低的位置，學生可以非常輕易地摘到，然而這樣的論文即便發表出來了影響力也不會很大，并且現在學生們發表的論文數量越來越多，比如我們在錄取 PHD 申請者的時候，除了看在頂會上發表論文的數量，還會參考真正做出的研究成果——比方說論文中研究的問題是否具有足夠的挑戰性、選題是否多樣、方法是否足夠創新。

最后附上羅平教授被 ICCV2019 收錄的 7 篇論文簡介：

1、Vision-Infused Deep Audio Inpainting

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

論文摘要：「多模態感知」對于發展交互式智能至關重要。在羅平等人的這樣工作中，他們提出了一個新的任務，即利用伴隨視頻信息修補丟失的音頻片段。

作者指出了兩個關鍵的問題：（1）要對聲譜圖進行操作，而不是對原始音頻進行操作，只有這樣才能夠更好地利用深度語義圖像修復的最新進展，才能夠超越傳統音頻修復的局限性；（2）若想合成視頻指導下的音頻，就需要將音頻和視頻進行同步學習，獲得音視頻的聯合特征。

為了便于進行大規模的研究，作者收集了一個新的多模態樂器演奏數據集 MUSIC-ExtraSolo（MUSICES）。他們通過大量的實驗表明，作者提出的框架能夠在有或沒有視覺環境的情況下，修復現實的和變化的音頻片段。更重要的是，其合成音頻片段與視頻片段是一致的。目前代碼、數據集和結果都已經公開。

資源鏈接：https://hangz-nju-cuhk.github.io/projects/AudioInpainting

2、Once a MAN: Towards Multi-Target Attack via Learning Multi-Target Adversarial Network Once

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

論文摘要：現代深度神經網絡通常容易受到對抗性樣本的攻擊，隨著第一種基于優化的攻擊方法提出，隨后又有一系列提高攻擊性能和速度的方法被提出。近年來，基于生成的方法受到了廣泛的關注，因為它們直接使用前饋網絡生成對抗樣本，從而避免了基于優化和基于梯度的方法中耗時的迭代攻擊過程。但是，當前基于生成的方法只能攻擊一個模型中的一個特定目標（或類別），它們并不適用于通常具有成百上千個類別的真實分類系統。

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

在這篇文章中，作者提出了一個多目標對抗網絡（Multi-target Adversarial Network, MAN），該網絡可以使用單個模型生成多目標對抗樣本。通過將指定的類別信息合并到中間特征（intermediate features）中，該模型可以在運行過程中攻擊目標分類模型的任何類別。

實驗表明，所提出的 MAN 模型在多目標攻擊任務和單目標攻擊任務中均能產生比以前最先進的方法更強的攻擊效果，并且具有更好的可傳遞性。作者進一步使用 MAN 生成的對抗樣本來提高分類模型的魯棒性。當受到各種方法的攻擊時，它還可以比其他方法獲得更好的分類精度。

3、Switchable Whitening for Deep Representation Learning

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

論文摘要：規范化方法是卷積神經網絡（CNN）的基本組成部分。它們使用在預定義像素集中估計的統計數據來標準化或白化數據。與為特定任務設計歸一化技術的現有工作不同，作者提出了可切換白化（Switchable Whitening，SW），它提供了統一不同白化方法和標準化方法的通用形式。

SW 學習以端對端的方式在這些操作之間進行切換，它有幾個優點：

首先，SW 為不同的任務自適應地選擇合適的白化或標準化統計數據，使其非常適合廣泛的任務而無需手動設計。
其次，通過整合不同規范化工具的優勢，SW 在各種具有挑戰性的基準測試中顯示出與同類產品相比的持續改進。
第三，SW 是了解白化和標準化技術特性的有用工具。

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

論文中，作者還證明了 SW 在圖像分類（CIFAR-10 / 100，ImageNet）、語義分割（ADE20K，Cityscapes）、域適應（GTA5，Cityscapes）和圖像樣式轉換（COCO）方面優于其他替代方案。例如，在沒有花哨（bells and whistles）的情況下，在 ADE20K 數據集上可以達到 45.33％mIoU 的性能。

代碼已公開：https://github.com/XingangPan/Switchable-Whitening

4、CamNet: Coarse-to-Fine Retrieval for Camera Re-Localization

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

論文摘要：在機器人技術和自動駕駛等應用中，相機重定位是一項重要且具有挑戰性的任務。最近，基于檢索的方法已被認為是一個有前途的方向，因為它們可以輕松地推廣到新的場景中。作者在這篇論文中提到，他們發現以前的方法性能存在瓶頸，原因在于檢索模塊。這些方法對檢索和相對姿勢回歸任務使用相同的特征，這在學習中可能存在沖突。專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

為此，作者提出了一種基于粗糙到精細（coarse-to-fine retrieval）檢索的深度學習框架。該框架包括三個步驟：1）基于圖像的粗糙檢索；2）基于姿勢的精細檢索；3）精確的相對姿勢回歸。

使用這個精心設計的檢索模塊，相對姿態回歸任務可以相當簡單。作者設計了具有批次硬采樣準則和兩階段檢索的新型檢索損失，以定位適合于相對姿態回歸任務的樣本。大量的實驗表明，這個模型（CamNet）在室內和室外數據集上都大大優于最新方法。

5、Fashion Retrieval via Graph Reasoning Networks on a Similarity Pyramid

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

論文摘要：匹配來自客戶和在線商店的服裝圖像在電子商務中具有豐富的應用。現有算法將圖像編碼為全局特征向量，并使用全局表示進行檢索。但是，關于衣服的歧視性本地信息卻被淹沒在這種全局表示中，導致性能欠佳。專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

使用圖推理比較全局相似度和相似度金字塔

為了解決此問題，作者提出了一種基于相似金字塔的新的圖論網絡（GRNet），該算法通過使用多個比例的全局和局部表示來學習查詢和圖庫之間的相似性。相似度金字塔由相似度圖（Graph of similarity）表示，其中節點表示不同比例的服裝組件之間的相似度，并且最終匹配分數是通過沿邊緣傳遞的消息獲得的。

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

在 GRNet 中，通過訓練圖卷積網絡來解決圖推理，從而可以對齊突出的服裝組件以改善服裝檢索。為了方便將來的研究，作者引入了一個新的基準 FindFashion，其中包含邊界框、視圖、遮擋和裁剪的豐富注釋。

實驗表明，GRNet 在兩個具有挑戰性的基準上獲得了最新的最新結果，例如，將 DeepFashion 的前 1 位、前 20 位和前 50 位精度提高到 26％、64％和 75％（絕對改善率分別為 4％，10％和 10％），在大邊緣（large margins）方面優于競爭對手。在 FindFashion 上，GRNet 在所有經驗設置上均取得了顯著的改進。

6、Differentiable Learning-to-Group Channels via Groupable Convolutional Neural Networks

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

論文摘要：分組卷積將 ConvNets 的通道分為幾組，與常規卷積操作相比，取得了令人矚目的改進。但是，現有模型（例如 ResNeXt）由于手動定義組的數量為所有層上的常數，所以會有次優性能的困擾。

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」

不同的卷積策略，其中藍色圓表示輸入和輸出，線表示他們之間的連接。

為了解決這個問題，作者提出了通過使用一種新的動態分組卷積（DGConv）操作而構建的可分組卷積網絡（GroupNet），這可以以端到端的方式學習分組的數量。這種方法具有幾個好處：（1）DGConv 提供了統一的卷積表示，并涵蓋了許多現有的卷積運算，例如常規密集卷積，組卷積和深度卷積；（2）DGConv 是一種可微且靈活的操作，可從訓練數據中學習執行各種卷積；（3）經過 DGConv 訓練的 GroupNet 為不同的卷積層學習了不同數量的組。

實驗表明，GroupNet 在準確性和計算復雜性方面優于 ResNet 和 ResNeXt。作者還首次進行了內省（Introspection）和可重復性研究，展示了訓練組數量的學習動態。

7、Deep Self-Learning From Noisy Labels

專訪香港大學羅平：師從湯曉鷗、王曉剛，最早將深度學習應用于計算機視覺的「先行者」