0
| 本文作者: 岑大師 | 2017-10-31 05:56 | 專題:ICLR 2018 |
雖然ICLR 2018將公開評審改成了評審人和作者相互不知道雙方信息的雙盲評審,但論文的投稿者仍然可以通過其他公開渠道對其論文進行推廣。尤其對于大公司研究院來說,早早公開自己的論文能比盲審有額外加成,例如雷鋒網就注意到,就在上周五ICLR論文投遞截止后不久,NVIDIA在Blog上就發布了一篇通過生成對抗網絡(GAN)產生獨特面孔的新方法,這篇論文正是NVIDIA投遞到ICLR的論文之一。

論文題目:Progressive Growing of GANs for Improved Quality, Stability, and Variation
摘要:在本文中,我們描述了生成對抗網絡(GAN)的新的訓練方法。 關鍵思想是通過漸進的方式訓練生成器和鑒別器:從低分辨率開始,我們逐步添加新的層次,從而在訓練進展中增加更精細的細節。 這既加快了訓練速度,又能增加訓練的穩定性,從而使我們能夠制作出前所未有的質量的圖像,例如用1024x1024像素的CelebA圖像(雷鋒網注:CelebA是香港中文大學發布的20多萬的名人人臉數據庫,被很多算法用來訓練)制作更高精度的數據集。 我們還提出了一種增加生成圖像變化的簡單方法,并且在無監督的CIFAR10中實現了創記錄的8.80的初始分數。 此外,我們描述了幾個實現細節,這些細節對于抑制生成器和鑒別器之間的不健康競爭非常重要。 最后,我們提出了一個新的衡量GAN結果的指標,無論是在圖像質量和變化方面。 作為額外的貢獻,我們構建了更高質量的CelebA數據集。
在論文中NVIDIA稱,在從高維數據分布生成新樣本的方法在圖像領域中被廣泛使用,主流算法包括自回歸模型(Autoregressive Models)、變化自動編碼器(VAE)和生成對抗網絡(GAN)。這幾種算法都有著各自的優勢和劣勢:自回歸模型(如PixelCNN)能產生清晰的圖像,但評估速度較慢,而且由于其直接對像素的條件分布直接建模,因此沒有潛在的表征,這也進一步限制了其適用性;VAE易于訓練,但生成的結果往往是模糊的;GAN可以生成清晰的圖像,但在分辨率上只能有小范圍的變化,而且質量一直不穩定;混合方法可以結合上述三種方法的優勢,但在圖像質量上仍落后于GAN。
NVIDIA的主要改進方法是使用改進的Wasserstein Loss(關于用Wasserstein GAN生成圖片請參閱雷鋒網之前文章:《令人拍案叫絕的Wasserstein GAN》),同時也嘗試最小二乘法損失。由于生成高分辨率圖像之所以困難是因為這一過程中會極大放大梯度問題,而且由于內存的限制,大圖片還要分割成若干塊分別計算,從而影響了訓練的穩定性。而NVIDIA的做法是從簡單的低分辨率圖像開始,在訓練時逐步添加更高分辨率細節的層次,從而大大加快了訓練和提高高分辨率的穩定性。
讓我們來看一下圖片生成的效果。
下圖是訓練開始2個多小時候,8X8的效果。

經過11個多小時訓練后,生成圖片分辨率提升為32x32,已經能看出面孔的輪廓了;

訓練16天后的1024x1024分辨率圖片:

NVIDIA還專門準備了一部關于這篇論文的說明短片,更加直觀說明了這一算法的具體效果:
據雷鋒網了解,這一方法也可以用來生成非常精細的物體和風景照片、以及圖像軟件中的變化效果等。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。