0
| 本文作者: 楊曉凡 | 2017-11-22 14:48 | 專題:ICLR 2018 |
雷鋒網 AI 科技評論按:大家都知道,ICLR 2018的論文投稿已經截止,現在正在評審當中。雖然OpenReview上這屆ICLR論文的評審過程已經放棄了往屆的雙方身份公開,但仍然比其它會議“open”得多:論文內容、以及評審過程中的讀者建議和作者答復都是可見的。
隨著評審過程持續進行,近期也不斷有好的評審中的論文被分享到社交平臺上,研究者們得以先睹為快。NVIDIA甚至主動推廣了自己投遞的一篇論文,雷鋒網 AI 科技評論也對論文主要內容做了報道 NVIDIA論文:用GAN生成高清圖像 | ICLR 2018。
這兩天又有一篇精彩的論文被發現、分享出來,Ian Goodfellow也給了很真誠且正面的評價:



這篇論文名為「Spectral Normalization for Generative Adversarial Networks」(對抗性生成式網絡的光譜標準化),主要改進點在于GANs中鑒別器的表現控制。實際上,我們發現這篇論文的較為原始的版本在ICML2017的Workshop on Implicit Models上出現過,論文中的內容現在又有了明顯的增加和完善。
簡單來說,GANs這種網絡框架的目標是讓模型生成的數據分布模仿給定數據的分布,其中的生成器生成數據,鑒別器要分辨生成的數據分布是否是目標數據分布。訓練過程中交替更新生成器和鑒別器,目標是減小生成的數據分布和給定數據分布之間的區別,而這個區別是在訓練的每一回合中的最好的鑒別器測量得到的。近年來對GANs的研究也表明了鑒別器的訓練就等同于訓練一個生成和給定數據分布的密度比例估計器。
在GANs的訓練中有一個永恒的問題,就是鑒別器的表現控制。在高維空間中,鑒別器做出的密度比例估計往往不準確,而且在訓練中非常不穩定,生成器網絡也難以學到目標分布的多模態結構。更糟糕的是,當生成的和目標數據分布區域不相交的時候,就存在著一個能完美區分生成的數據和目標數據的鑒別器。一旦遇到了這樣的狀況、訓練出了這樣的鑒別器,生成器的訓練就基本停滯了,因為這樣產生的鑒別器的關于輸入的導數就成了0。這種情況讓作者們思考如何引入一些新的限制,避免訓練出這樣的鑒別器。
在這篇論文中,作者們提出了一種新的權重正則化方法,稱作“spectral normalization”(光譜標準化),它可以穩定鑒別器網絡的訓練過程。這種正則化方法的性質很讓人喜歡:
只需要調節Lipschitz常數一個超參數,而且想到達到令人滿意的模型表現也不需要反復調試僅有的這一個參數
方法的實現非常簡單,額外的計算開銷也很小
今年火熱過一陣子的Wasserstein GAN中提出了針對輸入樣本增加正則化項、從而限制鑒別器的Lipschitz常數,以提高訓練穩定性的方法。基于輸入的正則化方法有較為簡單的計算方程,但它們同樣有一些問題,就是如果不引入一些啟發式的方法就無法在生成器的數據空間和給定數據空間之外的空間中進行正則化。
這篇論文所提的方法在WGAN的思路基礎上,提出了一種新的方法解決其中涵待解決的問題,通過給網絡中每一層的光譜標準值增加實實在在的限制的做法,控制鑒別器函數的Lipschitz常數、標準化權重矩;同時借助「Spectral norm regularization for improving the generalizability of deep learning」提出的技巧,增加的計算開銷也不多。算法的詳細介紹篇幅較長,請點擊文末鏈接閱讀原論文。
Salimans & Kingma在「Weight normalization: A simple reparameterization to accelerate training of deep neural networks」中提出了權重標準化方法,它的代價是減少了鑒別器使用的特征的數量,這樣模型產生的數據分布就比較任意,只需要符合不多的幾個特征就可以騙過鑒別器;權重剪切的方法也會遇到類似的問題。而這篇論文的作者們希望鑒別器能夠盡量多地使用圖像中的特征,所以他們的光譜標準化方法可以讓參數矩陣盡可能多地使用圖像中的不同特征,同時還能滿足局部的1-Lipschitz限制。(雷鋒網 AI 科技評論注:SN-GANs盡可能多地使用了圖像中的特征,這是否就是Ian Goodfellow也想知道的它在大數據集上有出色表現的重要原因呢?)
Gulrajani 等人在「Improved training of wasserstein GANs」中結合WGAN的方法使用了梯度懲罰gradient penalty。他們的做法不會造成剛才說的特征空間維度的問題,但是對當前的生成數據分布具有高度的依賴性也是一個明顯的弱點。隨著訓練過程進行,生成的數據分布空間會逐漸變化,接著就會導致這種正則化方法的不穩定。實際上,作者們也實驗發現選用較高的學習率就會導致WGAN-GP的表現不穩定。作者們提出的光譜標準法方法針對的是操作空間的函數,受到訓練batch的影響更小,即便用很高的學習率也不會輕易不穩定。WGAN-GP的計算開銷也要高一些。
作者們基于小數據集 CIFAR-10、STL-10 和大數據集 ImageNet 分別進行了無監督和類別限定的圖像生成實驗,量化評分使用了inception score和Frechet inception distance(FID)。
與SN-GAN進行對比的方法除了上文提到的WGAN-GP(帶有梯度懲罰的WGAN)、WN(權重標準化)外,還有BN(batch normalization)、LN(layer normalization)、以及單獨使用梯度懲罰的GAN-GP。結果A-F是使用不同的超參數訓練的,DEF的學習率較高。
小數據集結果

從圖中可以看到,SN-GAN對不同的學習率有較好的健壯性,最佳成績也比所有其它方法都要好。

如果分別以每種模型的最優參數訓練,SN-GAN的表現也是最好的。(STL-10上訓練了SN-GAN兩次,因為收斂沒有那么快)


從生成的圖像可以看到,SN-GAN生成的圖像更清晰、更豐富,而且沒有像WGAN-GP那樣在高學習率下出現問題。
SN-GANs的表現分析
下圖顯示的是每種方法訓練得到的表現最好的網絡中的鑒別器的權重矩陣中的平方單值。根據前文的預測,用權重標準化方法訓練的網絡,前1到5層都只會集中在不多的幾種成分上,這幾層的權重矩陣就會在排名能力上弱一些。另一方面,用光譜標準化訓練的網絡中這幾層權重矩陣的單值就分布更廣一些。

當目標是分辨一對嵌入在高維空間中的低維非線性數據復合體的概率分布時,較低層的排名能力不強會變得尤其致命。網絡低層的輸出只經過了很少的非線性變換,這也就意味著它們多數時候都更多依靠線性空間。在這樣的空間中省略了輸入分布中的大量特征,造成的結果就是得到一個過于簡單的鑒別器。
訓練時間方面,SN-GANs的訓練時間只比權重標準化增加了10%~20%,仍然比WGAN-GP快多了。
基于 ImageNet 的限定類別圖像生成
為了驗證所提方法在大規模高維數據集中仍然有效,作者們用帶有1000個類別的ImageNet訓練了帶有類別條件的GANs,每個類別大概有1300張圖像,訓練時都壓縮到了128x128。

通過這張學習曲線就已經可以看到,幾種方法里只有SN-GANs能成功地被訓練。以實際生成來講,SN-GANs也是目前唯一一個能夠只用一對生成器和鑒別器就能從 ImageNet 數據集生成具有不錯質量圖像的方法。SN-GANs的模式崩潰狀況也要比AC-GANs好得多(intra MS-SSIM分數分別為0.101和約0.25)。
生成的圖像當然就很精彩啦,如下圖是部分類別的圖像


不僅畫面清晰、顏色生動、內容多數時候比較合理,圖像也有相當的差異性,乍一眼看過去就像是真實的圖像放在了一起。這些生成的圖片的inception score有21.9。也就是這些結果讓Ian Goodfellow感覺到大為震驚。
這篇論文中提出了用于增強GANs訓練穩定性的光譜標準化方法,生成的圖像比傳統的權重標準化具有更高的豐富性,也取得了與以前的研究相當甚至更高的inception score。這種方法與WGAN-GP提出的局部正則化不同,它對鑒別器施加了全局的限制,而且也可以與其它一些方法共同使用。在未來的研究中,作者們打算繼續從理論角度深挖這種方法的不同之處,并在更大、更復雜的數據集上實驗算法。
論文地址:ICLR評審中@OpenReview,其中有方法和相關佐證的詳細描述
早先ICML版本的TF實現:https://github.com/minhnhat93/tf-SNDCGAN
雷鋒網 AI 科技評論編譯。更多學術報道、精彩論文解讀,請繼續關注我們。
相關文章:
Ian Goodfellow與ICLR 17最佳論文得主新作:驗證與測試,機器學習的兩大挑戰
學界 | ICLR 2018截稿:取消公開評審改為雙盲引人關注
NVIDIA論文:用GAN生成高清圖像 | ICLR 2018
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。