從零教你寫一個完整的GAN

本文作者： AI研習社

編輯：賈智龍

2017-04-27 16:24

導語：GAN這么火，不想自己復現一下么？

導言

啦啦啦，現今 GAN 算法可以算作 ML 領域下比較熱門的一個方向。事實上，GAN 已經作為一種思想來滲透在 ML 的其余領域，從而做出了很多很 Amazing 的東西。比如結合卷積神經網絡，可以用于生成圖片。或者結合 NLP，可以生成特定風格的短句子。（比如川普風格的 twitter......）

可惜的是，網絡上很多老司機開 GAN 的車最后都翻了，大多只是翻譯了一篇論文，一旦涉及算法實現部分就直接放開源的實現地址，而那些開源的東東，缺少了必要的引導，實在對于新手來說很是懵逼。所以兔子哥哥帶著開好車，開穩車的心態，特定來帶一下各位想入門 GAN 的其他小兔兔們來飛一會。

GAN 的介紹與訓練

先來闡述一下 GAN 的基本做法，這里不擺公式，因為你聽完后，該怎么搭建和怎么訓練你心里應該有數了。

首先，GAN 全稱為 Generative Adversarial Nets(生成對抗網絡), 其構成分為兩部份：

Generator（生成器），下文簡稱 G
Discriminator（辨別器）, 下文簡稱 D。

在本文，為了方便小兔兔理解，使用一個較為簡單，也是 GAN 論文提及到的例子，訓練 G 生成符合指定均值和標準差的數據，在這里，我們指定 MEAN=4，STD=1.5 的高斯分布（正態分布）。

這貨的樣子大概長這樣

從零教你寫一個完整的GAN

下面是數據生成的代碼：

def sample_data(size, length=100):
""" 隨機mean=4 std=1.5的數據 :param size: :param length: :return: """
data = []
for _ in range(size):
data.append(sorted(np.random.normal(4, 1.5, length)))
return np.array(data)

在生成高斯分布的數據后，我們還對數據進行了排序，這時因為排序后的訓練會相對平滑。具體原因看這個 [Generative Adversarial Nets in TensorFlow (Part I)]

這一段是生成噪音的代碼，既然是噪音，那么我們只需要隨機產生 0~1 的數據就好。

def random_data(size, length=100):
""" 隨機生成數據 :param size: :param length: :return: """
data = []
for _ in range(size):
x = np.random.random(length)
data.append(x)
return np.array(data)

隨機分布的數據長這樣

從零教你寫一個完整的GAN

接下來就是開擼 GAN 了。

首先的一點就是，我們需要確定 G, 和 D 的具體結構，這里因為本文的例子太過于入門級，并不需要使用到復雜的神經網絡結構，比如卷積層和遞歸層，這里 G 和 D 只需全連接的神經網絡就好。全連接層的神經網絡本質就是矩陣的花式相乘。為神馬說是花式相乘呢，因為大多數時候，我們在矩陣相乘的結果后面會添加不同的激活函數。

從零教你寫一個完整的GAN

G 和 D 分別為三層的全鏈接的神經網絡，其中 G 的激活函數分別為，relu，sigmoid，liner，這里前兩層只是因為考慮到數據的非線性轉換，并沒有什么特別選擇這兩個激活函數的原因。其次 D 的三層分別為 relu，sigmoid，sigmoid。

接下來就引出 GAN 的訓練問題。GAN 的思想源于博弈論，直白一點就是套路與反套路。

先從 D 開始分析，D 作為辨別器，它的職責就是區分于真實的高斯分布和 G 生成的” 假” 高斯分布。所以很顯然，針對 D 來說，其需要解決的就是傳統的二分類問題。

在二分類問題中，我們習慣用交叉熵來衡量分類效果。

從零教你寫一個完整的GAN

從公式中不難看出，在全部分類正確時，交叉熵會接近于 0，因此，我們的目標就是通過擬合 D 的參數來最小化交叉熵的值。

D 既然是傳統的二分類問題，那么 D 的訓練過程也很容易得出了

即先把真實數據標識為‘1’(真實分布)，由生成器生成的數據標識為’0‘(生成分布)，反復迭代訓練 D ------------ (1)

說 G 的訓練之前先來打個比方，假如一男一女在一起了，現在兩人性格出現矛盾了，女生并不愿意改變，但兩個人都想繼續在一起，這時，唯一的方法就是男生改變了。先忽略現實生活的問題，但從舉例的角度說，顯然久而久之男生就會變得更加 fit 這個女生。

G 的訓練也是如此：

先將 G 拼接在 D 的上方，即 G 的輸出作為 D 的輸入（男生女生在一起），而同時固定 D 的參數（女生不愿意改變），并將進入 G 的噪音樣本標簽全部改成'1'（目標是兩個人繼續在一起，沒有其他選擇），為了最小化損失函數，此時就只能改變 G 的每一層權重，反復迭代后 G 的生成能力因此得以改進。（男生更適合女生） ------------ (2)

反復迭代（1）（2），最終 G 就會得到較好的生成能力。

補充一點，在訓練 D 的時候，我曾把數據直接放進去，這樣的后果是最后生成的數據，能學習到高斯分布的輪廓，但標準差和均值則和真實樣本相差很大。因此，這里我建議直接使用平均值和標準差作為 D 的輸入。

這使得 D 在訓練前需要對數據進行預處理。

def preprocess_data(x):
""" 計算每一組數據平均值和方差 :param x: :return: """
return [[np.mean(data), np.std(data)] for data in x]

G 和 D 的連接之間也需要做出處理。

# 先求出G_output3的各行平均值和方差
MEAN = tf.reduce_mean(G_output3, 1) # 平均值，但是是1D向量
MEAN_T = tf.transpose(tf.expand_dims(MEAN, 0)) # 轉置
STD = tf.sqrt(tf.reduce_mean(tf.square(G_output3 - MEAN_T), 1))
DATA = tf.concat(1, [MEAN_T,
tf.transpose(tf.expand_dims(STD, 0))] # 拼接起來

以下是損失函數變化圖：