0
從“換臉”到“生成漫畫臉”,AI在圖像合成方面的技術已經非常成熟了。
因為支持一鍵切換,而且效果逼真,之前抖音的一款「變身漫畫」特效還登上微博了熱搜,從明星到路人,近千萬用戶參與。國外也有一款「秒變迪士尼公主」工具網站,上線當天就因為訪問量過大而被迫下線。
它的火爆程度可以從這張效果圖來感受下。

從發型、面部輪廓到五官,妥妥地定制化動漫臉,感覺都不用后期處理就可以直接出演電影了。
不過,這件事也引起了一位AI藝術家Nathan Shipley的好奇心,AI生成漫畫臉如此逼真,那么反過來,將動漫角色轉化為「真人」效果會怎么樣?剛好最近國外研究團隊推出了一款通用版AI模型——Pixel2Style2Pixel(pSp)。
因此,Shipley便利用這款AI模型,嘗試將《超級總動員》《飛屋環游記》等電影中的經典動漫角色進行了轉換,結果也因效果太贊登上了Reddit熱榜。
這張《超級總動員》中的“飛毛腿”巴小飛,「真人版」形象也太有喜感了。

仔細看,它的頭發絲、眉毛等細節可以說轉化的相當不錯了。
還有彈力女超人—巴荷莉,超能先生—巴鮑伯,除了鮑伯夸張的動漫臉型,這些角色似乎可以在現實世界中找到替代演員了。


不過,到了《飛屋環游記》的小羅這里是不是出現了什么差錯??五官是沒毛病了,但這個發型......

其實是AI把小羅的帽子當做頭發識別了,結果就出現了這個亞子。有網友們調侃稱,這個"貓王發型”也是很酷了!
另外,不僅是動漫角色的真人化,這款通用AI模型還可以用在畫作上。如果說動漫角色真人化還有些卡通風,那么迭戈·里維拉(Diego Rivera)這兩幅畫像的還原效果,可以說是非常高質量了。


那么,這項技術是如何實現的呢?
Pixel2Style2Pixel (pSp),是一個圖像到圖像的轉換框架,由Penta-AI 和以色列特拉維夫大學的Elad Richardson、Yuval Alaluf等人在一篇名為《Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation》的論文中提出的。

具體來說, pSp 框架基于一種新的編碼器網絡,該網絡可直接生成一系列樣式矢量,這些矢量被送入預訓練的 StyleGAN 生成器中,從而形成可擴展的W+潛在空間。
pSp 是一個簡單的架構,它通過特征金字塔擴展了三個級別的特征映射,中間網絡map2style負責從輸入端提取樣式,然后將樣式按照一定比例傳送到生成器(SttyleGAN Generator)中,最后生成輸出圖像。值得注意的是,這個過程中完成像素轉換的“中間樣式表示”帶來了不依賴局部像素到像素對應的全局方法,而且該方法通過風格重采樣支持多模態合成。
總的來說,相較于傳統的StyleGAN模型,pSp新型編碼器架構在圖像合成方面取得了兩項進步,一是它能夠將真實面部圖像直接編碼到 W + 潛在域中;二是它能夠解決端到端的通用任務。
為了評估 pSp 框架在圖像到圖像轉換任務中的有效性,研究人員對常見的圖像處理任務,如面部正面化、條件面合成和超分辨率進行了測試。
該任務的目標是在潛在域中查找真實圖像的潛在代碼。研究人員將pSp與 ALAE 和 IDInvert 架構中的編碼器進行比較。其中,ALAE 基于 StyleGAN 的自動編碼器,與生成器一起訓練以生成潛在代碼。 IDInvert 是將真實圖像嵌入到預先訓練的 StyleGAN 的潛在域中,然后將圖像編碼為 W+,再對生成的潛在圖像進行優化。
從實驗結果來看,ALAE 在 W 域中的操作無法準確重建輸入圖像,而 IDInvert雖然稍好保留了圖像的原始屬性,但顯然它在更細節的處理上步入PsP模型。

由于缺少高質量且完整的人臉數據集,人臉正面化對圖像轉換框架來說是一項艱難的挑戰。在確保訓練和編碼器一致的情況下,pSp在處理這項任務時,從兩個方面進行了優化。一是目標增強,而削弱背景。
目標增強:pSp會隨機翻轉目標圖像,并生成一個與輸入圖像不一致的姿態。如果沒有這個圖像增強過程,模型將只會簡單地學習輸入圖像的編碼來匹配其姿態。
削弱背景:為了降低背景圖像對人臉的干擾,pSp降低了損失目標中的權值(如降低LPIPS和L2損失函數)
實驗結果如下:

在使用相同數據進行訓練時,pix2pixHD方法不能收斂到令人滿意的結果,因為它更多地依賴于輸入和輸出對之間的對應關系。相反,PsP能夠成功地在保持身份的同時生成逼真的正面臉。另外,在轉化過程中采用 3D 對齊的方法也有不錯的表現。
這表明,即使在無數據標記的情況下,基于風格的轉換機制能夠克服人臉正面化的挑戰。
它的目標是在指定輸入圖像下生成具真實感的圖像。比如從簡筆草圖中生成高質量人臉,條件圖像合成是一個單體映射,而理想的映射框架應該能夠為給定輸入生成多個不同的輸出,因此,pSp在其中采用了一種多模態的綜合方法。
另外,在草圖生成人臉的實驗中,常用方法要求輸入草圖與生成圖像之間的像素一一對應,以產生與輸入對齊的輸出。如果輸入不完整時,可能無法有效地完成草圖到圖像的轉化任務,如pix2pixHD。
從實驗結果來看,pix2pixHD處理抽象草圖的視角效果很差。對此,Psp提供一個專門的映射網絡。

與pix2pixHD相比,FaceDrawing繪制獲得了更滿意的效果,但它的多樣性仍然受到限制,相反Psp具有不同輸出的能力,而且更好地保留了細節(如毛發)。
該任務的目標是基于低分辨率(LR)輸入圖像轉化為高分辨率人臉圖像。常用方法是采用脈沖(PULSE)無監督的方式。具體而言,對于給定的LR輸入圖像,脈沖遍歷HR圖像流,以搜索縮小到原始LR圖像的HR圖像。
但不同的是,在這里研究人員重點研究了有監督方式下,應用pSp的解決效果。從實驗對比結果來看,pix2pixHD在16 X16的向下采樣,以及PULSE在8 X 8采樣時,在視覺上均存在明顯失真。而PsP均能在原始圖像的基礎上,獲得更有真實感的圖像。

另外,研究人員在論文中還展示了pSp模型在局部編輯、圖像修復和人臉圖像插值等應用中的效果,關于更多論文中的內容可參見:https://arxiv.org/pdf/2008.00951.pdf
最后這款AI模型已經在Github對外開源。

Github地址:https://github.com/eladrich/pixel2style2pixel
感興趣的朋友可以速戳鏈接體驗一下,看看你喜歡的動漫角色真人化后會是什么亞子~
引用鏈接:
https://twitter.com/CitizenPlain
雷鋒網雷鋒網雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。