^{}

<pre id="rbj18"></pre>

GluonCV — 計算機視覺的深度學習工具包

本文作者：奕欣

2018-04-29 08:20

導語：開發 MXNet 時候感覺最難的是什么。我會毫不猶豫的覺得「重復論文里的實驗結果」是最困難的一點。

雷鋒網 AI 科技評論按：本文首發于 ApacheMxNet，作者李沐， AI 科技評論獲作者授權轉載，經不改動原意的編輯。

起源

有人曾問我，開發 MXNet 時候感覺最難的是什么。我會毫不猶豫的覺得「重復論文里的實驗結果」是最困難的一點。舉三個例子：

Lin Min（Network in network 提出者）在 16 年的時候發現 MXNet 在 ImageNet 上面訓練的模型精度比 Torch 低 1%。為了 debug 這個事情甚至開發了一個插件可以在 MXNet 跑任意 Torch 的代碼來對比結果。最后發現原因是我們圖片裁剪后默認使用 JPEG 的 85 質量保存，改成 95 質量就可以補上丟掉的精度了。
在 Inception V3 論文出現后 Bing Xu（GAN 的作者之一）第一時間去重復這個工作。因為 Google 沒有公開代碼，而且論文里面細節不明確。幸好認識原論文作者可以問問題，但前后也花了好些天才重復實現出來。
我在 CMU 的博士導師之一（他在 Google 報告給 Jeff Dean）曾在一次報告里面說，他參與了一個內部的從 TensorFlow 前一代系統移植代碼的工作，發現在 TensorFlow 上精度死活丟了個點。前后花費了好幾個月時間找問題，最后發現是移植的代碼在使用圖片增強的時候順序跟原先不一樣。

三個例子的主人公都是頂尖的深度學習領域研究人員，但仍然很容易被一些細微的實驗細節耗費大量寶貴的時間。一個模型通常多達數十到數百層，不管是模型初始化和數據讀取都是隨機，每次訓練也需數個小時，這些都讓 debug 變得很困難。

當然，幸運的是，最近這些年隨著開源的深入人心，很多論文都可以找到開源的實現。對于大部分用戶來說不需要自己從頭開始實現一篇論文，去 Github 找個實現用就行了。但這個并不能解決所有問題：

網上的實現良莠不齊，很多都是新人練手之做。可能一大半不能重復出論文的結果
每個項目的實現多多少少有點不同，例如輸入數據格式，用什么樣的深度學習框架，代碼風格不一樣。每換一個項目上手成本很大。
個人維護的項目通常只關注在某些地方，例如只關心某個數據集上的訓練。但實際使用的時候大家會關心如何部署，如何換一個數據集訓練之類。需要花費時間做二次開發。
最后代碼維護者很容易棄坑。例如我博士期間寫過一些項目，但之后工作和生活重心轉移，沒有精力才去回復用戶的提問。對于用戶來說，如果碰到一個坑，如果不能很快的溝通維護者，很容易導致被小地方困住大量時間。

理解到這些痛點后我們幾位從事計算機視覺的小伙伴，Zhi Zhang (@zhreshold), Hang Zhang (@zhanghang1989), Tong He (@hetong007), Eric Xie (@piiswrong), 拍了拍腦袋說，那我們來動手做一個工具包來試著解決這些問題吧。