從“無“到“有”到“退役”，李飛飛與ImageNet的八年“不解情緣”

本文作者：楊文

2017-07-28 11:28

導語：華裔AI科學家李飛飛與ImageNet的八年“不解情緣”

雷鋒網AI科技評論按：2017年是ImageNet挑戰賽舉辦的最后一年，夏威夷當地時間7月26日，作為ImageNet創始人之一的李飛飛和他的學生鄧嘉在CVPR 2017期間的一場workshop上做了主題演講，他們對ImageNet 八年來所走的路做了深情回顧和總結。以下是雷鋒網編輯整理。

ImageNet創辦至今共舉辦八屆挑戰賽，從最初的算法對物體進行識別的準確率只有71.8%上升到現在的97.3%，識別錯誤率已經遠遠低于人類的5.1%。

盡管ImageNet挑戰賽已結束了它短暫的生命周期，但ImageNet數據集還會一直存在，截止目前已經有超過1300萬張圖片，并且未來還會增長，繼續為計算機視覺領域做貢獻。

談及為什么提出建ImageNet數據集，李飛飛說“盡管很多人都在注意模型，但我們要關心數據，數據將重新定義我們對模型的看法”。

而時間也最終證明了李飛飛最初的想法是正確的，沒有能反映真實世界的訓練數據，再好的算法模型也沒有用。

ImageNet創立之初

2005年，李飛飛從加州理工大學拿到電子工程學博士學位后進入了學術界，開始在伊利諾伊州香檳分校擔任教職。那時她看到整個學術界和工業界重心都放在如何做出更好的算法，認為無論數據如何，只要算法好就會有好的決策。她意識到了這樣做的局限，并且想到了一個解決方法，就是做一個能詳細描繪出整個世界物體的數據集。她回憶起當時的情景深情地說道；“當時每個人對此都是一副懷疑的態度，但是 Kai Li（李凱，普林斯頓Princeton大學教授，美國工程院院士）做了兩件厲害的事情，他說：‘飛飛，你的教授生涯剛剛開始，你想要做的事情，我實驗室的所有的機器都可以拿來幫你，而且我還會給你一個學生。’如果沒有這樣的支持，我是沒辦法開始做 ImageNet 的。”

從“無“到“有”到“退役”，李飛飛與ImageNet的八年“不解情緣”

于是李飛飛、Jia Deng（鄧嘉，李飛飛的學生）等研究員在 CVPR 2009 上發表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文，沒過多久，這個數據集就迅速發展成一項競賽，通過對數據集中的物體進行識別，選出識別錯誤率最低的算法。

從“無“到“有”到“退役”，李飛飛與ImageNet的八年“不解情緣”

賽事一經公布，便有多家科技企業參與進來。2010年選出的第一界競賽優勝者，現在都出任了百度、谷歌和華為等公司高管（如林元慶，余凱，張潼）。馬修·澤勒（Matthew Zeiler）2013年贏得ImageNet挑戰賽后，在獲獎算法基礎上創辦了Clarifai公司，目前獲得了4000萬美元風險投資。谷歌與兩位牛津大學的研究者共同獲得2014年的ImageNet挑戰賽冠軍。隨后，牛津大學的兩位研究人員很快就被谷歌吸收，并進入谷歌收購的DeepMind實驗室工作。現在，參與ImageNet挑戰賽獲獎的企業和個人已遍布科技行業的每個角落。

ImageNet遇到難題

關于如何利用數據體現世界多樣性一直是當時李飛飛需要解決的難題之一，最終她留意到了WordNet。在WordNet里面，dog（狗）放在canine（犬科）下面，canine則會放在mammal（哺乳動物）下面，以此類推。這種語言組織方式依賴的是機器所能讀懂的邏輯，并由此匯集了超過15.5萬個索引單詞。李飛飛研究了WordNet后，就去找了一直從事WordNet研究的克里斯蒂安·菲爾鮑姆（Christiane Fellbaum）。菲爾鮑姆認為，WordNet可以為每個單詞找到一張相關的圖片，但主要是為了參考，而不是建計算機視覺數據集。通過那次見面以后，李飛飛設想了一個更大膽的想法——組建一個龐大的數據集，為每個單詞都提供更多例子。

李飛飛首先想到的就是雇傭本科生手工尋找圖片，然后添加到數據集中。但她很快發現，按照這樣的速度大約需要90年才能完成。

后來又想到能否讓計算機視覺算法從互聯網上選取圖片，人工來驗證圖片的準確性？但經過幾個月的研究后，發現同樣不可行——算法將會隨著時間的推移受到限制，只能在整理數據集時才能發現哪些算法具有識別能力。

直到有一次和一名研究生閑聊時，知道了亞馬遜有一個眾包平臺 Mechanical Turk，可以把任務分發給全世界坐在電腦前的人。李飛飛得知后非常興奮，感覺自己的ImageNet一定能做起來。隨后接觸發現 Mechanical Turk本身也面臨一些缺陷，比如，如果某些參與該平臺的人試圖欺騙系統該怎么辦？李飛飛帶領團隊針對Mechanical Turk參與者的行為開發了一批統計模型，確保數據集中只包含正確的圖片。

最終借助Mechanical Turk花了兩年半時間才完成這個數據集。其中包含320萬張經過標記的圖片，共分成5,247種類別，12個子樹，像“哺乳動物”、“汽車”和“家具”等。

ImageNet迎來輝煌

2017年是這場挑戰賽的最后一年。這八年中，獲獎者的算法正確識別率就從71.8%提升到97.3%，已遠遠超越了人類，并證明了越大的數據集確實可以帶來更好的決策。

2009年，在京都一個計算機視覺會議上，一位名叫Alex Berg的參會人員拉住李飛飛，提議大賽中應該額外加入用算法定位圖像目標的任務，而不僅僅是識別圖像。李飛飛想了想說，你來加入我們吧。Berg、Jia Deng和李飛飛三人用這些數據集寫出了五篇論文。其中第一篇論文成為了今后大賽如何用算法對大規模圖片進行分類的比賽標準，也就是ImageNet挑戰賽規則的前身。

“我們意識到，如果想把這個數據集大眾化，我們還需要做更深入的研究。”李飛飛在第一篇論文中寫道。

隨后，李飛飛奔赴歐洲找到圖像識別大賽PASCAL VOC的組委會，希望對方能和她合作，并幫助宣傳ImageNet。PASCAL數據集當時有一定影響力，但只有20個類，而ImageNet當時有1000個類。

從“無“到“有”到“退役”，李飛飛與ImageNet的八年“不解情緣”

隨著ImageNet接下來連續兩年舉辦，它很快成為衡量分類算法在當時最復雜的圖像數據集上的表現的一個基準。

研究人員后來也發現，他們的算法在使用ImageNet數據集訓練時，表現效果會更好。

“當時很意外地發現用ImageNet訓練過的模型可以做其他識別任務的啟動模型，之后經過微調就能完成任務，”Berg說，“這不僅是神經網絡的突破，也是常規認知的飛躍。”

到了2012年的ImageNet挑戰賽，計算機視覺領域取得了重大成果。那一年，多倫多大學的Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky提出了一種深度卷積神經網絡結構：AlexNet，成績比當時的第二名高出41%。AlexNet現在依然在研究中被廣泛使用。

從“無“到“有”到“退役”，李飛飛與ImageNet的八年“不解情緣”