0
大賽簡介
帝國理工學院聯合愛奇藝、格靈深瞳、深見網絡科技舉辦了輕量級人臉識別競賽ICCV 2019 LFR(Lightweight Face Recognition Challenge),它是今年ICCV人臉識別的一項重要競賽,吸引了來自全球的292支競賽隊伍參加。
此次ICCV LFR挑戰賽一共分為四項任務,每項競賽都有各自的限制和側重點:
Protocol-1 (DeepGlint-Light)圖像人臉識別輕量級識別模型,運算復雜度小于1Gflops,模型大小小于20MB,數據類型float32,特征維度512 (FPR@1e-8);
Protocol-2 (DeepGlint-Large)圖像人臉識別大型級識別模型,運算復雜度小于30Gflops,數據類型float32,特征維度512 (FPR@1e-8);
Protocol-3 (iQIYI-Light) 視頻人臉識別輕量級識別模型,運算復雜度小于1Gflops,數據類型float32,特征維度512 (FPR@1e-4);
Protocol-4 (iQIYI-Large) 視頻人臉識別大型識別模型,運算復雜度小于30Gflops,數據類型float32,特征維度512 (FPR@1e-4)。
賽題的社會價值
ICCV LFR(Lightweight Face Recognition Challenge )輕量級人臉識別挑戰賽的設立是為了尋找一個可以在無限制的動態監控視頻場景下有優異表現的輕量級高精度的模型來應對大數據庫人臉識別應用。這對于進一步推動非受限場景下的人臉識別技術的研究以及提升相關學術成果的轉化效果具有重要意義。

冠軍方案解讀
本次競賽中格靈深瞳有兩個競賽賽道,分別為 DeepGlint-Light 與 DeepGlint-Large:
DeepGlint-Light賽道的冠軍團隊,來自地平線 (HorizonRobotics)公司,以0.8878精度的成績獲得第一名。
DeepGLint-Large賽道的冠軍團隊,來自自動化所模式識別實驗室和Winsense,以0.9419精度的成績獲得第一名。
愛奇藝有兩個競賽賽道,分別為 iQIYI-Light 與 iQIYI-Large(愛奇藝視頻人臉識別輕量級識別模型與愛奇藝視頻人臉識別大型識別模型)。
iQIYI-Light 賽道的冠軍團隊,來自微軟亞洲研究院,以0.6323精度的成績獲得第一名;
iQIYI-Large 賽道的冠軍團隊, 來自商湯和香港中文大學,以0.7298精度的成績獲得第一名。
不同于其他人臉識別比賽,ICCV LFR挑戰賽嚴格限制了訓練數據和測試數據。在如此嚴格的限制條件下,在292個參賽隊伍中脫穎而出變得異常艱難。我們來看看各個賽道的優勝者們,是如何殺出重圍,喜獲桂冠的呢?通過下面的解析,大家也許能夠找到答案。
iQIYI Large 冠軍
團隊組成及分工
Trojans團隊由香港中文大學多媒體實驗室的劉宇和Sensetime X-Lab的宋廣錄、劉吉豪、張滿園、周彧聰、閆俊杰組成。其中前四位隊員負責主干模型設計與搜索、數據分析、質量評估模型設計以及實驗調參,周彧聰負責了整個過程訓練平臺的搭建和維護。而閆俊杰是團隊的顧問。

模型思路

模型思路分為主干網絡和幀融合策略兩個部分。由于比賽約束了總運算量不超過30GFlops的限制,他們選擇通過類似MNasNet和EfficientNet的方式搜索在30GFlops附近的帕累托最優模型。同時,設計了一個新損失函數,這使得單模型結果提升了0.8。對于幀融合方式,他們提出了鑒別力分布假設。該假設認為每一幀特征的融合權重應該由主干特征網絡來決定——對于特征網絡約具有區分度的特征應該越具有更高的權重。就是這些設計幫助他們在視頻人臉識別的大模型賽道中獲得了第一的成績。他們已將模型和代碼放在GitHub(https://github.com/sciencefans/trojans-face-recognizer)中,供大家參考。
不足之處
這個模型也并非完美,Trojans團隊認為還有可改進的空間。在搜索主干網絡結構的過程中,由于時間關系,出現了搜索空間比較小的問題。同時,他們也沒有考慮augmentation,domain gap等方面的問題。這些都是他們覺得能夠進一步提升性能的方法。
DeepGlint Large 冠軍
團隊組成及分工
該團隊由自動化所模式識別實驗室CBSR組的博士生劉浩,助理研研究員朱翔昱,雷震研究員,李子青研究員和贏識科技的張帆,易東老師組成。
其中,劉浩主要負責代碼和實驗,其他成員主要給予方法上的指導。

模型思路


由于本次競賽的訓練集、切圖方式是固定的,所以團隊主要著眼于網絡架構和損失函數的設計。針對他們參加的DeepGlint Large賽道,計算量限制30gflops,他們分別設計了Resnet和AttentionNet架構下兩個網絡,Resnet152 和AttentionNet152,其中AttentionNet152的計算量為29.5GFLOPs,充分利用了規則允許計算量,這也正是他們取得高性能的關鍵。在損失函數方面,他們認為目前最先進的人臉損失函數CosFace,ArcFace在本質上幾乎一樣,他們的關鍵幾乎在于Margin的設置,所以他們只選用了CosFace,重點調整了Margin,最終取得了冠軍。關于代碼,他們使用的技術其實都是有開源代碼的,大家可以按照他們的方案組合在一起即可。
不足之處
方案的不足之處主要就是里面使用的技術都是現有的,他們沒能提出一些新的方案或改進。另外,目前AutoML正在引發新一輪變革,沒能使用AutoML在網絡架構和損失函數上帶來進一步的提升,希望日后能借助AutoML在人臉識別上帶來新一輪的進步。
DeepGlint Light 冠軍
團隊組成及分工
該團隊來自地平線 (Horizon Robotics)公司. 主要由三位研究員和工程師組成。從訓練策略探索、網絡結構調優、KD(KnowledgeDistillation)算法調優這幾個方面進行探索。
模型思路

他們主要是基于VarGNet進行Large Scale的Face Recognition,其中對Embedding Setting和Head Setting進行了修改,然后對Block進行了修改,以及修改了網絡的堆疊方式以滿足受限Flops。最后使用了KD的方法進行調優。
不足之處
相對于其他的隊伍,他們的方法更為直接,不需要很多的Finetune,沒有太多的Tricks,復現起來也比較方便。改進方面主要是兩個方面,一個是網絡結構可以針對需要的硬件平臺使用NAS進行設計。另一個是在KD方面,他們現在使用的KD方法比較簡單,后面可以繼續探索使用KD進行泛化能力的遷移等。除此之外,在FR tasks上面,也可以嘗試去除與身份信息不太相關的信息,比如年齡,域等。
雷鋒網 AI 開發者雷鋒網雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。