再奪第一，深度解析依圖行為識別的技術高墻與創新突圍

本文作者：余快

2020-08-06 07:40

導語：所以的“第一”都不是偶然。

安防江湖三十年鏖戰，AI即出，多方勢力涌入讓這個世界重新異彩紛呈，也經歷了新一輪洗牌。

如果說成功的企業是相似的，普通的企業各有各的不同。在這場戰役中留下姓名的企業，皆因技術、產品、服務等硬實力，成為了行業中的佼佼者。

在同樣起跑線，有些企業總是能獨占鰲頭，以不卑不亢的姿態，成為“別人家的孩子”。

AI獨角獸依圖也是這樣一位“別人家的孩子”。

最近，在國際權威機構ACM MM（ACM MM’20 Grand Challenge）主辦的“大規模復雜場景下人體視頻解析”挑戰賽（Large-scale Human-centric Video Analysis in Complex Events）的核心賽道——行為識別中，依圖科技再奪一冠。

ACM MM被認為是多媒體技術領域奧運級別的頂級盛會，也是中國計算機學會（CCF）認證和多媒體研究領域評級中唯一的A類國際頂級會議。此次挑戰賽集結了國內外約100支參賽隊伍，包括亞馬遜、大華、騰訊、中山大學等知名企業和院校。

同時，此次競賽是該方向最接近真實場景的大規模挑戰賽，主要基于各類人群和復雜事件（如地震逃生、食堂用餐、下火車等）來分析人的行為，包括多人追蹤、姿態估計、姿態追蹤、行為識別等四大任務；目的在于考察算法在復雜場景下對人體的解析能力,鼓勵研究者在以人為中心的分析中解決非常具有挑戰性和現實的問題。

更為關鍵的一點是，與其他舉辦過多次的國際競賽不同，作為首屆競賽，參賽隊伍在賽前無法了解識別的類別、數據集的大小和識別的具體需求，這意味著,對即將面對的行為類別、數據模型、比賽需求一無所知，這意味著沒有經驗可借鑒，沒有路徑可學習。依圖是如何在短短兩個月的挑戰時間內，實現最優的算法性能，拿下世界第一？

挑戰不可能

顧名思義，大規模復雜場景挑戰賽必然需要大規模和復雜場景。大規模即豐富的場景、大額的數據量（一般情況下，100萬以上的數據量在學術界會被稱為大規模）。

作為首屆比賽，HiEve數據集標注超100萬個，內容以真實視頻場景為主，囊括了當前姿態數量最多的數據集。其中,有超5萬6千個復雜事件下的人體行為，包括但不限于排隊、打架、俯身、同行、跑動等；平均軌跡長度超過480，是軌跡數量最多的數據集之一。

結合到比賽的具體任務而言，行為識別，簡單場景指的是一個視頻里只分析一個行為的主體；復雜場景指的是視頻里有多個人，在密集、擁擠的場景下，分析的行為還需要包含人和人之間的互動。

1）數據量大，但有效數據少

比賽中，考察的行為種類非常多，且每種行為可以有多種表達方式，例如出拳、拉扯、扇巴掌等都屬于打架，而訓練集很難覆蓋所有可能的組合。

雖然數據總量達到100萬，但由于視頻數據幀之間的相似性很高,包含了大量冗余數據。這些數據對算法提升泛化性的作用有限。如果去除這些極為相似的連續幀冗余數據，整個訓練數據中的數據也只有幾萬個，僅僅覆蓋20個左右的視頻場景。這意味著有效的數據且測試分布一致的數據量并不多, 極大的增加了泛化難度。

換句話說，在訓練過程中，大量測試的場景，并沒有被算法系統直接學習過。這就需要算法具備強大的泛化性能，讓算法學會“舉一反三”。

2）場景復雜

此外，場景的復雜性無法一言以概。例如，攝像頭的拍攝質量(清晰、抖動、模糊、扭曲)不一, 不同場景的布局不同 (例如：商場、走廊、馬路、大廳、餐廳、公園等), 場景光線受到室內、室外、晴天、陰天的影響也比較大；甚至還存在攝像頭俯拍、平拍、斜拍各個角度的差異、人體框的大小和遠近不同、乃至人之間(人與物之間)還會經常發生相互遮擋。

解決了算法的泛化能力問題，克服了場景的復雜性，還有其他代解難題。

3）行為差異大

要知道，實際中行為分析是非常復雜的。即使是同一類行為，在不同時刻、不同場景也具有很大差異性。比如不同的人在不同時刻行走，速度、姿態和場景遮擋都會不同?；蛘咄恍袨榫哂卸喾N不同的表現形式，比如單“打架”一個行為，可能包含踢人、扇耳光、拉扯等不同形式。

再奪第一，深度解析依圖行為識別的技術高墻與創新突圍

在多人場景甚至是密集場景下，除了要準確識別個人行為，還要標出人與人之間的互動，需要對每個人，在任何一個時間點上，給出此刻的行為判斷。

4）連續動作和長時間動作捕捉難

通俗的說，讀懂一個動作，需要長期、連續跟進，還需要結合上下文，才能做“閱讀理解”。這就需要同時具備時間和空間的感知能力，準確的捕捉到人在前幾秒每幀的動作, 并集合時間上動作發生的變化推測出行為。

以“揮拳”為例，整個過程經歷了開始的靠近階段、揮動拳腳的高潮階段以及結束階段。只有結合了人體每個時刻的姿態，才能更準確地判別出動作。

再奪第一，深度解析依圖行為識別的技術高墻與創新突圍

更重要的是，需要在短短兩個月的時間內解決以上問題并奪冠，做到世界第一，沒有極其深厚的技術積累、行業經驗以及快速解決問題的能力，難之又難。

算法“鑿山”，算力“開路”，解鎖智能未來

當然，也有一些業界人士毫不諱言：相較于人臉領域這種算法流程已經相對確定、算法框架的技術水準也趨于穩定的成熟領域而言，行為識別，尤其是人的行為識別，還處于學術界的摸索階段。但也許AI界的下一掘金地可能就在這里。

學術界的探索意味著沒有多少前人指路，依圖能在囊括如此復雜難題的行為識別賽道奪冠，并非偶然，除了對場景的深度理解、創新融合，還有硬實力的支撐。

學術界常用frame mAP (f-mAP@avg)來作為行為識別的評價指標，f-mAP@avg代表的含義是以關鍵幀為單位，評判行為的位置與分類是否準確；與學術界對行為識別的考察指標不同，此次競賽的評價標準是wf-mAP@avg，這意味著更注重對難度較大的擁擠場景的考察，以及比較少見的動作的識別，同時對于人體框的定位的精確性要求也更高。

在短短兩個月的挑戰時間內，依圖算法的指標達到了wf-mAP@avg0.26，將以往學術界中的基準算法提升了近3倍。

再奪第一，深度解析依圖行為識別的技術高墻與創新突圍

掘金不易，鑿山開路更不易。何況視頻相較于圖像的行為識別更加復雜，如何建模、視頻幀之間的相關性仍是學術界一直存在的難題。

依圖深諳這一點，優化算法來“鑿山”。

研發團隊透露，當應用場景明確后，在已知分析的對象是人體且明確知道要識別的類別后，就可以針對性的進行算法優化，通過算法定制化來提升算法性能，解決以往不能很好解決的問題。

此外，依圖還創新性地將算法與場景進行了深度結合——一方面創新性的從視頻中自動提取到豐富準確的場景信息，結合先進的行人檢測、行人重識別算法，全面構建了人與人、人與場景、人與物之間在視頻中的關系；另一方面，借助長期在智能城市場景下的算法積淀和對行業場景的理解，從需求出發，對比賽中要求的特定的14類任務進行了深度算法優化。

與其他隊伍追求復雜的多模態融合策略不同，依圖在此次競賽中竟然是用單模型奪冠。也就是說，他們借助背景提取和分割算法，將行為的解析與場景結合，大大降低了問題難度。

敢在比賽中用單模型與其他多模型融合策略PK，不外乎自信中帶著點跟自己較真的狠勁，又一次展現了在有限的時間內依圖算法可以做到極致。

算法“鑿山”的依圖，在開拓AI新領域的版圖上一直策馬長驅，離不開算力的“開路”。

此前，依圖科技自主研發的全球首款云端視覺智能芯片求索（questcore?），可以提供強大算力，單路攝像頭功耗不到 1W，開啟了算法設計與芯片設計相結合的時代。集合了高性能AI算法和芯片耦合設計優化的芯片平臺，結合世界領先的行為識別算法的依圖，將更有利于賦能智能城市、安全生產、智能商業等領域，打造新一代AI基礎設施。

細觀依圖半年來的動態，在疫情爆發初期快速研發出業界首個新冠肺炎輔助診斷系統并投入全國的醫院，同時，頻頻刷新頂級賽事的世界紀錄，分別在貴陽和福州落地千萬量級規模的城市級人工智能應用、通過全球權威隱私認證管理國際認證，發布語音超級本、入選工信部知識圖譜案例集……技術愈加成熟、落地經驗愈加豐富。

這些會給未來帶來什么？借用依圖科技創始人朱瓏近期在《人民日報》署名文章中所說：未來10年，低階感知智能將向高階決策智能躍遷；人工智能將向具有高度不確定性、多任務融合、復雜推理等特點的高階智能突破，有望實現看、聽、理解、規劃和控制等能力的重大躍升。雷鋒網雷鋒網雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏