騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

本文作者：張棟

2019-07-16 11:07

專題：CCF-GAIR 2019

導語：“人工智能的終極應用距離我們到底還有多久？” 賈佳亞的答案是：可能還需要50-100年。

7月12日-7月14日，2019第四屆全球人工智能與機器人峰會（CCF-GAIR 2019）于深圳正式召開。峰會由中國計算機學會（CCF）主辦，雷鋒網、香港中文大學（深圳）承辦，深圳市人工智能與機器人研究院協辦，得到了深圳市政府的大力指導，是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會，旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午，在「智慧城市·視覺智能」專場上，騰訊優圖實驗室聯合負責人，騰訊杰出科學家，香港中文大學終身教授賈佳亞作為開場嘉賓，率先分享。

賈佳亞教授在香港科技大學獲得計算機科學博士學位，在微軟亞洲研究院做一年半訪問學者后，2004年加入香港中文大學計算機科學與工程系，2010年升任副教授，2015年任教授。

賈佳亞教授任職期間發表過逾百篇頂級會議和刊物論文，是前期和中期計算機視覺最著名的專家之一，研究方向為計算機視覺、圖像計算和處理、機器學習等，最廣為人知的成果是圖像去模糊算法，以及去年帶隊在ImageNet比賽中拿下了Scene Parsing（語義分割）的冠軍。

雷鋒網了解，賈佳亞教授還多次擔任ICCV（國際計算機視覺大會）、IEEE CVPR（國際計算機視覺與模式識別）的領域主席，以及2013到2017年ICCP（國際計算機影像會議）和SIGGRAPH（計算機圖形和交互頂級會議）的論文委員會成員。

甫一亮相，他便提出了一個終極命題，“人工智能的終極應用距離我們到底還有多久？” 他給出的答案是：可能還需要50-100年的發展路徑。

賈佳亞教授認為，人工智能學科發展與人類智能差距之一就是“多模態信息的智能化理解”，視覺、聲音、符號語言、嗅覺和觸覺等信息，具有無限多樣性。

而多模態人工智能還存在不少技術難點：第一是數據模態多種多樣，包括2D圖像、3D模型、結構化信息、文本、聲音及更多無法量化的數據；

第二是多模態數據的不對應，如從圖像到文字，從文字到圖像，都是“一對多”的過程，會有多種的描述和呈現；

第三是多模態數據的融合，一個軟件或算法的進步較為容易，但多個算法疊加在一起，難度將幾何級上升，如“告訴機器人拿桌子左邊的瓶子”，會經過語言模型、三維建模、自動尋路、圖像分析等步驟；

第四是多模態監督，“如何告訴機器人拿錯了”“哪一個步驟拿錯了”也是目前的難點。

而要解決這些多模態信息的難題，賈佳亞教授提出要更好研究嗅覺、味覺、觸覺、心理學等難以量化的信號問題，通過多模態數據使得計算成為可能，進行協同學習、用一個資源豐富的模態信息輔助另一個資源貧瘠的模態。

多模態人工智能問題的解決，就會是人工智能更多落地的未來。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

以下是賈佳亞教授大會現場全部演講內容，雷鋒網作了不改變原意的整理及編輯：

大家好，今天來到這里非常開心，因為近期工作繁忙，較少出席外部大會，現在恰逢暑假期間，可能各位同學或者科研愛好者希望外出學學東西，我也在想，CCF-GAIR可能會是一個比較好的機會。

今天我會向大家展示一些新方向的研究。首先給大家拋點磚以引玉，看看人工智能領域學科發展的現狀。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

CVPR在這四、五年時間中發生了巨大變化，上圖顯示的是它的投稿論文數量和被接收的論文數量，每年以超過50%的速度在增加。

每年如此多優秀論文的出現，也就意味著人工智能的發展還處于一個快速上升的階段。

另外，ACL（自然語言處理領域的頂會）在過去五年中，它的投稿數量也有極大地提高，接近百分之百的遞增。自然語言處理領域的發展是比較困難的，因為它需要大量的處理器、需要非常高端的算法。

這是它們的趨勢，是比較表面的東西，我們來看更深層次的東西。

上圖還有CVPR的關鍵詞，包含Deep、Image等等，今天我給大家講的不是這些很熱門的方向，其中還有一個大家很容易忽視的模塊：Language。

再往下，ACL最熱門的是Deural、Learning等等，這里面也有一個非常小的領域：Visual。

這兩個領域基本上是分割開的，通過對于這些關鍵詞的分析，可以發現雖然都是AI的頂會，大家都做了很多有趣的工作，但是里面的內容基本沒有交集，懂ACL的人并不懂CVPR，懂CVPR的人也很少在ACL里面工作。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

ACM MM是一個比較綜合的大會，里面有更多的交叉性學科，但是其中最重要的部分依然是Video、Deep等等；非常小的部分是Text、Speech。

我們通過對它的研究，挖掘出一些不會引人注意的特征。為什么去挖掘它？因為這件事情是跟我們對傳統的AI認知恰恰相反的事情。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

在傳統的AI認知中，我們認為AI已經做得非常好了。

從1997年的深藍，到2014年人臉識別的突飛猛進，所謂的AI發展，其實都是在某一個子領域做到極致。

今天我將這個部分作為開頭，更想給大家講的是，AI再往下發展應該怎么走？這也是之前很多人問過我的問題。

我的基本觀點是：現在的AI距離終極的應用和最后的發展還很遠很遠，我相信接下來的AI發展道路不止10年、20年，可能是50到100年的發展路徑。

首先我認為人工智能學科的發展與人類的智能差距還非常、非常之大。

人工智能和人類智能差距的一個重要原因是對多模態信息的智能化理解，這是各位投身學術界或產業界需要重點關注的一個領域。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

從大腦結構可以發現，我們所有的感知系統是一體的，這個大腦既包括了聽覺、味覺、嗅覺、觸覺，也包括了說話、行動、感應、壓力控制。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

人腦就像一個中央控制系統，能夠把所有的感知系統全部融合起來，如果與人腦做對比，現在的人工智能發展還處在一個非常弱小的階段。

因為我們現在還沒有一套完整系統，甚至沒有一個好的算法，把最為簡單的兩種模式疊加起來。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

如果十年、二十年后回過頭來看我們現在的發展歷程，比如人臉識別超過了人、特征識別超過了人，這些都是微不足道的，因為我們有更為廣闊的天地要去探索。

通過以上介紹就會發現，其實人工智能距離成熟還太遠太遠，現在的人工智能是單模態的人工智能，甚至是單點的一個觸發，在以后的多模態世界中，會發生很多更為有趣的事情。

同時，做好這件事，也有諸多難點。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

第一個是數據模態的多樣性。

我們有這么多圖像、模型、文本、聲音、結構化信息，怎么去融合？怎么能找到一個場景把這么多信息融合進來？

當你把這些信息全部融合在一起的時候，與我們最為貼合的是哪一個產業？那就是汽車產業。

不管是車與車之間的交流，還是車與道路之間的交流，其實車更像一個機器人，而且在不久的將來，我相信隨著車廠和各個技術的融合，這個行業會產生非常多有趣的應用。

除此之外，多模態還有很多無法量化的數據，比如說嗅覺現在還沒法去量化，比如聞到一個香味，到底怎么量化它？

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

第二個難點是多模態數據的不對應。

舉一個簡單的例子，假設人們看到上面這張圖的時候，其實我們有非常多的方法去形容。

但是當我們用多模態數據表述的時候，如何能把兩種不相關的數據完整地、像人一樣自然地表達出來，這是非常難的事情。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

第三是多模態數據的融合。

我一直說一個軟件或者是算法的進步是很容易的，但是多個算法連在一起，它的難度是幾何級上升的。

現在很多機器人可以跳舞、可以交互，但還沒有一個廠商能在五年內完成一個指令：去幫我拿桌子上左邊的瓶子。

這其中就涉及到語言模型、三維建模、自動尋路、圖像分析、反饋機制，這樣一個簡單的工作，現在還難以駕馭。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

優圖實驗室借助強大的騰訊平臺，我們過去在這方面也做了一些有趣的探索。

這是一個小視頻，如果誰能看得懂他表達的意思可以舉手示意一下。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

在場幾百位聽眾，沒有一個人知道他在表述什么事情，其實我也不知道。

基于此，我們在已有的一套非常好的骨骼系統上，加了一個解決手語人士和正常人士交流溝通的翻譯器。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

做這件事之前，我們做了一個調研，發現我國有聽障人士7200萬，占全國總人口的5%；全世界有超過4.66億人患有殘疾性的聽力損失，占了全球人口的5%。

這件事對我的觸動很大，由此，優圖實驗室在過去幾個月就投入了部分研發人員做這件事情。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

我們希望做一個手語翻譯器，能夠很好解決聽障人士的交流問題。這件事情看起來很簡單，但做的過程中卻困難重重。

首先，中國現在都還沒有一套規范的手語標準，深圳的手語和北京的手語是不一樣的，東莞的手語可能和深圳的也不一樣。

當時我們想當然地認為這件事情很容易做，用一套強一點的算法可以在三個月時間內做出來。

事實并非這樣，除了剛才的問題之外，還有一個非常難的問題，數據采集回來后，如何將數據轉化為應用。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

首先需要做一個姿態識別，它是一個圖像模態；然后做動作識別，是一個時序模態；然后做語義轉化，最后做語言模型，這是一個大致的流程。

在這個過程中，我們需要提取到關鍵點和手型，然后轉化為文字，最后全部粘合起來變成一個語言級的表述，這是一個非常大的系統，我們最后做下來，遠遠超過了當時預估的工程量和算法技術含量。

目前，我們還只是在一些關鍵的語句上做得比較好，當我們把這些語料庫提供給政府、學校使用的時候，可能還需要一個多月甚至更長的時間去開發。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

語言和圖像聯合處理方面，給一張圖片，問一個問題，機器能夠回答的也是寥寥可數，包括我們現在能做到的也是非常簡單的，稍微復雜一點的都做不了。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

比如說上圖中，問這個花是什么顏色？它會回答我這是黃色。

同樣一張圖，問花是放在哪里的？你要得到“花瓶里”的信息，它會告訴你這是一個花瓶。這里面涉及到對圖像的細粒度理解，也涉及到自然語言的融合和解答過程。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

這是我們當時設計的一個模型來做這件事情。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

我們回頭來看，多模態還有什么問題？第一是數據集存在巨大的Bias，比如看到這張圖象，絕大部分人問的問題都是，這是不是長頸鹿，絕大部分的答案都是“是的”。

但是很少人問，這張圖像里是不是個羚羊，沒有問這些問題的時候，系統就學不到否定性的答案，在你的數據集上就會出現很大的偏差。

第二是這個問題缺乏多模態的監管，也就是說有這樣一個圖像，我們只有一個簡單的問題，比如 “這里面的桌子是什么顏色的”，實際上圖片中并沒有桌子，但它還是要給你一個答案，這就是缺乏監督的原因。

還比如說，這張圖像里有多個人員，我要把它區分出來是非常難的，人眼可以精確分割碗里的每一粒米，但是現在的算法想分割出每一粒米，并不是很容易。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

基于騰訊的一個巨大的內容平臺，我們每天要處理百億計的視頻，包括長視頻、短視頻、小視頻。

我們基于多模態的處理方式，從視頻本身得到很多視頻特征，然后進行多模態融合，目前做得效果不錯。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

最后講講多模態的未來發展。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

多模態要解決非常多的難以量化的信號，包括嗅覺、味覺、觸覺等等。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019

再往下走，多模態還要解決非常多的協同學習問題，用一個資源豐富的模態信息輔助另外一個資源貧瘠的模態，這里面就涉及到更多的機器學習的內容，包括Transfer Learning、Domain Adaptation、Few/One/Zero-Shot Learning這些非常基礎而且非常重要的機器學習內容。

這是我們今年在做的一件事情，當我們看到兩張人臉的時候，我們想把它們之間的變化轉移到貓身上，這就是一個非常典型的Domain Adaptation。我們把兩個人臉轉化成貓的表情，這是用一種模態指導另一種模態做更有趣的事情的其中一個案例。

騰訊賈佳亞：人工智能的多模態發展丨CCF-GAIR 2019