0
| 本文作者: 余快 | 2020-08-11 09:36 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |

2020 年 8 月 7 日,全球人工智能和機器人峰會(CCF-GAIR 2020)正式開幕。CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)聯合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協辦。
作為粵港澳大灣區最具影響力和前瞻性的前沿科技活動,CCF-GAIR 大會已經度過了四次精彩而又輝煌的歷程。
在大會第二日的「視覺智能·城市物聯」專場中,組委會特地邀請了這個行業里極少數,能夠利用前沿技術,真正為產品和業務創造巨大價值的頂級專家。與他們一同站在高處,重新理解視覺智能與城市級商業場景的本質。
今年出席的嘉賓,分別有華為云人工智能領域首席科學家田奇、京東集團技術副總裁梅濤、微軟亞洲研究院首席研究員王井東、商湯科技聯合創始人林達華、云天勵飛首席科學家王孝宇、澎思科技首席科學家申省梅、暗物智能CEO林倞。
主持人也不禁感慨到:連續四年主持此專場,作為局外人,自己親歷了計算機視覺最為激蕩的年代,也在CCF-GAIR的舞臺上親眼見證了商湯、曠視、云從、云天勵飛、澎思等企業,從一個個初創公司,生長為現在的頭部獨角獸,實現了10多倍的增長。
這正是這個時代,給予前沿技術創新企業的最好饋贈。
華為云人工智能領域首席科學家田奇:華為視覺研究計劃與進展

田奇介紹了華為在人工智能領域的十大愿景和計算機視覺領域的基礎研究,從中梳理出深耕基礎研究、打造全棧方案、投資開放生態和人才培養、解決方案增強、內部效率提升五大方向。以此打造無所不及的AI,構建萬物互聯的智能世界。
華為計算機視覺以數據高效和能耗高效為核心,聚焦從2D視覺到3D視覺的技術和應用,其中基礎研究主要包含底層視覺、語義理解、三維視覺、數據生成、視覺多模態等等方面。在此方向上,華為將基礎研究聚焦到數據、模型和知識三大挑戰:
1、數據上,如何從海量的數據中挖掘有用的信息。田奇從深層數據模型訓練和不同模態數據對齊這兩個應用場景為例,介紹了華為如何使用知識蒸餾與自動數據擴增結合的方法讓AI模型高效地挖掘數據中的有用信息。
2、模型上,怎樣設計高效的視覺模型。田奇認為在深度學習年代,視覺模型主要包含神經網絡模型設計和神經網絡模型加速兩個場景。具體地,田奇介紹了華為如何通過局部連接思路解決網絡冗余問題、如何加入邊正則化思想來解決局部連接帶來的不穩定性等等。
3、知識上,如何定義視覺預訓練模型、如何通過虛擬環境學習知識、如何表達并存儲知識。為了實現華為打造通用視覺模型的目標,田奇認為推理預測是從視覺感知到認知的關鍵步驟。雖然預訓練方法目前在視覺領域的應用還不成熟,但是近期自監督學習的成果為視覺通用模型的發展注入了新活力,這也將成為常識學習的必經之路。
基于三大挑戰,田奇提出華為視覺六大研究計劃:數據冰山計劃、數據魔方計劃、模型摸高計劃、模型瘦身計劃、萬物預視計劃、虛實合一計劃,來幫助每一位AI開發者。
京東AI研究院副院長梅濤:智能供應鏈中的機器視覺

梅濤認為供應鏈發展經歷了三個階段:
第一階段,上世紀90年代,傳統供應鏈的信息技術將產業的上下游進行協同;第二階段,21世紀初期,互聯網工業階段,利用互聯網技術提高供應鏈的效率和敏捷性;第三階段,21世紀及未來,智能供應鏈階段,生產上更加協同,流通上更加敏捷,甚至可以通過用戶需求驅動生產,又反過來創造需求。
梅濤指出,中國供應鏈水平仍處于第一階段向第二階段過渡時期。作為“以供應鏈為基礎的技術與服務企業”,京東在不斷夯實第一階段到第二階段轉型的同時,積極布局第三階段,基于人工智能,利用大數據、物聯網、區塊鏈等,打造基于各種技術與服務的供應鏈全鏈條。
京東在智能供應鏈領域的計算機視覺應用非常多。智能消費領域,通過SKU級別商品圖片理解,打造智能結算臺、京東拍照購、京東搭配購等應用。在實際場景中,通過硬件和軟件一體化,幫助線下門店進行一體化營銷。
智能流通領域,京東還推出了首個產業級通用目標重識別開源庫FastReID。
智能生產領域,應用于工業視覺質檢,比如,印刷品包裝檢測中,通過內容識別、設計校對、字號識別,以檢測包裝是否符合嚴格的標準,另外還有基于CMYK色彩控健康識別,缺陷監測和尺寸識別。
梅濤提到,智能供應鏈需要全鏈條的生態,京東擁有全行業最長的數據鏈條以及最全的供應鏈服務。京東不僅要服務于自己內部的客戶,還基于人工智能開放平臺,開放技術,共建生態。
最后,梅濤分享了他對下一代視覺技術趨勢的看法,他認為計算機視覺經歷過萌芽、爆炸、巔峰,現在回歸理性,未來將在數據、模型、學習機制和工具箱四個層面有長足進步。
云天勵飛首席科學家王孝宇:AI 在智慧城市中的應用

王孝宇認為,在經歷了PC互聯網、移動互聯網時代后,現在人們正在進入AIoT時代。在AIoT時代,傳感器將遍布物理世界,人們將擁有無處不在的連接和智能化應用。而AIoT時代到來的前提,是業界能提供有效的數字化技術。在物理世界的行為,只有經過數字化后,才能稱為“信息”,有了信息,機器才能更好地描述這個世界,并對物理世界作出反應。
根據AI技術發展升級的路徑,王孝宇將智慧城市分為四大階段。
第一階段是Sensing(感知),這個階段的智慧城市能做到的是描述物理社會的基本事實,比如識別圖像中的物體是車輛還是人、車牌號是多少、這個人有什么特征。第二階段是Cross Analysis(交叉分析),這個階段機器能夠在識別基本信息的基礎上,根據時間、空間等其他信息進行交叉分析,得出更豐富的信息,比如分析出圖片中的人之間的關系等。第三階段是Data Mining(數據挖掘),這個階段,機器能分析出造成事件的深層次原因,甚至預測事件的發生,比如預測某路段在某時間段的擁堵情況。第四階段是Decision Making(決策),即機器能夠幫助人作出某些決策,比如預測到某街區在某時間段可能發生某些事件后,進行智能的警員調度,充分安排有限的警力。
王孝宇還說到,盡管智慧城市不同階段能夠實現的應用不同,但無論是在哪一階段,都離不開算法、算力和大數據,這也是云天勵飛從創立之初就一直堅持在這三大方面投入大量研發工作的原因。目前,云天勵飛有Arctern算法平臺、Moss芯片平臺和Matrix大數據平臺,構建了完整的AI技術鏈路,并聚焦公共安全、城市治理、新商業這三大方向打造產品和解決方案。
最后,王孝宇認為,中國經歷過商貿造富、互聯網和房地產造富的時代,未來我們很可能迎來科技造富的時代,科技將成為新基建中的核心元素。新基建的提出,也將開啟中國新一輪智慧城市建設的“黃金時代”,新基建將會帶來“新四化”:居民數字化生活、企業數字化經營、社區數字化治理、城市數字化孿生。
暗物智能CEO林倞 :從感知到認知 - 多模態人機互動的產業實踐

現在人工智能發展到了什么階段?
阿里巴巴達摩院今年年初給到的科技趨勢報告顯示,人工智能已經在聽、說、看等感知領域達到甚至超越了人類的水平,但在需要外部知識,邏輯推理或領域遷移的認知智能領域還處于初期階段。
林倞指出,目前很多成功的人工智能應用大部分還是依賴于大數據計算泛式。不管是自監督還是網絡搜索的方法,本質上依靠大量的數據,通過億萬參數的神經網絡去學習和訓練,最后進行分類和回歸。某種意義上,人工智能的應用成本一直居高臨下。
同時,即便是感知層的智能,特別是計算機視覺,目前系統還有很大的局限性,一是成本問題,二是穩定性、魯棒性并沒有達到或真正超越人的水平。
腦科學研究發現,人的大腦皮層感知區和認知推理區域是不可分割的,視覺跟語言的大部分理解是依靠想象和推測的,并不是依靠大數據的感知,所以林倞提出一個觀點:感知智能和認知智能不可分割。
一個嬰兒12個月以后會說話,會推測他人的意圖。目前AI的智力水平不足12個月大的嬰兒,還遠未達到認知智能,AI系統欠缺的推測他人的意圖(能力)。
林倞的第三個觀點是,所謂的認知人工智能必須要理解人的意圖,懂因果,可解釋。
可以通過豐富的方式跟人交互,能看到,能聽懂,能回復,甚至能知道計算數學背后的因果邏輯,這樣才能實現從感知到認知的跨越,并且跟人進行高自然度的交互。
林倞介紹了暗物智能的五層技術架構:物聯網、感知行為、問題理解、思維和意圖、價值和常識。暗物智能沿著此技術架構進行產業實踐。
澎思科技首席科學家申省梅:基于遷移學習的視覺智能發展與應用

申省梅從傳統機器學習的痛點、深度學習帶來的突破、深度遷移學習、遷移學習中用到的一些技術和實例方面進行了分享,并分析了遷移學習在視覺智能的需求。
傳統機器學習的痛點之一是泛化能力差,原因之一是它使用手工特征,靠設計者的經驗得到,并無法掌握數據中的非線性變化,每種特征只能對特定的場景或特定的任務有效。泛化能力差導致魯棒性差,落地成本高,用戶滿意度差。
深度學習的特征是通過大量數據,用深度神經網絡自適應學習到的,可以完全掌握到數據當中的多種變化。深度學習模型為計算機視覺帶來的突破,也是在給定的數據集上訓練出來的,可以很好地反映給定數據的特點。
而給定的數據集僅僅代表了某一領域,某些應用場景,某種特定任務,比如CCTV監控下的自然圖像領域,戶外場景,任務是人臉識別,或行人再識別,或行為分析。
盡管在這些特定數據集訓練的模型具有很高的準確性,遠遠超過傳統機器學習,但在新的場景下它的性能無法維持,并且在用于新任務的時候可能會導致性能顯著下降。深度學習的突破仍然取決于數據。
另外,申省梅還指出深度學習AI落地痛點:
1、感知環境及應用場景的千變萬化:天氣、光線、角度、遮擋等因素變化導致成像質量不同并且質量不佳;訓練數據與落地場景的不一致導致AI模型性能徒然下降;
2、重新訓練模型需要大量的AI專業人才來完成,周期長成本高見效慢,已經成為AI普惠的障礙;
3、AI人才的短缺以及成本昂貴會阻礙企業采納人工智能以及它帶來的效益。
澎思的使命是“AI即服務”,可以解決痛點,實現普惠AI,澎思通過AIOT平臺生態技術部署,實現“AI服務在線+AI功能定制終端+自閉環生態”。
通用智能是下一代AI發展的必然趨勢,申省梅表示,澎思會在遷移學習、無監督、自監督學習、小樣本學習、多模態學習這幾個真正反映AI落地的實際情況下落地生根。
澎思的目標是在算法技術上走在國際計算機視覺的前沿,基于AI落地為主的前沿技術開發,建設云端AI在線遷移學習平臺,加強端側AI輕量化的設計體系,推動以用戶價值為導向的To B/To C產品創新。
商湯科技聯合創始人林達華:人工智能的惠普與開放之路

林達華歸納了人工智能發展四個關鍵要素:科研、數據、算力、落地。
基礎研究和技術能力決定了產業化能走多遠、走多快。到了具體的領域,數據、算力、落地場景是三個最為關鍵的要素,當他們被連接在一起時,人工智能技術會泛化出巨大的力量,推動技術前進和產業升級。
商湯從底層到應用層都有自研的技術,在核心底層建立深度學習訓練平臺。
不斷建設底層技術的過程中,商湯充分認識到,對人工智能的發展來說,計算能力是必不可少的重要支撐和戰略基石。所以從2015年開始到現在,商湯持續建立以GPU為核心的人工智能超算平臺。
林達華介紹,到現在為止,已經建立了超過2萬臺GPU的大型人工智能超算集群,其中最大的集群已經連接了超過3000塊GPU,可以支持千億級模型訓練和上百億大型數據集模型訓練。其計算集群的總計算能力,可以比肩世界上的最高級別超算。
林達華表示,人工智能對社會的價值有三方面: 第一,經濟角度。它可以提升生產的效率,通過自動化和人工智能技術變革產業經濟,實現產業的升級。第二,通過人工智能技術進入社會生活的方方面面,給社會和人民大眾賦能百業。最后,創造美好生活,推動社會進步。
智慧城市除了安防以外,其實還有非常多的維度,隨著人工智能產業落地的深化,在整個社會很多的行業,它其實都能受惠人工智能技術的進步和落地。
微軟亞洲研究院首席研究員王井東:高分辨率網絡:一種視覺識別的通用網絡架構

從2012年以來,隨著AlexNet橫空出世,深度神經網絡在計算機視覺領域成為主流的方法。2014年,谷歌發明出了GoogleNet,牛津大學發明了VGGNet,2015年微軟發明了ResNet,2016年康奈爾大學和清華大學發明了DenseNet,這幾個結構都是圍繞分類任務而發明的網絡結構。
除了分類以外,在計算機視覺里面還有其它的重要任務,比如圖像分割、人臉關鍵點的檢測、人體姿態估計、目標檢測等等。
下一代的網絡結構是什么樣的呢?是否適用于更為廣泛的視覺識別問題?
王井東首先介紹了分類網絡結構,它是包括一系列減小表征空間大小的過程,最終得到一個低分辨率的表征,然后進行分類,但是分割等任務需要空間精度高的表征,即高分辨率表征。
學習高分辨率表征,有一種叫上采樣的通用方法,包括兩個步驟,第一個步驟是分類的網絡架構,表征開始比較大,然后慢慢變小。第二個步驟,通過上采樣的方法逐步從低分辨率恢復高分辨率。這樣的方法獲得的特征空間精度較弱。
而王井東團隊研發的高分辨率網絡架構(HRNet)沒有沿用以前的分類架構,也不是從低分辨率恢復到高分辨率,自始至終維持高分辨率。
他們讓高中低分辨率不停地交互,使得高分辨率可以拿到低分辨率語義性比較強的表征,低分辨率可以拿到高分辨率的空間精度比較強的表征,不停地融合,最終取得更強的高分辨率表征。
在人體姿態、分割、人臉關鍵點檢測、目標檢測等任務中,HRNet從參數量、計算量以及最終結果看,高分辨率結構都非常有優勢。HRNet在人體姿態估計的任務上,已經成為標準的方法;在分割任務上,由于其更好的性能,也被大家廣泛使用。雷鋒網雷鋒網雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。