<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      AI+ 正文
      發(fā)私信給劉偉
      發(fā)送

      0

      港科大教授權(quán)龍:計算機視覺下一步將走向三維重建 | CCF-GAIR 2018

      導語:如果要去做一些交互和感知,必須先恢復三維,所以在識別的基礎(chǔ)上,下一個層次必須走向“三維重建”。

      港科大教授權(quán)龍:計算機視覺下一步將走向三維重建 | CCF-GAIR 2018

      雷鋒網(wǎng)按:2018 全球人工智能與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(深圳)承辦,得到了寶安區(qū)政府的大力指導,是國內(nèi)人工智能和機器人學術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會,旨在打造國內(nèi)人工智能領(lǐng)域最具實力的跨界交流合作平臺。

      CCF-GAIR 2018 延續(xù)前兩屆的“頂尖”陣容,提供1個主會場和11個專場(仿生機器人,機器人行業(yè)應用,計算機視覺,智能安全,金融科技,智能駕駛,NLP,AI+,AI芯片,IoT,投資人)的豐富平臺,意欲給三界參會者從產(chǎn)學研多個維度,呈現(xiàn)出更富前瞻性與落地性相結(jié)合的會議內(nèi)容與現(xiàn)場體驗。

      大會第二天的計算機視覺專場,香港科技大學教授,ICCV 2011主席,IEEE Fellow權(quán)龍教授作為開場嘉賓,發(fā)表題為“計算機視覺, 識別與三維重建”的精彩演講,點燃了現(xiàn)場氣氛。

      權(quán)龍教授主要從三個方面進行闡述,分別是計算機視覺的基礎(chǔ)、計算機視覺的變遷與發(fā)展,以及計算機視覺最新的進展。

      他談到,當下因為深度學習技術(shù)的發(fā)展,人工智能變得非常火熱,計算機視覺作為人工智能的一個領(lǐng)域,也變得異常火熱。

      不過目前計算機視覺的研究和應用主要集中在“識別”,“識別”只是計算機視覺的一部分。如果要去做一些交互和感知,必須先恢復三維,所以在識別的基礎(chǔ)上,下一個層次必須走向“三維重建”。

      針對這個領(lǐng)域,權(quán)龍教授和他的研究團隊已經(jīng)做了諸多的工作并取得了一定的成績,在 4 月份,他們拿下了兩個計算機視覺榜單的全球第一。

      當然,目前在深度學習推動下的計算機視覺技術(shù)還有很多不足和挑戰(zhàn),需要更多業(yè)內(nèi)研究者不斷去探索,特別是在卷積神經(jīng)網(wǎng)絡(luò)在高維度空間的理論理解與解釋。

      以下是權(quán)龍教授的演講全文,雷鋒網(wǎng)做了不改變原意的整理與編輯:

      感謝大會主辦方的邀請,今天我想跟大家分享計算機視覺中的識別和三維重建問題。

      我今天的演講分為三部分:首先講一下計算機視覺的基礎(chǔ),然后介紹它的變遷與發(fā)展,最后再談?wù)勊淖钚逻M展。

      計算機視覺的源起

      什么是人工智能和計算機視覺?人工智能的目的是讓計算機去看、去聽和去讀。圖像、語音和文字的理解,這三大部分基本構(gòu)成了我們現(xiàn)在的人工智能。而在人工智能的這些領(lǐng)域中,視覺又是核心。大家知道,視覺占人類所有感官輸入的80%,也是最困難的一部分感知。如果說人工智能是一場革命,那么它將發(fā)軔于計算機視覺,而非別的領(lǐng)域。

      2012年是非常重要的一年,我在標題中稱之為“a year of no significance”。這一年看似平凡,卻發(fā)生了很多事情。2012年,在一個叫CVPR的計算機視覺頂級會議上發(fā)生了一件看似重要,但也不那么重要的事情。那就是一個叫ImageNet的比賽,它把圖像識別準確率從75%提高到了85%,引發(fā)了一系列(人工智能)熱浪。

      再把時間回溯到1998年,當年有了卷積神經(jīng)網(wǎng)絡(luò),它是今天所有卷積神經(jīng)網(wǎng)絡(luò)的鼻祖模型。它有幾個特點,首先它輸入的圖像比較小,只有32*32pixel;其次它沒有GPU,這正是它計算力比較弱的原因。

      2012年,卷積神經(jīng)網(wǎng)絡(luò)復活,我們稱之為AlexNet。和上一階段相比,它的內(nèi)部結(jié)構(gòu)基本一模一樣,變化非常小,但輸入的尺寸不一樣。1998年的模型,輸入尺寸為32*32pixel,且只有一個通道。新的模型輸入尺寸已經(jīng)擴大到了224*224pixel,而且有三個通道。最關(guān)鍵的是里面有了GPU,它當時訓練時用了兩塊GPU。

      從1998年到2012年,中間經(jīng)歷了10多年,卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)還是一樣的,那么它內(nèi)部發(fā)生了哪些變化?有兩點非常重要:一、英偉達研發(fā)了GPU,GPU最早是為游戲而不是人工智能誕生的;二、華人學者、斯坦福大學教授李飛飛創(chuàng)建了ImageNet,她把幾百萬張照片發(fā)到網(wǎng)絡(luò)上并發(fā)動群眾做了標注。

      6年后的今天又發(fā)生了哪些變化呢?2012年訓練AlexNet模型需要使用兩塊GPU,花費6天時間;今天做同樣的事情只需要一塊DGX-2,十幾分鐘就能搞定。

      再看看學術(shù)會議。CVPR以前是一個一般的學術(shù)會議,只有幾百人參與。今年,我們剛從鹽城湖回來,參會群眾規(guī)模已經(jīng)達到了6500人,基本實現(xiàn)了10倍增長。我們有幸將于2022年在新奧爾良組織這個會議。相信到時候?qū)⒂猩先f人參加,我們需要擔憂的是哪里能找到可容納這么多人的場地。

      什么是計算機視覺?計算機視覺的本質(zhì)是對圖像進行理解。“理解”這個詞沒有準確的定義,事實上計算機無法做到“理解”,只能做到認知。計算機視覺的終極目的就是達到認知。我們研究計算機視覺的目的是得到視覺特征,有了視覺特征才能開展一系列的工作。

      為什么視覺特征如此重要?在語音識別領(lǐng)域,語音的特征已經(jīng)定義得非常清晰——音素。但如果我們拿來一個圖像,問它最重要的視覺特征是什么,答案并不明確。大家知道圖像包含像素,但像素并不是真正的特征。像素只是一個數(shù)字化的載體,將圖像進行了數(shù)字化的表述。計算機視覺的終極目標就是尋找行之有效的視覺特征。

      計算機視覺包含兩個基本應用——識別和重建。它們的英文單詞都以“re”做前綴,說明這是一個反向的問題。

      計算機視覺發(fā)展簡史

      我們簡單回顧一下計算機視覺的發(fā)展歷史。上世紀70/80年代,計算機視覺有了最初的發(fā)展。那個年代,基本所有的計算機視覺研究都以Marr的primal sketches為理論依據(jù)。它的可計算數(shù)學模型都是以edges為主的邊緣提取。有了edge之后,再把它高層化后的線段元做簡單的統(tǒng)計分類或者三維重建。Edge在數(shù)學上是很好定義的,我們定義了很多優(yōu)化準則后,這個研究方向就到頭了。

      90年代到2000年,行業(yè)內(nèi)有一些變化,大家從edge回過頭來研究幾何問題。幾何就是三維重建,一維的edges不適合做計算。幾何最本質(zhì)的元素是點,它是二維的,更內(nèi)在。這推動了很多研究工作以點為基礎(chǔ)展開,對點做描述,也就是feature descriptors。這對推動計算機視覺發(fā)展產(chǎn)生了重要作用。

      從識別方面來看,有了feature descriptors就可以把很多東西變成矢量的無序集合,然后再去做統(tǒng)計。當時最成功的是三維重建,所謂成功也只是把一些點從二維變成三維,沒有真正語義上的描述。這是1990-2000年間的發(fā)展。

      2012年開始,我稱之為CNN時代。這時候視覺領(lǐng)域開始發(fā)生變化,從特征到識別算法基本都被CNN一統(tǒng)。CNN現(xiàn)在已經(jīng)很強大了,基本所有計算機視覺論文都會提到它。CNN的好處在于,它是端到端的,比較容易實現(xiàn)。

      給大家講一個趣聞,90年代計算機視覺如日中天的時候,卷積神經(jīng)網(wǎng)絡(luò)還沉浸在痛苦中無人理睬。機器學習、計算機視覺和語音識別領(lǐng)域的人都忽視它。

      2012年,AlexNet在重要會議上只能參加一些邊緣比賽,不能進入主會場。那個年代,如果你的論文中提到CNN,估計會直接被拒;但今天你的論文如果不提CNN,就非常難入圍。

      今天計算機視覺中的識別技術(shù)基本是端到端的,從1998年的LeNet到2012年的AlexNet,再到2016年ResNet。目前ResNet已經(jīng)非常成熟,谷歌給出了開源標準ResNet50,只需要把數(shù)據(jù)丟進去訓練即可。

      今天,如果你能清晰地定義問題,做好數(shù)據(jù)標定,這個問題基本就解決了。哪怕找一個高中生把它輸入Net也能得到非常好的結(jié)果。讓計算機學習圖片之后,再給它展示一張它之前沒見過的圖片,一般它也能識別出來,水平基本與人類一致,甚至高于人類。因為人類有時會不小心犯錯,但機器記憶或?qū)W會了之后便不會犯錯。這些成果都是基于深度神經(jīng)網(wǎng)絡(luò)取得的。

      但也不能忘記,這種東西有很大的局限,它并不是真的很聰明,只是記住了很多樣本。你也可以說它很蠢,因為它根本不知道自己在做什么。一切取決于你的標準,如果你把一個東西標注成cat,它就認為這是一只貓,明天你再把它標注成dog,它就認為這是一條狗。所以它并沒有真正理解,只是在做簡單的統(tǒng)計分類。人類可以把狼和狗歸為同類,也可以把薩摩耶和白狼區(qū)分,這些都是主觀的,取決于我們?nèi)绾味x問題。我們?nèi)绾味x,機器就給出什么樣的答案,它本質(zhì)上沒有自己的認知。

      卷積神經(jīng)網(wǎng)絡(luò)能夠識別圖像只是表象,我們應該回歸本質(zhì)——計算機視覺。計算機視覺是對視覺特征的尋求和探索。CNN本質(zhì)上是重新學習和定義了我們以前尋找的視覺特征。以前的視覺特征是手工定義的,維數(shù)不會太高,有幾十、幾百就已經(jīng)比較高了,畢竟人類能力有限。卷積神經(jīng)網(wǎng)絡(luò)學習的視覺特征維數(shù)更多,動輒上百萬,而且是有結(jié)構(gòu)的。

      下一步將走向三維重建

      現(xiàn)在每個人都在研究識別,但識別只是計算機視覺的一部分。真正意義上的計算機視覺要超越識別,感知三維環(huán)境。我們活在三維空間里,要做到交互和感知,就必須將世界恢復到三維。所以,在識別的基礎(chǔ)上,計算機視覺下一步必須走向三維重建。

      三維重建中包含深度、視差和重建三個概念,它們基本等價。使用哪個詞匯取決你處在哪個群體。

      人類有兩只眼睛,通過兩只眼睛才能得到有深度的三維信息。當然,通過一只移動的眼睛,也可以獲得有深度的信息。

      獲取深度信息的挑戰(zhàn)很大,它本質(zhì)上是一個三角測量問題。第一步需要將兩幅圖像或兩只眼睛感知到的東西進行匹配,也就是識別。這里的“識別”和前面有所不同,前面提到的是有標注情況下的識別,這里的“識別”是兩幅圖像之間的識別,沒有數(shù)據(jù)庫。它不僅要識別物體,還要識別每一個像素,所以對計算量要求非常高。

      雙目視覺非常重要,哺乳動物都有雙目視覺,而且智商越高,雙目視線重疊的區(qū)域越大。馬的眼睛是往兩邊看的,這并不代表它沒有雙目視覺,只是雙目視線重疊的范圍比較小。魚也是如此。

      由此可見,現(xiàn)代三維視覺是由三維重建所定義的。CNN誕生之前,它的主要動力源于幾何,因為它的定義相對清晰。

      計算機視覺中的三維重建包含三大問題:一、位置。假如我給出一張照片,計算機視覺要知道這張照片是在什么位置拍的。二、多目。通過多目的視差獲取三維信息,識別每一個像素并進行匹配,進行三維重建。三、語義識別。完成幾何三維重建后,要對這個三維信息進行語義識別,這是重建的最終目的。

      2012年之前,計算機視覺中的三維視覺已經(jīng)得到了顯著發(fā)展,那么新的深度學習對它有哪些啟發(fā)呢?三維視覺本質(zhì)上也是一個“識別”的問題,深度學習讓它在識別方面得到了強化。視覺中的特征非常重要,以前的幾何做法一般是用手工特征。CNN的重要之處不在于它能識別一只貓或一條狗,而在于它學會了很多視覺特征,我們可以拿這些特征做圖像之間的識別和匹配。

      識別方面,現(xiàn)在我們面臨比過去更大的挑戰(zhàn),因為現(xiàn)在的數(shù)據(jù)量比以前更多。以前是幾十幅、上百幅,現(xiàn)在動輒幾十萬、上百萬幅。這就涉及到計算機規(guī)模化的問題,規(guī)模化意味著分布式,這也是一個重要課題。

      前面提到雙目和多目視覺,這個領(lǐng)域也有很多發(fā)展。以前是傳統(tǒng)的方法,現(xiàn)在所有stereo方法都可以重新回到卷積神經(jīng)網(wǎng)絡(luò)的框架下。它的卷積不是簡單的在圖像里,而是在更高維的視差空間進行的。這個領(lǐng)域發(fā)展得非常快。

      Altizure三維重建開放云平臺

      下面宣傳下我們做的工作。我在科大的團隊創(chuàng)立了一家公司altizure,我認為我們的三維重建做的最出色。Altizure是一個公共云平臺,大家可以用手機或無人機拍照然后上傳,就可以自動得到一個三維模型。我們的終極目標是把世界上的所有東西全部三維復現(xiàn)。我們生活在三維的環(huán)境里,所以要把所有東西全部恢復到三維。

      今天的世界是數(shù)據(jù)為王,我們通過這個開放平臺收集了很多數(shù)據(jù),并進行標注。有了這樣一個平臺,今后的算法會越來越強大。

      我們研究的領(lǐng)域現(xiàn)在每天都在發(fā)生變化。我們團隊今年4月份在兩個重要榜單上名列第一,一個是三維點云,另一個是場景識別。

       計算機視覺的機遇與挑戰(zhàn)

      深度學習浪潮下,計算機視覺面臨哪些機遇和挑戰(zhàn)?UCLA一位做統(tǒng)計的教授認為,現(xiàn)在的深度學習跟以前差不多,只是模擬了一個曲線或曲面,只是維度更高一些。另外一個學者Piekniewski也提出了質(zhì)疑。2012年時AlexNet有6000個參數(shù),今天我們已經(jīng)可以學習比它多1000倍的參數(shù),這是否意味著我們的能力提升了1000倍?其實不是,我們的改進仍然是非常邊緣的。

      我的觀點是,毫無疑問,CNN是一個非常強大的工具,但關(guān)于它我們還有很多不清楚的地方。CNN處理的是非常高維的數(shù)據(jù),以前幾十、幾百個維度就已經(jīng)高不可攀了,但今天是幾百萬、幾千萬個維度。高處不勝寒,即便研究數(shù)學的人也不太清楚中間發(fā)生了什么。這些還需要一段時間去理解。

      再來說說“理解”這個詞,其實我們也不很清楚什么樣才叫做理解。如果要做到真正理解,就要對世界和環(huán)境進行有結(jié)構(gòu)、有邏輯的描述,但我們現(xiàn)在沒有任何結(jié)構(gòu),完全是由數(shù)據(jù)帶動,只有輸入和輸出。

      最后簡單總結(jié)一下。早在80年代人工智能就很火,我研究生第一志愿報的就是人工智能。當時并不理解人工智能是什么,后來才慢慢明白,世上本無人工智能,只有圖像識別、計算機視覺、語音識別、自然語言理解等一個個具體的問題。

      我們必須肯定這些年來取得的成績,尤其硬件領(lǐng)域的發(fā)展非常可觀。GPU已經(jīng)在手機、電腦中普及,使得我們擁有非常強大的計算能力。以前相機是攝影師才有的,現(xiàn)在人手一臺手機,隨時隨地可以拍照。甚至還有了無人機,可以從天上拍照。

      我們非常榮幸能在計算機視覺領(lǐng)域工作,這個領(lǐng)域發(fā)展很快,在中國大地上也很有前景。舉兩個例子:一、曠視在人臉和物的識別方面世界領(lǐng)先,類似的公司在中國還有很多;二、Altizure三維重建視覺平臺在全世界也是獨一無二的。

      從廣義的人工智能來說,我不認為它有多大的發(fā)展,但我們也不能否認存在真正的進步。

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      分享:
      相關(guān)文章

      主編

      關(guān)注智能硬件+出海。
      當月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 亚洲久悠悠色悠在线播放| 招远市| 口爆网站| 欧美成人h精品网站| 亚洲熟妇AV一区二区三区下载| 亚洲乱亚洲乱妇24p| 梁河县| 99久久国产宗和精品1上映| 国产av大全| 国产精品| 国产一区二区午夜福利久久| 国产一区亚洲一区| 成人AV无码| 国产麻豆乱子伦午夜视频观看| 精品av综合导航| 清原| 少妇无码太爽了在线播放| 亚卅精品| 男女毛多水多亚洲| 熟女网址| 国产va| 成人欧美一区二区三区在线观看| 欧美一级黄色影院| 2022亚洲男人天堂| 精品尤物国产尤物在线看| 欧美大胆少妇bbw| 少妇一晚三次一区二区三区| 四虎精品免费永久免费视频| 99热这里只有精品69| 亚洲综合成人精品| 欧美人妻精品| 国产天美传媒性色av高清| 欧美三级中文字幕在线观看| 亚洲av永久无码精品三区在线| 亚洲中文字幕无码一区| 波多野吉衣亚洲Av无码| 天天做天天爱天天综合网2021| 永川市| 中文字幕亚洲一区二区va在线| 色偷偷噜噜噜亚洲男人| 撕开奶罩揉吮奶头高潮av|