專訪阿里iDST華先勝：CV行業遍地黃金，只可惜創業者都去紅海廝殺，卻忽視了藍海

本文作者：老王

2017-05-31 20:12

導語：算法在高手之間的差異其實很小，壁壘的形成是建立在熟悉業務和場景的基礎上。

雖然從學術和研究氛圍濃厚的微軟亞洲研究院出身，且獲得過微軟多項重大技術突破創新獎，但華先勝心里很清楚，算法在商業化落地中所扮演的角色并不是核心要素。

“算法在高手之間的差異其實很小，壁壘的形成是建立在熟悉業務和場景的基礎上。很多你認為跟你八竿子打不著的傳統行業和方向，沒準就有機會。”

從早已奠定自己江湖地位的微軟亞研轉戰到阿里巴巴，這一決定的背后是他對深入業務和解決商業痛點的憧憬。

整個采訪過程中，阿里iDST視覺計算組負責人華先勝不止一次提到CV行業遍地是黃金，可惜的是創業者總喜歡扎堆在幾個紅海領域。究其原因是對業務不了解所致，從業者甚至抱有做一個識別率很高的通用 API 就能吃下所有行業的幼稚想法，在算法上打磨了太多時間。

專訪阿里iDST華先勝：CV行業遍地黃金，只可惜創業者都去紅海廝殺，卻忽視了藍海

華先勝，北京大學應用數學博士、IEEE Fellow、ACM2015年度杰出科學家、MIT TR全球35位35歲以下的杰出青年創新人物，曾擔任ACM Multimedia等大會程序委員會主席，是視覺識別和搜索領域的國際級權威學者。于2016年7月加入阿里人工智能研究機構iDST科學家團隊，帶領視覺計算團隊的研發工作。

雷鋒網：談一談你們最近在做哪些商業化落地項目？

目前阿里iDST視覺計算組主要集中在三個方向的布局：分析識別、視圖搜索、合成。通俗講就是認物體、找物體、生成物體。

城市大腦中的“城市之眼”是商業化落地的重要項目之一。

一級城市中大概布置了幾十萬個攝像頭，單個攝像頭每天產生非常大的視頻數據，但是這些數據發揮的價值其實比較有限。

因此，阿里通過城市之眼觀察車、人、非機動車，利用視覺計算統計出車量、車型、車牌、車長、速度、行駛路徑、行人等信息。做好城市數據收集后會建立一個索引，具體落實到實際應用上，可尋找走丟的兒童、肇事車查找等。

過去在視覺技術較弱的情況下，只能通過笨重的手段獲得一些粗略的車輛信息：如通過GPS獲取采樣數據；在路下掩埋地感線圈，根據車身壓力進行計數。無論GPS還是地感線圈其實對車輛的信息收集有限，而且地感線圈經常會出故障。

阿里云城市大腦要做的事情是把整個城市數據匯集，完成對城市事故、事件的認知：知道哪里堵車，哪里有車禍，分析后迅速發出紅綠燈控制和關閉路口的指令，以及預估事故、事件對交通接下來產生的影響。

這些數據收集和處理都在云端運行，云端不僅可進行復雜、前沿的計算，而且在云計算平臺可完成多種任務：大到交通治理，小到紅綠燈控制。與此同時，計算力也容易去調整。

但如果放在攝像頭端做，計算力明顯會變弱。

雷鋒網：哪些流程放在端上做會更合適？

我個人覺得質量增強和簡單的結構化可以放在端上，非常精細的分析放在前端會有一些局限，尤其是算法更新速度極快的今天，如果很多智能功能要嵌入在攝像頭端，得把所有軟體刷新一遍，工作量巨大且不見得所有硬件會支持。

除此之外，攝像頭端也沒有能力把多方位的城市數據及時匯聚起來做決策。

雷鋒網：如果把所有計算都放在云端去做，如何協調好計算量、計算效率、成本之間的關系？

計算是我們要解決的核心問題之一，怎樣才能擁有較高的計算效率，阿里在這上面投入了很大力氣。

第一要有計算平臺的支持，該平臺要讓項目做起來更加高效，要能容錯；其次是云計算平臺又需要大量的計算機器資源；最后是算法本身。

由于我個人主攻算法，因此我更加看重算法對計算的優化。過去處理一路視頻，需要一臺電腦的二十四個核全部運行才能搞定，我當時的目標是看能不能降到十個核、八個核甚至一兩個核完成。截止到目前為止，我們利用算法提升了20倍對計算的優化。

此外，改進深度學習的方法很多。首先可在機器指令集上進行優化工作，其次也可在CPU和GPU層面優化。算法本身的優化，較為常見的是優化神經網絡結構。由于神經網絡中集成的計算量相當大，因此我們需要考量能不能把大模型在不損失性能的前提下壓縮為小模型，小模型能不能剪一剪。

雷鋒網：如何打通城市大腦專有云與公安系統的底層基礎設施和硬件設備的？

這方面確實很重要，很多公司認為只要把算法做好就萬事大吉。其實做好解決方案，有很多工作看上去與算法沒有任何關系，尤其在流程打通方面。

我們以紅綠燈和攝像頭控制為例。紅綠燈本身就可以用編程控制，城市大腦根據交通狀況計算出這些設備應該怎么調控，然后向交通部門發送指令，讓對方進行操作。

其次是攝像頭，由于攝像頭的型號和產品功能各不相同，球機有預置位，槍機沒有。我們要用程序打通球機，從多個位置控制監控。而有時候部分球機沒有預置位，因此建立虛擬預置位的問題我們又得找集成商去解決。

為了讓系統更加智能化，公安也有動力去更新底層的基礎設置和硬件。因為很多時候設備已經阻礙了整個項目的發展，打通流程需花費很多人力和財力，而且在功能實現上受到了不少限制。

雷鋒網：識別出車牌號碼基本上能確認車輛信息，但問題是攝像頭能捕捉到人臉嗎？

在特殊環境下，車牌號不一定完全能看清，而且很多車牌是套牌。在系統里搜索一輛車得在整個數據庫里綜合各種特征來判斷。

我們的車輛識別其實采用了不少拍立淘的以圖搜商品技術，所以在這塊的積累已經比較成熟。同時也在使用最近比較火的 GAN 來生成大量以假亂真的車牌數據去做訓練，效果非常可觀。

回到人臉問題上，現在大部分攝像頭對人臉的捕捉無能為力，除了在布控上專門搭建的人臉攝像頭能夠看得到外，電子桿上布置的攝像頭是看不到的，所以通常情況下更多是對整個人的身體進行檢測和識別。

這就會涉及到識別準確率問題，關于人物搜索，也不見得一定要把目標對象找出來，機器篩選出10到100個人的范圍就已經很了不起了，雖然不知道是篩選結果范圍中的哪一個，但已經可幫助公安節省很多人力。

學術圈也好、工業界也罷，經常會看到準確率高達百分之九十九點幾的數字，其實真實場景比這殘酷的多。

在真實場景下，有些問題都是小概率事件，不需要識別率如此準確，但需要 recall 做得非常高。舉個簡單的例子，在一萬個樣本中，如果有十個目標對象是你要找的，從數字上來看它的概率非常低，如果10個搞不定那他肯定在100個里。這時候他的召回為100%，準確率為10%。10%的準確率有沒有用呢？非常有用。如果不用這種方法的話，得把這1萬個樣本全都看一遍。

本來讓交警看一個星期才能完成的任務，現在只需一個交警看一個小時就能解決，這很了不起。

雷鋒網：除了安防外，你們還在哪些方向會重點布局？

目前做智能攝像頭視覺解決方案的公司，之間其實并不會有太大的技術差異，更多體現在體驗上。

很多創業公司都在做人臉，我個人并不建議創業公司都一窩蜂爭進入這個市場，CV行業有很多藍海和遍地黃金的機會。

以醫療為例，我們近期也投身做肺結節影像分析的相關工作。

在提出要做肺結節影像分析時，很多人無法理解。圍觀者一方面認為醫生比機器強太多，無需機器輔助。第二是醫生會對產品有抵觸，因此并不會接受這類技術。

在深入醫院經過一系列調研后，我發現無論醫生自身需求也罷，還是市場需求也罷，機器都有它存在的意義。以肺結節 CT 為例，通常情況下醫院里比較密的切片CT影像大小達三四百兆。一個醫生如果認真看下來需要半小時，如果利用算法分析，只要計算能力足夠則會瞬間完成。

機器分析影像有兩點優勢：第一是速度，它可以很快得到一個參考結果。其次是遺漏率低，我們可以把 Recall 設高，把 Position 降低。

當數據量積累到一定程度時，計算機可以把多維度、連接的信息綜合起來去分析病理。醫生的資歷得益于他的學識和臨床經驗的積累，而數據可以看作是學識和臨床經驗。

醫療影像最需要解決的無疑是帶標注的高質量數據，而標注環節唯獨醫生等專業人員才能標注。那么如何獲得高質量的標注數據？為此，阿里云與體檢公司合作，體檢公司的數據往往比較容易獲得，而且他們也正好有機器輔助分析的需求。

雷鋒網：還有哪些不起眼、但有一定商業潛力的市場？

除了安防和醫療外，確實會有不少看起來是長尾不起眼，但市場潛力不小的場景。

我們最近在做一個為火車檢修的項目。我們知道，火車對安全要求極高，交通部門非常重視，在這上面的投入也比較可觀。

火車檢修最早期需要人的肉眼去觀察，甚至通過敲敲打打聽音色這種很原始的方式來判斷器械是否有故障隱患。近些年鐵路局逐漸開始用工業相機拍攝照片的方式代替人工上去檢查，通過在高壓線和鐵軌位置安裝工業相機拍攝大量高清圖片，然后讓員工坐在辦公室看圖片。

把最初讓人工去日曬雨淋的現場觀察改進為坐在辦公室看圖片，這也算不小的進步。但是人眼觀察圖像又成了一件非常繁瑣的事，容易漏查。

這時候用圖像識別方案代替人眼做分析無疑會節省不少人力。

同樣，也可用圖像識別的方法分析工業相機所拍攝的殘次品、電路板差錯問題。

人工智能還是一個初步階段，很多傳統行業遠未開發，其中很多你認為跟你八竿子打不著的行業和項目，沒準就有機會。之前有朋友跟我聊天，他說到煤礦里運煤的傳輸帶一老化就會出事故。我想了想，其實完全可以架工業相機對傳輸帶進行拍照，然后利用圖像識別系統分析有沒有出現老化的跡象。及時拍攝、實時上傳到云端做分析、實時反饋結果、如有問題實時報警。智能化的流程不僅可替代部分人力，而且會把實效性和準確性提升至更高的維度。

雷鋒網：前段時間依圖科技朱瓏提到這樣一個觀點，他說人工智能的商業化最終取決于這個領域最強的那個人。您怎么看？

朱瓏的一些觀點我是不同意的，當時現場我也問了他不少問題，但朱瓏沒有正面回答。當然，這些問題我自己心理都是有答案的。

在談到到底哪些因素促成人工智能的應用和商業化，我覺得有很多因素，但最重要的是深入行業和場景，這一塊是大家最為薄弱也是積累最淺的地方。

小公司和大公司之間的對比一直是人們津津樂道的話題，AI行業也是。對于小公司而言，深入行業是突圍的關鍵。

人們喜歡談論算法的競爭，其實算法的門檻在高手之間差別很小，我再強調下這句話：算法的門檻在高手之間差別很小。聰明人到處都是，聰明這件事很難形成壁壘。重要的應該是把行業和業務搞清楚，人們往往容易忽略業務問題，這其實不是件容易事。

醫療門檻為什么高？因為你很難深入去了解它。

阿里云本身就有CBM這樣的銷售團隊，他們會向我們反饋客戶各種各樣的需求。然后云架構師、數據架構師根據需求會從系統存儲、計算平臺、AI算法等方面去考慮解決方案該如何搭建，然后向各個技術部門提出研發需求。

雷鋒網：深入業務時具體要接觸哪些人？

首先一定要與處于業務一線的人員進行長期溝通。醫療項目找醫生，安防項目找交警。

醫療影像項目你要溝通的影像科醫生，要去了解他們是怎么看片子的，以及醫生有哪些痛點急需解決。而像安防項目，我會花更多時間去跟處于一線的公安執勤人員聊，而非公安系統的技術人員。

雷鋒網：你們是如何發現和挖掘客戶需求？

阿里有很多客戶，客戶們如果發現阿里云的視覺方案在其他場景下做成功了，這時候他們就會找上門來提出他們的需求。客戶如果沒有提出某些需求時，我就自己去挖掘。

當發覺什么東西有意思時就會根據已有的技術做嘗試，同時也會與 DEA 和 CBM 一起聊，把技術介紹給他們，以便在接觸客戶時如遇到合適的客戶需求，可進一步推動方案的完善。

當然，發現需求是一件舉步維艱的事，需要深入行業去探索，而且經常會失敗。

在我們接到的眾多需求里，有些需求看上去是個痛點，但開發后發現它并不是一個正確的問題，無法為客戶帶來真正的價值，讓我們走了不少彎路。

但這是必然，正確的需求和落地場景是靠不斷試錯得出，而非空想而來。

創業公司也會遇到相似的情況，他們不斷轉變自己的應用方向，甚至改變技術方向。究其原因是因為沒找準需求導致，而非遇到了技術難題無法突破才選擇轉型。

當然還有些場景現在看不到機會，但隨著時機的成熟，未來或許會有，我們也會主動提前去布局此事。

雷鋒網：方不方便透露幾個您覺得在未來商業潛力較大，但很多玩家還沒發覺的場景？

我只能說下我們正在重點布什么局。

其中視頻搜索是一個，包括結構化打標、相似性搜索。視頻這個題目 20 年前就開始做了，但因為很多時機、技術、數據問題，一直沒落地。此外，圖像搜索在上個世紀也開始做了，我也曾經覺得是時候把它做出來，但卻看不到落地的場景。直到我發現電商中的圖像搜索才是機會時，于是我來到阿里。現在隨著時機的不斷成熟，其他商業場景也不斷開始嶄露頭角。

其次是在視頻里做廣告也大有前景，雖然十年前就有相關論文了，但一直沒落實到位。

雷鋒網：但我個人認為用戶并沒有在視頻里買商品的習慣。

你指的是Video Out：在視頻里點擊商品旁邊的購買鏈接購物。其實廣告的形式不止Video Out，Video Out這種廣告方式確實會有很大的阻礙和挑戰。從用戶體驗角度講，在視頻里點擊鏈接購物是否是正確的需求還有待商榷。

我認為在視頻中應該用植入的方式做廣告，在不影響體驗的前提下，潛移默化地對用戶產生影響。比如在視頻里找到可以嵌入廣告的地方，不管是張貼畫廣告還是物品廣告。這個是張貼畫，這個左邊是原來的視頻，右邊是我們植入的圖像。

雷鋒網：CV落地傳統行業，您覺得最難解決的問題是什么？

我認為，一個成功的人工智能應用，應該具備五個條件。

第一個是算法。你要有好的算法，你的算法要有先進性，你的算法不行一切都沒有了基礎。（當然你也可以把算法這一個條件看做是科學家，因為人才和算法是緊密相連的）。

第二個是要有數據。數據本身就是一個很大的話題，里面有數據的采集、搜集、清洗、有效的標注，甚至包括算法里面數據怎么使用。

第三個是用戶。你做的這個東西應該有用戶的，因為有很多問題是需要用戶參與才可以做得越來越好。當然你從商業的角度來講，沒有用戶的話也不能夠長久。用戶本身是數據的消費者，也是數據的提供者，這過去在搜索引擎里面有非常重要的體現，可以說搜索引擎的技術能夠做那么好，每個人都有contribution的。

第四個就是平臺。這個就是涉及到你要有強大的計算能力和一套體系架構，能夠方便地去研發、部署和生產，這一套是必須要有的。當然現在因為有云計算，所以這部分的瓶頸，對于很多企業來講已經沒有過去那么困難了。

第五個就是有好的商業模式。如果沒有好的商業模式，就不可能長久。你做一個事情，低頻的事情沒有多少人用，或者不能給少量用戶帶來大的價值，最后產生的總體價值不夠的話，其實是很難長久的。這幾點，我個人覺得其實是都應該具備的。當然了，可能不同的商業應用，應該來說可能有不同的側重，但是我覺得都應該具備。

雷鋒網：我用一句比較俗的話闡述，目前計算機視覺似乎并不能賺大錢。您覺得是因為沒找到合適的場景，還由于CV本身就不是盈利的有效工具？

我覺得現階段需要找到更合適的場景才行，不要把項目放在實驗室里，也不要覺得一個就能 API 打天下。一定要深入場景，根據客戶的業務去考量自己的技術能為客戶創造哪些價值。

客戶懂業務，但不見得他們很懂技術。我們做技術的自身對技術很了解，知道什么時候work什么時候不work，但對業務場景的了解非常有限。

每個計算機視覺從業者都應該明確自己工作的重點到底是“提高客戶的工作效率，還是提高準確率的百分比”，如果連這個問題都想不清楚，肯定會出問題。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

7人收藏

老王

編輯

微信 wangyafeng123456

發私信

當月熱門文章