0
雷鋒網 AI 科技評論按:阿里巴巴人工智能核心團隊 iDST 近期又將一名頂級大牛納入麾下——世界級聲學專家、原寶利通(Polycom)聲學設計與信號處理首席工程師馮津偉博士于近期加入阿里巴巴 iDST,擔任語音交互團隊研究員。
據悉,他的研究方向是「下一代人機自然交互技術」,該領域已得到阿里巴巴重點投入,「達摩院」的研究范圍就包含了這一方向。

馮津偉博士本科畢業于南京大學電子科學專業,先后在南京大學攻讀聲學(1992-1995)及南洋理工大學電子信號處理的碩士學位(1996-1997),隨后赴美深造,于 2000 年獲得弗吉尼亞理工大學聲學博士學位。馮津偉博士畢業后一直在音視頻會議行業領先者寶利通擔任聲學設計和信號處理首席工程師(Principal Engineer),擁有十余項美國專利,大部分已產品化,是世界級的音頻專家,主持開發視頻跟蹤系統等創新產品,多次領業界之先。
在傳統行業耕耘 17 年的頂級工程師、專注研究聲學的「物理學家」,緣何會加入阿里巴巴這樣一個新興互聯網企業?加入阿里巴巴 iDST,他又將如何把自己的老本行與目前已有的業務進行融合?抱著這些疑問,雷鋒網 AI 科技評論與遠在美國西雅圖的馮津偉博士進行了一次電話交流,他向 AI 科技評論闡述了加入阿里巴巴 iDST 的原因與期待。
作為專業開發、制造和銷售高質量音視頻會議系統及解決方案的提供商,寶利通的多代會議產品曾經一度占據 90% 以上的市場份額。在這背后,以 2000 年加入寶利通工作的馮津偉博士為代表,他主導開發的圓形麥克風陣列算法與音頻信號分類器成為沿用至今的業界標桿。
而 17 年過去,包括寶利通在內的傳統行業發生了新的變化。身處其中的馮津偉博士向雷鋒網 AI 科技評論坦言,他從中看到了新興互聯網企業的高速發展,這也是他選擇加入阿里巴巴 iDST 的一個重要原因。
「我加入阿里,也反映了互聯網行業與傳統行業的一種融合變遷。」此外,馮津偉博士也表示,阿里巴巴的價值觀與他個人的想法不謀而合,這種契合也讓他對這家公司產生了特別的好感,并促使他最終加入阿里巴巴 iDST。
「我第一次了解阿里巴巴時,發現它們家的產品名字都非常有趣,比如金融叫螞蟻金服,物流叫菜鳥物流,音樂叫蝦米音樂,信用叫芝麻信用。(這些名字)很親切很討人喜歡,我認為這個命名思維的出發點是為普通百姓服務。我本身也是一個『草根』,因此覺得阿里巴巴的想法非常地貼近我的價值觀。」
從傳統行業加入阿里巴巴 iDST,馮津偉博士的主要工作又是什么呢?馮津偉博士告訴 AI 科技評論,他與阿里 iDST 的交集,就是自己的老本行——聲學設計與信號處理的有機結合。
一個完整的語音識別系統需要通過前端的聲學設計,進行信號的采集、處理,再通過后端的相關算法進行識別。任何一個語音產品要投入使用,最主要的挑戰依然是端上語音信號的采集和處理。
今年 7 月,阿里巴巴發布智能音箱天貓精靈 X1,其中的聲紋識別功能便是其中的一大賣點。這項連亞馬遜 Echo 都不具備的功能,一大難點就在于遠場語音識別在實際應用中存在不少問題,受到噪聲、回聲、混響的干擾太大。而聲紋識別,很大程度上又是一種基于數據驅動的模式識別問題。像遠場的混響、噪聲問題,還有雞尾酒效應問題,都是非常常見的信號處理難點。只有在特定環境中盡可能地保證聲音的高保真度,才能為后續的算法處理提供高質量的數據。試想,如果收集到的聲音信號都非常模糊,談何后續的語音識別、合成甚至是同聲傳譯?
而馮津偉博士的就學經歷正好涉及了聲學與信號處理這兩個領域,而他在博士畢業后一直在寶利通工作,在這兩個領域的結合上擁有深厚的理論研究經驗與實踐應用經歷。
寶利通在上世紀 80、90 年代就開始做聲學設計與信號處理的相關研究,至今已經擁有二三十年的技術沉淀,馮津偉博士表示,最重要的一點就是在于老當家在聲學設計上頗為重視,特別在減小失真上做到了極致。在最鼎盛的時期,寶利通的全球市場份額達到了 90% 以上。
「聲學設計與信號處理兩者的有機融合是非常必要的。我們以前經常跟做聲學的公司打交道,有些音頻失真到 10%,但沒有人重視,因為企業覺得人耳聽不出來。但是我們的麥克風聽得出來,所以回波抵消就有可能成為問題。因此,我們不能只是處理線性問題,而對非線性問題不夠上心。這兩方面都需要懂,性能才可以更好地體現出來。」
加入阿里之后,馮津偉博士在傳統行業的聲學設計經驗可以完美地與阿里的業務相銜接。聲學設計與信號處理作為前端信號處理的主要技術,毫無疑問將會為阿里巴巴的整個語音識別系統奠定堅實的數據基礎。
馮津偉博士表示,以「達摩院」為代表的研究機構逐步建立,阿里巴巴的研發實力肯定會比以前更上一層樓,并且可能會看到很多與眾不同的創新,「現在的智能音箱實際上跟著亞馬遜 Echo 走的很多,但阿里巴巴不一定會沿著它的老路,我們甚至可以引領行業。」
近年來,隨著深度學習的興起,以谷歌 WaveNet 為代表的技術甚至嘗試顛覆傳統的基于信息及控制論的信號處理與生成方法。對于人工智能的迅猛發展,馮津偉博士一方面嘆服時代趨勢的驚人變化,認為 AI 的不斷發展終究會逐步取代原有的信號處理技術;但基于現實狀況來看,他又認為這一天仍未那么早到來。
一方面,有很多人用麥克風原有的尺度去 PCM(Pulse-code modulation,脈沖編碼調制),直接引入神經網絡進行訓練,但效果并不理想。這種研究在目前來看依然需要一定的時間,就像語音識別一樣,從 90 年代開始,直到近幾年才大規模商用起來;計算機視覺也同樣花了近 20 年才實現騰飛,同樣地,采用神經網絡來做信號處理也需要經歷這樣一個厚積薄發的過程。
而另一方面,神經網絡擅長處理非線性的工作;而一些線性的工作,在前端的信號處理階段就可以用很低的成本解決。以回撥抵消為例,相對于提升 AI 算法而言,我們解決前者的成本與資源要小得多。也就是說,在做過前端信號處理后,我們可以大大降低后續 AI 在算法處理上的非線性工作量。從成本這個角度來看,前端信號處理還是有它存在的必要的。
在 2017 杭州云棲大會上,馮津偉教授聽了不少教授、專家的演講,其中有人與自己的想法一致:語音系統的算法只是一部分,在實際應用領域,更重要的一環是聲學設計,要從源頭上保證數據的采集質量。「在源頭上追溯整條數據鏈,如果有某個環節很弱,那么就會『牽一發而動全身』,甚至使鏈條斷掉。」
馮津偉博士告訴雷鋒網 AI 科技評論,阿里巴巴的一大核心競爭力在于,從源頭到鏈條的最后一環,從聲學設計、到前端信號處理,到 AI 識別算法三大模塊,阿里巴巴在每環技術都有自己的獨立研發團隊。
「我們擁有完整的數據鏈,在每個模塊上我們基本上都有一支小團隊,可以實現獨立研發。在這之后,我們可以把三大模塊更緊密地融合在一起。結合聲學設計與信號處理的從業經歷,我相信三個環節可以做到無縫融合。」阿里巴巴全鏈條、多業務、多線程的研發模式,在馮津偉博士看來是構建了一個完善的生態系統,在做細分項目的時候也很容易把各個部分的技術結合起來。
另一個令馮津偉博士深深認同的地方在于阿里巴巴具有優秀的核心團隊。「現在我們有五個跨越全球的語音小組(北京、杭州、西雅圖、硅谷、新加坡),擁有世界一流的團隊,聚集著世界一流的人才。阿里 iDST 中有非常多優秀的科學家與工程師,我自己也非常高興,能夠在與他們共事的過程中提升自己。」
馮津偉博士告訴雷鋒網 AI 科技評論,加入阿里巴巴 iDST 后,他計劃帶領團隊,結合自己豐富的從業經驗,把聲學設計與信號處理有機地融合起來,并且把每一個環節做到極致,「業余與專業的區別就在于細節,如果要做到行業領先,我們就要把每個細節做到完美,做到最好。」雷鋒網 AI 科技評論也期待,馮津偉博士未來在阿里的產品上,能給我們帶來更多的體驗驚喜。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。