遠場語音識別，性能提升 30%，百度怎么做到的？

本文作者： camel

2019-11-29 10:52

導語：徹底端到端 ~

“今天我保守報一個30%以上的性能提升，很保守。未來這個技術會再次大幅刷新人們對遠場語音的認知。我自己的判斷是，三年以內遠場語音技術的識別率將達到近場識別率，因為有了這個技術，遠場識別問題基本可以得到解決，這是一個很大的跨學科創新。”

講起百度最近在語音技術上的一項技術突破，百度語音首席架構師賈磊變得激昂澎湃起來。

遠場語音識別，性能提升 30%，百度怎么做到的？

對于賈磊，大家不會陌生，他是互聯網圈子里首位全國勞動模范（2015年），是一位“每天睜開眼睛就是工作，走路坐車都在思考”的人物。

賈磊向記者詳細講述了他們在遠場語音交互中的一項新的突破：基于復數卷積神經網絡的語音增強和聲學建模一體化端到端建模技術。（很長的一段話，關鍵詞：復數卷積、端到端、增強和建模一體化）

據賈磊介紹，這項技術顛覆了傳統基于數字信號處理的麥克陣列算法，因為它直接拋棄了數字信號處理學科和語音識別學科的各種先驗假設，直接端到端進行一體化建模。相較于傳統基于數字信號處理的麥克陣列算法，錯誤率降低超過30%；而國際上采用類似思路方法的相對錯誤率降低約為16%。

我們來看下，30%的錯誤率降低，百度是如何做到的。

一、傳統方法

先從傳統方法說起。

目前，語音識別技術在高信噪比場景下表現良好，但在低信噪比場景下，往往表現不穩定。遠場語音識別是一個典型的低信噪比場景。在遠場環境下，目標聲源距離拾音器較遠，就會使目標信號衰減嚴重，加之環境嘈雜，干擾信號眾多，最終導致信噪比較低，語音識別性能較差。用戶站在3米甚至5米遠處與智能音箱進行語音交互就是一個典型的遠場語音識別應用場景。

遠場語音識別，性能提升 30%，百度怎么做到的？

傳統上，為了提升遠場語音識別的準確率，一般會使用麥克風陣列作為拾音器。利用多通道語音信號處理技術，增強目標信號，提升語音識別精度。

目前，絕大多數在售的智能音箱產品系統所采用的多通道語音識別系統，都是由一個前端增強模塊和一個后端語音識別聲學建模模塊串聯而成的：

遠場語音識別，性能提升 30%，百度怎么做到的？

（圖片來源：網絡）

前端增強模塊通常包括到達方向估計（DOA）和波束生成（BF）。DOA技術主要用于估計目標聲源的方向，BF技術則利用目標聲源的方位信息，增強目標信號，抑制干擾信號。

后端語音識別聲學建模模塊，會對這一路增強后的語音信號進行深度學習建模。這個建模過程完全類似于手機上的近場語音識別的建模過程，只不過輸入建模過程的信號不是手機麥克風采集的一路近場信號，而是用基于麥克陣列數字信號處理技術增強后的一路增強信號。

近些年，前端語音增強技術也逐漸開始用深度學習來做到達方向估計（DOA）和波束生成（BF），不少論文中和產品中也都提到了用深度學習技術來替代麥克陣列系統中的傳統數字信號處理技術，也獲得了一些提升。

但，

1）波束區域拾音方法有局限性。上面這一類語音增強技術大都是采用基于MSE的優化準則，從聽覺感知上使得波束內語音更加清晰，波束外的背景噪音更小。但是聽覺感知和識別率并不完全一致。而且這種方法在噪音內容也是語音內容的時候（例如電視和人在同一個方向時），性能會急劇下降。

2）增強和識別模塊優化目標不一致。前端語音增強模塊的優化過程獨立于后端識別模塊。該優化目標與后端識別系統的最終目標不一致。目標的不統一很可能導致前端增強模塊的優化結果在最終目標上并非最優。

3）真實產品環境復雜，傳統方法會影響使用體驗。由于真實產品場合，聲源環境復雜，因此大多數產品都是先由DOA確定出聲源方向后，再在該方向使用波束生成形成波束，對波束內的信號的信噪比進行提升，同時抑制波束外的噪音的干擾。這樣的機制使得整個系統的工作效果都嚴重依賴于聲源定位的準確性。同時用戶第一次說喚醒詞或者是語音指令的時候，第一次的語音很難準確利用波束信息（智能音箱沒有眼睛，他不知道你在第一次喚醒時候，所在的方向是什么。或者是由于周圍環境嘈雜，喚醒之后人就變換了自己的位置，嘈雜的環境導致對人的位置變動的跟蹤失效），影響了首次喚醒率和首句識別率。

二、一體化的端到端識別

2017年谷歌團隊最早提出采用神經網絡來解決前端語音增強和語音聲學建模的一體化建模問題。

遠場語音識別，性能提升 30%，百度怎么做到的？

文章從信號處理的 Filter-and-Sum 方法出發，首先推導出時域上的模型結構，然后進一步推導出頻域上的模型結構FCLP（Factored Complex Linear Projection），相比時域模型而言大幅降低了計算量。

該結構先后通過空間濾波和頻域濾波，從多通道語音中抽取出多個方向的特征，然后將特征送給后端識別模型，最終實現網絡的聯合優化。

谷歌提出的FCLP結構仍然是以信號處理方法為出發點，起源于delay and sum濾波器，用一個深度學習網絡去模擬和逼近信號波束，因此也會受限于信號處理方法的一些先驗假設。

比如FCLP的最低層沒有挖掘頻帶之間的相關性信息，存在多路麥克信息使用不充分的問題，影響了深度學習建模過程的模型精度。

再比如，beam的方向（looking direction）數目被定義成10個以下，主要是對應于數字信號處理過程的波束空間劃分。這種一定要和數字信號處理過程看齊的深度學習模型結構設計，嚴重影響了深度學習技術在該方向上的發揮和延伸，限制了深度學習模型的模型結構的演變，制約了技術的創新和發展。

最終谷歌學術報告，通過這種方法，相對于傳統基于數字信號處理的麥克陣列算法，得到了16%的相對錯誤率降低。

三、百度的解決方案

百度采用了類似的思想，即做“語音增強和語音聲學建模一體化”的端到端建模，不過他們所采用的是“基于復數的卷積神經網絡”。

相比于谷歌的方法，該方法徹底拋棄了數字信號處理學科的先驗知識，模型結構設計和數字信號處理學科完全脫鉤，充分發揮了CNN網絡的多層結構和多通道特征提提取的優勢。

遠場語音識別，性能提升 30%，百度怎么做到的？

具體來講，該模型底部以復數CNN為核心，利用復數CNN網絡挖掘生理信號本質特征的特點。采用復數CNN，復數全連接層以及CNN等多層網絡，直接對原始的多通道語音信號進行多尺度多層次的信息抽取，期間充分挖掘頻帶之間的關聯耦合信息。

在保留原始特征相位信息的前提下，這個模型同時實現了前端聲源定位、波束形成和增強特征提取。該模型底部CNN抽象出來的特征，直接送入端到端的流式多級的截斷注意力模型（SMLTA）中，從而實現了從原始多路麥克信號到識別目標文字的端到端一體化建模。

整個網絡的優化準則完全依賴于語音識別網絡的優化準則來做，完全以識別率提升為目標來做模型參數調優。

賈磊介紹說：“我們的模型能提取生物的信號本質特征，作為對比，Google的系統是假設兩路麥克信號對應頻帶之間的信息產生關系，這沒有挖掘頻帶之間的信息，這也是Google在識別率上偏低的原因。”

遠場語音識別，性能提升 30%，百度怎么做到的？

如前面提到，相對于百度智能音箱線上產品所采用的基于傳統數字信號處理的前端增強模塊和一個后端語音識別聲學建模過程串聯的方法，這種基于復數卷積神經網絡的語音增強和聲學建模一體化端到端建模技術，獲得了錯誤率超過30%以上的降低。

除此之外，賈磊在演講中還列舉了這種端到端語音識別的 5 個特點：

遠場語音識別，性能提升 30%，百度怎么做到的？

這里值得一提的是，目前百度的這種一體化建模方案已經被集成到百度最新發布的鴻鵠芯片中，該網絡所占內存不到200K。

四、結尾

30%的降低，這也是近期深度學習遠場識別技術中，最大幅度的產品性能提升。賈磊認為，這揭示了“端到端建模”將是遠場語音識別產業應用的重要發展方向。

賈磊隨后補充說：

“本質上人類語音交互都是遠場。手機麥克風放在嘴邊的近場語音交互，只是人們最初在做語音識別時，由于無法解決遠場識別問題而做的一個限制。
如果遠場語音技術在未來三年成熟以后，所有的語音都是遠場喚醒方式，喚醒之后隨意連續的輸入，任何一個家電設備或者汽車設備，都可以攜帶語音交互功能，進行本領域的查詢。所以這個技術成熟意味著遠場語音識別將走進千家萬戶，在所有我們看到的設備上，都會以遠場語音交互為主體，如果再配合芯片的發展，語音識別、語音合成，將一體化地來解決人類終端交互，我覺得是可以期待的。”

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

3人收藏

camel

編輯

持身秉正

掃描關注作者微信

發私信

當月熱門文章