思必馳俞凱：端到端與半監督語音識別的技術進展 | CCF-GAIR 2020

本文作者：楊麗

2020-08-12 11:52

專題：CCF-GAIR 2020 全球人工智能與機器人峰會

導語：語音識別領域正研究什么？

雷鋒網按：如何低成本高效率地利用少量帶標注的數據，挖掘大量語音數據中的有效信息，半監督學習正成為當下研究趨勢之一。在這種趨勢背景下，端到端的訓練方法也正嘗試結合預訓練或先驗知識，投入在語音識別網絡的探索中。

在8月8日的CCF-GAIR 2020全球人工智能與機器人大會·前沿語音技術專場上，俞凱教授分享了端到端和半監督學習技術在語音識別問題中的最新研究思路及進展。

思必馳俞凱：端到端與半監督語音識別的技術進展 | CCF-GAIR 2020

簡介：俞凱，上海交通大學計算機系教授，思必馳創始人之一、首席科學家。俞教授長期從事對話式人工智能的研究和產業化工作，獲得過多個國際期刊及會議優秀論文獎和研究評測冠軍，還入選為國家級人才項目、優青，上海市“東方學者”特聘教授。

俞教授指出，在深度學習發展以來，語音識別研究領域現在所面臨的問題，除了在工程技巧和數據對接上做一些工作之外，最重要的事情是長尾的非配合語音識別。

其中，具備高效率的高精度系統和高質量的精準大數據構建是兩個比較重要的進展和趨勢。

一是具備高效率的高精度系統。高精度語音識別在前幾年已經超過人的識別，但是高精度語音識別在長尾上仍有很多工作值得研究。很重要的一點是，現在大家的關注點由一般意義的高精度語音識別變成高效率的語音識別。如何在保持高精度的同時，還要保證系統構建和復雜度、響應速度、規模化能力和靈活性都必須同等提高，這是目前端到端語音識別引起很大興趣的原因。

二是高質量精準大數據。大數據很有用，但有了大數據，精度就能提高嗎？其實并非如此，越來越多的人發現真正的大數據應該是結構上的大，而不僅僅是數量上的大，也就是要在聲學因素的分布、監督信號獲取和識別系統適配方面，有高質量的精準數據。于是，也就出現了很多半監督、生成式的數據擴充方法。

何為端到端，以及為什么需要端到端？

在俞教授看來，傳統的識別框架是結構不同的模型模塊組成，稱之為異構識別系統。首先，它本質上不是統一的參數化模型，中間需要WFST解碼器，對各個模塊分別建模訓練；其次，聲學、語言、字典等模型的類型和結構本質上完全不同，且解碼器是不可缺少的連接模塊信息的核心，需要構建復雜的搜索網絡。

端到端識別框架不同之處在于，在大數據的背景下，能通過完整神經網絡實現聲學信號到識別結果的直接映射，各個組成部分是“同構”的。今天報告中談到的端到端更多指的是，直接或簡單轉換后輸出結果是“詞序列”。

從優勢上講，端到端能夠降低復雜度，減少參數量（不是聲學上的減少，有神經網絡語言模型的參數來描述語言空間），從而使得訓練的流水線得以簡化。其次，大數據資源的使用更為簡單，數據驅動更為友好；此外，搜索解碼速度加快，但是否真的需要構建搜索網絡，俞教授指出，這項研究目前存在爭議。

端到端的定義與分類

端到端主要分為兩類，一類是同步框架，另一類是異步框架，主要解決語音識別的兩個基本問題：分類與對齊。解決“對齊”問題通常采用的思路包括：馬爾可夫模型（HMM）、標簽填充、序列解碼網絡等方法。其中，后兩種是端到端中比較常用的方法。

同步端到端框架采用的是，與輸入同步逐幀輸出，通過引入blank標簽實現變長序列對齊；異步端到端框架采用的是，輸入與輸出使用兩個網絡分別處理，使用attention（注意力機制）解決對齊問題。

同步端到端框架最典型的就是CTC和RNN-T：前者通過引入相應的標簽填充，同時在條件獨立性假設上，每一幀輸出之間條件獨立，而后者沒有條件獨立性的假設。

隨后，俞教授詳細討論了異步端到端存在的研究價值和爭議。

俞教授表示，異步端到端最大的特點是輸出與輸入沒有統一的時鐘，是兩個不同的網絡。

在encoder-decoder架構上，encoder對整體輸入序列提取所有信息，然后根據輸出的要求再進行輸出，時鐘和輸出標簽是逐詞進行的。這時，會通過attention的方式處理對齊。一般情況下，輸出序列的個數會遠遠小于時間幀的個數，這種情況下，輸出序列信息速率會遠低于輸入信息速率，beam搜索效率會變得很高。

不少研究指出，異步端到端的識別精度會優于同步端到端模型（上文講到的CTC 、RNN-T），但這目前也是存在爭議的。

端到端的問題與挑戰

即便端到端存在一定優勢，但問題在于，類似于encoder-decoder這樣的架構，實時響應遲延可能會變長；同時，端到端的提出主要是在聲學數據上的訓練，對語言數據使用的討論不夠充分，直到最近才有一些新的工作。那么，端到端具體會有怎樣的挑戰？

一是在線編碼的遲延問題。

這種情況下雙向的神經網絡無法使用，只能用單向網絡，這就造成輸入的信息變少。這時，如果通過注意力機制進行在線化解碼，從而得到即時的、短遲延識別結果，就會變得非常有挑戰性。

二是文本資源及語言空間的約束問題。端到端模型需要有標注語音數據，而最開始研究端到端時，用到的是聲學模型的數據，并沒有用到大規模文本語料。

為此，俞教授指出，當下解決端到端的在線解碼遲延問題，已有的思路主要有三類：一是固定短時窗口預測（Neural Transducer）；二是基于單幀觸發的變長窗口方法（MoChA，Triggered Attention）；三是基于多幀累計觸發閾值的方法（Adaptive Computing Steps）。其本質都是只用歷史信息或非常小的前探信息。

再回來上文所提到的，早期的端到端模型是融合聲學語料文本的超大聲學模型，它并不包括語言模型，那么海量的文本數據如何使用？

當前端到端框架下的文本數據使用的解題思路主要有三種：一是模型融合（Fusion）——將文本數據訓練的神經網絡LM，在decoder輸出層進行插值融合；二是語言模型模塊嵌入——將端到端系統的部分網絡作為LM建模，允許額外文本數據訓練更新；三是半監督訓練——利用文本數據做端到端模型訓練的數據擴充（無顯示的語言空間建模）。

從海量數據到高質量精準大數據

想要從海量數據中提取到高質量、精準的大數據，最大的挑戰在于沒有監督信號、標注起來也很難。解決該問題主要會運用到三個思想：一是自監督預訓練，二是半監督訓練，三是使用生成數據訓練。

首先是自監督預訓練，這種思路下數據自身就是標注，不需要額外標注，這與自然語言處理使用詞序列作為標注，設計一些訓練任務使得能夠提取比較好的預訓練特征是比較一致的方法。比較典型的是wav2vec或結合了預訓練模型BERT的方法，以及重構任務DecoAR。

其次是半監督訓練，可以是海量無標注音頻或海量文本加適量有標注音頻的方式。大體思路也有三種：置信度選擇、先驗知識蒸餾、音頻文本一致性訓練。

在報告最后，俞教授還表達了對精準的環境數據擴充及語音合成研究方向的看好。對于語音合成，俞教授認為合成語音數據的難點在于，不同于語音識別，語音合成是一個信息增加的過程，這個過程需要解決的問題會更為復雜，往往這種“無中生有”的過程基本上是通過引入生成模型進行解決。比方說，在低資源數據下使用VAE建模說話人空間，或者不使用句子級的VAE，而是通過逐個phone的音頻提取隱變量序列z。這些都是當下比較主流的解決問題的思路。

（雷鋒網雷鋒網）

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

專題

CCF-GAIR 2020 全球人工智能與機器人峰會

本專題其他文章

楊麗

高級主筆

關注企業軟件、操作系統、云原生（PaaS）、數據中臺 | 微信：leeyangamber

發私信

當月熱門文章