^{<sub id="jgr5k"></sub>}

作為搜狗語音交互補充的唇語識別發展到哪一步了

本文作者：呂倩

2017-12-25 15:22

導語：唇語識別目前最大的難點在于泛化能力的訓練。

無聲的世界里，你只要動動嘴唇，就可以被識別出說了什么、甚至被轉化為語音，是不是很智能便利、同時又頗為驚悚？

今年12月，第四屆世界互聯網大會，搜狗發布唇語識別技術，也系業內首次公開演示。其背后的商業邏輯是什么？這項技術發展到什么地步了？

一、為什么要做唇語識別

搜狗語音交互技術中心負責人陳偉首先回顧了搜狗在語音交互方面的發展歷史——早期搜狗于移動時代主要做兩件事——輸入法與搜索。后來進入智能時代，設備由手機變為IOT設備，人與智能硬件之間的連接也變為搜狗知音引擎這樣的自然交互引擎，而硬件、信息，或更深度信息之間的連接，則是利用深度引擎來連接。

于搜狗語音交互整體而言，語音、翻譯、識別合成技術，以及目前剛剛公開的唇語識別，均系搜狗語音識別大框架之下的內容，“這也體現了搜狗目前人工智能戰略即是自然交互與知識測算。”

至于搜狗知音引擎自去年8月3日發布之后，到如今的一年多時間里，已形成三個解決方案：

語音聽寫解決方案；
語音交互解決方案；
語音翻譯解決方案

陳偉表示，就本質而言，聽寫技術的作用就是將語音轉化成文字，而如今搜狗發布的搜狗聽寫，則是希望通過機器的方式，自動將人的語音轉化成文字。具體落地上，搜狗聽寫技術已經落地上百場會議，包括法院評審等工作。

而聽寫模塊的語音交互，則結合了語音識別、語音合成與語音理解的能力，應用于不同剛需場景，包括手機、移動端穿戴設備、車載后視鏡與車機等，也包括后續會應用的智能家居。

直到此次世界互聯網大會，搜狗CEO王小川演示了最新語音同傳案例與唇語識別技術，陳偉表示，除了同傳，現場最稱得上黑科技的，就是搜狗唇語識別技術了。

回顧唇語識別技術的研發起始，陳偉對雷鋒網稱，當初主要考慮著，圍繞搜狗主路線上的工作，將圖像和語言進行打通，實現從圖像中轉化出人講話中的信息 ——“這也是對唇語識別的整體思考，以及對應整個知音引擎產品思考上的唇語識別的一個位置。”

王小川則表示，“因為搜狗搜索和輸入法其實都在跟語言打交道。一方面幫助人們用語音表達，另一方面通過語言獲取互聯網上的信息，但在一些嘈雜、甚至無聲的環境里，語音所能發揮的作用是有限的，于是在這種情況下，搜狗決定發展基于視覺的語言識別能力作為補充”。

具體應用上，就是將語音識別與唇語識別相結合，在噪音特別強的情況下，讓后者輔助前者，形成包括視覺、音頻、唇語在內的多模態輸入。

目前，陳偉對雷鋒網表示，在解決噪聲問題上，仍是麥克風陣列比唇語識別更靠譜。在落地速度上，麥克風陣列已然落地，而唇語識別剛剛啟動研發第一步，之后將要進入與音頻結合解決降噪問題的階段。

但唇語識別有其獨特的場景優勢，例如，當周圍過大噪音造成語音指令無法被準確捕獲、識別時，唇語識別可以幫助規避這一影響，確保輸入的準確率，保證交互的穩定性；在安防領域中，由于目前很多監控場景，如電梯、馬路中只有攝像頭沒有麥克風，通過唇語識別技術，則可以獲取重要的用戶講話信息，為公共安全提供有效支持；此外，搜狗唇語識別還能服務于聽障、失語人士等。

綜合來講，陳偉表示，目前搜狗唇語識別主要應用于兩大場景：

其一，在多數語言場景下，攝像頭的覆蓋率遠遠高于麥克風，但通過攝像頭獲得的圖像數據主要用于監控簡單的行為，很難在安防等場景中，精確了解圖中人物在說什么，但使用唇語識別技術就可以通過嘴的動作獲取大量內容信息；
其二，唇語識別可以作為輔助技術，提升語音識別技術現階段的準確率。搜狗的唇語識別技術目前在開放的口語測試級上可以達到50%-60%的準確率，在限定場景中可以達到90%。

作為搜狗語音交互補充的唇語識別發展到哪一步了