0

無聲的世界里,你只要動動嘴唇,就可以被識別出說了什么、甚至被轉化為語音,是不是很智能便利、同時又頗為驚悚?
今年12月,第四屆世界互聯網大會,搜狗發布唇語識別技術,也系業內首次公開演示。其背后的商業邏輯是什么?這項技術發展到什么地步了?
搜狗語音交互技術中心負責人陳偉首先回顧了搜狗在語音交互方面的發展歷史——早期搜狗于移動時代主要做兩件事——輸入法與搜索。后來進入智能時代,設備由手機變為IOT設備,人與智能硬件之間的連接也變為搜狗知音引擎這樣的自然交互引擎,而硬件、信息,或更深度信息之間的連接,則是利用深度引擎來連接。
于搜狗語音交互整體而言,語音、翻譯、識別合成技術,以及目前剛剛公開的唇語識別,均系搜狗語音識別大框架之下的內容,“這也體現了搜狗目前人工智能戰略即是自然交互與知識測算。”
至于搜狗知音引擎自去年8月3日發布之后,到如今的一年多時間里,已形成三個解決方案:
語音聽寫解決方案;
語音交互解決方案;
語音翻譯解決方案
陳偉表示,就本質而言,聽寫技術的作用就是將語音轉化成文字,而如今搜狗發布的搜狗聽寫,則是希望通過機器的方式,自動將人的語音轉化成文字。具體落地上,搜狗聽寫技術已經落地上百場會議,包括法院評審等工作。
而聽寫模塊的語音交互,則結合了語音識別、語音合成與語音理解的能力,應用于不同剛需場景,包括手機、移動端穿戴設備、車載后視鏡與車機等,也包括后續會應用的智能家居。
直到此次世界互聯網大會,搜狗CEO王小川演示了最新語音同傳案例與唇語識別技術,陳偉表示,除了同傳,現場最稱得上黑科技的,就是搜狗唇語識別技術了。
回顧唇語識別技術的研發起始,陳偉對雷鋒網稱,當初主要考慮著,圍繞搜狗主路線上的工作,將圖像和語言進行打通,實現從圖像中轉化出人講話中的信息 ——“這也是對唇語識別的整體思考,以及對應整個知音引擎產品思考上的唇語識別的一個位置。”
王小川則表示,“因為搜狗搜索和輸入法其實都在跟語言打交道。一方面幫助人們用語音表達,另一方面通過語言獲取互聯網上的信息,但在一些嘈雜、甚至無聲的環境里,語音所能發揮的作用是有限的,于是在這種情況下,搜狗決定發展基于視覺的語言識別能力作為補充”。
具體應用上,就是將語音識別與唇語識別相結合,在噪音特別強的情況下,讓后者輔助前者,形成包括視覺、音頻、唇語在內的多模態輸入。
目前,陳偉對雷鋒網表示,在解決噪聲問題上,仍是麥克風陣列比唇語識別更靠譜。在落地速度上,麥克風陣列已然落地,而唇語識別剛剛啟動研發第一步,之后將要進入與音頻結合解決降噪問題的階段。
但唇語識別有其獨特的場景優勢,例如,當周圍過大噪音造成語音指令無法被準確捕獲、識別時,唇語識別可以幫助規避這一影響,確保輸入的準確率,保證交互的穩定性;在安防領域中,由于目前很多監控場景,如電梯、馬路中只有攝像頭沒有麥克風,通過唇語識別技術,則可以獲取重要的用戶講話信息,為公共安全提供有效支持;此外,搜狗唇語識別還能服務于聽障、失語人士等。
綜合來講,陳偉表示,目前搜狗唇語識別主要應用于兩大場景:
其一,在多數語言場景下,攝像頭的覆蓋率遠遠高于麥克風,但通過攝像頭獲得的圖像數據主要用于監控簡單的行為,很難在安防等場景中,精確了解圖中人物在說什么,但使用唇語識別技術就可以通過嘴的動作獲取大量內容信息;
其二,唇語識別可以作為輔助技術,提升語音識別技術現階段的準確率。搜狗的唇語識別技術目前在開放的口語測試級上可以達到50%-60%的準確率,在限定場景中可以達到90%。

相較于采用傳統模型來研究唇語識別技術的英國東英吉利大學,搜狗選擇了采用深度學習的方式來做,主要圍繞著:
一,到底用了多少數據
二,算法復雜度有多高,儲存能力有多強
三,應用場景到底是什么
那么唇語識別的難點在哪里呢?
第一,陳偉表示,語音交互準確率低的問題一直沒有解決,很大原因就是語音噪聲問題無法解決,加入安置到安靜場景中,就可將準確率提高到97%的高度。也就相當于近場語音聽寫的過程,但這種理想狀態是很難實現的。
為了解決這個問題,陳偉表示,搜狗提出兩種方式:
一是通過硬件的方式,比如團隊正在做的麥克風陣列,通過增強語音信號的方式,將噪聲屏蔽掉,提升語音識別準確率。
其次,繞開噪聲,能動性地添加多模態信息,也就是所謂的在唇語識別外添加視覺信息
第二,目前的人工智能多是機器模仿人,但弱人工智能很難實現對人類的超越。“也就是讀唇這件事光看唇動的話,并不是一個非常明顯的特征,往往依賴于上下文語言的信息。”
此外,陳偉表示,普通話有4個調,而英文沒有調,因為英文基本的發音單元在50個左右,而中文如何聲韻母切開來看的話,如果詳細建模至少在200個左右,所以發音單元之間有很大的差別。
最大的難點則在于泛化能力的訓練。陳偉以Google舉例稱,Google的泛化是基于2010年至2016年整個新聞訪談訓練集的數據,在閉集訓練內,準確率可以保證為較高水準。比如搜狗早期針對新聞聯播級主持人的泛化訓練,其準確率可達70%以上。
陳偉對雷鋒網表示,基于開放口語測試級時,基本可以保證50%-60%的準確率,而在垂直場景下,由于語音相對來說不會太發散,準確率可以相對提高,比如在車載與智能家居場景下。
至于唇語識別是否會涉及到用戶隱私安全這個問題,陳偉表示,目前技術發展狀態還未到該階段,搜狗正在探索唇語識別與哪些具體剛需場景結合。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。