0
2022北京的冰雪賽場熱鬧非凡,相信即使沒有看比賽這幾天來你也一定被金牌、谷愛凌等熱詞刷屏了。
而和我們一起在屏幕前關注中國健兒們表現的還有一群處于無聲世界中的特殊人群,盡管他們能夠看到賽場上的精彩畫面,不過對于賽場細節的解說卻無法傳入耳中。這些聽障人士了解世界、對外溝通主要借助手語,以往我們經常能夠看到央視等電視臺的新聞節目中伴隨的手語播報。而為了提升聽障人群的觀賽體驗,手語解說這次也應運而生。

在日前央視頻APP的賽事視頻中,一位擔任手語解說的漂亮小姐姐出現在畫面下方,見證了中國隊奪金的各場比賽。與過往那些經驗豐富、身經百戰的手語老師們不同,這是她首次進行手語解說工作,卻有著完全不遜于前者的準確度和反應速度。
仔細了解后才知道原來這次為央視頻提供手語解說服務的并非真人,而是由騰訊打造的3D手語數智人“聆語”。

如你所見,“聆語”有著高度接近真人的面部形象以及肢體動作,這為其塑造了與真人手語翻譯無異的親和力,在手語表達能力上,“聆語”具備以下四大特性:
一是語言翻譯準確,能夠將健聽人語言準確翻譯轉化為聾啞人所能理解的手語,可懂度可達90%
二是結合了逼真的面部表情唇動,更有助于觀眾理解語義
三是手語動作連貫自然,除了能夠準確表達手語詞外,不同的手語詞間也能夠實現順暢過渡
四是能夠快速迭代新詞、熱詞,及時理解和更新比賽相關詞匯,“小栓子”、“谷愛凌”都能準備表達
為了打造這樣一個具備擬真形象和高超手語翻譯能力的數智人,騰訊云小微聯合了騰訊PCG AI等技術團隊,綜合運用了3D數字人建模、多模態交互技術、機器翻譯、語音識別和自然語言理解等技術。
比如“聆語”的外觀形象和動作便依托了3D光照掃描還原、面部肌肉驅動、表情肢體手勢捕捉等技術,做到了高度還原真人發膚,動作自然不生硬。
在最關鍵的手語表達上,“聆語”基于《國家通用手語詞典》的標準手語,和深度的機器學習訓練,以及針對體育、藝術等專業領域的優化補充,目前共掌握約160萬詞匯和語句。在解說比賽時,會先通過機器翻譯將比賽解說的健聽人語言低延遲轉化為高準確率的手語語言表征,再運用騰訊多模態端到端生成模型,進行聯合建模及預測生成高準確率的動作、表情、唇動等序列,實現自然專業且易懂度高的手語效果。
并且“聆語”具備快速學習補充新詞熱詞、根據業務場景快速學習專業用語的能力,像應對本次賽事手語解說就針對體育賽事方面的用語做了定向優化,覆蓋了超過15000個相關詞匯。
投入多部門的技術力量打造服務于少數弱勢群體的手語數智人,除了基于騰訊“科技向善”的理念和愿景外,也有手語翻譯/解說在現實運用層面的需求。
雖然手語是聽障人士溝通和理解事物所依賴的重要方式,但由于精通手語翻譯的人才偏少,在面向大眾的視聽內容中手語翻譯覆蓋范圍低,以往國內多數電視新聞、文娛節目無法保證能配備同步的手語翻譯,更遑論網絡視聽內容;同時手語存在較大的區域方言差異,國家在2015年推出的通用手語,仍需要持續的推廣,傳媒節目由于需要對大量復雜語句進行肢體動作上的實時表達,往往準確度、可懂度并不高,也依賴于全國性的媒體節目進行手語“普通話”的持續普及。
而像“聆語”這樣以數智人形象呈現的AI手語翻譯出現,正有利于解決上述的兩大困難。作為AI產品的“聆語”能夠幾乎無限制地廣泛部署,解決專業手語翻譯數量不足的問題;而其基于機器學習的表達能力隨著時間推移相比真人也會更為精確可懂。
2021年10月廣電總局在《廣播電視和網絡視聽“十四五”科技發展規劃》也提到,要推動虛擬主播、動畫手語廣泛應用于新聞播報、天氣預報、綜藝科教等節目生產,創新節目形態,提高制播效率和智能化水平。
因此可以預見的是,在國家及相關企業推動下,未來“聆語”及類似的AI手語翻譯、手語主播將會被部署運用在體育賽事之外的其它視聽節目當中,給予聽障人群更友好的觀看體驗,在大型會議、活動直播、影視作品等方面的運用也有著可期的前景。
值得一提的是,AI手語主播只是騰訊在數智人業務探索方面的其中一個方向,據了解騰訊云小微聯合PCG AI、AI Lab等團隊打造了多個數智人方案,涉及金融、傳媒、政務、家居、教育、展會等多個領域。
比如用于為在線客戶進行智能化服務的銀行數智員工,用于引導開戶的證券交易客服,協助旅客查詢信息辦理業務的民航數智地勤,以及展會導覽助手、景區導覽助手等,這些數智人都有著強大的AI能力,未來在各行業中無疑將扮演越來越重要的角色。
雷峰網(公眾號:雷峰網)雷峰網雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。