一幫不懂手語的工程師研發出了會比手語的AI主播

本文作者：王金旺

2021-05-20 19:47

導語：漢語是門“有聲語言”，手語是門“視覺語言”。

作者 | 王金旺

出品 | 雷鋒網產業組

雷鋒網消息，5月17日，搜狗CEO王小川在搜狐科技5G&AI峰會對外發布了新一代搜狗AI合成主播——手語AI合成主播“小聰”。

作為搜狗AI合成主播經過兩年多時間迭代后的新品，手語AI合成主播集成了超寫實3D數字人建模、機器翻譯、多模態數字人生成、遷移學習、實時面部動作生成及驅動技術。據搜狗官方信息顯示，在組織的聾人可懂度測評中，搜狗手語AI合成主播可懂度達到了85%以上。

搜狗這款手語AI合成主播研發初衷是什么？

為什么有了語音識別生成字幕技術后，還要做搜狗手語AI合成主播？

搜狗手語AI合成主播與一脈相承的語音識別、AI分身在技術研發過程中又有何異同？

……

這些問題都在5月19日的媒體溝通會上由搜狗AI交互技術部總經理陳偉及他的團隊進行了一一解答。

研發初衷：聽障人士看字幕如學外語般艱辛

2018年11月，搜狗與新華社合作研發的AI合成主播正式問世，幾經迭代后，在2020年5月，又與新華社聯合推出了3D AI合成主播。

當時陳偉和他的團隊在為搜狗為3D AI合成主播規劃未來發展方向時，著重考慮了三個方面：

第一，要把3D能力做好；

第二，我們希望搜狗在“數字人”這個方向上有自己更高的技術壁壘；

第三，我們要找到有強烈需求的場景。

綜合考慮場景、渠道和技術迭代中的創新后，2020年5月，手語AI合成主播在搜狗內部正式立項。

既然有字幕了，還要手語干什么？

這也是搜狗手語AI合成主播立項之初，陳偉當時需要考慮的問題。

對此，陳偉總結了三方面原因：

第一，并非所有聽障人士能看懂字幕。

在我國2700萬聽障人士中，整體受教育程度參差不齊，有高中、大學學歷的聽障人士在這一群體中仍然只占非常小的比例，現在大家對字幕獲取的能力還在逐漸培養中，要想讓絕大部分聽障人士看懂字幕還有很長的路要走。

第二，「有字幕」這件事兒和「做手語」不是必須二選一的。

我們在了解信息、獲取信息過程中必然會通過多種方式，我們自己在看電影的時候，有時候盡管中文的電影我們可能也會看字幕，大家本能的想法是我怎么能更快更高效的獲取信息，他能看懂字幕更好，如果看不懂，還有手語可以提供信息。

第三，手語語言和有聲語言之間是完全不同的語言體系，聽障人士對有聲語言的接受程度類似健聽人對第二外語的接受程度。

聽障人士即便學習了漢語，對他來說也是第二語言，就像我們在學習英語過程中，盡管我們學習了很長時間，但還是很難產生熟悉的感覺。

與此同時，聽障人士在學習漢語的過程中其實天生是有障礙的，因為漢語或者普通話更多的是表音文字，每個字都有發音，我們之所以能夠快速學習語音，是因為有語境。我們跟別人溝通的時候，溝通的前提是眼睛看著大家，看到了唇形，同時聽到了聲音，結合在一起是多模態的，但是聽障人士在聽力上天生有障礙，就少了一個因素讓他更快地學習有聲語言。他們之所以學手語學得快，是因為手語是視覺語言，不需要輔以聲音進行理解。從這個角度來看，手語短期內不可能完全被字幕替換掉，它仍然是聽障人士的主要學習方式，手語表達也更符合聽障人士的習慣。

就在搜狗手語AI合成主播發布的同時，搜狗還對外發布了柳巖同款明星“數字人”。

一幫不懂手語的工程師研發出了會比手語的AI主播

據陳偉透露，柳巖同款明星“數字人”從錄制到上線用了有一個月的時間，其中錄制僅用了兩個半天（合計一天），數據標注花了30%-40%的時間，剩下的則是技術研發和迭代用的時間。

而手語AI合成主播“小聰”的技術難度要遠遠大于明星“數字人”。

研發歷路：手語是門“視覺語言”

搜狗研發了多代AI合成主播，在語音識別技術上也積累頗豐。然而，手語AI合成主播對于搜狗而言，仍是一個全新的領域。

據陳偉介紹，搜狗在做手語AI合成主播“小聰”時，主要做了三方面工作：

「語言側手語的研究」、「語言體系的翻譯」和「表征表達」。

首先，在研發“小聰”過程中，搜狗最先遇到的就是手語數據庫建立的問題。

搜狗開始接觸手語發現了一個問題：手語語言和所有其他（有聲）語言都不一樣，它是一個視覺語言。

隨之而來的一個問題是：“小聰”的訓練數據從何而來？

陳偉解釋稱，手語語言如何轉換成計算機語言，之前行業在做手語語言體系時并沒有特別明確的做法，要么是純語言學，要么是計算機相關背景的人根據自己的想象做手語。

在搜狗團隊的認知中，手語本身是沒有可記錄的文字信息的，因為它本身就是視覺信息。

《國家通用手語詞典》一共8000多個詞，“小聰”基于《國家通用手語詞典》進行健聽人語言與聽障者手語語言的機器翻譯，在這個過程中，為了構建用于模型訓練的數據庫，搜狗做了三方面工作：

第一，從語序到選詞，我們會考慮把健聽人的語言和聽障人士的語言做一個平行的翻譯，這樣就可以積累大量的資源，用這樣的資源作為翻譯系統的數據；

第一，將手語詞匯轉化成用文字方式或用技術方式標注出來；
第二，構建健聽人和聽障人士之間語序的平行翻譯語料，這需要大量的機器翻譯庫；
第三，通過預先捕捉大量真人動作和表情數據，對構建起的3D模型進行模型訓練，因為搜狗走的是超寫實模型，這件事情每個環節都有很大的資源和研發投入。

據陳偉透露，從翻譯角度來講，現在初步建立起來的精標數據達到幾萬。

其次，搜狗要考慮的第二個問題是——語言體系如何構建。

手語和漢語本質上不是一個語言體系，存在著諸多結構、表達上的差異。在這之中，“小聰”研發團隊特別提到三個難點：

第一，手語表達與漢語表達語序的不同。例如，漢語中的“開車不許喝酒”，手語表達出的則是“開車、喝酒、不準”，包括像“北京常常堵車”會被翻譯成“北京、堵車、常常”。

為此，搜狗建立了相應的語言規則嘗試做相應的語序轉化，通過搜狗構建數據庫給算法進行訓練。

第二，在詞匯上，手語中沒有虛詞和量詞。“我買兩只鉛筆、一本書”，手語表達出來的會是“我買鉛筆、二、書、一”；包括“在、的、了”等程度詞都會省略，“大雪紛飛”用手語表達也不會有一個詞表達“大”、一個詞表達“雪”，而是在“雪”的基礎上加大身體的擺動來體現程度副詞。

為此，搜狗建立了手語到漢語之間的映射辭典，嘗試去解決手語和漢語之間詞匯上的差異問題。

第三，手語里特有的非手控的信息，例如表情、口動、身體的朝向，這部分是在漢語語言中所沒有的。例如同一個手勢表達“我做的好不好”，如果沒有表情的話，大家很難明白手語表達出來的意思，但是如果有皺眉，就是能表達出疑問的語氣。

表情、身體姿態、口動等非手控信息是搜狗在做“小聰時”遇到最大的難題，目前也在嘗試通過一些建立一些表情庫或存在表情標記的數據庫驅動算法的設計等規則的方式來解決這一問題。

最后，搜狗還需要用這樣的語言體系驅動“數字人”“小聰”完成自然連貫的手語動作、面部表情表達。

“手語翻譯是一個新的話題”

這個事情的難點是我們一幫不懂手語的工程師在做事情，特別容易陷入到自己的煙囪里面。

陳偉一語道破研發團隊立項初期的窘境。

在進行過深入研究后，陳偉發現，手語翻譯是一個新的話題。

我們同傳上線了這么多年，原來做的中英翻譯、中日翻譯等結構都是一樣的，但是放在手語上又不一樣了，它有一些新的話題。

為此，陳偉請來了制定手語標準的殘聯及相關協會專家、教手語的手語老師、做手語推廣的專業人士，由這些人組成了搜狗手語AI合成主播語言體系、產品體系、研發體系之外的智囊團作為顧問團隊。

從立項之初，搜狗就一直與這一顧問團隊保持著緊密聯系，這也成為搜狗手語AI合成主播在技術迭代過程中不至于偏離最終用戶的一個保障。

“數字人”的一個終極目標是手、嘴、表情、姿態的實時聯動，完美復刻真人表達能力，這也正是手語對表達能力的需求。

據搜狗官方信息顯示，“小聰”在測評中可懂度已經可以達到85%以上，能夠進行有效信息傳遞。

對此，陳偉也向雷鋒網解釋：

可懂度85%，跟（語音）識別準確率98%是兩個概念。識別率是客觀指標，這個字到底對還是錯的問題；可懂度更強調聽障人士的體驗，我在表達的時候，翻譯得準，“數字人”表達得準，這個鏈條太長了，在這件事上每個環節都得做好，串聯起來才會得到一個比較滿意的效果。

與此同時，陳偉也指出：

數據量足夠的話，提升讀懂度在技術上不是特別大的問題，不過，數據資源的積累需要比較長的時間成本，我們在快速推進，但還是需要有時間積累。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

王金旺

主編

關注AIoT、機器人、智能硬件，新聞爆料、行業交流（注明公司、職位和名字）微信：18210039208

發私信

當月熱門文章