北大教授吳璽宏：從發聲到語言，具身物理模型讓NLP回到小數據時代

本文作者：我在思考中

2021-09-22 10:33

導語：今年8月28日的線上高峰論壇上，北京大學吳璽宏向大家分享了大規模訓練語言模型的個人見解，隨后具體闡釋了基于發聲物理模型的語音發聲姿態的自監督學習。

作者 | 吳彤

編輯 | 青暮

讓機器理解人類的語言是我們長期以來的夢想，經過幾十年的發展，語言與智能技術發展到了什么程度？如何評價語言理解的智能水平？離強人工智能還有多遠距離？未來的技術發展趨勢如何？這些問題迫切值得研究與探討。

中國計算機學會和中國中文信息學會聯合創辦了"語言與智能高峰論壇"，每年舉行一次，首屆論壇于2016年在北京舉行，已成功舉辦五屆。

在今年8月28日的線上高峰論壇上，北京大學吳璽宏向大家分享了大規模訓練語言模型的個人見解，隨后具體闡釋了基于發聲物理模型的語音發聲姿態的自監督學習。

北大教授吳璽宏：從發聲到語言，具身物理模型讓NLP回到小數據時代

吳璽宏教授的線上分享

吳璽宏教授現為北京大學教授、博士生導師，北京大學信息科學技術學院副院長、智能科學系主任、言語聽覺研究中心主任。同時也擔任南京腦科學與類腦智能創新中心的主任，研究猴腦介入式言語、猴子在交互過程中腦活動、非介入式的人腦介觀的動態圖譜以及和人類行為語言的關系。長期以來，吳老師致力于機器聽覺計算理論、語音信息處理、自然語言理解以及智能機器人等領域的基礎及應用基礎研究，先后主持和參與國家級、省部級項目40余項，包括國家973課題、863項目、國家科技重大專項、國家科技支撐計劃、國家自然科學基金重大項目及重點項目、國家社會科學基金重大項目等。獲國家授權發明專利11項，發表學術論文200余篇。

吳老師是做聽覺模型出身，從2005 年起才較晚地進入到NLP 領域。近年來吳老師團隊開始深入研究聽覺的發聲和聽覺的耦合關系，如何將其整合實現詞匯的發音姿態表達，并研究發音姿態和客體模型的動作控制之間的關系。

本次報告首先對語音識別任務的工作假設進行反思，在此基礎上基于聽覺的"肌動理論(Motor Theory)"，提出了一種結合發聲物理模型的非監督自主學習方法，即具身學習(Embodied Learning)方法。

該方法通過正向物理模型和逆向聽覺模型的迭代學習，實現了從任意非標注語音到聲門激勵信號和發聲姿態參數的推斷，實現了對語音具有可解釋性的描述；
通過在線自適應實現了對新語音的發聲姿態推斷，解決了模型學習的泛化問題。
基于發聲姿態可進一步實現任意語種的音系構建，為小語種和方言的語音識別、個性化語音合成任務提供了一個新的解決思路。

以下是演講全文，AI科技評論進行了不改變原意的整理，文章已經過吳老師修改及確認。

大規模訓練生成“夢話”

如何把聲音和控制結合起來？大規模預訓練模型的效果為什么那么好，背后原因何在？

我們認為，這類模型做的是預測工作，預測是一個主體生存最重要的任務。但它們的預測實現，比如基于已有詞匯預測下一個詞匯，都是基于詞匯的嵌入向量進行的。從語法層面講，這些嵌入向量是抽象的、多維的，不具有語言中的準確上下文關系。從語用層面將，言語是一種行為，是在特定語境下與他人之間有意識地特定行為。但GPT-3缺失主體、時空、意圖、手段、邏輯等。

因此，為了從表面上模擬這種預測，它需要巨量的數據才能夠實現。即便能夠實現，GPT-3生成文本也是一種夢話，一種建立在大規模訓練語言模型中的無意識“遣詞造句”。

2

跳出符號世界

語言學家索緒爾認為：每一個符號都由能指和所指組成，即符號=能指+所指。能指是語言符號的聽覺特性，而對意義的探詢是所指。

舉個例子：對面的女孩子對我笑（能指），她喜歡我（所指）。即在這種情境下，笑＝喜歡（隱喻），但是換種情境，或許笑＝嘲諷（隱喻）。

所以在符號分析之中，自然語言處理要關注的就是這種能指和所指之間的斷裂關系和不穩定的關系。表面來看，我們人的每一項行為沒有與之呼應的意義，但深層次來看，我們掌握的其實始終只是能指的部分，真正的所指早就躲到潛意識的復雜結構里去了。

但世界知識是如何表示的呢？語言訓練僅用符號來描述的世界是充分的嗎？我們要想辦法跳出符號世界。

跳出符號世界就出現圖像和文本的聯合訓練問題。在真實世界中，因為有圖像的客體空間分布，符號有一定具象化之后，使得空間的分布、結構都會對文本約束，語言訓練所要求的數據就不再是龐大的的數據，而是小數據，這樣的話也緩解了對文本數據的要求。

如果某天做出來文本和圖像聯合的某一種GPT ，盡管它是受語境約束的，但它仍然是夢話，因為它沒有自己的控制，沒有自己的意圖。

傳統的說法是在人工智能上空有兩朵烏云：常識、符號落地。但在這兩朵烏云之外，還有一朵更重要的烏云--主體以及主體的情感和意圖。那如果跳出符號世界到真實世界中，符號產生的條件是什么？

3

符號的產生和條件

我們認為，符號的產生需要三個條件：首先要有社會文化環境，其次是主體和環境的交互，所以要有身體，第三個條件是發聲能力。三者聯合則構成一個包含語境和心智的具身結構。這要比小數據的語言訓練模型巧妙得多。

身體包括生理需要、身體動作和身體情緒等，在它與社會文化環境的雙重作用下，生成了感知-運動預測問題，并由符號在我們的感知-運動之間來回對應。在這個具身結構的符號建立之后，吳教授認為這個符號及體系隱含著心智和語境。人工智能上空的第三朵烏云終于被撥開，但最大的障礙在于符號在感知-運動和社會文化環境之間如何搬運。

因此吳教授從第三個條件，也就是發聲能力，尋找“搬運”的接口。吳教授認為，人之所以區別于其他的動物，關鍵是人的發聲能力。人類學研究已經表明，人具有獨特的咽腔結構，能夠產生無數種發音變化，因此語音就能對符號編碼，它支撐的編碼空間是足夠的，也就產生了第一符號系統--語音。而我們說的文字符號，則是第二符號系統。

文字符號處理和做語音信號處理的差別在哪？

一個差別是語音信號如果變成文字符號，過程中會丟失很多信息。除了詞匯分割以外，還有代表情緒的很多韻律信息。比如在線上聊天時，我們總會以表情包彌補丟失的情緒。從最初的顏文字到jpg到GIF，人們借助表情包傳遞對話情緒，填補“不在場” 的縫隙。

第二個是認知神經科學的研究表明，我們在語音交流過程中，我說的話和你聽懂的話，聽者并沒有逐詞處理，而是“挑”著來。比如早上媽媽沖進房間大吼十分鐘，你只聽到一句“要發霉了”，便會自動明白今天陽光很好，媽媽嫌棄起床晚。而在符號處理中，每一個符號都必須處理，如果不處理的話，它會影響對整個句子的理解。

在語音識別領域，近年來它已經發展得十分優秀。相對于自然語言處理來說，語音識別的識別率和抗噪音性能很高。但在語義識別領域，還存在大量繁瑣的數據標注和計算資源工作。

但種種跡象表明，語音識別系統出現了天棚現象，它并沒有達到100% 完美，盡管還能往里加數據，語音識別的性能卻不增加了。第二個短板是無法識別非標準化的數據，也就是語音的變異，比如方言、小語種，如果大家沿用數據標注的方法，無異于降維為“AI民工”。

語音識別研究隱含的工作假設

首先，語音識別研究默認為它要識別的語言必須具有文字符號，即第二符號系統必須具備；其次，需要語音學家提供注音標注的音系系統；最后還需要語音學家提供詞典。

多年來，語音識別之所以所向披靡，其實就是借用了語音學家和語言學家大量的資源，以及語言的第二符號系統。但實際上我們面對的是什么？

語音隨著講話方式的變化而變化，多變是語音的本質；很多語種和方言沒有文字系統，也沒有構建音系系統。

這樣的話，我們面臨的挑戰問題是如何實現新方言、新語種的音系的自動構建，以及如何實現對語音的精細的自動的標注。

4

新方法：具有認知啟發的表示學習和范疇學習

在研究過程中，我們找到一個新方法，基于具有認知啟發的表示學習和范疇學習，實現語音或語種的自動標注和音系構建。首先這涉及到語音的產生和聽覺過程。

語音的產生是氣流經過喉、咽、腔，經過舌和口腔的調制，再通過口唇動作調節產出語音。語音再傳輸到耳朵，對聲音信號進行頻譜分析和加工。

但語音具有多變性，例如同一個人的zero發音在平穩、憤怒、溫柔、叫喊的情緒下，語音的語譜變化非常激烈；不同人的發音，比如孩子、男人、女人也有很大的變化。

傳統的語音識別應對方法是人工打標簽，不管語譜如何變化，總能映射到一個標簽，形成一個范疇。但也因此出現一個推廣性問題。語音語譜是多變的，不同人、不同的情緒下都有變化，打標簽的方法不可能覆蓋所有變化。從AI的演化來看。這是一種非智能的方法。

另外還有一個可解釋問題。從語音頻譜的角度看，人工標記過于粗略，不能描述語音音節的精細變化。那還有什么精準描述語音變化又節省人力的方法嗎？

我們提出從發音姿態的表示對語音進行編碼的方法。回歸到語音的產生，氣流推動聲帶振動，經由口腔調制使得語音有不同的共振特性，如果這個時候對語音以及口腔形狀進行編碼，即口腔的發音姿態等，是不是能夠捕捉一對映射。

那我們能不能從發聲姿態的角度進行范疇化呢？

其實國際音標表就是一個基于發聲部位和發聲方法的發音表述。

在國際音標表中，它涵蓋雙唇、唇齒、齒間、舌尖前等12個發聲部位，塞音、塞擦音、鼻音等10中發音方法。在發音描述上，國際音標表早在1887年就被制定，按照發音姿態刻畫全世界各種語言。

不僅如此，言語知覺理論（Motor Theoty）講到，我們感知言語，實際上是感知講話者的目標發聲動作。比如在一些噪聲情況下，你沒聽清楚對方說的話，但可以通過自己嘴上模仿“聽懂”對方說的話。

另外嬰兒也是先掌握發聲的動作模式才學會詞匯。剛生下來的小嬰兒就會哭喊，其中有一個功能就是練習口腔發音。通過自己的發聲動作調整音量大小、口腔形狀，并產生聲音變化，這個過程實際上是嬰兒在訓練自己發聲與聽的功能。有這個基礎之后，才去學后續的詞匯。

北大教授吳璽宏：從發聲到語言，具身物理模型讓NLP回到小數據時代

姿態表示和范疇學習的方法框架

肌動理論和國際音標表證明，我們可以通過發音姿態位置感知對方的言語，甚至是任何發音都可以通過我的口腔姿態作逼近模擬。那么，動態的語音信號也可以自適應地用口腔姿態來描述。另外它具有可解釋性，能夠刻畫聲音在每一時刻的精細變化，推演從語音到口腔、再從口腔到語音的因果過程。

語音信號用發音姿態描述出來之后，我們可以進一步地通過相似性、區分性、詞位，對不同的發音姿態建立音位范疇，最終形成音位的符號串，就可以不使用語言學家提供的音位系統。

那么，如何實現自監督學習？是否可以引入物理發聲模型？

5

基于發聲物理模型的語音發聲姿態自監督學習

語音反演：從語音到發聲姿態

從語音信號倒推發音姿態，實際上這個想法有幾十年了，姿態獲得是最有難度的問題。傳統的方法是在實驗員的舌上貼不同的磁電傳感器，通過傳感器獲得他在說話過程中的姿態：舌動-口腔聯動-生成對應的語音信號-記錄對應的語音信號隨著時間的變化軌跡，因此獲得一對映射數據。

是否拿到數據后就可以通過語音反演出發音姿態？

這是一個自然的想法。但實際上，這種方法獲取的數據代價太大，一是人力低效，二是數據不具備遷移性，如果換另一個人講話，發音姿態也會隨之有微小的改變。

那么回歸到說和聽的過程，語言和生理的閉環式如何表現的？在1983年的曹劍芬和任宏謨的《言語鏈：說和聽的科學》書中，早已詳細描述聽覺系統和發聲系統的閉合鏈：說話人大腦中產生想說話的信號，由肌肉控制生成句子。聲音信號一方面通過感覺神經傳遞到自己的反饋鏈環節，另一方面通過言語聲波傳遞給聽話人，從而構成一個從語言學平面-生理學平面-聲學平面-生理學平面-語言學平面的閉環鏈。

北大教授吳璽宏：從發聲到語言，具身物理模型讓NLP回到小數據時代

具身認知：將語音的聽覺表示轉換成發聲的肌肉控制，發聲器官的姿態成為語音的具有物理意義的表示。

具身學習：協同物理的發聲過程與聽覺的逆過程，實現物理系統約束下的自監督的學習。

在實驗中，我們通過模仿這個發聲閉環，對發音過程建立了一個物理模型。通過氣流、壓力、聲帶的彈性系數等控制聲音輸入信號、通過舌位、唇位等控制物理模型的聲音輸出信號。即能否把物理模型和感知過程結合起來，實現閉環的自監督學習。

北大教授吳璽宏：從發聲到語言，具身物理模型讓NLP回到小數據時代

聲門-聲道發聲濾波器TRM模型

在實驗中，我們建立了一個TRM模型，這是一個聲門激勵信號，通過聲帶進入咽腔、軟顎、鼻腔、口腔這種耦合的調制產出語音信號。

這是一個典型的物理模型，氣流進入-調制壓力-發出不同的語音信號，其中通過固定參數和動態參數調制不同的聲音信號，比如固定參數來刻畫聲道長度，鼻腔長度，軟顎和聲帶的彈性系數等，動態參數刻畫舌頭位置的變化、氣流強度等。

拿到語音信號后通過一個相同的反模型輸出，對比正模型和發模型的參數差異，并按照梯度下降繼續迭代學習，得到準確的系數。

不同于傳統的強化學習

這個物理模型和傳統的強化學習不一樣，傳統的強化學習需要確定評價函數，每次迭代都需要評價，但在語音信號的評價中，兩個語音信號距離小并不意味著相似、距離大不意味著不相似，這是強化學習的缺陷。

而我們的自監督物理模型無需評價函數，利用發聲姿態的差異作為梯度；網絡輸入是物理模型生成的語音，輸入和監督信息受物理約束，是一種監督學習。另外網絡輸入語音信號的生成信號永遠受物理約束。神經網絡的反模型，實際上對 TRM 物理的正模型的一個逆過程。

原始的語音信號經過模型迭代，就可以得到發音姿態每時每刻的變化。這個物理模型的不僅能發出聲音，還能準確提取聲帶肌頻信號。

在獲得發音姿態后，我們希望它是從一個生物學信號的姿態到物理的口腔形狀姿態的變換，并依據發音姿態自動建立一個音位范疇，那么就可以進一步發現發音姿態的特征點，建立發音姿態和語音信號的映射范疇。

建立一個固定目標標記，隨后建立一個動態的動力學目標模型，估計發音姿態中哪些是行動發音過程，比對最終的發音目標是什么。估計出來之后，通過一個決策樹的聚類方法，對應漢語音系。如果漢語音系和這個語音訓練得出的音系基本上對應，說明我們提取的姿態和音位是可行的。下一步可以在這基礎之上做詞匯，從自然語言中自動發現的詞匯。

6

結語

基于具身認知和肌動理論，吳老師提出了一種具身的自監督學習框架。它通過發聲的物理模型和深度神經網絡模型之間構建了一個閉環的協動學習模型，實現了具有強推廣性和精細描述能力的語音發聲姿態的估計。同時，范疇學習構建了漢語的音位范疇體系，符合人類“先口語，后書面語”的言語獲得機理。

未來，基于物理模型或實際物理過程的具身學習方法，還能建構任意方言、語種的發音姿態和音系體系，并且輔助語音學家以及語言教學工作，推動方言、小語種的語音識別和語音合成的研究。不僅如此，還能推廣到視覺運動、聽覺運動等機器感知工作。而且，通過發音聲帶的彈簧緊張度捕捉一個人說話時的情緒變化，語音測謊也將不是難題。

北大教授吳璽宏：從發聲到語言，具身物理模型讓NLP回到小數據時代