<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給黃善清
      發送

      0

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      本文作者: 黃善清 2018-09-07 18:00
      導語:在研究方面,騰訊 AI Lab 提出了一些新的方法和改進,在語音增強、語音分離、語音識別、語音合成等技術方向都取得了一些不錯的進展。
      論文
      名稱:Interspeech
      時間:2018
      企業:騰訊

      雷鋒網AI科技評論按:Interspeech 會議是全球最大的綜合性語音信號處理領域的科技盛會,首次參加的騰訊 AI Lab共有8篇論文入選,居國內企業前列。這些論文有哪些值得一提的亮點?一起看看這篇由騰訊 AI Lab供稿的總結文章。 另外,以上事件在雷鋒網旗下學術頻道 AI 科技評論數據庫產品「AI 影響因子」中有相應加分。

      9 月 2 到 6 日,Interspeech 會議在印度海得拉巴舉辦,騰訊 AI Lab 首次參加,有 8 篇論文入選,位居國內企業前列。該年度會議由國際語音通信協會 ISCA(International Speech Communication Association)組織,是全球最大的綜合性語音信號處理領域的科技盛會。

      騰訊 AI Lab 也在業界分享語音方面的研究成果,今年已在多個國際頂級會議和期刊上發表了系列研究成果,涵蓋從語音前端處理到后端識別及合成等整個技術流程。比如今年 4 月舉辦的 IEEE 聲學、語音與信號處理國際會議(ICASSP 2018),是由 IEEE 主辦、全球最大、最全面的信號處理及其應用方面的頂級學術會議,騰訊 AI Lab 也入選論文 4 篇,介紹了其在多說話人語音識別、神經網絡語言模型建模和說話風格合成自適應方面的研究進展。

      在研究方面,騰訊 AI Lab 提出了一些新的方法和改進,在語音增強、語音分離、語音識別、語音合成等技術方向都取得了一些不錯的進展。在落地應用上,語音識別中心為多個騰訊產品提供技術支持,比如「騰訊聽聽音箱」、「騰訊極光電視盒子」,并融合內外部合作伙伴的先進技術,在語音控制、語義解析、語音合成(TTS)等方面都達到了業內領先水平。

      本文將基于智能音箱的基本工作流程介紹騰訊 AI Lab 在語音方面的近期研究進展。

      首先,我們先了解一下音箱語音交互技術鏈條。

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      智能音箱的最典型應用場景是家庭,在這種場景中用戶與音箱設備的距離通常比用戶在智能手機上使用語音應用的距離遠很多,因此會引入較明顯的室內混響、回聲,音樂、電視等環境噪聲,也會出現多說話人同時說話,有較強背景人聲的問題。要在這樣的場景中獲取、增強、分離得到質量較好的語音信號并準確識別是智能音箱達到好的用戶體驗所要攻克的第一道難關。

      麥克風陣列是這一步最常用的解決方案之一,比如騰訊聽聽就采用了由 6 個麥克風組成的環形陣列,能夠很好地捕捉來自各個方位的聲音。

      麥克風采集到聲音之后,就需要對這些聲音進行處理,對多麥克風采集到的聲音信號進行處理,得到清晰的人聲以便進一步識別。這里涉及的技術包括語音端點檢測、回聲消除、聲源定位和去混響、語音增強等。另外,對于通常處于待機狀態的智能音箱,通常都會配備語音喚醒功能。為了保證用戶體驗,語音喚醒必須要足夠靈敏和快速地做出響應,同時盡量減少非喚醒語音誤觸發引起的誤喚醒。

      經過麥克風陣列前端處理,接下來要做的是識別說話人的身份和理解說話內容,這方面涉及到聲紋識別、語音識別和模型自適應等方面的問題。

      之后,基于對說話內容的理解執行任務操作,并通過語音合成系統合成相應語音來進行回答響應。如何合成高質量、更自然、更有特色的語音也一直是語音領域的一大重點研究方向。

      騰訊 AI Lab 的研究范圍涵蓋了上圖中總結的音箱語音交互技術鏈條的所有 5 個步驟,接下來將依此鏈條介紹騰訊 AI Lab 近期的語音研究進展。

      1)前端

      采集到聲音之后,首先需要做的是消除噪聲和分離人聲,并對喚醒詞做出快速響應。

      在拾音和噪聲消除方面,騰訊 AI Lab 的 Voice Processing(簡稱 AIVP)解決方案集成了語音檢測、聲源測向、麥克風陣列波束形成、定向拾音、噪聲抑制、混響消除、回聲消除、自動增益等多種遠場語音處理模塊,能有效地為后續過程提供增強過的清晰語音。發表于 Symmetry 的論文《一種用于塊稀疏系統的改進型集合-元素比例自適應算法(An Improved Set-membership Proportionate Adaptive Algorithm For A Block-sparse System)》是在回聲消除方面的研究。

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      遠場語音處理的各個模塊

      在語音喚醒方面,騰訊 AI Lab 的 Interspeech 2018 研究《基于文本相關語音增強的小型高魯棒性的關鍵詞檢測(Text-Dependent Speech Enhancement for Small-Footprint Robust Keyword Detection)》針對語音喚醒的誤喚醒、噪聲環境中喚醒、快語速喚醒和兒童喚醒等問題提出了一種新的語音喚醒模型——使用 LSTM RNN 的文本相關語音增強(TDSE)技術,能顯著提升關鍵詞檢測的質量,并且在有噪聲環境下也表現突出,同時還能顯著降低前端和關鍵詞檢測模塊的功耗需求。

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      基于文本相關語音增強的關鍵詞檢測架構

      2)聲紋識別

      聲紋識別是指根據說話人的聲波特性進行身份辨識。這種技術有非常廣泛的應用范圍,比如根據不同家庭用戶的偏好定制個性化的應用組合。聲紋系統還可用于判斷新用戶的性別和年齡信息,以便在之后的互動中根據用戶屬性進行相關推薦。

      聲紋識別也存在一些有待攻克的挑戰。在技術上存在信道失配、環境噪聲、短語音、遠場等難題,在應用上還有錄音冒認、兼容能力、交互設計等挑戰。聲紋模型還應當具備兼容確認和辨別功能,支持隱式更新和隱式注冊,以便隨用戶使用時間的增長而逐步提升性能。

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      支持隱式注冊的聲紋模型的性能隨用戶使用時長增長而提升

      騰訊 AI Lab 除了應用已實現的經典聲紋識別算法外(GMM-UBM、GMM/Ivector、DNN/Ivector、GSV),也在探索和開發基于 DNN embedding 的新方法,且在短語音方面已經實現了優于主流方法的識別效果。騰訊 AI Lab 也在進行多系統融合的開發工作——通過合理布局全局框架,使具有較好互補性的聲紋算法協同工作以實現更精準的識別。相關部分核心自研算法及系統性能已經在語音頂級期刊上發表。

      其中,被 Interspeech 2018 接收的論文《基于深度區分特征的變時長說話人確認(Deep Discriminative Embeddings for Duration Robust Speaker Verification)》提出了一種基于 Inception-ResNet 的聲紋識別系統框架,可學習更加魯棒且更具有區分性的嵌入特征。

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      同樣入選 Interspeech 2018 的論文《從單通道混合語音中還原目標說話人的深度提取網絡(Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures)》提出了一種深度提取網絡(如下圖所示),可在規范的高維嵌入空間中通過嵌入式特征計算為目標說話人創建一個錨點,并將對應于目標說話人的時間頻率點提取出來。

      實驗結果表明,給定某一說話人一段非常短的語音,如給定該說話人的喚醒詞語音(通常 1S 左右),所提出的模型就可以有效地從后續混合語音中高質量地分離恢復出該目標說話人的語音,其分離性能優于多種基線模型。同時,研究者還證明它可以很好地泛化到一個以上干擾說話人的情況。

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      深度提取網絡示意圖

      3)語音識別

      語音識別技術已經經歷過長足的發展,現在已大體能應對人們的日常使用場景了,但在噪聲環境、多說話人場景、「雞尾酒會問題」、多語言混雜等方面仍還存在一些有待解決的難題。

      騰訊 AI Lab 的語音識別解決方案是結合了說話人特征的個性化識別模型,能夠為每位用戶提取并保存自己個性化聲學信息特征。隨著用戶數據積累,個性化特征會自動更新,用戶識別準確率可獲得顯著提升。

      另外,騰訊 AI Lab 還創新地提出了多類單元集合融合建模方案,這是一種實現了不同程度單元共享、參數共享、多任務的中英混合建模方案。這種方案能在基本不影響漢語識別準確度的情況下提升英語的識別水平。

      騰訊 AI Lab 有多篇 Interspeech 2018 論文都針對的是這個階段的問題。

      在論文《基于生成對抗網絡置換不變訓練的單通道語音分離(Permutation Invariant Training of Generative Adversarial Network for Monaural Speech Separation)》中,研究者提出使用生成對抗網絡(GAN)來實現同時增強多個聲源的語音分離,并且在訓練生成網絡時通過基于句子層級的 PIT 解決多個說話人在訓練過程順序置換問題。實驗也證明了這種被稱為 SSGAN-PIT 的方法的優越性,下面給出了其訓練過程示意圖:

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      SSGAN-PIT 的訓練過程示意圖

      論文《使用注意機制和門控卷積網絡的單聲道多說話人語音識別(Monaural Multi-Talker Speech Recognition with Attention Mechanism and Gated Convolutional Networks)》將注意機制和門控卷積網絡(GCN)整合進了研究者之前開發的基于排列不變訓練的多說話人語音識別系統(PIT-ASR)中,從而進一步降低了詞錯率。如下左圖展示了用于多說話人語音識別的帶有注意機制的 PIT 框架,而右圖則為其中的注意機制:

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      在論文《提升基于注意機制的端到端英語會話語音識別(Improving Attention Based Sequence-to-Sequence Models for End-to-End English Conversational Speech Recognition)》中,研究者提出了兩項用于端到端語音識別系統的基于注意的序列到序列模型改進方法。第一項改進是使用一種輸入饋送架構——其不僅會饋送語境向量,而且還會饋送之前解碼器的隱藏狀態信息,并將它們作為解碼器的輸入。第二項改進基于一種用于序列到序列模型的序列最小貝葉斯風險(MBR)訓練的更好的假設集合生成方法,其中在 MBR 訓練階段為 N-best 生成引入了 softmax 平滑。實驗表明這兩項改進能為模型帶來顯著的增益。下表展示了實驗結果,可以看到在不使用外部語言模型的條件下,新提出的系統達到了比其它使用外部模型的最新端到端系統顯著低的字錯誤率。

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      論文《詞為建模單元的端到端語音識別系統多階段訓練方法(A Multistage Training Framework For Acoustic-to-Word Model)》研究了如何利用更好的模型訓練方法在只有 300 小時的 Switchboard 數據集上也能得到具有競爭力的語音識別性能。最終,研究者將 Hierarchical-CTC、Curriculum Training、Joint CTC-CE 這三種模型訓練方法結合到了一起,在無需使用任何語言模型和解碼器的情況下取得了優良的表現。

      另外,在今年 4 月舉辦的 IEEE ICASSP 2018 上,騰訊 AI Lab 有 3 篇自動語音識別方面的論文和 1 篇語音合成方面的論文(隨后將介紹)入選。

      在語音合成方面,其中 2 篇都是在用于多說話人的置換不變訓練方面的研究。

      其中論文《用于單聲道多說話人語音識別的使用輔助信息的自適應置換不變訓練(Adaptive Permutation Invariant Training With Auxiliary Information For Monaural Multi-talker Speech Recognition)》基于騰訊 AI Lab 之前在置換不變訓練(PIT)方面的研究提出使用音高(pitch)和 i-vector 等輔助特征來適應 PIT 模型,以及使用聯合優化語音識別和說話人對預測的多任務學習來利用性別信息。研究結果表明 PIT 技術能與其它先進技術結合起來提升多說話人語音識別的性能。

      論文《用于單通道多說話人語音識別的置換不變訓練中知識遷移(Knowledge Transfer In Permutation Invariant Training For Single-channel Multi-talker Speech Recognition)》則將 teacher-student 訓練和置換不變訓練結合到了一起,可將單說話人模型中提取出的知識用于改進 PIT 框架中的多說話人模型。實驗結果也證明了這種方法的優越性。下圖展示了這種加上了知識提取架構的置換不變訓練架構。

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      另外一篇語音識別方面的 ICASSP 2018 論文《使用基于字母的特征和重要度采樣的神經網絡語言建模(Neural Network Language Modeling With Letter-based Features And Importance Sampling)》則提出了一種 Kaldi 語音識別工具套件的擴展 Kaldi-RNNLM 以支持神經語言建模,可用于自動語音識別等相關任務。

      在語音識別方面最后值得一提的是,騰訊 AI Lab 還在《Frontiers of Information Technology & Electronic Engineering》(FITEE)上發表了一篇關于「雞尾酒會問題」的綜述論文《雞尾酒會問題的過去回顧、當前進展和未來難題(Past Review, Current Progress, And Challenges Ahead On The Cocktail Party Problem)》,對針對這一問題的技術思路和方法做了全面的總結。

      4)自然語言處理/理解

      在智能音箱的工作流程中,自然語言處理是一個至關重要的階段,這涉及到對用戶意圖的理解和響應。騰訊 AI Lab 在自然語言的處理和理解方面已有很多突破性的研究進展,融合騰訊公司多樣化的應用場景和生態,能為騰訊的語音應用和聽聽音箱用戶帶來良好的用戶體驗和實用價值。

      在將于當地時間 7 月 15-20 日在澳大利亞墨爾本舉辦的 ACL 2018 會議上,騰訊 AI Lab 有 5 篇與語言處理相關的論文入選,涉及到神經機器翻譯、情感分類和自動評論等研究方向。騰訊 AI Lab 之前推送的文章《ACL 2018 | 解讀騰訊 AI Lab 五篇入選論文》已對這些研究成果進行了介紹。另外在 IJCAI 2018(共 11 篇,其中語言處理方向 4 篇)和 NAACL 2018(4 篇)等國際頂級會議上也能看到騰訊 AI Lab 在語言處理方面的研究成果。

      5)語音合成

      對智能音箱而言,語音答復是用戶對音箱能力的最直觀感知。最好的合成語音必定要清晰、流暢、準確、自然,個性化的音色還能提供進一步的加成。

      騰訊在語音合成方面有深厚的技術積累,開發了可實現端到端合成和重音語調合成的新技術,并且在不同風格的語音合成上也取得了亮眼的新進展。下面展示了一些不同風格的合成語音:

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      在 Interspeech 2018 上,騰訊 AI Lab 的論文《面向表現力語音合成采用殘差嵌入向量的快速風格自適應(Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis)》探索了利用殘差作為條件屬性來合成具有適當的韻律變化的表現力語音的方法。該方法有兩大優勢:1)能自動學習獲得風格嵌入向量,不需要人工標注信息,從而能克服數據的不足和可靠性低的問題;2)對于訓練集中沒有出現的參考語音,風格嵌入向量可以快速生成,從而使得模型僅用一個語音片段就可以快速自適應到目標的風格上。下圖展示了該論文提出的殘差編碼網絡的架構(左圖)以及其中殘差編碼器的結構(右圖)。

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      騰訊 AI Lab 在 ICASSP 2018 上也有一篇關于風格適應的論文《基于特征的說話風格合成適應(Feature Based Adaptation For Speaking Style Synthesis)》。這項研究對傳統的基于模型的風格適應(如下左圖)進行了改進,提出了基于特征的說話風格適應(如下右圖)。實驗結果證明了這種方法的有效性,并且表明這種方法能在保證合成語音質量的同時提升其疑問語氣風格的表現力。

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      總結

      智能語音被廣泛認為是「下一代人機交互入口」,同時也能和騰訊公司廣泛的應用生態相結合,為用戶提供更加方便快捷的服務。騰訊 AI Lab 的技術已能為更多產品提供更高效更智能的解決方案。

      騰訊 AI Lab 在語音方面的主攻方向包括結合說話人個性化信息語音識別、前后端聯合優化、結合語音分離技術、語音語義的聯合識別。

      騰訊 AI Lab 未來還將繼續探索語音方面的前沿技術,創造能與人類更自然交流的語音應用。也許未來的「騰訊聽聽音箱」也能以輕松的語調回答這個問題:

      「9420,生命、宇宙以及一切的答案是什么?」

      注:9420 是「騰訊聽聽音箱」的喚醒詞,而在《銀河系漫游指南》中上面這個終極問題的答案是 42,而 9420 的諧音也剛好為「就是愛你」(42=是愛),看起來是個很合適的答案。

      雷鋒網AI科技評論

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

      騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力 | InterSpeech 2018

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 五月婷婷开心| 国产成人精品1024免费下载| 精品人妻少妇一区二区| 国产精品毛片大码女人| 欧美a√| 国产精品jizz在线观看软件| 欧美奶涨边摸边做爰视频| 少妇扒开双腿让我看个够| 狠狠综合久久久久综合网址| 男人天堂网址| 亚洲欧美天堂| 精品国产色情一区二区三区| 天天射影院| 国产精品麻豆成人av电影艾秋 | 国产免费人成视频网| 亚洲国产综合91麻豆| 精品成人中文无码专区| 大胸少妇午夜三级| 无码人妻丰满熟妇a片护士| 国产在线观看免费观看不卡| 荔浦县| 五月综合激情婷婷六月色窝 | 成人免费一区二区三区视频| 国产一区二区av天堂热| 屄视频| 丁香五月亚洲综合在线国内自拍| 99插插插| 鲁鲁狠狠狠7777一区二区| 国内精品伊人久久久久av| 日屄屄| 亚洲日韩精品无码一区二区三区| 亚洲 制服 丝袜 无码| 无码精品人妻一区二区三区中 | 亚洲熟妇丰满xxxxx| 国产在线精品欧美日韩电影| 免费无码毛片一区二区app| 阿城市| 亚洲国产成人极品综合| 肉大榛一出一进免费观看在线| 亚洲无线观看国产精品| 中文区av无码中文字幕dⅴd|