<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給楊曉凡
      發送

      0

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      本文作者: 楊曉凡 2017-09-28 16:57
      導語:深度學習在語音生成和語音增強上的新穎應用方法

      雷鋒網 AI 科技評論按:深度學習在2006年嶄露頭角后,近幾年取得了快速發展,在學術界和工業界均呈現出指數級增長的趨勢;伴隨著這項技術的不斷成熟,深度學習在智能語音領域率先發力,取得了一系列成功的應用。

      這次分享會中,雷鋒網邀請到了中科院自動化所的劉斌博士。劉斌,中科院自動化所博士,極限元資深智能語音算法專家,中科院-極限元智能交互聯合實驗室核心技術人員,曾多次在國際頂級會議上發表論文,獲得多項關于語音及音頻領域的專利,具有豐富的工程經驗。劉斌博士會與大家分享近年來深度學習在語音生成問題中的新方法,圍繞語音合成和語音增強兩個典型問題展開介紹。

      雷鋒網 AI 科技評論把此次演講的概要整理如下。想要進一步了解的讀者,可以在文末觀看視頻,還可以根據劉斌博士的指導查找相關資料增加了解。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      劉斌:大家好。深度學習近幾年發展非?;馃幔趯W術界和工業界都有許多成果和應用。深度學習在語音領域也已經落地解決了許多問題,語音合成、語音增強、語音轉換、語音帶寬擴展等等。今天重點講解語音合成和語音增強兩個問題下的方法。

      語音合成

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      語音合成的任務目標是從文本輸入到聲學特征的轉換。在生成語音之前,文本首先需要進行分析預處理,其中正則化針對數字和特殊符號,音字轉換針對多音字,韻律處理讓生成的語音抑揚頓挫、有節奏感,然后再進行后端的生成。聲學處理常用的方法有統計參數建模和聲碼器的方法。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      這是傳統基于隱馬爾可夫框架(HMM)的統計參數語音合成系統,在訓練過程中建立文本參數到音頻參數之間的映射關系。其中有三個環節會導致語音音質下降:決策樹聚類、聲碼器重新生成語音、以及動態參數生成算法。針對這三個問題點,就有人提出用深度學習的方法進行改進。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      深度學習的方法里,用神經網絡代替決策樹的作用,建立文本特征和聲學特征之間的關系,就提高了模型的精度。對于具體的模型結構,LSTM比DBN具有更強的序列學習能力,所以使用LSTM時經??梢蕴^參數生成算法,直接預測語音參數,然后送到聲碼器中就可以生成語音了。深度神經網絡強大的非線性建模能力也能在一定程度上提升語音合成系統的性能。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      最近一兩年在工業界也有一些新的語音合成方法,比如基于WavNet的語音合成。這是一種從時域(聲波在不同時間的采樣值大?。┑慕嵌瘸霭l處理語音問題的方法,問題本身很有挑戰性;傳統方法都是從頻域(聲波在不同時間的頻率高低)出發的。谷歌提出的WavNet可以直接把文本參數和聲波的采樣值建立對應關系。它的主要問題是,每次只能輸出單個采樣點的值,導致計算速度慢、生成效率低。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      百度也提出了基于 DeepVoice 的語音生成系統,用深度神經網絡實現了其中多個模塊,然后以類似WavNet的模塊生成語音。它的計算速度相比 WavNet 提升了約400倍。隨后百度進一步拓展為了DeepVoice2,可以支持多說話人的語音合成,每個人也最少也只需要半個小時數據就可以達到比較理想的效果。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      Tacotron是谷歌推出的比較新穎的語音合成系統,它的特點是使用了編碼器-解碼器的網絡結構,好處在于輸入和輸出序列的長度可以不需要保持一致;并且引入了注意力機制,可以提升性能。結構里還包含一個后處理網絡。網絡的輸出是一個頻譜圖,用相位重構算法就可以轉換為語音。這種方法里繞開了聲碼器模塊,可以提升語音的質量

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      目前語音合成方面還有一些問題沒有解決,一,多數方法還是面向單個說話人的。對于多個說話人、多語言的語音合成效果仍然不太理想。遷移學習相關的方法有可能會對這類問題的解決做出貢獻。二,目前的語音系統生成的聲音的表現力還有所不足,尤其是合成口語的時候,效果會有下降。

      語音增強

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      語音增強是語音識別、聲紋識別等算法中重要的前端處理模塊。它的優劣在一定程度上影響著后續識別方法的魯棒性。根據麥克風的數目不同,語音增強可以分為單通道語音增強和多通道語音增強。多通道語音增強可以更有效低利用聲音的空間信息,增強目標方向的聲音信息,抑制分目標方向的干擾源;這類方法今天先不作具體介紹,感興趣的可以參見麥克風陣列技術的相關資料。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      圖中展示了四種主要的干擾源,真實狀況下可能是同時存在的,這就給語音增強帶來了很大難度。以下介紹一些單通道語音環境下的語音增強方法。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      單通道語音增強的方法主要分為三大類?;谏疃葘W習的語音增強方法下面會做詳細一些的介紹。這里也是利用了深度學習強大的非線性建模的能力,在匹配的環境下優勢很明顯,在處理非平穩噪聲的時候也有一定的優勢。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      這是一種通過深層神經網絡直接預測譜參數的方法,它的輸入是帶噪語音的幅值譜相關特征,輸出是干凈語音的幅值譜相關特征,然后建立了兩者間的映射關系。網絡結構可以是DNN,可以是LSTM,甚至可以是CNN。這類方法可以更有效地捕捉到上下文的信息,所以處理非平穩噪聲時有一定優勢。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      深層神經網絡還可以用來預測屏蔽值。這類方法中,模型的輸入可以是聽覺域相關特征,輸出可以是二值型的屏蔽值或者浮點型的屏蔽值。這類方法根據聽覺感知的特性把音頻分為了不同的子帶,提取特征參數。它的實際作用是判斷時頻單元內的內容是語音還是噪聲,然后根據判斷結果保留時頻單元內的能量或者置零。這類方法的優勢是,共振峰處的能量可以得到很好的保留,而相鄰共振峰之間、波谷處的語音雖然會失真較多,但是人類對這些信息不敏感,所以仍然有相對較高的可懂度。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      以往的方法主要關注于聲音的幅值譜,沒有利用到相位譜中的信息。復數神經網絡中的復數譜就是一種同時利用幅值譜和相位譜的方法。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      現在還有利用生成式對抗網絡GANs的語音增強方法。GANs是這兩年的熱點范式,目前在語音領域中的應用還不多,不過今年也已經有人提出運用在語音增強中。這篇論文中的方法中,不再需要RNN結構網絡中的遞歸操作,可以直接處理原始音頻,是端到端的方法,不需要手工提取特征,也不需要對原始數據做明顯的假設。生成器結構采用了CNN,而且沒有全連接層,這樣可以減少模型參數數量、縮短訓練時間;端到端直接處理原始語音信號的方法也避免了變換、提取聲音特征等復雜過程。鑒別器仍然起到引導生成器更新的作用。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      除了剛才說到的一些主要針對環境噪聲抑制的方法之外,PIT方法則可以處理兩個或更多說話人聲音混疊時的分離問題。還有一種基于深層聚類的分離方法。不過為了在真實環境下可用,去噪音、去混響等問題也需要考慮,分離問題仍然有很大的困難。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      語音增強領域目前仍待解決的問題是,如何在消除噪聲的同時有效提高語音的可懂度、聽感(避免消除語音本身的特征),以及,語音增強方法作為后續語音識別和聲紋識別方法的預處理模塊,需要前后合理對接,而不應完全分別設計,這樣才能提高整個系統的魯棒性。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      最后,對于未來發展的展望,語音生成領域許多問題雖然建模方法不同,但是也有許多值得互相借鑒的部分,可以促進相互提高。深度學習雖然是火熱的方法,但是也不能指望深度學習解決所有的問題。并且,要先對處理對象的物理含義有深入的理解,在這個基礎上尋找合適的模型、對模型進行優化,才能得到較好的問題解決效果。

      視頻回放

      此次分享的視頻回放可以戳這里。

      雷鋒網還有許多CV、NLP方面的分享活動,歡迎繼續關注我們!

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

      極限元算法專家:深度學習在語音生成問題上的典型應用 | 分享總結

      分享:
      相關文章

      讀論文為生

      日常笑點滴,學術死腦筋
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 女人18一级毛片免费观看| 日韩精品一区二区蜜臀av| 卢氏县| 久久精品女人天堂av| 老熟妇AV| 国产鲁鲁视频在线观看| 国产成人无码A区在线观| 女人与公狍交酡女免费| 苍井空一区二区波多野结衣av| 欧美A√| av在线资源| 91人人草| 女人毛片a级大学毛片免费| 中国熟妇浓毛hdsex| 亚洲AV综合色无码国产精品四季| 少妇高潮太爽了在线视频| 制服.丝袜.亚洲.中文.综合懂| 国产一区二区三区免费主播| 资源在线观看视频一区二区 | 99中文视频| 免费视频一区二区三区亚洲激情 | 精品人妻大屁股白浆无码| 桃色91| 亚洲成人日韩| 亚洲AV日韩AV激情亚洲| 亚洲精品久久久av无码专区| 大香蕉99| 精品国产又大又黄又粗av| 一本加勒比hezyo无码专区| 最近免费中文字幕mv在线视频3| 欧美一区| 亚洲乱熟女| 亚洲国产精品久久青草无码| 久久综合免费一区二区三区| 波多野结衣乳喷高潮视频| 超碰伊人久久大香线蕉综合| 亚洲丶国产丶欧美一区二区三区 | 国产成人精品aa毛片| 亚洲精品播放| 亚洲精品专区| Av一区二区三区|