<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給奕欣
      發送

      1

      百度Deep Voice作者與Bengio團隊切磋五大技術細節,端到端的語音合成還有多遠?

      本文作者: 奕欣 2017-03-02 09:34
      導語:Deep Voice作者代表百度硅谷 AI 團隊,MILA的Char2Wav作者代表 MILA 的機器學習團隊,他們的「Reddit 論劍」又會擦出怎樣的火花?

      百度Deep Voice作者與Bengio團隊切磋五大技術細節,端到端的語音合成還有多遠?

      androidauthority

      雷鋒網 AI 科技評論消息,今日百度研究院在官網上正式推出了 Deep Voice:實時語音合成神經網絡系統(Real-Time Neural Text-to-Speech for Production),Twitter 上也同步更新了消息目前論文也已經投遞 ICML 2017

      本系統完全依賴深度神經網絡搭建而成,最大的優勢在于能夠滿足實時轉換的要求。在以前,音頻合成的速度往往非常慢,需要花費數分鐘到數小時不等的時間才能轉換幾秒的內容,而現在,百度研究院已經能實現實時合成,在同樣的 CPU 與 GPU 上,系統比起谷歌 DeepMind 在去年 9 月發布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍。

      基于傳統的 TTS 流程,Deep Voice 采用深度神經網絡與更為簡單的詞性取代原有的轉換方法。這樣一來,系統能夠兼容所有新的數據集、語音文件甚至是從未涉獵的領域。系統主要由五個部分構成:

      • 用于定位音素邊界的分割模型;

      • 用于字素轉音素的轉換模型;

      • 判斷音素能持續多長時間的預測模型;

      • 基頻預測模型;

      • 音頻合成模型。

      在分割模型中,百度研究院提出了一種通過 CTC 損失(connectionist temporal classification)實現音素邊界檢測的新方法。而比起 WaveNet,百度的合成模型所需要的參數更少,速度更快。

      Deep Voice 目前需要借助一個音素模型與音頻合成組件的幫助,希望在未來能夠實現真正意義上的端到端(end-to-end)語音合成,上述系統不需要經過復雜的合成流程,也不依賴手工設計特征的輸入或預訓練文本。

      在官網上,百度研究院展示了三個不同的語音樣本做為對比,歡迎點擊此處查看。可以聽出,過 Deep Voice 合成的語音已經非常接近原始視頻的聲音,研究院的音頻的合成能夠有效地重塑人聲。

      語音合成模型,谷歌、MILA及百度的香餑餑

      語音合成即文本轉換技術(TTS),根據百度語音官網的介紹,它是實現人機語音交互,建立一個有聽和講能力的交互系統所必需的關鍵技術。它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的口語輸出的技術。

      現在也有很多領域都需要應用這一技術,比如提供語音服務的設備、導航系統,或是為視覺障礙者提供語音輔助。最早期的做法是機械地將預先錄制好的聲音拼接在一起(concatenative TTS),后來衍生出通過語音編碼器、合成分析并再現語音輸入的參數式 TTS(parametric TTS),但該項目開發流程可謂兼具高難度與強工作量。

      有不少研究所都在語音合成領域下了功夫,其中最為有名的包括谷歌 DeepMind 及蒙特利爾大學機器學習研究所(MILA)。

      谷歌 DeepMind 于去年 9 月公布了原始音頻波形深度生成模型 WaveNet,顯示生成的原始音頻質量優于目前Google采用的兩種最優模型 Parametric TTS 與 Concatenative TTS。WaveNet通過直接為音頻信號的原始波形建模,一次為一種音頻樣本建模,來改變這種范式。同生成聽起來更為自然的語音相同,使用原始波形意味著WaveNet能夠為任意類型的音頻建模,包括音樂。

      為了實現這一點,研究團隊需要告訴 WaveNet 文本的內容。我們通過將文本轉換成語言和語音特征(包括音位、音節、單詞等),把轉換得來的特征提供給 WaveNet。這意味著網絡的預測步驟不僅僅基于先前獲得的音頻樣本,而且要基于文本所傳達的內容。

      而除了谷歌 DeepMind,近日 MILA 的 Yoshua Bengio 與 Aaron Courville 二位《Deep Learning》作者聯合 Jose Sotelo 等人推出了端到端的語音合成模型 Char2Wav,并于近日投遞了 ICLR 2017 的 workshop track

      Char2Wav 模型由一個讀取器與一個神經聲碼器組成,前者是一個聚焦機制的編碼-解碼器模型;而后者是 SampleRNN 的條件式擴展,兩者的結合能夠直接根據文本生成音頻。

      在論文中團隊指出,語音合成需要達成兩個目標

      • 一個是可理解性(intelligibility),指的是音頻的清晰程度,特別是聽者能在多大程度上提取出原有的信息;

      • 另一個是自然感(naturalness),追求的是與可理解性相對的層面,即聽者聽懂句意的程度、全句的風格一致性,還有地域或語言層面的差異程度等。

      而現在百度也公布了它們在語音合成的巨大進展,這也引發了包括 Yoshua 團隊在內的研究者們的注意。

      DeepVoice 與 Char2Wav 團隊探討了哪些技術細節?

      最近,百度的 DeepVoice 論文作者 @NiftyIon 與 Char2Wav 作者之一 @kkastner 就在 Reddit 上針對 DeepVoice 進行了一番討論。@NiftyIon 的真實身份并不可考,在 Reddit 上他自稱是 DeepVoice 的作者之一。

      據雷鋒網 AI 科技評論判斷,這位名為 @kkastner 的 Reddit 用戶應該是 Char2Wav 論文五作 Kyle Kasnter。根據 LinkedIn 資料顯示,Kyle Kasnter 是蒙特利爾大學的在讀博士生,曾經在 IBM Watson、谷歌大腦團隊及 scikit-learn 實習,一方代表百度硅谷 AI 團隊,一方代表 Yoshua 的機器學習大牛,他們的「華山論劍」又會擦出怎樣的火花?一起來看看以 Kasnter 為代表的語音合成團隊都在關注哪些技術細節吧,為方便閱讀,由雷鋒網 AI 科技評論整理成問答形式,@NiftyIon下稱“Deep Voice作者”,@kkastner下稱“Char2Wav作者”:

      問題一:如何考慮中國市場?

      Char2Wav 作者:

      官網中展示的樣例表現都非常棒,考慮到百度做為一家中國企業,你們是否會將研究重心放在漢語上呢?

      Deep Voice 作者:

      我們對 Char2Wav 的成果感到非常振奮,也曾經討論過幾次采用聚焦機制而擺脫持續預測的想法,它正在朝著我們感興趣的方向發展,而且確實是管用的。

      我們目前專注于英語,因為這項研究目前是在百度硅谷 AI 實驗室(SVAIL)完成。我們自然是希望能將這個系統應用于漢語及其它語言。

      問題二:數據來源及模型討論

      Char2Wav 作者:

      您在論文中數次提及了「WORLD TTS system」,但 WORLD 只關注 DSP 領域(實際上它是一個聲碼器)。大多數 TTS 系統也在做前端(文本),因此我并不覺得可以把 WORLD 標記為 TTS 系統。在我看來,TTS 最糟糕的地方在于文本,但你們的模型更多地集中于這一點上。此外,我并不認為我們的模型需要基于現有的 TTS 系統。就像論文中提及的,我們需要一個手工/專業的聲碼器實現端到端的語音生成,但我們不需要任何細粒度注釋的訓練或生成。而我認為我們所實現的目標是將句子作為一個數據集,并訓練生成 wav 給定的句子。

      其中的區別有些微妙,但從用戶的角度上看,我們的系統看起來是一樣的(除了您的系統更快?。?。但我們真的很難在 LDC 外找到合理大小的細粒度注釋,也引致我們正在重新嘗試實現和擴展 Alex Graves 的演示。我在閱讀 WaveNet 的論文時,因為前端的預測依賴文本,我也有相同的感覺。因此,所有的區別歸結起來就是:「我需要用什么樣的數據來訓練」,「如何擴展系統,使大量的數據可用」,以及「如何分解模型」。我認為 Heiga Zen 最近的演講很好地提供了參數合成的一個概述。

      未來,您所訓練的數據是會公開,還是不會?另外,數據集的來源有哪些?

      Deep Voice 作者:

      您提及了我們有預先存在的 TTS 系統,確實,我們沒有對不同階段的流程進行區分。而我們所說的 WORLD TTS 功能指的是您提及的聲碼器。而我們并沒有考慮到實際上前端有很多的 TTS 特征,因此可能想當然了。如果有讀者像您一樣對這一點感到疑惑,我們感到非常抱歉。

      在「生成」的時候,我承認兩個系統看起來是一樣的:我們想表達的是,與 Char2Wav 的差異只存在于訓練前。事實上,我最欣賞您系統的原因在于整個系統是端到端的,目前我們的產品還不能做到這一點。

      我覺得團隊不會公開內部數據集,但我們也展示了源自 Blizzard 2013 數據的結果,這一數據是開放的,當然,你需要簽署相關協議。

      問題三:表現性能

      Char2Wav 作者:

      我們模型的測試時間數據稍后也會在 arxiv 上公布,不過 DeepVoice 的速度表現真的很好。如果我沒有看錯的話,系統能達到 48kHz/秒的速度。從研究角度看,它是真的預示著高水準音頻合成時代的到來,還是這只是在理想狀態下的表現?至少在我看來是不可思議的。

      Deep Voice 作者:

      我們在實驗中了解到原始數據就是 48kHz 的,而且我們發現之前基于 WaveNet 得到的「低質量音頻」實際上是 16 kHz 的,而不是 48 kHz。因此我們訓練的就是常規的 40 層模型,并直接輸出 48kHz 的音頻。所以從長遠來看,我們將能實時合成高于 16kHz 的音頻(雖然目前做不到),但依然有很多未實現的想法。

      問題四:如何讓合成音頻發音正確?

      Deep Voice 作者:

      您如何看待直接從字素到音頻的想法?我們曾經考慮這樣設計算法,不過擔心這樣的模型可能無法自動修正錯誤拼寫問題。因此,字素到音素,與音素到音頻的分離是必須的。而即使是人類,在這一點上可能也沒辦法做得很好吧——你可以問問人們"Jalapeno" and "P!nk" 和"Worcestershire"這幾個詞該怎么念。

      (雷鋒網 AI 科技評論按:Jalapeno:墨西哥胡椒,[?hɑ:l?'pe?njo?];P!nk:美國著名歌手,同 pink; Worcestershire: 伍斯特郡 [?wust??i?]。)

      Char2Wav作者:

      這個問題非常有趣,因為它的定義非常不明確。考慮像 GAN 這樣的超分辨率技術也存在一個類似的問題——它屬于一對多的映射,但所選擇的任何方案都需要是全局一致(或至少中等范圍一致的)。我們嘗試的方法是采用全局揚聲器調節,希望通過捕獲揚聲器質量,也能捕獲默認的發音與說話者之間的變化,但希望同一個人之間能夠保持一致。我目前沒有看到任何習得清晰發音的合成示例,但我們也看到了在兩個對話者切換之時,語音的速度與韻律發生了明顯改變,這也意味著系統未來有可能學會更好地發音。

      機器翻譯也存在類似的問題,因此對于我而言并不是無法解決的,但可能需要更多的數據或/以及一些思考,比如為什么英語發音如此奇怪,而且它是如何形成的。我們已經有一些初步的想法,但為時還早。參數化的做法已經避免了大部分的發音問題,但需要考慮細粒度注釋的問題。不過,我知道任何這個領域的研究者都了解不少優秀的數據庫,它們能夠為建立 TTS 系統提供非常重要的幫助。

      而以決策樹連接系統為代表的發音系統也存在一個優點,即不論怎樣總能在決策樹中找到正確發音,研究者也能夠利用這一點反復迭代,基于用戶反饋處理特殊情況。

      在我看來,英語之所以難以訓練,在于它發音的多模態性,一些基于字素而訓練得到的英語聽起來非常怪異。我個人最喜歡的例子是"I am an athlete"。像西班牙語這樣的其它語言,即使缺少數據,映射性的表現也不差。德語與羅馬尼亞語表現相當,目前我正寄希望于冰島語的測試上。

      問題五:訓練時長與表現

      Deep Voice 作者:

      實際上我們的系統并沒有做長時間的訓練。系統訓練了 20 小時,但只需要 3-5 小時就能得到很高質量的音頻結果。我們也沒有測試過音素的持續時間和 F0 預測模型對數據的敏感程度。不過,像在 VoiceBunny.com 這樣的平臺,你就能花 5000 到 10000 美金拿到 5 到 10 小時的音頻。而開一個小工作室然后錄上一周的話,這樣也不花什么錢,不過我們自己沒有這么做。你需要文本和對應的音頻——不一定要數據注釋,因為你可以用音素字典和一個字素到音素模型獲得。如果有需要的話,可以采用 LibriSpeech 獲取音頻內容,只需要弄清楚如何將文本對齊音頻。我覺得可以采用語音識別系統來實現這一點(在百度,我們用的是自己研發的 Deep Speech2,你也可以選擇自己訓練或尋找外部 API)。

      關于 48kHz 模型,我們發現最有意思的地方在于我們大概有 83ms 的文本,而且它的表現相當不錯。這與 SampleRNN 沒有關系,但 WaveNet 也具有固定的感受野,顯然 83ms 已經基本足夠。這也意味著高質量的合成可能與感受野無關,而是與其它因素有聯系。我們有一些解釋的想法,但還不是非常確定。

      Char2Wav 作者:

      我覺得三個小時以上的訓練只是一個開始,嘗試采用一些更小的數據集時,系統看起來在 5-10 小時之間會有更好的結果。我不記得 DIMEX 是多少時間了,但記得也很短。有的取決于說話者的數量,有的與語種有關。

      至于你說的感受野的問題,非常有意思。在 WaveNet 中完全被隱藏了,而相對短(時間)的感受野,甚至在無監督的情況下也給出了長距離的一致性,但 83 ms 也非常小,幾乎也只是三方對話的規模。因此你們團隊做出的質量改進非常有意思,讓我感到很驚訝??幔?/p>

      小結

      整體而言,雙方對彼此論文都非常熟悉,而且也提出了一針見血的關鍵問題,看得可謂是非常過癮,雷鋒網也將關注后續交流的進展(如果有的話)。

      目前不少公司及高校研究院在實現端到端語音合成上做出了相關的嘗試與努力, AI 科技評論也認為,不論語音合成技術的發展未來如何,它的終極目標一定是要讓人類感覺易理解且自然,只有實現這一點,方能實現人機交互的“大同世界”。

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。

      百度Deep Voice作者與Bengio團隊切磋五大技術細節,端到端的語音合成還有多遠?

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 大香蕉资源网| 永仁县| 久久国产精品娇妻素人| 大肉大捧一进一出好爽视频mba | 国产中文一区a级毛片视频| 国产精品国产成人国产三级| 宝清县| 亚洲熟女乱综合一区二区| 久久AV高潮AV| 东方成人AV在线| 久久国产成人午夜av影院| 成午夜福利人试看120秒| 国产成人a人亚洲精品无码| AV激情亚洲男人的天堂| 亚洲午夜性猛春交xxxx| 亚洲午夜视频| 99在线精品免费视频| 超碰人妻97| 亚洲AV一二三| 一区二区三区成人| 18禁裸乳无遮挡啪啪无码免费| 91香蕉国产亚洲一二三区| 成全视频在线观看免费高清动漫| 成人品视频观看在线| 武汉市| 丁香五香天堂网| 免费偷拍| 一本久久伊人热热精品中文字幕| 亚洲精品二区| 国产精品美女一区二三区| 精品一区二区三区四区五区 | 摸丰满大乳奶水www免费| 多毛老熟女| 91视频久久| 国产果冻豆传媒麻婆精东| 国产午夜免费啪视频观看视频| 亚洲无码影院| 亚洲人成欧美中文字幕| 亚洲精品乱码久久久久久蜜桃不卡| 精品国产一区二区三区四区色| 人妻少妇乱子伦精品|