<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給楊曉凡
      發送

      0

      你可能還不知道,WaveNet 為了進駐 Google Assistant 做出了這些重大變化

      本文作者: 楊曉凡 2017-11-26 19:26
      導語:超過一千倍速度提升,高度并行化一次生成一整個句子

      雷鋒網 AI 科技評論按:DeepMind 提出的 WaveNet 是目前頂級的語音生成模型,論文最初于2016年9月發表,雷鋒網 AI 科技評論也立即跟進報道 DeepMind發布原始音頻波形深度生成模型WaveNet 。WaveNet 拋棄了以往通過聲學模型拼接語音音素的做法,完全通過深度神經網絡生成原始音頻波形,并且大幅提高了語音生成質量。

      今年10月,我們也報道過 WaveNet正式商用:效率提高1000倍,僅一年時間就走出實驗室,在 Google Assistant 中落地。在慶賀深度學習又一次完全顛覆傳統做法的同時,大家想必也會好奇,到底 DeepMind 做了哪些改進才得以實現這樣數量級的效率提升呢?DeepMind 自己最近就發布了介紹商業化改進后的 WaveNet 的論文,并撰寫了一篇博文通俗地介紹了其中的改進點。雷鋒網 AI 科技評論把這篇博文翻譯如下。

      你可能還不知道,WaveNet 為了進駐 Google Assistant 做出了這些重大變化

      自 DeepMind 在2016年發表WaveNet論文后,這一頂級表現的語音生成模型已經于今年10月開始用在 Google Assistant 中,為全球的用戶生成逼真的日語和美國英語語音。現在這個用于生產環境的模型稱作“并行WaveNet”,它的運行速度要比最初發布的模型快一千多倍,而且生成的語音質量也更高。

      在近期的論文(https://deepmind.com/documents/131/Distilling_WaveNet.pdf )中,DeepMind的研究人員們就介紹了新模型的一些細節;以及為了讓這個系統能在大規模并行化的計算環境中運行,DeepMind還開發了一個新技術“概率密度蒸餾”。

      WaveNet的演進史

      最初版本的WaveNet在生成語音時用了很激進的連接方式,每次生成一個采樣點,而且每個新生成的采樣點都需要把前一個采樣點作為輸入(條件生成)。雖然這種做法能夠生成高質量的音頻,每秒最高也能生成2萬4千個采樣點,但這種順序生成的方式對于生產環境來說還是太慢了。

      你可能還不知道,WaveNet 為了進駐 Google Assistant 做出了這些重大變化

      最初版本的模型中,生成每個新的樣本都需要把前一個生成的樣本作為條件

      為了解決這個問題,DeepMind的研究人員們認為他們需要一種新的方案,它應當能一次生成一個長序列中的所有采樣點,而且沒有生成質量的損失。他們的想到的辦法叫做 probability density distillation,“概率密度蒸餾”。它的做法是,用一個完全訓練好的 WaveNet 模型教另一個“學生”網絡如何推理;這個學生網絡更小、并行度更高,從而也就更適合運行在現代計算硬件上。這個學生網絡的架構是一個規模不大的卷積神經網絡的拓展,跟原來的WaveNet很相似,但它有一點根本性的不同,就是生成新的采樣點時不需要依賴任何之間生成的采樣點。這也就意味著,語音生成時可以把第一個單詞、最后一個單詞、以及所有當中的單詞全部同時生成出來,就像下面的動圖里這樣。

      你可能還不知道,WaveNet 為了進駐 Google Assistant 做出了這些重大變化

      新的WaveNet把白噪音作為輸入,然后一次同步生成所有的輸出采樣點。

      訓練的時候,學生網絡是從一個隨機狀態開始的。它的輸入是隨機白噪聲,要訓練它做的任務就是產生連續的音頻波形作為輸出。學生網絡生成的輸出會被交給訓練過的WaveNet模型,它會給每個采樣點打分,作為提供給學生網絡的信號,讓它了解它的輸出和理想輸出之間的差距。隨著訓練過程進行,學生網絡就可以根據反向傳播不斷調節、更新,從而學會產生理想的輸出。從另一個角度說,“老師”網絡和“學生”網絡都會給每一個音頻采樣點的取值輸出一個概率分布,然后訓練的目標就是讓老師的分布和學生的分布之間的KL距離最小化。

      這樣的訓練過程和生成式對抗性網絡(GANs)的設定有不少相似之處,學生網絡就像是GANs中的生成器,老師網絡就像是鑒別器。不過與GANs不同的是,學生的目標并不是像GANs中那樣“騙過”老師,而是與老師合作,嘗試學習、達到老師的表現水平。

      雖然這種訓練技巧有不錯的表現,DeepMind的研究人員們還是需要增加幾個額外的損失函數,引導學生更好地向理想的行為前進。具體來說,他們增加了一個感知損失來避免模型產生糟糕的發音,增加了一個對比度損失來進一步減少噪聲,以及一個能量損失來讓網絡的音頻輸出與人類語音的能量相匹配。能量損失的作用是,如果沒有它的話,模型的音量很小,更像竊竊私語而不是朗聲說話。

      應用了以上所有這些方法之后,DeepMind就得以讓訓練出的并行WaveNet達到與最初的WaveNet同等的語音質量,人類測試者聽過之后的平均意見打分(MOS,5分為滿分)結果如下。值得一提的是,真正的人類語音也只有4.667的MOS分數。

      你可能還不知道,WaveNet 為了進駐 Google Assistant 做出了這些重大變化

      當然,概率密度蒸餾僅僅是讓WaveNet達到生產化系統的速度和質量的眾多必須手段之一。為了把并行WaveNet集成到Goolge Assistant的服務流水線中,DeepMind的技術應用團隊和谷歌語音團隊也同樣在工程方面付出了大量努力。也正是靠著這樣的緊密協作,最初是基礎性研究的技術只花了12個月多一點點的時間就成為了谷歌規模、能夠服務全球用戶的正式產品。

      并行WaveNet論文地址:https://deepmind.com/documents/131/Distilling_WaveNet.pdf 

      via DeepMind Blog,雷鋒網 AI 科技評論編譯

      相關文章:

      Deepmind語音生成模型WaveNet正式商用:效率提高1000倍

      DeepMind發布最新原始音頻波形深度生成模型WaveNet,將為TTS帶來無數可能

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      你可能還不知道,WaveNet 為了進駐 Google Assistant 做出了這些重大變化

      分享:
      相關文章

      讀論文為生

      日常笑點滴,學術死腦筋
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 横峰县| 日韩精品国产二区三区| 国产精品亚洲专区无码牛牛| 亚洲最大国产成人综合网站| 99视频在线| 伊人久久大香线蕉综合bd高清| 真实国产乱啪福利露脸| 国产70老熟女重口小伙子| 无遮挡边吃摸边吃奶边做| 贡嘎县| 香港三级韩国三级日本三级 | 久久综合五月丁香六月丁香| 乌克兰美女浓毛bbw| 激情婷婷五月天| 欧美精品在线观看| 欧美freesex黑人又粗又大| 国产精品久久久久aaaa| 国产精品一区在线蜜臀| 午夜国产精品视频在线| 国内熟女中文字幕第一页| 国产精品亚亚洲欧关中字幕| 精品福利一区| 久久香蕉国产线看观看猫咪av| 荥经县| 亚洲色无码专区一区| 1024在线免费观看| 正在播放国产真实哭都没用| 上海av电影在线观看| 亚洲无码资源| 不卡无码av| 精品人妻无码中文内容| 慈利县| 美女内射毛片在线看免费人动物| 熟妇人妻无码中文字幕老熟妇| 在线视频这里只有精品| 1000部拍拍拍18勿入免费视频下载| 亚洲成人av在线| 国产深夜福利| 正在播放东北夫妻内射| 日本高清一区| 欧美88888|