<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給叢末
      發送

      0

      云從科技刷新一項語音識別紀錄:將 Librispeech 數據集上的錯詞率降至 2.97%

      本文作者: 叢末 2018-11-15 10:37
      導語:超過阿里、百度、約翰霍普金斯大學等企業及高校~
      活動
      企業:云從科技
      操作:刷新記錄
      事項:云從科技刷新一項語音識別紀錄
      開發
      企業:云從科技
      操作:刷新記錄
      內容:云從科技刷新一項語音識別紀錄
      更多相關

      雷鋒網 AI 科技評論按:10 月 29 日,云從科技宣布在全球最大的開源語音識別數據集 Librispeech 上,將錯詞率(Worderrorrate,WER)降到了 2.97%,并將 Librispeech 的 WER 指標提升了 25%,超過阿里、百度、約翰霍普金斯大學等企業及高校,刷新了原先記錄。

      將 Librispeech 數據集上的錯詞率降至 2.97%

      Librispeech 是當前衡量語音識別技術的最權威主流的開源數據集,錯詞率(Worderrorrate,WER)是衡量語音識別技術水平的核心指標。

      云從科技刷新一項語音識別紀錄:將 Librispeech 數據集上的錯詞率降至 2.97%

       DS2:百度,ESPnet:約翰霍普金斯大學,DFSMN-CE:阿里

      云從科技在 Librispeech 數據集上將錯詞率(Worderrorrate,WER)降到了 2.97%,較之前提升了 25%。這項成果有利于語音識別技術的進步,也有助于推動語音識別帶來良好的智慧交互體驗。

      云從科技此次推出的語音識別模型 Pyramidal-FSMN 融合圖像識別與語音識別的優勢,將殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合, 能夠同時有效的提取空間和時間上不同粒度的信息,對比目前業界使用最為廣泛的 LSTM 模型,訓練速度更快、識別準確率更高。

      語音識別技術近年進展

      2017 年 3 月,IBM 結合了 LSTM 模型和帶有 3 個強聲學模型的 WaveNet 語言模型。「集中擴展深度學習應用技術終于取得了 5.5% 錯詞率的突破」。相對應的是去年 5 月的 6.9%。

      2017 年 8 月,微軟發布新的里程碑,通過改進微軟語音識別系統中基于神經網絡的聽覺和語言模型,在去年基礎上降低了大約 12% 的出錯率,錯詞率為 5.1%,聲稱超過專業速記員。相對應的是去年 10 月的 5.9%,聲稱超過人類。

      2017 年 12 月,谷歌發布全新端到端語音識別系統(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯詞率降低至 5.6%。相對于強大的傳統系統有 16% 的性能提升。

      2018 年 6 月,阿里巴巴達摩院推出了新一代語音識別模型 DFSMN,將全球語音識別準確率紀錄提高至 96.04%,錯詞率降低至 3.96%。

      2018 年 10 月,云從科技發布全新 Pyramidal-FSMN 語音識別模型,將錯詞率(Worderrorrate,WER)降低至 2.97%,較之前提升了 25%。

      Pyramidal-FSMN 語音識別模型原理解析

      云從科技提出的新型網絡結構,能更加有效的提取空間和時間特征的角度,為語音識別進一步發展提供了一些新的思路: 

      • 模型設計采用一種殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合的結構; 

      • 訓練方式使用 lattice-free 最大互信息(lattice-free maximum mutual information,LF-MMI/Chain)與交叉熵(cross entropy,CE)損失函數相結合的多任務學習技術;

      • 解碼部分采取 RNNLM rescoring 的方式,利用 RNN 提取一個句子中的長期語義信息,從而更有效地幫助聲學模型得到準確的句子。

      如下圖所示,作者采用了由 6 層 Residual CNN 和 10 層 Pyramidal-FSMN 相結合的網絡結構。前端網絡借鑒了圖像識別中經典的 Residual CNN 結構,更有效地提取特征與時間相互的關聯信息,同時 skip connection 避免了 CNN 網絡加深之后梯度消失和梯度爆炸問題。在金字塔記憶模塊中,淺層的網絡主要聚焦于音素本身的特征學習,所以只需抽取短時上下文信息,而深層的網絡由于已經學習到了足夠的固定時間的音素信息,需要學習長時間包括語義和語法特征,所以深層抽取長時間的上下文信息。利用這樣的金字塔結構,既能減少參數,縮小模型結構,也能更加精巧的模擬人類處理語音信號的過程,提高識別效果。

      云從科技刷新一項語音識別紀錄:將 Librispeech 數據集上的錯詞率降至 2.97%

      在損失函數部分,作者采用了基于 LF-MMI 的序列性訓練方式。同時為了解決序列性訓練容易導致過擬合的問題,又引入了傳統的交叉熵損失函數,在 LF-MMI 輸出之外加入另一個輸出層作為一個正則技術,通過設置交叉熵的正則化系數,兩個目標能夠有效地學習并且避免過擬合問題。

      最后,作者使用了 RNNLM rescoring 技術對解碼做進一步處理。在沒有 RNNLM rescoring 的情況下,Pyramidal-FSMN 已經達到了目前最好的結果,rescoring 之后又有了更進一步的提升。

      聲學模型和 RNNLM 的訓練數據完全基于 Librispeech 和通用的語言模型數據集,并沒有額外引入其他的訓練數據這樣的「技巧」性策略。

      論文地址:https://arxiv.org/abs/1810.11352

      相關介紹:

      LibriSpeech 數據集:世界最大的免費語音識別數據庫,包含文本和語音的有聲讀物數據集,由 1000 小時的多人朗讀的清晰音頻組成,且包含書籍的章節結構。雷鋒網雷鋒網

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      云從科技刷新一項語音識別紀錄:將 Librispeech 數據集上的錯詞率降至 2.97%

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 操日本屄| 国产VA在线观看| 日日躁天天躁AAAAXxXX痛| 成人裸男自慰gv网站| 国产免费的野战视频| 色综合久久88色综合天天| 亚洲色婷婷六月亚洲婷婷6月| 久久久噜噜噜久久中文字幕色伊伊| 亚洲AV无码国产永久播放蜜芽| 久久人人97超碰人人澡爱香蕉| 熟女荡漾在线| 亚洲精品成人无码熟妇在线| 91色老久久精品偷偷性色| 肉体暴力强伦轩在线播放| 特级无码毛片免费视频尤物| 国产精品久久久久久妇女| 酉阳| 亚洲第一综合天堂另类专| av黄色| 国产AⅤ爽aV久久久久成人小说| 日日碰狠狠躁久久躁96avv| 国产高清在线精品一区二区三区| 亚洲成精品动漫久久精久| 美女毛片一区二区三区四区| 色妺妺视频网| 欧美日韩亚洲综合在线观看 | 淮滨县| 天堂俺去俺来也www色官网| 黑人AV无码| 撕开奶罩揉吮奶头视频| 探花无码| 无码人妻一区二区三区免费| 国产成人无码A片免费看| 国产美女久久久亚洲综合| 国产欧美精品一区aⅴ影院| 亚洲一区二区三区在线直播| L日韩欧美看国产日韩欧美| ass日本少妇高潮pics| 在线观看的av网站| 日韩在线视频线观看一区| 与子敌伦刺激对白播放的优点|