^{<sub id="jgr5k"></sub>}

谷歌推出基于注意機制的全新翻譯框架，Attention is All You Need!

本文作者：這只萌萌

編輯：郭奕欣

2017-06-16 10:06

導語：谷歌最近發表論文，提出了一種完全基于注意力機制的網絡框架Transformer。Attention is All You Need!

雷鋒網AI科技評論消息，谷歌最近與多倫多大學等高校合作發表論文，提出了一種新的網絡框架——Transformer。Transformer是完全基于注意力機制（attention mechanism)的網絡框架，放棄了RNN和CNN模型。

眾所周知，在編碼-解碼框架中，主流的序列傳導模型都是基于RNN或者CNN的，其中能完美連接編碼器和解碼器的是注意力機制。而谷歌提出的這一新框架Transformer，則是完全基于注意力機制的。

Transformer用于執行翻譯任務，實驗表明，這一模型表現極好，可并行化，并且大大減少訓練時間。Transformer在WMT 2014英德翻譯任務上實現了28.4 BLEU，改善了現有的最佳成績（包括超過2個BLEU的集合模型），在WMT 2014英法翻譯任務中，建立了一個新的單一模式，在八個GPU上訓練了3.5天后，最好的BLEU得分為41.0，這在訓練成本最小的情況下達到了最佳性能。由Transformer泛化的模型成功應用于其他任務，例如在大量數據集和有限數據集中訓練英語成分句法解析的任務。

注意力機制是序列模型和傳導模型的結合，在不考慮輸入輸出序列距離的前提下允許模型相互依賴，有時（但是很少的情況），注意力機制會和RNN結合。

模型結構如下：

編碼器：編碼器有6個完全的層堆棧而成，每一層都有兩個子層。第一個子層是多頭的self-attention機制，第二層是一層簡單的前饋網絡全連接層。在每一層子層都有residual和歸一化。

解碼器：解碼器也是有6個完全相同的層堆棧而成，每一層有三個子層，在編碼棧的輸出處作為多頭的attention機制。

注意（attention）：功能是將Query和一組鍵-值對映射到輸出，那么包括query、鍵、值及輸出就都成為了向量。輸出是值的權重加和，而權重則是由值對應的query和鍵計算而得。

谷歌推出基于注意機制的全新翻譯框架，Attention is All You Need!

source：arxiv

雷鋒網了解到，谷歌這一模型在眾多翻譯任務中都取得了最佳成績，其泛化模型也在其他識別任務中表現優異。谷歌對這一基于注意力機制的Transformer表示樂觀，研究人員很高興看到模型在其他任務中表現良好，谷歌計劃研究Transformer的更廣泛應用——其他形式的輸入輸出，包括圖像、音頻及視頻等。

原文鏈接：https://arxiv.org/abs/1706.03762，雷鋒網編譯

附谷歌之前的翻譯框架進化史：

一）基于短語的機器翻譯。

2006 年Google團隊改進了——統計機器翻譯(statistical machine translation)，并宣布上線Google Translate翻譯功能。當時的核心技術 “統計機器翻譯”的基本思想是通過對大量平行語料進行統計分析、構建統計翻譯模型、進而使用此模型進行翻譯。簡單來說，你可以認為這個翻譯系統是基于短語翻譯的。

二）用于自動翻譯的端到端的學習方法。

谷歌2016年9月29日前后正式發布第一代神經翻譯系統。當時谷歌在 ArXiv.org 上發表論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》介紹谷歌的神經機器翻譯系統（GNMT），相對于十年前發布的 Google Translate（谷歌翻譯），當時其服務背后的核心算法是基于短語的機器翻譯。神經機器翻譯（NMT: Neural Machine Translation）是一種用于自動翻譯的端到端的學習方法，該方法有望克服傳統的基于短語的翻譯系統的缺點。

當時外界對這個神經翻譯系統的褒貶不一，比較綜合的評價是：在同等語料的情況下，相較于基于短語的統計機器翻譯，神經機器翻譯（GNMT）系統能在更少工程量的基礎上實現相同的效果。但是其純粹把輸入的句子當做一個序列（理論上任意符號序列都可以），不考慮這個句子本身作為語言的特性，生成的內容可能會比較奇怪，難以控制，錯誤的結果也難以解釋。

三）完全基于注意力機制（attention mechanism)的網絡框架。

谷歌翻譯新的網絡框架——Transformer是完全基于注意力機制（attention mechanism)的網絡框架，如上文所說，注意力機制是序列模型和傳導模型的結合，在不考慮輸入輸出序列距離的前提下允許模型相互依賴，相比去年9月分公布的谷歌的神經機器翻譯系統（GNMT），這里的傳導模型的加入極有可能是這次系統升級的關鍵，

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

5人收藏

這只萌萌

知情人士

發私信

當月熱門文章