^{<sub id="jgr5k"></sub>}

GLUE 榜單破 90 大關(guān)！百度預(yù)訓(xùn)練模型ERNIE榮登榜首

本文作者： camel

2019-12-11 14:40

導(dǎo)語：超 T5，戰(zhàn) MT-DNN-SMART

雷鋒網(wǎng) AI科技評論了解到，北京時間12月10日，預(yù)訓(xùn)練模型界的“MVP”百度ERNIE，在自然語言處理領(lǐng)域權(quán)威數(shù)據(jù)集GLUE中榮登榜首，并以9個任務(wù)平均得分首次突破90大關(guān)刷新該榜單歷史，超越微軟MT-DNN-SMART、谷歌T5、ALBERT等一眾國際頂級預(yù)訓(xùn)練模型的表現(xiàn)。
GLUE 榜單破 90 大關(guān)！百度預(yù)訓(xùn)練模型ERNIE榮登榜首

一、GLUE榜單

通用語言理解評估基準(zhǔn)GLUE是自然語言處理領(lǐng)域最權(quán)威的排行榜之一，是由紐約大學(xué)、華盛頓大學(xué)、谷歌DeepMind等機構(gòu)聯(lián)合推出，以其涵蓋大量不同類型的NLP任務(wù)，包括自然語言推斷、語義相似度、問答匹配、情感分析等9大任務(wù)，成為衡量自然語言處理研究進展的行業(yè)標(biāo)準(zhǔn)。

因此，吸引了谷歌、Facebook、微軟等國際頂尖公司以及斯坦福大學(xué)、卡耐基·梅隆大學(xué)等頂尖大學(xué)參加。GLUE排行榜的效果，在一定程度上成為了衡量各機構(gòu)自然語言處理預(yù)訓(xùn)練技術(shù)水平最重要的指標(biāo)之一。

2018年底以來，以BERT為代表的預(yù)訓(xùn)練模型大幅提升了自然語言處理任務(wù)的基準(zhǔn)效果，取得了顯著技術(shù)突破，基于大規(guī)模數(shù)據(jù)的預(yù)訓(xùn)練技術(shù)在自然語言處理領(lǐng)域變得至關(guān)重要。

眾AI公司紛紛發(fā)力預(yù)訓(xùn)練領(lǐng)域，相繼發(fā)布了XLNet、RoBERTa、ALBERT、T5等預(yù)訓(xùn)練模型。在此過程中，百度也先后發(fā)布了ERNIE 1.0、ERNIE 2.0，在16個中英數(shù)據(jù)集上曾取得過當(dāng)時的SOTA。

從GLUE排行榜上來看，BERT使用預(yù)訓(xùn)練加微調(diào)的方式，相對過往的基線成績大幅提升各子任務(wù)的效果，首次突破了80大關(guān)。XLNet、RoBERTa、T5、MT-DNN-SMART等模型平均分?jǐn)?shù)分布在88-89分范圍，作為對比，人類水平是87.1。

此次，百度ERNIE登頂，成為首個突破90大關(guān)的模型。此外，通過榜單，我們可以看到，ERNIE在CoLA、SST-2、QQP、WNLI等數(shù)據(jù)集上也達到了SOTA水平。相對BERT的80.5的成績，ERNIE提升近10個點，效果還是相當(dāng)顯著的。

二、刷榜模型

據(jù)雷鋒網(wǎng)了解，此次登頂?shù)哪Ｐ椭饕贓RNIE 2.0持續(xù)學(xué)習(xí)語義理解框架下的系列優(yōu)化。

據(jù)百度介紹，ERNIE 2.0 持續(xù)學(xué)習(xí)的語義理解框架,能夠支持增量引入不同角度的自定義預(yù)訓(xùn)練任務(wù)，通過多任務(wù)學(xué)習(xí)對模型進行訓(xùn)練更新，每當(dāng)引入新任務(wù)時，該框架可在學(xué)習(xí)該任務(wù)的同時，不遺忘之前學(xué)到過的信息。

以下是百度ERNIE 2.0的原理示意圖：

GLUE 榜單破 90 大關(guān)！百度預(yù)訓(xùn)練模型ERNIE榮登榜首

百度ERNIE 2.0原理示意圖

百度研發(fā)團隊通過ERNIE持續(xù)學(xué)習(xí)框架進一步優(yōu)化了通用詞匯級知識學(xué)習(xí)和面向任務(wù)類型的預(yù)訓(xùn)練，最終在通用語義表示能力上取得了顯著提升。

詞匯級信息預(yù)訓(xùn)練上，百度研發(fā)團隊提出了基于互信息的動態(tài)邊界掩碼算法 (Dynamic Boundary Masking)，改進了ERNIE 1.0中基于短語和實體等Knowledge Masking的掩碼算法，這類算法需依賴短語和實體標(biāo)注工具，從而導(dǎo)致Mask單元多樣性差、語義片段覆蓋度低等問題。

動態(tài)邊界掩碼算法，首先通過假設(shè)檢驗從海量數(shù)據(jù)中篩選高置信度詞對，并計算詞對間的互信息。以詞對的互信息及其統(tǒng)計量為基礎(chǔ)，計算樣本中詞與詞之間的緊密度。掩碼時以該緊密度作為概率分布進行動態(tài)的邊界采樣。這種動態(tài)邊界掩碼的方式既兼顧了ERNIE 1.0對知識單元進行建模的能力，又提升了片段的多樣性。

下圖展示了不同掩碼算法的差異：

GLUE 榜單破 90 大關(guān)！百度預(yù)訓(xùn)練模型ERNIE榮登榜首

Dynamic Boundary Masking Algorithm示意圖

其中B(Begin)代表了一個片段的起始，I(Inside)代表當(dāng)前位置應(yīng)與上文最近出現(xiàn)的B位置組成片段。以圖中句子為例，動態(tài)邊界掩碼算法以詞對間的緊密度進行邊界采樣，動態(tài)的構(gòu)造出了待掩碼的片段候選。

為了更好提升應(yīng)用任務(wù)效果，模型在通用預(yù)訓(xùn)練的基礎(chǔ)上，還新增了面向指定任務(wù)類型的預(yù)訓(xùn)練任務(wù)。該模型首次將無監(jiān)督指代消解作為預(yù)訓(xùn)練任務(wù)，

GLUE 榜單破 90 大關(guān)！百度預(yù)訓(xùn)練模型ERNIE榮登榜首

指代消解預(yù)訓(xùn)練任務(wù)示意圖

指代消解的目標(biāo)是識別篇章中的代詞指向哪個名詞短語的問題。模型基于無監(jiān)督語料構(gòu)造了指代消解任務(wù)，將句子中重復(fù)出現(xiàn)的某個名詞短語隨機替為句子中的其他名詞短語，讓模型去預(yù)測替換后的句子是否和原句相同。該任務(wù)會顯著提升模型的指代關(guān)系預(yù)測能力。

此外，模型在訓(xùn)練數(shù)據(jù)和結(jié)構(gòu)上也做了調(diào)整。在預(yù)訓(xùn)練的數(shù)據(jù)使用上，模型針對論壇對話數(shù)據(jù)進一步精細化建模。對話數(shù)據(jù)相對篇章文本數(shù)據(jù)具有很強的結(jié)構(gòu)性，相同回復(fù)對應(yīng)的 Query 往往語義比較相似。模型充分利用了對話間語義關(guān)系，幫助ERNIE更好地建模語義相關(guān)性，在QQP等文本匹配任務(wù)上效果提升明顯；在模型結(jié)構(gòu)上，相對開源ERNIE 2.0 Large模型使用了更大的參數(shù)。

綜合來看，ERNIE新模型沿著持續(xù)學(xué)習(xí)語義理解框架，進一步優(yōu)化了現(xiàn)有的學(xué)習(xí)任務(wù)，并新增了面向任務(wù)類型的預(yù)訓(xùn)練，最后通過對訓(xùn)練數(shù)據(jù)、模型參數(shù)結(jié)構(gòu)的精細調(diào)整，取得了顯著的效果提升，在GLUE榜單成功突破90大關(guān)！

據(jù)了解，百度ERNIE 2.0的論文（https://arxiv.org/abs/1907.12412）已被國際人工智能頂級學(xué)術(shù)會議AAAI-2020收錄，AAAI-2020將于2020年2月7日-12日在美國紐約舉行, 我們可以期待百度技術(shù)團隊屆時的進一步展示。

這里需要多說一句，相較于谷歌BERT，百度的ERNIE做到了后來居上。如果持續(xù)關(guān)注，會發(fā)現(xiàn)百度在自然語言處理領(lǐng)域有非常深厚的積累，其研究成果也已經(jīng)輻射至不同領(lǐng)域。從百度近期的一系列產(chǎn)品發(fā)布中也可得以一窺，ERNIE預(yù)訓(xùn)練技術(shù)在百度諸多產(chǎn)品和技術(shù)場景的廣泛應(yīng)用，例如百度搜索、小度音箱、信息流推薦等。

我們期待百度在AI 技術(shù)發(fā)展上，能夠更進一步。

雷鋒網(wǎng)報道。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。