0

雷鋒網 AI 科技評論按:激動人心的時刻又到了!
作為自然語言處理領域的頂級會議之一 EMNLP 2019 正式結束,而在閉幕式上也同時頒發了本年度的最佳論文。今年共有四個獎項,其中最佳論文獎由約翰霍普金斯大學摘取,最佳論文 Runner-Up 獎獲得者來自斯坦福,最佳資源獎由 Facebook 等單位獲得,最佳 Demo 獎的獲得者來自艾倫人工智能研究所。值得注意的是,盡管獲獎論文中不乏華人學者,但國內師生基本無緣最佳論文。
EMNLP 是由國際語言學會(ACL)下屬的 SIGDAT 小組主辦的自然語言處理領域的頂級國際會議,在計算語言學類別下影響力排名全球第二。EMNLP 每年舉辦一次,今年則與 IJCNLP 聯合,在香港舉辦(這也是香港第二次舉辦 EMNLP,上一次在 2000 年)。

據雷鋒網 AI 科技評論現場了解,EMNLP-IJCNLP 2019共收到有效投稿2877篇,錄用683篇,其中長論文465篇, 短論文218篇,錄用率為23.7%。從投稿國家看,中國投稿數量已經排名第一,但錄用數量相比美國卻少了70篇。
本次參會人數共有1922人,相比去年2500人有所下降,但雷鋒網 AI 科技評論認為,此次參會人數的降低更多的原因在于學術研究之外,前段時間香港局勢以及美國對持簽證在美工作的研究者重新進入美國必須要重新簽證的出臺都在一定程度上影響了現場的參與率。

EMNLP-IJCNLP最佳論文獎只針對長論文頒發。本屆最佳論文獎的第一作者為來自約翰霍普金斯大學的Xiang Lisa Li,而其導師則為NLP界公認的大神Jason Eisner,后者對 NLP 結構學習領域貢獻極大。
這篇論文獲獎,原因則是:「在預訓練詞嵌入上使用變差信息瓶頸(Variational Information Bottleneck)的新穎應用。很棒的理論證明,不錯的結果,很棒的語言學分析,很可能對許多任務都有幫助。」

論文地址:https://arxiv.org/abs/1910.00163v1
論文摘要:ELMo 和 BERT 之類的預訓練詞嵌入包含了豐富的句法和語義信息,這讓它們能在各種不同的任務上發揮出當前最好的表現。

這篇論文中作者提出了一個非常快速的變差信息瓶頸(Variational Information Bottleneck,VIB)方法,它可以非線性地壓縮這些嵌入,只保留對辨別性解析器有幫助的信息。作者可以把每個詞嵌入壓縮成一個個離散的標簽,或者是連續的向量。對于離散標簽版本,這些自動壓縮的標簽可以形成一種替代性的標簽集合。
作者通過實驗表明,傳統的 POS 標簽標注中捕捉到的信息,大部分都可以被這些標簽捕捉到,而且這些標簽序列還可以在相同的標簽粒度下得到更準確的解析。對于連續向量版本,實驗表明用他們的方法適度壓縮詞嵌入之后可以得到更準確的解析器,他們測試的9種語言中有8種都得到了這樣的結果;以往的簡單的降維操作是達不到這樣的效果的。
最佳論文獎第二名(Runner-Up)的第一作者來自斯坦福大學,其聯合導師為 Chris Manning(計算語言學的大牛,李飛飛辭任后,Manning 接任了斯坦福 AI Lab 主任)以及 Percy Liang。
這篇論文的頒獎詞是「這是一篇影響力高、影響也深遠廣泛的論文,它介紹了如何設計、訓練、解釋探針,以便更充分地評價某種表征在給定的任務(比如 POS 標注或者依賴性解析)上到底學到了什么」。

論文地址:https://www.aclweb.org/anthology/D19-1275.pdf
論文摘要:研究者會設計訓練一類監督模型來從表征(比如 ELMo)預測某些屬性(比如 POS),這類模型被稱作探針,它們在許多語言學任務中都得到了很高的準確率。不過,到底是這些表征確實編碼了語言學結構,還是只不過是這些探針學會了語言學任務而已呢?
在這篇論文中,作者提出了一些控制任務,任務中考察的是把單詞類型匹配到隨機的輸出,作為語言學任務的補充任務(無關任務)。

設計這些任務的考慮就是,它們只能夠被探針自己學會,也就成為了檢驗探針能力的方法。所以,一個好的探針(能切實反應表征的內涵的探針),應當是有選擇性的,應當能在真正的語言學任務中取得高準確率,而在這個控制任務中取得低準確率。探針的選擇性的體現,就是真語言學任務中的準確率和探針記憶單詞類型的能力是一致的。
作者設計了基于英文 POS 標注和依賴性邊緣檢測的控制任務,通過實驗表明目前流行的用于 ELMo 表征的探針并不具有選擇性。作者還發現,一般被用來控制探針復雜度的 dropout 方法,其實對于提升多層感知機(MLP)結構模型的選擇性并沒有幫助,但其它類型的正則化方法是有效果的。最后,作者還發現,雖然針對 ELMo 的網絡第一層的探針在 POS 標簽任務中能取得比第二層的探針稍好的表現,但第二層的探針的選擇性要強很多;這也帶來了一個新問題:到底網絡的哪一層能更好地表征 POS。
早些時候,作者在論文的口頭報告中也指出了他們控制任務的局限性:

最佳資源獎的論文是由 Facebook、法國索邦大學和約翰斯·霍普金斯大學共同完成。
這項工作的貢獻在于其提供的機器翻譯數據集對低資源語言有很重要的意義,而詳細且清晰的質量控制方法也值得其他類似的語料庫收集工作借鑒。

論文地址:https://arxiv.org/abs/1902.01382
數據集地址:https://github.com/facebookresearch/flores
論文摘要:世界上絕大多數語言都是低資源的,它們幾乎沒有(或只有少量)的并行數據。不幸的是,當前的機器翻譯(MT)系統在低資源情況下還不能很好地工作。
當然除了可用于監督學習的資源太少外,這些語言還面臨一個問題,即由于缺乏可自由公開使用的基準,因此很難評估在低資源語言上進行訓練的方法的優劣。
在這項工作中,作者從Wikipedia網頁中提取句子,并在低資源預料對(尼泊爾-英語和僧伽羅-英語)中引進了新的評估數據集。這些語言具有完全不同的形態和語法,對于這些語言,幾乎沒有可用的域外(out-of-domain)并行數據,但卻有大量的單語數據可以使用。
研究人員在文章中描述了收集和交叉檢驗翻譯質量的完整過程,并使用幾種學習方式(完全監督、弱監督、半監督、無監督)來報告基準性能。其實驗結果相當有意思,當前最先進的方法在這個基準上的表現反而相當差。這也對研究低資源機器翻譯的社區提出了新的挑戰。
最佳 Demo 獎的獲獎者來自艾倫人工智能研究所和加利福尼亞大學爾灣分校。
這篇論文介紹了一個在 AllenNLP 基礎上開發的開源工具包,它可以幫助解釋基于神經網絡的 NLP 系統。NLP 領域里,一個重要需求就是怎么來更好地解釋「不透明」的神經網絡,所以這個系統很可能會啟發更多研究。

論文地址:https://arxiv.org/abs/1909.09251
演示地址:https://allennlp.org/interpret
論文摘要:基于神經網絡的 NLP 模型變得越來越準確,但它們并不完美,而且不透明——它們會在和人類直覺不同的情況下犯錯,人類用戶就會對它們的行為感到十分迷惑。模型解釋方法緩解這個問題的方式是為模型的某一些預測提供解釋。然而不幸的是,目前的模型解釋方法都很難用于新的模型、新的任務,這就讓神經網絡 NLP 的開發應用人員們、解釋性方法的研究人員們都不樂意繼續使用這些方法。
這篇論文中作者介紹了 AllenNLP Interpret,這是一個用于解釋 NLP 模型的靈活的代碼框架(工具包)。這個工具包中包括了針對所有 AllenNLP 模型的解釋原型(比如輸入梯度),一整套集成的解釋方法,以及面向前端的可視化組件庫。作者在多種不同的模型、不同的任務(包括用 BERT 進行語言掩蔽建模、用 BiDAF 進行閱讀理解)上針對 5 種解釋方法(包括顯著性熱圖和對抗性攻擊)實現了可視化 demo,展示了工具包的靈活性和功能性。這些 demo 和所有的代碼、教程都可以在 allennlp.org/interpret 訪問。
EMNLP 2019 其它相關內容,以及更多國內國際學術會議報告,請繼續關注雷鋒網 AI 科技評論。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。