0
| 本文作者: 我在思考中 | 2022-06-15 09:39 | 專題:ACL 2019 |

作者 | Sebastian Ruder
編譯 | Antonio
今年 ACL 線下召開,谷歌研究員Sebastian Ruber也到現場參會了!
ACL 2022的舉辦地點是都柏林,Sebastian Ruber位于谷歌倫敦,過去不遠。ACL之行結束后,他興致沖沖地寫下了他的參會感受,分享了他對幾個學術動態的關注,包括:1)語言多樣性和多模態;2)提示學習;3)AI 的下一個熱點;4)他在大會中最喜歡的文章;5)語言和智能的黑物質;6)混合式個人體驗。
以下AI科技評論對他的分享做了不改變原意的整理與編輯:

圖注:ACL 2022 主題演講小組討論支持語言多樣性的小組成員及其語言
ACL 2022 有一個主題為“語言多樣性:從低資源到瀕危語言”的主題賽道。除了賽道上的優秀論文,語言多樣性也滲透到了會議的其他部分。史蒂文·伯德(Steven Bird)主持了一個關于語言多樣性的小組討論,其中研究人員會講和研究代表性不足(under-represented)的語言。小組成員分享了他們的經驗并討論了語言之間權力動態等話題。他們還提出了切實可行的建議,以鼓勵在此類語言上開展更多工作:創建數據資源;為資源匱乏和瀕危語言的工作建立會議軌道;并鼓勵研究人員將他們的系統應用于低資源語言數據。他們還提到了一個積極的進步,即研究人員越來越意識到高質量數據集的價值。總體而言,小組成員強調,使用此類語言需要尊重——對說話者、文化和語言本身。
瀕危語言也是 Compute-EL研討會的重點。在頒獎典禮上,最佳語言洞察論文提出了KinyaBERT,這是一種利用形態分析器為基尼亞盧旺達語(Kinyarwanda)預訓練的模型。而最佳主題論文為三種加拿大土著語言開發了語音合成模型。后者提供了一個多模態信息【譯者注:此處的多模態是指語言的不同形態的信息,例如語音、文字、手語等等】如何有益于語言多樣性的一個例子。

地址:https://aclanthology.org/2022.acl-long.367.pdf

其他多模態論文利用電話表示來提高斯瓦希里語和基尼亞盧旺達語[1]中的實體識別任務的性能。對于低資源的文本到語音,也有工作[2]使用發音特征,例如位置(例如,舌頭的正面)和類別(例如,濁音),這些特征可以更好地泛化到訓練集中沒有見到過的音素。一些工作還探索了新的多模態應用程序,例如檢測美國手語中的手指拼寫[3]或為聲調語言翻譯歌曲[4]。
多語言多模態研討會在MaRVL數據集上主持了一項關于多語言視覺基礎推理的共享任務。看到這種多語言多模態方法的出現特別令人鼓舞,因為它比前一年的 ACL 有所改進,其中多模態方法主要處理英語。
之后作者也受邀做了關于“將NLP系統拓展到下1000種語言”的口頭匯報。

圖注:Sebastian Ruder在ACL 2022上現場做的匯報
在受邀演講中,作者除了介紹將NLP 系統擴展到下1000 種語言的三個其他挑戰,即計算效率、真實語料上的評估以及語言變種(如方言)之外,他還強調了多模態的重要性。多模態也是由Mona Diab宣布的ACL 2022D&I特別倡議“60-60通過本地化實現全球化”的核心。該計劃的重點是使計算語言學(CL)的研究能夠同時被60 種語言應用,并且包括文本、語音、手語翻譯、隱藏式字幕和配音在內的所有模態。該計劃的另一個有用方面是整理最常見的CL術語并將其翻譯成 60 種語言,而缺乏準確的科學術語表達對許多語言在CL的發展造成了障礙。
代表性不足的語言通常幾乎沒有可用的文本數據。兩個教程側重于將模型應用于此類低資源語言種。(1)使用有限文本數據進行學習的教程討論了數據增強、半監督學習和多語言應用,而(2)使用預訓練語言模型的零樣本和少樣本NLP教程涵蓋了提示、上下文學習、基于梯度的LM任務遷移等。

教程鏈接:https://github.com/diyiy/ACL2022_Limited_Data_Learning_Tutorial

教程鏈接:https://github.com/allenai/acl2022-zerofewshot-tutorial
如何在不同語言中以最佳方式表示token是一個懸而未決的問題。一些工作采用了幾種新方法來克服這一挑戰。最佳語言洞察論文KinyaBERT利用了形態學分詞方法。類似地,霍夫曼等人[5]提出了一種方法,旨在在標記化(tokenization)過程中保留單詞的形態結構。該算法通過確定詞匯表中最長的子字符串來標記一個單詞,然后在剩余的字符串上遞歸。

圖注:KinyaBERT模型結構
Patil等人[6]并沒有選擇在多語言預訓練數據中頻繁出現的子詞(這會使模型偏向于高資源語言),而是提出一種更偏向那些多種語言共享的子詞的方法。CANINE[7]和 ByT5[8]都完全取消了標記化,直接對字節進行操作。
通常情況下,語言不僅在言語形式上有所不同,而且在文化上也有差異,其中包括說話者的共同知識、價值觀和目標等。赫什科維奇等人[9]對——什么對于跨文化NLP的很重要——這一問題提供了一個很好的概述。舉例來說,考察一種特定文化下和時間有關的語言表達,例如早晨,在不同語言中它可能指的是不同時間。

圖注:不同文化語境下可能會變化的四個維度:言語形式、目標價值、共有知識和側重傳達的內容
除了上述提到的文章,作者還羅列了他自己比較喜歡的文章:
面向非洲語言的以非洲為中心的 NLP:我們在哪里以及我們可以去哪里。
文章討論了NLP對非洲語言的挑戰,并就如何應對這些挑戰提出了切實可行的建議。它突出了語言現象(語調、元音和諧和連續動詞構建)和非洲大陸的其他挑戰(識字率低、正字法不標準化、官方語境中缺乏語言使用)。

文章鏈接:https://aclanthology.org/2022.acl-long.265/
質量概覽:網絡爬取的多語言數據集的審查。
這篇論文剛出版時,作者就寫過它。文章對涵蓋 70 種語言的大規模多語言數據集進行了仔細審核,并發現了許多以前未被注意到的數據質量問題。它強調了許多低資源語言數據集質量低下,一些數據集的標記甚至完全是錯誤的。

文章鏈接:https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00447/109285/Quality-at-a-Glance-An-Audit-of-Web-Crawled
多語言模型零樣本性能預測的多任務學習。
我們想知道模型的性能如何如果將它遷移到一種新語言,這可以有助于告知我們在新語言任務中需要多少訓練數據。文章通過聯合學習預測跨多個任務的性能,使性能預測更加穩健。這還可以分析在所有任務上,影響零樣本遷移的特征。

文章鏈接:https://aclanthology.org/2022.acl-long.374/
而以下則是作者參與的和這個領域相關的論文:
一個國家,700多種語言:NLP對于印度尼西亞的代表性不足語言和方言的挑戰。
文章提供了對于印度尼西亞中的700多種語言在NLP上的挑戰的概覽(印度尼西亞是全世界語言多樣性方面第二多的國家)。這其中包含各種各樣的方言、說話風格的差異、相互混合以及正字法的變化。作者們做出了實用性的建議,包括方言文本化,并將信息錄入到數據庫中。

文章鏈接:https://aclanthology.org/2022.acl-long.500/
通過詞匯方面的適應手段,將預訓練模型拓展到上千種更多的語言。
作者分析了不同的利用雙語預料來為低資源語言訓練合成數據的策略,并分析了如何把合成的數據和現有的數據結合(如果有的話)。文章結果發現,這要比直接翻譯合成的數據效果要好(針對這些低資源語言的神經翻譯模型也往往做的不好)。

文章鏈接:https://aclanthology.org/2022.acl-long.61/
NLP研究的單維偏差:朝向一個多維NLP研究的探索。
這是一篇綜述反省性的文章,作者們定義一個稱作“單一角落”(Square one)的NLP原型研究趨勢,并通過檢驗461篇ACL‘21的做了口頭匯報的論文,發現現在的NLP盡管已經超越了這一趨勢,卻還是存在研究維度單一的問題。他們發現幾乎70%的文章僅僅使用英語進行評估,幾乎40%的文章僅僅評估性能。僅僅6.3%的文章評估公正性、偏差等方向,以及僅6.1%的文章是“多維度”的,也就是他們在2個及以上的維度上都做了分析。

ACL’21文章研究內容的分類可視化,聚集現象表明研究的單一性
論文地址:https://aclanthology.org/2022.findings-acl.184/
提示學習是另一個受到廣泛關注的領域。最好的演示樣例是由清華大學開發的OpenPrompt,這是一個用于提示學習的開源框架,可以輕松定義模板和語言器(verbalizer),并將它們與預訓練好的模型相適配。

圖注:OpenPrompt中與prompt相關的組件
一個常見的研究思路是將外部知識納入學習過程中。Shengding Hu[10]等人建議用知識庫中的單詞擴展語言器。Jiacheng Liu[11]等人先使用語言模型在少量樣本的設置中生成相關的知識陳述,然后使用第二個語言模型來回答常識性問題。我們還可以通過修改訓練數據來整合額外的知識,例如,通過在實體之后插入元數據字符(例如,實體類型和描述)[12]。
其他論文則提出了一些適合于特定應用的提示。Reif等人[13]提出一個可以處理帶有不同風格例子的模型,用于風格遷移;而 Tabasi 等人[14]使用語義相似性任務的相似性函數得到特殊符號[MASK]標記的詞嵌入。Narayan等人[15]則通過預測目標摘要之前的實體鏈來引導摘要模型(例如,“[ENTITYCHAIN] Frozen | Disney“),如下圖所示。Schick等人[16]用包含某個屬性的問題提示模型(例如,“上述文本是否包含威脅?”)以診斷模型生成的文本是否具有攻擊性。Ben-David等人[17]生成域名和域相關特征作為域適配的提示。

圖注:Narayan等人[16]則通過預測目標摘要之前的實體鏈來引導摘要模型
在和視覺相關的多模態設定中進行提示學習也受到了一些關注。Jin等人[18]分析了多樣的提示在少樣本學習設定中的影響。Haoyu Song等人[19]使用CLIP探討了視覺-語言領域下的小樣本學習。他們使用T5模型根據視覺問答的問題生成提示,并使用語言模型過濾掉不可能的答案。然后將提示與目標圖像配對,并使用 CLIP計算圖像-文本對齊分數。如下圖所示。

圖注:Haoyu Song等人[19]使用T5模型產生prompt,并用CLIP得到圖像文本匹配程度
最后,有幾篇論文試圖更好地理解提示學習。Mishra等人[20]探索重新構建指令的不同方法,例如將復雜任務分解為幾個更簡單的任務或逐條列出指令。Lu等人[21]分析模型對少樣本順序的敏感性。由于沒有額外的開發數據就無法確定最佳排列,因此他們使用語言模型本身生成合成開發集,并通過熵確定最佳示例順序。
以下論文是與作者合作的與少樣本學習有關的工作:
FewNLU:對少樣本自然語言理解的SOTA方法進行基準測試。
文章引入了一個評估框架,使小樣本評估更加可靠,包括新的數據拆分策略。我們在這個框架下重新評估了最先進的小樣本學習方法。我們觀察到某些方法的絕對和相對性能被高估了,并且某些方法的改進會隨著更大的預訓練模型而降低,等等。

文章鏈接:https://aclanthology.org/2022.acl-long.38/
預訓練語言模型中的記憶與泛化。
我們研究最先進的預訓練模型的記憶和泛化行為。我們觀察到當前模型甚至可以抵抗高度的標簽噪聲,并且訓練可以分為三個不同的階段。我們還觀察到,預訓練模型的遺忘比非預訓練模型要少得多。最后,我們提出了一個擴展,以使模型對低頻模式更具魯棒性。

文章鏈接:https://aclanthology.org/2022.acl-long.521/

圖注:「下一個大熱點」(Next Big Ideas)會談現場
作者專門提到了他最喜歡的會議之一是Next Big Ideas,這是會議組織者開創的一種新形式。該會議的特色是高級研究人員對重要的研究方向提出了有見地的看法。
對作者而言,本次會議中突出的兩個主題是:結構(structure)和模塊化(modularity)。研究人員強調需要提取和表示結構化信息,例如關系、事件和敘述。他們還強調了思考這些是如何表示的重要性——通過人類定義和適當模式的設計。許多主題需要處理多個相互依賴的任務,無論是故事理解、推理還是模式學習。這將需要多個模型或組件相互連接。(如果讀者想了解有關模塊化方法的更多信息,作者將在EMNLP 2022上介紹一個何NLP 模型的模塊化和參數高效微調的教程。)總的來說,這些研究提案勾勒了一個令人信服的愿景,即 NLP 模型以結構化、多智能體的方式提取、表示和推理復雜的知識。
Heng Ji 在該會議開始時熱情地呼吁NLP模型有更多的結構表示。她強調(從當前的句子級和文檔級信息提取)轉向語料庫級信息提取,并注意到從其他類型的文本,例如科學文章以及低資源語言,中提取關系和結構。在多模態設定下,圖像和視頻可以轉換為視覺token,之后組織成結構,并使用結構化模板進行描述。提取的結構可以進一步泛化為模式和事件模式。我們可以通過將結構嵌入到預訓練模型中來表示結構,通過圖神經網絡或通過全局約束對其進行編碼。
Mirella Lapata 討論了故事,以及我們為什么應該關注它們。故事有形式、結構和反復出現的主題,這是自然語言理解(NLU)的核心。它們還與許多實際應用相關,例如問答和摘要。為了處理故事,我們需要進行半監督學習和訓練模型,以便可以處理很長的輸入或者多個相互依賴的任務(例如建模角色、事件、時間性等)。這需要模塊化的模型以及在閉環包括人類協作。
Dan Roth 強調了基于NLU做出決策推理的重要性。鑒于推理過程的多樣性,這需要多個相互依賴的模型和確定一個與哪些模塊相關的規劃過程。我們還需要能夠推理時間和其他物理量。為此,我們需要能夠提取、上下文化(contextualize)和搜尋相關信息,并為推理過程提供解釋。為了監督模型,我們可以使用附帶監督,例如可比較的文本。
Thamar Solorio 討論了如何為世界上一半的多語言人口和經常使用語言轉換的人口提供服務。相比之下,當前的語言技術主要迎合單語使用者。通常使用語言轉換的非正式環境變得越來越重要,例如在聊天機器人、語音助手和社交媒體的背景下。她指出了諸如資源有限、對話數據中的“噪音”以及音譯數據問題等挑戰。我們還需要確定相關用途,因為語言轉換并非在所有 NLP 場景中都相關。最終,“我們需要能夠代表人們使用語言的實際方式的語言模型”。
Marco Baroni 專注于模塊化。他提出了一個研究愿景,即一個凍結的預訓練網絡通過自主地相互交互來共同解決新任務。他建議模型應該通過一個易于推廣的學習接口協議進行通信。
Eduard Hovy 敦促我們重新發現對表征和知識的需求。當知識很少或從未出現在訓練數據中時,例如隱式知識,模型不會自動學習到它。為了填補這些空白,我們需要定義一組我們關心的人類目標以及捕捉未說或將要說的內容的模式。這需要將學習的流程發展為一組相互關聯的流程,例如在大流行背景下患者、流行病學家和病原體的流程。同樣,為了捕捉群體中人們的角色,我們需要人為的定義和指導。總體而言,他鼓勵社區構建可以被模型學習到的拓撲結構。
最后,李航強調了符號推理的必要性。他為NLU提出了一種神經符號架構,該架構結合了通過預訓練模型進行的類比推理和通過符號組件進行的邏輯推理。
除了 Next Big Ideas會議外,會議還包括早期職業研究人員的演講。作者有幸與Eunsol Choi、Diyi Yang、Ryan Cotterell 和 Swabha Swayamdipta等優秀的年輕研究人員一起發言。他希望未來的會議將繼續采用這些格式,并與其他人一起進行試驗,因為它們帶來了新的視角并為研究提供了更廣闊的視野。

圖注:Yejin Choi教授推測ACL 2082可能是什么樣的
Yejin Choi教授發表了一個鼓舞人心的主題演講。除此之外,這是我看到的第一個使用DALL-E 2來繪制幻燈片的演講。她通過類比物理學強調了 NLP 的三個重要研究領域:模糊性、推理和隱含信息。
在現代物理學中,更深入的理解往往會導致模糊性增加(例如,參見薛定諤的貓或波粒二象性)。Yejin同樣鼓勵ACL社區接受模糊性。過去,研究者往往不去做未達到高度注釋者間一致性的任務;同樣,在傳統的情感分析中,中性類經常被丟棄。理解不能僅僅局限于簡單的類別。帶有注釋者意見偏見的語言模型和模棱兩可的例子提高了泛化能力。
與時空的概念相似,Yejin認為語言、知識和推理也不是獨立的領域,而是存在于一個連續統一體上。maieutic提示等推理方法[22]允許我們通過遞歸生成解釋來研究模型知識的連續性。
最后,類似于暗物質在現代物理學中的核心作用,NLP 未來的研究應該關注語言的“暗物質”,即世界運作的潛規則,它影響人們使用語言的方式。我們應該立志嘗試教給模型,例如默認規則、價值觀和目標。
Yejin坦率地總結了導致她成功的因素:謙虛、向他人學習、冒險;但也很幸運并在一個包容的環境中工作。

圖注:都柏林會議中心,ACL 2022 的舉辦地
作者直言他非常喜歡面對面的會議體驗。會議期間有嚴格的戴口罩要求。唯一的問題是在全體會議和主題演講中出現了一些技術問題。
另一方面,作者也發現很難將面對面的會議體驗與虛擬會議體驗相協調。虛擬的海報會議往往與早餐或晚餐時間重疊,這使得參加會議變得困難。據我所知,許多虛擬海報會議的觀眾幾乎是空的。看來我們需要重新考慮如何在混合環境中進行虛擬海報會議。作為替代方案,在rocket.chat 或類似平臺中創建異步的每張貼者聊天室可能更有效,并且能夠設置即興視頻通話以進行更深入的對話。
作者對于有合理數量的虛擬參與者的口頭報告和研討會的體驗也很喜歡。他也特別感謝能夠多次觀看的主題演講和其他受邀演講的錄音和視頻。
https://ruder.io/acl2022/
參考文獻:
[1] Phone-ing it in: Towards Flexible Multi-Modal Language Model Training by Phonetic Representations of Data. https://aclanthology.org/2022.acl-long.364/
[2] Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with Articulatory Features. https://aclanthology.org/2022.acl-long.472/
[3] Searching for fingerspelled content in American Sign Language. https://aclanthology.org/2022.acl-long.119/
[4] Automatic Song Translation for Tonal Languages. https://aclanthology.org/2022.findings-acl.60/
[5] An Embarrassingly Simple Method to Mitigate Undesirable Properties of Pretrained Language Model Tokenizers. https://aclanthology.org/2022.acl-short.43/
[6] Overlap-based Vocabulary Generation Improves Cross-lingual Transfer Among Related Languages. https://aclanthology.org/2022.acl-long.18/
[7] Canine: Pre-training an Efficient Tokenization-Free Encoder for Language Representation. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00448/109284/Canine-Pre-training-an-Efficient-Tokenization-Free
[8] ByT5: Towards a Token-Free Future with Pre-trained Byte-to-Byte Models. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00461/110049/ByT5-Towards-a-Token-Free-Future-with-Pre-trained
[9] Challenges and Strategies in Cross-Cultural NLP. https://aclanthology.org/2022.acl-long.482/
[10] Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification. https://aclanthology.org/2022.acl-long.158/
[11] Generated Knowledge Prompting for Commonsense Reasoning. https://aclanthology.org/2022.acl-long.225/
[12] Metadata Shaping: A Simple Approach for Knowledge-Enhanced Language Models. https://aclanthology.org/2022.findings-acl.137/
[13] A Recipe for Arbitrary Text Style Transfer with Large Language Models. https://aclanthology.org/2022.acl-short.94/
[14] Exploiting Language Model Prompts Using Similarity Measures: A Case Study on the Word-in-Context Task. https://aclanthology.org/2022.acl-short.36/
[15] Planning with Learned Entity Prompts for Abstractive Summarization. https://aclanthology.org/2021.tacl-1.88/
[16] Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP. https://arxiv.org/abs/2103.00453
[17] PADA: Example-based Prompt Learning for on-the-fly Adaptation to Unseen Domains. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00468/110538/PADA-Example-based-Prompt-Learning-for-on-the-fly
[18] A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models. https://aclanthology.org/2022.acl-long.197/
[19] CLIP Models are Few-Shot Learners: Empirical Studies on VQA and Visual Entailment. https://aclanthology.org/2022.acl-long.421/
[20] Reframing Instructional Prompts to GPTk’s Language. https://aclanthology.org/2022.findings-acl.50/
[21] Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity. https://aclanthology.org/2022.acl-long.556/

雷峰網(公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。