0
| 本文作者: 知情人士 | 2021-07-20 10:02 | 專題:ICML 2019 |

原定于在奧地利維也納召開的ICML 2021,受疫情影響已于近日在線上召開。根據官方消息,會議將在7月18日~7月24日內完成所有的日程。
本次會議共收到5513篇論文投稿,接收1184篇論文,其中包含1018篇短論文和166篇長論文,接收率為21.48%,近五年最低。
在接收的一千多篇論文中,組委會最終挑出了四篇論文,分別頒發了一個杰出論文獎,三個杰出論文提名獎。

杰出論文獎由康奈爾大學博士生Yucheng Lu獲得,他本科畢業于上海交通大學,研究領域是分布式優化和機器學習系統。獲獎論文標題為“Optimal Complexity in Decentralized Training”,探究了去中心化訓練的極限以及如何達到這種極限。

如上三篇文章獲得了杰出論文榮譽提名獎,其中論文"Understanding Self-Supervised Learning Dynamics without Contrastive Pairs"由Facebook科學家田淵棟擔任一作,其提出了一種新方法DirectPred,它根據輸入的統計數據直接設置線性預測器,而無需梯度訓練。

據田淵棟學者在知乎發表的想法,我們可以得知,這篇論文原來獲得過一個Weak Accept,經過他與評審rebuttal,將其改為了Accept,這在某種程度上說明了好的rebuttal的重要性,也說明只要你有“理”,就別怕!

此外,發表在ICML 2011的論文“Bayesian Learning via Stochastic Gradient Langevin Dynamics”獲得了時間檢驗獎,作者是來自加利福尼亞大學的Max Welling(現在是高通荷蘭公司技術副總裁)和倫敦大學學院的Yee Whye Teh(中文名字鄭宇懷,現在是牛津大學教授)。
值得一提的是,鄭宇懷 1997年于加拿大滑鐵盧大學獲得計算機科學與數學學士學位,之后在多倫多大學師從Geoffery Hinton,并于2003年獲得計算機博士學位。他還是Hinton那篇劃時代論文《A fast learning algorithm for deep belief nets》的署名作者之一。
獲獎論文一覽
杰出論文獎:去中心化訓練的極限在哪里?

論文標題:"Optimal Complexity in Decentralized Training"
作者:Yucheng Lu, Christopher De Sa
機構:康奈爾大學
論文地址:http://proceedings.mlr.press/v139/lu21a.html
去中心化(Decentralization)是擴展并行機器學習系統的一種有效方法。本文提供了該方法在隨機非凸環境下進行復雜迭代的下界。我們的下界表明,許多現有的分散訓練算法(如D-PSGD)在已知收斂速度方面存在理論差距。通過構造并證明這個下界是合理的和可實現的,我們進一步提出了DeTAG,這是一種實用的gossip風格的去中心化算法,只需要一個對數間隔就可以達到下界。本文將DeTAG算法與其他分散算法在圖像分類任務上進行了比較,結果表明,DeTAG算法比基線算法具有更快的收斂速度,特別是在非緩沖數據和稀疏網絡中。
榮譽提名獎之一:離散分布的可伸縮抽樣

論文標題:"Oops I Took A Gradient: Scalable Sampling for Discrete Distributions"
作者:Will Grathwohl, Kevin Swersky, Milad Hashemi, David Duvenaud, Chris Maddison
機構:多倫多大學,谷歌大腦
論文地址:http://proceedings.mlr.press/v139/grathwohl21a.html
本文針對離散概率模型,提出了一種通用的、可擴展的近似抽樣策略。該方法利用似然函數對離散輸入的梯度來更新Metropolis-Hastings采樣。實驗表明,這種方法在高難度設置中,要優于一般的采樣器,例如伊辛模型,波特模型,受限玻爾茲曼機,隱馬爾可夫模型。本文還展示了改進的采樣器,用于訓練基于高維離散圖像數據的深層能量模型。這種方法優于變分自動編碼器和現有的基于能量的模型。此外,本文提供的邊界,表明該方法在更新局部的采樣器類中是接近最優的。
榮譽提名獎之二:為什么非對比自監督學習效果好?

論文題目:"Understanding self-supervised learning dynamics without contrastive pairs"
作者:Yuandong Tian、Xinlei Chen、Surya Ganguli
機構:FAIR,斯坦福大學
論文地址:http://proceedings.mlr.press/v139/tian21a.html
一般而言,對比自監督學習(SSL)通過最小化同一數據點(正對)的兩個增強視圖之間的距離和最大化不同數據點(負對)的視圖來學習表征,而最近的非對比SSL(如BYOL和SimSiam)的研究表明,在沒有負配對的情況下,使用額外的可學習預測器(learnable predictor)和停止梯度操作(stop-gradient operation),可以使模型性能更佳。一個基本的問題出現了:為什么這些方法沒有引發崩潰的平凡的表征?
本文通過一個簡單的理論研究回答了該問題,并提出了新的方法DirectPred,它不需要梯度訓練,直接根據輸入的統計信息來設置線性預測。在ImageNet上,它與更復雜的BatchNorm(兩個線性層)預測器性能相當,在300個epoch的訓練中比線性預測器高2.5%(在60個epoch中高5%)。DirectPred方法,來源于我們對簡單線性網絡中非對比SSL的非線性學習動力學的理論研究。這項研究提供了非對比SSL方法如何學習的概念性見解,如何避免表征崩潰,以及預測網絡、停止梯度、指數移動平均數和權重衰減等因素如何發揮作用。此外,本文還提供了該方法在STL-10和ImageNet上的消融研究結果。
榮譽提名獎之三:倒向隨機微分方程結合張量格式的回歸型方法

論文標題:"Solving high-dimensional parabolic PDEs using the tensor train format"
作者:Lorenz Richter 、Leon Sallandt、Nikolas Nüsken
機構:德國柏林自由大學,德國波茨坦大學等
論文地址:http://proceedings.mlr.press/v139/richter21a.html
高維偏微分方程的應用在經濟、科學和工程等研究中普遍存在。然而,由于傳統的基于網格的方法易受到維數災難的影響,該方程在數值處理上面臨著巨大的挑戰。在本文中,我們認為,張量訓練為拋物型偏微分方程提供了一個更合理的近似框架:將倒向隨機微分方程和張量格式的回歸型方法相結合,有望利用潛在的低秩結構,實現壓縮和高效計算。
遵循這一范式,我們開發了新的迭代方案,包括顯式和快速(或隱式和準確)的更新。實驗證明,與最先進的基于神經網絡的方法相比,我們的方法在精確度和計算效率之間取得了一個良好的折中。
時間檢驗獎:隨機梯度朗格文動力學

論文標題:"Bayesian Learning via Stochastic Gradient Langevin Dynamics"
作者:Max Welling、鄭宇懷
機構(原):加利福尼亞大學、倫敦大學學院
論文地址:https://www.cse.iitk.ac.in/users/piyush/courses/tpmi_winter21/readings/sgld.pdf
本文中提出了一個新的框架,在small mini-batches中迭代學習的基礎上,可以用于從大規模數據集中學習。通過在標準的隨機梯度優化算法中加入適量的噪聲,論文證明,當anneal the stepsize,迭代將收斂到真實后驗分布的樣本。這種優化和貝葉斯后驗抽樣之間的無縫過渡提供了一個內在的保護,防止過度擬合。此外,還提出了一種實用的后驗統計蒙特卡羅估計方法,它可以監控 “抽樣閾值”,并在超過該閾值后收集樣本。最后,將該方法應用于三種模型:高斯混合模型、邏輯回歸模型和自然梯度的ICA模型。
具體而言,本文提出了一種基于大規模數據集的貝葉斯學習方法。將隨機優化似然的Robbins-Monro型算法與Langevin動態相結合,Langevin動態在參數更新中注入噪聲,使得參數的軌跡收斂到完全后驗分布,而不僅僅是最大后驗分布。由此產生的算法開始類似于隨機優化,然后自動過渡到使用Langevin動力學模擬后驗樣本的算法。
論文接收一覽
ICML 2021大會上,香港科技大學教授、大會程序主席張潼通過一則視頻展示了今年的論文收錄情況。
數據顯示,今年接收論文投稿5513篇,其中長論文166篇,短論文1017篇。整體來看,ICML近五年來投稿數量持續走高,并于2020年首次突破5000關卡。

兩個月前,ICML組委會為了保證AC/SAC 接收標準和論文質量,宣布將接收論文砍掉10%。今年共接受論文1184篇,接收率21.4%,為近五年來最低。
今年的錄用論文涉及深度學習、算法、應用、強化學習、隱私、理論、概率方法和社會方面等8個研究方向。

其中,算法方面的論文一枝獨秀,提交的論文數量占比31%,比第二名深度學習,數量高出近一倍。排名Top3的算法、深度學習、理論三大機器學習熱門方向,占據了總接收論文的50%以上。相對冷門的隱私、概率方法、社會方面等也有20%的論文被接收。

哪個領域接受率最強?理論工作32%,強化學習27%,概率方法26%,社會角度24%,優化22%,算法19%,應用和深度學習只有18%。

一篇論文往往有好幾位合著者,似乎論文接收率有相關關系。據統計數據,如果一篇論文有著大于9位的作者,那么它將有1/3的概率被接收,如果僅有1位作者,論文接受率不到1/10;另外,8位作者和4位作者,雖然在人數上相差一倍,但是接受率僅相差2%。
在所有的提交論文中,有1446篇論文包含3位作者,大于或等于9位作者的論文數只有104篇;此外,還有205位作者單獨提交了論文,由2位作者合寫的論文數有1005篇。

經過統計,今年的ICML 2021接收的論文中,如果標題中帶有這么幾個詞,將會有較高的接收率:強化學習、噪音、規劃、Bandits、蒙特卡洛、流、隱私.......
雷鋒網雷鋒網雷鋒網
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。