ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名

本文作者：知情人士

2021-07-20 10:02

專題：ICML 2019

導語：本次會議共收到5513篇論文投稿，接收1184篇論文，其中包含1018篇短論文和166篇長論文，接收率為21.48%，近五年最低。

ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名

作者 | 維克多、琰琰

編輯 | 青暮

原定于在奧地利維也納召開的ICML 2021，受疫情影響已于近日在線上召開。根據官方消息，會議將在7月18日~7月24日內完成所有的日程。

本次會議共收到5513篇論文投稿，接收1184篇論文，其中包含1018篇短論文和166篇長論文，接收率為21.48%，近五年最低。

在接收的一千多篇論文中，組委會最終挑出了四篇論文，分別頒發了一個杰出論文獎，三個杰出論文提名獎。

ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名

杰出論文獎由康奈爾大學博士生Yucheng Lu獲得，他本科畢業于上海交通大學，研究領域是分布式優化和機器學習系統。獲獎論文標題為“Optimal Complexity in Decentralized Training”，探究了去中心化訓練的極限以及如何達到這種極限。

ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名

如上三篇文章獲得了杰出論文榮譽提名獎，其中論文"Understanding Self-Supervised Learning Dynamics without Contrastive Pairs"由Facebook科學家田淵棟擔任一作，其提出了一種新方法DirectPred，它根據輸入的統計數據直接設置線性預測器，而無需梯度訓練。

ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名

據田淵棟學者在知乎發表的想法，我們可以得知，這篇論文原來獲得過一個Weak Accept，經過他與評審rebuttal，將其改為了Accept，這在某種程度上說明了好的rebuttal的重要性，也說明只要你有“理”，就別怕！

ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名

此外，發表在ICML 2011的論文“Bayesian Learning via Stochastic Gradient Langevin Dynamics”獲得了時間檢驗獎，作者是來自加利福尼亞大學的Max Welling（現在是高通荷蘭公司技術副總裁）和倫敦大學學院的Yee Whye Teh（中文名字鄭宇懷，現在是牛津大學教授）。

值得一提的是，鄭宇懷 1997年于加拿大滑鐵盧大學獲得計算機科學與數學學士學位，之后在多倫多大學師從Geoffery Hinton，并于2003年獲得計算機博士學位。他還是Hinton那篇劃時代論文《A fast learning algorithm for deep belief nets》的署名作者之一。

獲獎論文一覽

杰出論文獎：去中心化訓練的極限在哪里？

ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名

論文標題："Optimal Complexity in Decentralized Training"

作者：Yucheng Lu, Christopher De Sa

機構：康奈爾大學

論文地址：http://proceedings.mlr.press/v139/lu21a.html

去中心化（Decentralization）是擴展并行機器學習系統的一種有效方法。本文提供了該方法在隨機非凸環境下進行復雜迭代的下界。我們的下界表明，許多現有的分散訓練算法（如D-PSGD）在已知收斂速度方面存在理論差距。通過構造并證明這個下界是合理的和可實現的，我們進一步提出了DeTAG，這是一種實用的gossip風格的去中心化算法，只需要一個對數間隔就可以達到下界。本文將DeTAG算法與其他分散算法在圖像分類任務上進行了比較，結果表明，DeTAG算法比基線算法具有更快的收斂速度，特別是在非緩沖數據和稀疏網絡中。

榮譽提名獎之一：離散分布的可伸縮抽樣

ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名

論文標題："Oops I Took A Gradient: Scalable Sampling for Discrete Distributions"

作者：Will Grathwohl, Kevin Swersky, Milad Hashemi, David Duvenaud, Chris Maddison

機構：多倫多大學，谷歌大腦

論文地址：http://proceedings.mlr.press/v139/grathwohl21a.html

本文針對離散概率模型，提出了一種通用的、可擴展的近似抽樣策略。該方法利用似然函數對離散輸入的梯度來更新Metropolis-Hastings采樣。實驗表明，這種方法在高難度設置中，要優于一般的采樣器，例如伊辛模型，波特模型，受限玻爾茲曼機，隱馬爾可夫模型。本文還展示了改進的采樣器，用于訓練基于高維離散圖像數據的深層能量模型。這種方法優于變分自動編碼器和現有的基于能量的模型。此外，本文提供的邊界，表明該方法在更新局部的采樣器類中是接近最優的。

榮譽提名獎之二：為什么非對比自監督學習效果好？

ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名

論文題目："Understanding self-supervised learning dynamics without contrastive pairs"

作者：Yuandong Tian、Xinlei Chen、Surya Ganguli

機構：FAIR，斯坦福大學

論文地址：http://proceedings.mlr.press/v139/tian21a.html

一般而言，對比自監督學習（SSL）通過最小化同一數據點（正對）的兩個增強視圖之間的距離和最大化不同數據點（負對）的視圖來學習表征，而最近的非對比SSL（如BYOL和SimSiam）的研究表明，在沒有負配對的情況下，使用額外的可學習預測器（learnable predictor）和停止梯度操作（stop-gradient operation），可以使模型性能更佳。一個基本的問題出現了：為什么這些方法沒有引發崩潰的平凡的表征？

本文通過一個簡單的理論研究回答了該問題，并提出了新的方法DirectPred，它不需要梯度訓練，直接根據輸入的統計信息來設置線性預測。在ImageNet上，它與更復雜的BatchNorm（兩個線性層）預測器性能相當，在300個epoch的訓練中比線性預測器高2.5%（在60個epoch中高5%）。DirectPred方法，來源于我們對簡單線性網絡中非對比SSL的非線性學習動力學的理論研究。這項研究提供了非對比SSL方法如何學習的概念性見解，如何避免表征崩潰，以及預測網絡、停止梯度、指數移動平均數和權重衰減等因素如何發揮作用。此外，本文還提供了該方法在STL-10和ImageNet上的消融研究結果。

榮譽提名獎之三：倒向隨機微分方程結合張量格式的回歸型方法

ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名

論文標題："Solving high-dimensional parabolic PDEs using the tensor train format"

作者：Lorenz Richter 、Leon Sallandt、Nikolas Nüsken

機構：德國柏林自由大學，德國波茨坦大學等

論文地址：http://proceedings.mlr.press/v139/richter21a.html

高維偏微分方程的應用在經濟、科學和工程等研究中普遍存在。然而，由于傳統的基于網格的方法易受到維數災難的影響，該方程在數值處理上面臨著巨大的挑戰。在本文中，我們認為，張量訓練為拋物型偏微分方程提供了一個更合理的近似框架：將倒向隨機微分方程和張量格式的回歸型方法相結合，有望利用潛在的低秩結構，實現壓縮和高效計算。

遵循這一范式，我們開發了新的迭代方案，包括顯式和快速（或隱式和準確）的更新。實驗證明，與最先進的基于神經網絡的方法相比，我們的方法在精確度和計算效率之間取得了一個良好的折中。

時間檢驗獎：隨機梯度朗格文動力學

ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名

論文標題："Bayesian Learning via Stochastic Gradient Langevin Dynamics"

作者：Max Welling、鄭宇懷

機構（原）：加利福尼亞大學、倫敦大學學院

論文地址：https://www.cse.iitk.ac.in/users/piyush/courses/tpmi_winter21/readings/sgld.pdf

本文中提出了一個新的框架，在small mini-batches中迭代學習的基礎上，可以用于從大規模數據集中學習。通過在標準的隨機梯度優化算法中加入適量的噪聲，論文證明，當anneal the stepsize，迭代將收斂到真實后驗分布的樣本。這種優化和貝葉斯后驗抽樣之間的無縫過渡提供了一個內在的保護，防止過度擬合。此外，還提出了一種實用的后驗統計蒙特卡羅估計方法，它可以監控 “抽樣閾值”，并在超過該閾值后收集樣本。最后，將該方法應用于三種模型：高斯混合模型、邏輯回歸模型和自然梯度的ICA模型。

具體而言，本文提出了一種基于大規模數據集的貝葉斯學習方法。將隨機優化似然的Robbins-Monro型算法與Langevin動態相結合，Langevin動態在參數更新中注入噪聲，使得參數的軌跡收斂到完全后驗分布，而不僅僅是最大后驗分布。由此產生的算法開始類似于隨機優化，然后自動過渡到使用Langevin動力學模擬后驗樣本的算法。

論文接收一覽

ICML 2021大會上，香港科技大學教授、大會程序主席張潼通過一則視頻展示了今年的論文收錄情況。

數據顯示，今年接收論文投稿5513篇，其中長論文166篇，短論文1017篇。整體來看，ICML近五年來投稿數量持續走高，并于2020年首次突破5000關卡。

ICML 2021杰出論文公布！上交大校友折桂，田淵棟rebuttal加分論文獲榮譽提名