如何理解深度學習分布式訓練中的large batch size與learning rate的關系？

本文作者：汪思穎

2017-10-24 18:28

導語：主要分為三個方面來介紹：1、理解SGD、minibatch-SGD和GD；2、large batch與learning rate的調試關系；3、實驗

雷鋒網 AI科技評論按，本文源自譚旭在知乎問題【如何理解深度學習分布式訓練中的large batch size與learning rate的關系？】下的回答，雷鋒網 AI科技評論獲其授權轉載。

問題詳情：

在深度學習進行分布式訓練時，常常采用同步數據并行的方式，也就是采用大的batch size進行訓練，但large batch一般較于小的baseline的batch size性能更差，請問如何理解調試learning rate能使large batch達到small batch同樣的收斂精度和速度？

回答：

最近在進行多GPU分布式訓練時，也遇到了large batch與learning rate的理解調試問題，相比baseline的batch size，多機同步并行（之前有答案是介紹同步并行的通信框架NCCL（譚旭：如何理解Nvidia英偉達的Multi-GPU多卡通信框架NCCL？），有興趣可以查看）等價于增大batch size，如果不進行精細的設計，large batch往往收斂效果會差于baseline的小batch size。因此將自己的理解以及實驗總結如下，主要分為三個方面來介紹：（1）理解SGD、minibatch-SGD和GD，（2）large batch與learning rate的調試關系，（3）我們的實驗。

（1）理解SGD、minibatch-SGD和GD

在機器學習優化算法中，GD（gradient descent）是最常用的方法之一，簡單來說就是在整個訓練集中計算當前的梯度，選定一個步長進行更新。GD的優點是，基于整個數據集得到的梯度，梯度估計相對較準，更新過程更準確。但也有幾個缺點，一個是當訓練集較大時，GD的梯度計算較為耗時，二是現代深度學習網絡的loss function往往是非凸的，基于凸優化理論的優化算法只能收斂到local minima，因此使用GD訓練深度神經網絡，最終收斂點很容易落在初始點附近的一個local minima，不太容易達到較好的收斂性能。

另一個極端是SGD（stochastic gradient descent），每次計算梯度只用一個樣本，這樣做的好處是計算快，而且很適合online-learning數據流式到達的場景，但缺點是單個sample產生的梯度估計往往很不準，所以得采用很小的learning rate，而且由于現代的計算框架CPU/GPU的多線程工作，單個sample往往很難占滿CPU/GPU的使用率，導致計算資源浪費。

折中的方案就是mini-batch，一次采用batch size的sample來估計梯度，這樣梯度估計相對于SGD更準，同時batch size能占滿CPU/GPU的計算資源，又不像GD那樣計算整個訓練集。同時也由于mini batch能有適當的梯度噪聲[8]，一定程度上緩解GD直接掉進了初始點附近的local minima導致收斂不好的缺點，所以mini-batch的方法也最為常用。