優化器(optimizer)
目標: 最小化損失函數
過程: 在反向傳播中, 根據學習率(lr)來對參數進行更新,最終逐步降低損失函數的大小, 使得神經網絡輸出更好(函數擬合的更好)
優點:
1. 前后梯度一致時能夠加速學習
2. 前后梯度不一致時能夠抑制震蕩, 越過局部最小值
缺點:
1. 引入一個額外的參數 y
思想: 結合Momentum和RMSprop兩種優化器的算法, 并引入一階矩估計和二階矩估計。
優點:
1. Adam能夠自動調整每個參數的學習率, 能夠很好地處理噪聲和非平穩的訓練數據
2. 相較于其他可變學習率(AdaGrad)的優化器, 提高了訓練速度
總結:
如果在未知模型上進行訓練, 可以先考慮使用Adam確保損失函數能夠找到最小值, 即模型擬合的函數能夠收斂,然后切換回SGD進行訓練, 快速達到對應的值。