なぜSGDの学習率を下げると精度が大幅に向上するのでしょうか?

this のような論文では、このような形のトレーニングカーブがよく見られます。

enter image description here

この場合、SGDは0.9の係数で使用され、学習率は30エポックごとに10倍減少しました。

  • 学習率が変更されたときに、そのような大きな減少があったのはなぜですか?
  • 訓練エラーが減少し続けているのに対し、最初のドロップ後に検証エラーが増加し始めているのはなぜですか?
  • 2回目以降の学習率の変化を近づけて同じ結果を得ることはできますか?つまり、なぜさらに遅れるのが遅れますか?
7
@ NeilSlaterありがとう、単語が一致するように固定グラフ。
追加された 著者 geometrikal,

2 答え

より高い学習率で、あなたはソリューションに向かってより大きな一歩を踏み出します。しかし、近くにいるときには、ソリューションを飛び越えて次のステップに進み、もう一度ジャンプして、ソリューションの周りに振動を引き起こします。 さて、学習率を正しく下げると、振動を止めて、もう一度ソリューションに向かって続けます。つまり、再び振動が始まるまでです。 より大きな学習率は、より小さいローカルミニマムを飛び越えて、より優れたミニマムを見つけるのに役立つことを覚えておいてください。 また、一般的に訓練エラーが改善され、訓練データのオーバーフィットを開始すると検証エラーが悪化します。

4
追加された

学習率が小さいほどオプティマイザは鞍点を逃れることができます。これはオーバーシュートではなく、各崖で起こることです。検証エラーは、第2の鞍点に近づいて振動した。このノイズは、統計的有意性を伴って増加すると述べるのは難しいが、もしそうであれば、過剰適合の可能性がある。私は鞍点間の分離に関する結果は知らないので、遅延は恣意的である可能性があります。ある時点で、あなたはもちろん、底に達する。

2
追加された
いいえ、小さく。同じ主題。一つの極小を他の極小につなぐ多様体が狭い穴を通っていると想像してください。あなたが大きなステップを踏むと、あなたはそれを通過することはありません。
追加された 著者 David,
申し訳ありませんが、より大きな学習が鞍点をエスケープできることを意味しますか?これはまた、他の答えの@Carlが語っていることです?
追加された 著者 David K.,