勾配降下法について調べてまとめてみた

こんにちは。

今までなんとなくなーなーで勉強していたGradient Descentですが、ちゃんと調べて見ました。

OverViewの論文があって(元はブログの投稿なので、これはそうというのかわからないけど)、今回それを読みつついろんな資料を漁る方式で勉強しました。

最近自分で話そうと思ってまとめるといい感じで頭に入ることを学習したので、しっかり読もうと決めたものは資料にしています。笑

An overview of gradient descent optimization algorithms from Hakky St

めんどくさかったら、とりあえずAdam使っとけってことですね笑。ただ、Adamだと汎化性能がSGDに比べて落ちるという研究もあるので、各種ハイパーパラメーターをAdamで探索後、最終的なTuningのフェーズになったら、SGDを使うのがいいかな、と考えています。

上記の論文とスライドを読むときに参考になったのが以下の資料です。

[http://cs229.stanford.edu/proj2015/054_report.pdf:title=Dozat, Timothy. Incorporating Nesterov momentum into Adam. Stanford University, Tech. Rep., 2015.[Online]. Available: http://cs229. stanford. edu/proj2015/054 report. pdf, 2015.]

それでは。

St_Hakky’s blog