面白い論文を読んだので、久しぶりにちょっとブログを書いてみる。Chainer が残念ながら開発中止となり最近 PyTorch に移行したので、その練習を兼ねて実装もしてみた。
ニューラルネットを学習する時、ハイパーパラメータも同時に最適化したい… という場合がよくある。しかし、ただでさえ多いパラメータにハイパーパラメータも最適化するとなると途方に暮れることが多い。この論文は、ちょっとウィットな手法で効率的に最適化できるよというもの。
“Optimizing Millions of Hyperparameters by Implicit Differentiation” (Lorraine et al. 2019)
https://arxiv.org/abs/1911.02590