hillbig 鈴木 大慈先生による深層学習の理論解析、特に表現能力、汎化能力、最適化理論について。重要なトピックを幅広くカバーしており、最新のNeural Tangent Kernelや二重効果なども解説されている。英語でもこれほど充実しているのは無いと思う。
元のSlideshareにアクセスするとエラーになる、X/Twitter上なら見れる、キャッシュ?
Kolmogorovの加法定理
万能近似
Ridgelet変換
表現力と層の数
わかりやすい具体例として原点からの距離によって値が決まる関数の場合に、4層なら次元数に対して多項式オーダー(ぶっちゃけ線形だと思う)
カーネル法とリッジ回帰
再生核ヒルベルト空間
再生核ヒルベルト空間の考え方でカーネルリッジ回帰を再記述してるけどそこは飛ばす
データに合わせてカーネル関数自体も学習するのが深層学習と解釈できる
...
二重降下
関数クラスごとの近似性能
過去の議論に出てきたさまざまな関数クラスはベゾフ空間の特殊なケースである
Cardinal B-splineはReLU-NNでよく近似できる
空間的滑らかさが非均一であるとき深層学習が優越 Mixed-smooth Besov空間
Neural Tangent Kernel
Mean Field
Watterstein距離