NISHIO Hirokazu[日本語][English]

鈴木大慈-深層学習の数理

hillbig 鈴木大慈先生による深層学習の理論解析、特に表現能力、汎化能力、最適化理論について。重要なトピックを幅広くカバーしており、最新のNeural Tangent Kernelや二重効果なども解説されている。英語でもこれほど充実しているのは無いと思う。

岡野原大輔

元のSlideshareにアクセスするとエラーになる、X/Twitter上なら見れる、キャッシュ？ Kolmogorovの加法定理万能近似 Ridgelet変換表現力と層の数

わかりやすい具体例として原点からの距離によって値が決まる関数の場合に、4層なら次元数に対して多項式オーダー(ぶっちゃけ線形だと思う)

カーネル法とリッジ回帰再生核ヒルベルト空間再生核ヒルベルト空間の考え方でカーネルリッジ回帰を再記述してるけどそこは飛ばすデータに合わせてカーネル関数自体も学習するのが深層学習と解釈できる ... 二重降下

陰的正則化

汎化誤差バウンド

ここは飛ばす

関数クラスごとの近似性能

区分的滑らかな関数 mixed-smoothness

カーネルリッジ回帰
適応的手法
- 深層学習
- スパース推定
  - あらかじめ用意するものがたくさんになりすぎると現実的に無理ってなるんだな

べゾフ空間

過去の議論に出てきたさまざまな関数クラスはベゾフ空間の特殊なケースである

→スパース性

深層NNはBesov空間の元を近似できる

Cardinal B-splineはReLU-NNでよく近似できる

空間的滑らかさが非均一であるとき深層学習が優越 Mixed-smooth Besov空間

非確率的勾配法は鞍点から出るのに指数時間かかる

Neural Tangent Kernel Mean Field Watterstein距離

(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]