NISHIO Hirokazu[日本語][English]

鈴木大慈-深層学習の数理

image

hillbig 鈴木 大慈先生による深層学習の理論解析、特に表現能力、汎化能力、最適化理論について。重要なトピックを幅広くカバーしており、最新のNeural Tangent Kernel二重効果なども解説されている。英語でもこれほど充実しているのは無いと思う。

元のSlideshareにアクセスするとエラーになる、X/Twitter上なら見れる、キャッシュ? imageimage Kolmogorovの加法定理 万能近似 Ridgelet変換 表現力と層の数

image わかりやすい具体例として原点からの距離によって値が決まる関数の場合に、4層なら次元数に対して多項式オーダー(ぶっちゃけ線形だと思う)

カーネル法とリッジ回帰 再生核ヒルベルト空間 再生核ヒルベルト空間の考え方でカーネルリッジ回帰を再記述してるけどそこは飛ばす データに合わせてカーネル関数自体も学習するのが深層学習と解釈できる image ... image 二重降下

陰的正則化

汎化誤差バウンド

  • ここは飛ばす

関数クラスごとの近似性能

区分的滑らかな関数 image mixed-smoothness

image image

image

  • カーネルリッジ回帰
  • 適応的手法
    • 深層学習
    • スパース推定
      • あらかじめ用意するものがたくさんになりすぎると現実的に無理ってなるんだな

べゾフ空間 image

image image 過去の議論に出てきたさまざまな関数クラスはベゾフ空間の特殊なケースである

image image imageスパース性 image

深層NNはBesov空間の元を近似できる

Cardinal B-splineはReLU-NNでよく近似できる

image image

空間的滑らかさが非均一であるとき深層学習が優越 Mixed-smooth Besov空間

非確率的勾配法は鞍点から出るのに指数時間かかる

image Neural Tangent Kernel Mean Field image Watterstein距離


(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]