from 鈴木大慈-深層学習の数理 非確率的勾配法は鞍点から出るのに指数時間かかる SGDを使ったのはこの目的ではなく計算機の性能上の都合だったわけだが、結果として予期せず「いいやり方」を選んでたと後からわかったわけだ