>前回の最後で、L1正則化はパラメーターの非ゼロ要素を減らす効果が強いが、wi = 0の位置で微分不可能なのでSGDではそもそも計算できない、という話を書きました。……でも、よく考えてみると、微分の値として-1から1の間で適当な値を取ってもいいんじゃないかな…と思いませんか? その疑問に答えてくれるのが劣微分です。
>L2正則化の場合、wiの値が0に近づけばペナルティはほぼ0になりますが、L1正則化の場合、ペナルティが0になるのは値が完全に0であるときのみです。そのため、L1の方がパラメータベクトルの非0の要素を減らす力が強く働きます。こう書くとL1正則化の方が良さそうですが、0のところで微分が不可能なため、一般的な数値最適化の手法を使うのが難しくなります。それで、L1正則化を実現するためのさまざまな研究が生まれました。