selecao3のブログ

技術系の備忘録

誤差逆伝播法についてメモ

何これ

誤差逆伝播法について、なぜ誤差の関数を微分するのかが分からなかったのでメモ

なぜ誤差の関数を微分するのか

ざっくり言うと誤差(損失関数)を変化量から重みを修正するために微分をしている
例えば損失関数が下に凸の二次関数の時、その二次関数から誤差が最小となるパラメータが分かる。
で、どうするねんと言う話だが、そこで微分を使う。その二次関数を微分することでその二次関数の接線の傾き(勾配)が分かる。
すると、その二次関数の最小値から左側では勾配が負になり、その右側では正になる。それらの傾きがゼロになるようなパラメータに修正すれば誤差はゼロとなる。
ちなみに前の記事で勾配が消失するとか爆発するとか言っていた勾配と言うのは微分時の傾きのこと。勾配が異常な値を出すと重みが修正できない=正確に学習ができない