『ゼロから作るDeep Learning』のバッチ版Affineレイヤの話(pp.150-152)
p.151 の中腹に
逆伝播の際には、それぞれのデータの逆伝播の値がバイアスの要素に集約される必要があります。
と書いてありますが,本文にはその理由が書かれていなかったので一応数式によって確かめてみます.
を縦にデータの個数Nだけ重ねた行列をとします.すなわち,
このとき,バッチ版の,について次が成り立ちます.
これを成分表示して両辺をで微分することによって次式を得ます.
よって,
以上より,
となり,たしかにを求めるためにはを0番目の軸に沿って足し合わせれば良いことがわかりました.