当前位置：移动技术网 > IT编程>开发语言>C/C++ > 编写C语言版本的卷积神经网络CNN之三：CNN的误差反向传播过程

编写C语言版本的卷积神经网络CNN之三：CNN的误差反向传播过程

2019年05月04日 | 移动技术网IT编程 | 我要评论

店名打分,杨黎苏,四张机鸳鸯织就欲双飞

上一节我们介绍了卷积神经网络的前向传播过程，这一节我们重点介绍反向传播过程，反向传播过程反映神经网络的学习训练过程。

误差反向传播方法是神经网络学习的基础，网络上已经有许多相关的内容了，不过关于卷积网络的误差反向传递的公式推导却比较少，而且也不是很清晰，本文将会详细推导这个过程，虽然内容很复杂，但却值得学习.

首先我们需要知道的是误差反向传播的学习方法，实际是梯度下降法求最小误差的权重过程。当然我们的目的是求误差能量关于参数（权重）的导数.

梯度下降法更新权重公式如下所示：

这里w表示权重，e表示误差能量，n表示第n轮更新迭代，η表示学习参数，y表示输出，δ表示局域梯度。

而另一方面误差能量关于参数（权重）的导数同当前层输入是相关的，所以我们需要一个更好地将当前层误差传递给下一层的量，因为这个δ同当前层的输出无关，其只是反映了当前层的固定结构，所以我们可以将这个固有性质δ反向传递给下一层，其定义为：

接下来我们分层分析整个网络的反向传播过程。在本文的卷积神经网络中主要有以下四种情况：

一、输出层（单层神经网络层）

（1）误差能量定义为实际输出与理想输出的误差

这里的d是理想预期输出，y指实际输出，i指输出位，本文的网络输出为10位，所以n=10.

（2）误差能量关于参数（权重）的导数。

这一层是比较简单的

由于本文是采用sigmoid系数的激活函数，所以其导数可以求出为：

其局域梯度δ表示为：

二、后接输出层的采样层s4

后接输出层的采样层向多层感知器的隐藏神经元的反向传播是类似的。

由于这一层没有权重，所以不需要进行权重更新，但是我们也需要将误差能量传递给下一层，所以需要计算局域梯度δ，其定义如下，这里j指输出图像中的像素序号，s4层共有12*4*4=192个输出像素，所以j=1~192。

另外输出层o5的局域梯度δ也已经计算过了：

由于采样层没有激活函数，所以φ的导数为1，则最终可以得到

通过上式，我们就可以算出由输出层o5传递到s4层的局域梯度δ值。可以看出传递到采样层各输出像素j的局域梯度δ值，实际是相当于与其相连的下层输出的局域梯度δ值乘上相连权重的总和。

三、后接采样层的卷积层c1、c3

前面为了方便计算，s4层和o5层的输出都被展开成了一维，所以像素都是以i和j作为标号的，到了c3层往前，我们以像素的坐标m(x，y)来标号，m(x，y)表示第m张输出模板的(x,y)位置的像素。局域梯度δ值定义为：

传递到该像素的误差能量等于所有与其相连的像素误差能量和，这里的i指的m(x,y)采样邻域θ内的所有像素

因为本文采用的是平均pooling方法，s4的输出就是该像素邻域内的所有像素的平均值，这里的s指邻域θ内的所有像素的总数，本文采用的是2*2的采样块，所以s=4。

（1）因此由s4传递到c3层的局域梯度δ值为：

接下来我们依据局域梯度δ值，来计算c3层的权重更新值。

（2）c3层的权重更新值。

c3层共有6*12个5*5的模板，我们首先定义n=1~6,m=1~12表示模板的标号，s,t表示模板中参数的位置

（3）c1层的权重更新公式和局域梯度δ值

同理，我们也可以得到c1层的权重更新公式，这里的m=6,n=1，而y是指输入图像

四、后接卷积层的采样层s2

这里的n为当前s2层的输出图像序号（n=1~6），n为当前c3层的输出图像序号（m=1~12）。

因此第n块图像的局域梯度δ值为

五、误差反向传播过程的代码展示

void cnnbp(cnn* cnn,float* outputdata) // 网络的后向传播
{
    int i,j,c,r; // 将误差保存到网络中
    for(i=0;io5->outputnum;i++)
        cnn->e[i]=cnn->o5->y[i]-outputdata[i];

    /*从后向前反向计算*/
    // 输出层o5
    for(i=0;io5->outputnum;i++)
        cnn->o5->d[i]=cnn->e[i]*sigma_derivation(cnn->o5->y[i]);

    // s4层，传递到s4层的误差
    // 这里没有激活函数
    nsize outsize={cnn->s4->inputwidth/cnn->s4->mapsize,cnn->s4->inputheight/cnn->s4->mapsize};
    for(i=0;is4->outchannels;i++)
        for(r=0;ro5->outputnum;j++){
                    int wint=i*outsize.c*outsize.r+r*outsize.c+c;
                    cnn->s4->d[i][r][c]=cnn->s4->d[i][r][c]+cnn->o5->d[j]*cnn->o5->wdata[j][wint];
                }

    // c3层
    // 由s4层传递的各反向误差,这里只是在s4的梯度上扩充一倍
    int mapdata=cnn->s4->mapsize;
    nsize s4dsize={cnn->s4->inputwidth/cnn->s4->mapsize,cnn->s4->inputheight/cnn->s4->mapsize};
    // 这里的pooling是求平均，所以反向传递到下一神经元的误差梯度没有变化
    for(i=0;ic3->outchannels;i++){
        float** c3e=upsample(cnn->s4->d[i],s4dsize,cnn->s4->mapsize,cnn->s4->mapsize);
        for(r=0;rs4->inputheight;r++)
            for(c=0;cs4->inputwidth;c++)
                cnn->c3->d[i][r][c]=c3e[r][c]*sigma_derivation(cnn->c3->y[i][r][c])/(float)(cnn->s4->mapsize*cnn->s4->mapsize);
        for(r=0;rs4->inputheight;r++)
            free(c3e[r]);
        free(c3e);
    }

    // s2层，s2层没有激活函数，这里只有卷积层有激活函数部分
    // 由卷积层传递给采样层的误差梯度，这里卷积层共有6*12个卷积模板
    outsize.c=cnn->c3->inputwidth;
    outsize.r=cnn->c3->inputheight;
    nsize insize={cnn->s4->inputwidth,cnn->s4->inputheight};
    nsize mapsize={cnn->c3->mapsize,cnn->c3->mapsize};
    for(i=0;is2->outchannels;i++){
        for(j=0;jc3->outchannels;j++){
            float** corr=correlation(cnn->c3->mapdata[i][j],mapsize,cnn->c3->d[j],insize,full);
            addmat(cnn->s2->d[i],cnn->s2->d[i],outsize,corr,outsize);
            for(r=0;rc3->inputheight;r++)
            for(c=0;cc3->inputwidth;c++)
                // 这里本来用于采样的激活
        */
    }

    // c1层，卷积层
    mapdata=cnn->s2->mapsize;
    nsize s2dsize={cnn->s2->inputwidth/cnn->s2->mapsize,cnn->s2->inputheight/cnn->s2->mapsize};
    // 这里的pooling是求平均，所以反向传递到下一神经元的误差梯度没有变化
    for(i=0;ic1->outchannels;i++){
        float** c1e=upsample(cnn->s2->d[i],s2dsize,cnn->s2->mapsize,cnn->s2->mapsize);
        for(r=0;rs2->inputheight;r++)
            for(c=0;cs2->inputwidth;c++)
                cnn->c1->d[i][r][c]=c1e[r][c]*sigma_derivation(cnn->c1->y[i][r][c])/(float)(cnn->s2->mapsize*cnn->s2->mapsize);
        for(r=0;rs2->inputheight;r++)
            free(c1e[r]);
        free(c1e);
    }    
}

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

C++ 作用域

作用域：名称在翻译单元（包括文件）的可见范围局部：只在定义它的代码块中可用，如自动变量全局（文件作用域）：从定义位置到文件结尾都可用注意：静... [阅读全文]
Prim计算最小生成树权值 C语言

题目描述现在，你被委托在一个广阔区域里面为某些确定的结点设计连接网络。首先，你会给定在区域里面的一系列结点，和连接这些结点的一组线路。对于每条可能使用... [阅读全文]
C打印楼梯，同时在楼梯上方打印两个笑脸

题目：打印楼梯，同时在楼梯上方打印两个笑脸。程序分析：用 ASCII 1 来输出笑脸；用i控制行，j来控制列，j根据i的变化来控制输出黑方格的个数。 ... [阅读全文]
算法笔记刷题6 ( PAT 1003我要通过 )

算法笔记刷题6 ( PAT1003我要通过 ) 题目本体 “ 答案正确 ”是自动判题系统给出的最令人欢喜的回复。本题属于 PAT 的“ 答案正确 ”大派... [阅读全文]
聚合类型与POD类型

Lippman在《深度探索C++对象模型》的前言中写道： I have heard a number of people over the years ... [阅读全文]
GetAsyncKeyState 获取键盘按键消息

1 #include <Windows.h> 2 #include <iostream> 3 using namespace s... [阅读全文]
c primer plus(中文版)第一章的一处错误

c primer plus(中文版)1.8.8 第三段第三段第一句：“UNIX系统内置Mac OS X”。这句话讲不通，UNIX系统内置MAC OS ... [阅读全文]
如何在没有core文件的情况下用dmesg+addr2line定位段错误

前言在现网环境下，程序奔溃后不一定会留下core文件，原因有很多，比如存储空间不足就是其中一个常见的原因。此时我们只能依据linux记录的错误日志来定位... [阅读全文]
用QT制作3D点云显示器——QtDataVisualization

因为QT的三维显示模块QtDataVisualization已经对个人开发免费开放了，所以在制作点云，地图，表格之类的东西的时候，其实我们都不需要使用Q... [阅读全文]
判断一个数是否为素数（质数）

质数是指在大于1的自然数中，除了1和它本身以外不再有其他因数的自然数。 ... [阅读全文]

网友评论


验证码：

编写C语言版本的卷积神经网络CNN之三：CNN的误差反向传播过程

2019年05月04日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论