神经网络理论基础及Python实现

您的位置：
门户
>> 文章精选
>> 软件开发专栏
>> 大数据
>> 查看资讯

发表于：2017-3-15 10:05

作者：温梦月来源：51Testing软件测试网采编

软件开发

Python

大数据

　　神经网络既解决分类(classification)问题，也可以解决回归(regression)问题。对于分类问题，如果是两类，则可以用一个输出单元(0和1)分别表示两类;如果多余两类，则每一个类别用一个输出单元表示，所以输出层的单元数量通常等一类别的数量。

　　一、多层前向神经网络

　　多层前向神经网络由三部分组成：输出层、隐藏层、输出层，每层由单元组成;

　　输入层由训练集的实例特征向量传入，经过连接结点的权重传入下一层，前一层的输出是下一层的输入;隐藏层的个数是任意的，输入层只有一层，输出层也只有一层;

　　除去输入层之外，隐藏层和输出层的层数和为n，则该神经网络称为n层神经网络，如下图为2层的神经网络;

　　一层中加权求和，根据非线性方程进行转化输出;理论上，如果有足够多的隐藏层和足够大的训练集，可以模拟出任何方程

　　二、设计神经网络结构

　　使用神经网络之前，必须要确定神经网络的层数，以及每层单元的个数;

　　为了加速学习过程，特征向量在传入输入层前，通常需要标准化到0和1之间;

　　离散型变量可以被编码成每一个输入单元对应一个特征值可能赋的值

　　比如：特征值A可能去三个值(a0,a1,a2)，那么可以使用3个输入单元来代表A

　　如果A=a0，则代表a0的单元值取1，其余取0;

　　如果A=a1，则代表a1的单元值取1，其余取0;

　　如果A=a2，则代表a2的单元值取1，其余取0;

　　没有明确的规则来设计最佳个数的隐藏层，一般根据实验测试误差和准确率来改进实验。

　　三、交叉验证方法

　　如何计算准确率?最简单的方法是通过一组训练集和测试集，训练集通过训练得到模型，将测试集输入模型得到测试结果，将测试结果和测试集的真实标签进行比较，得到准确率。

　　在机器学习领域一个常用的方法是交叉验证方法。一组数据不分成2份，可能分为10份，

　　第1次：第1份作为测试集，剩余9份作为训练集;

　　第2次：第2份作为测试集，剩余9份作为训练集;

　　……

　　这样经过10次训练，得到10组准确率，将这10组数据求平均值得到平均准确率的结果。这里10是特例。一般意义上将数据分为k份，称该算法为K-fold cross validation，即每一次选择k份中的一份作为测试集，剩余k-1份作为训练集，重复k次，最终得到平均准确率，是一种比较科学准确的方法。