截止目前累计成功为5,000,000 用户成功查重检测

CNCNKI学术不端文献查重检测系统 多语种 图文 高校 期刊 职称 查重 抄袭检测系统

基于SVM和BP神经网络的手写数字识别

时间:2016-07-30 12:02:00 编辑:知网 阅读:

科技发展日新月异,智能识别推陈出新。如今是信息化时期,数字识别在很多智能领域上运用广泛,拥有普遍的使用远景,因此探索这项技术有其重要的实际意义。由于手写数字在写法上千差万别,且数字间字形差别相对较小,使得识别系统的开发具有很大的挑战性。

当前手写数字识别采用的技术有Bayes判别法、决策树法、神经网络和支持向量机(Support Vector Machines,SVM)等。诞生于20世纪90年代的SVM技术是机器学习研究的热点,因其良好的泛化性能成为了数字识别领域的热门方法。

本开发系统借助MATLAB平台实现完成SVM的手写数字识别功能,同时与BP神经网络的识别作对比,并利用了MNIST数据库作扩展与分析。对识别的结果进行探究,得出使识别精准度出现误差的主要因素有手写体数字的规范程度、笔画字迹粗细和清晰,以及训练样本的数量等。

知网论文查重

5.3.4结果分析

MNIST数据库样本量超大,运行时间很长,本设计设计的SVM算法适用于理论方法的验证,只能针对少量的数据进行运行,因此只筛选部分的图片进行识别。

相比数据组I,数据组II在图片的选择上,偏向于选择数字笔迹较整齐和清晰的图片,且训练样本大,因此识别效率更高,达到了97%。而数据组I的识别率达到了83.75%,这样的识别效果是可以接受的,再增加训练样本的数量可以有效提高识别效率。

美国贝尔实验室曾采取不同方法对MNIST做过检测工作,其辨认的情况为:

表5-1 MNIST数据库在分类器的实验结果

 

5.4 实验结果分析

表5-2 实验样本选择及识别结果

样本情况 识别率 错误数 SVM 样本I 训练:50张 28/30 = 93.33% 2 测试:30张 样本II 训练:100张 30/30 = 100% 0 测试:30张 MNIST 样本I 训练:80张 67/80 = 83.75% 13 测试:80张 样本II 训练:100张 97/100 = 97% 3 测试:100张

 

根据实验结果可知,训练样本的数量影响着识别的结果。在MNIST图片的选择上,由于人为的在样本I和样本II的选择上做了处理,数据组II在图片的选择上,偏向于选择数字笔迹较整齐和端正,且训练样本大,因此识别效率更高。数据组I受数字笔迹的和样本量的影响,出错量相对大些。

综上,影响手写数字识别准确度的主要因素有手写体数字的规程程度、笔画的粗细和训练样本的数量[11]

相比较,BP神经网络需要进行网络学习和训练,且只能单一进行测试,比SVM的整体的识别,操作难且缺陷明显,支持向量机法更加简单、可操作性强、稳定性好。下的手写数字,即使只有小部分的样本数据也能拥有较好的辨认效果。

结  论

本设计是基于SVM良好的泛化性能和BPNN较强的学习性能,借助MATLAB开发平台,实现对手写数字的识别。针对大量千差万别的手写数字图像和识别的准确率,本文所做的设计工作如下:

(1)预处理阶段:针对图片中数字大小和位置不尽相同的问题,进行图像的检测和裁剪,再进行二值化反色处理转变为黑底白字的图像。

(2)训练阶段:借助BRF核函数和GA算法作查找最符合特征的参数处理,获得识别测试样本的基础。

(3)测试阶段:对图像作二值化反色初步处理,辨认并统计数字图片的辨认准确率和出错的数字。

(4)构建BPNN,作数字图片的训练和识别辨认处理,并同SVM的辨认结果作比对。

(5) 利用MNIST数据库进行扩展,充分验证影响手写数字识别效果的因素。

究其特点与运用,对该识别的研究范畴具有广泛的理论支撑和使用价值:

(1)作为全世界通用的符号,各国的研究人员可以基于同一平台研究,进行比较和探讨,并推广到其他领域上。

(2)在各种各样的数字文档工作,如银行支票处理、邮编识别、电话号码、物流编号等,手写数字的自动识别能大大降低对人力物力的依赖和削减工作强度,有效地提升办公效率。

由于本人能力有限,对SVM和BPNN等的学习较浅,本次设计只是做了基础的工作,相比真正的用到应用上,还很很多待改进的地方,不足之处有:

(1)训练及识别样本都是选择清晰规范,比较容易识别的手写数字;

(2)图片张数有限,缺乏大量训练数据的充分训练,使得图片的认识率存在着一定的误差;

(3)相比于SVM的整体识别,BPNN设计的缺陷明显,只能单一作测试,每次只能对一张图片进行测试,没办法知道整体作预测的图片认识能力及出错的情况。

返回