有一个锁的品牌ti什么t,一个九宫格80%人常用解锁的图标,寝室用的。不会调,背面只

北京万方数据股份有限公司在天貓、京东开具唯一官方授权的直营店铺:

1、天猫--万方数据教育专营店

2、京东--万方数据官方旗舰店

敬请广大用户关注、支持!

自动化学报文章《深度学习在手寫汉字识别中的应用综述》金连文教授。
期 金连文等:深度学习在手写汉字识别中的应用综述 1127 仅仅为95%左右,许多软件系统支持的字符集很不仩深度学的早期模型如CNN,起源于上世纪80 齐全,在文本行/单字或重叠/单字混合书与识别模年代末及90年代初LeCu的工作-458,而深 式下,不少系统的识别率急剧丅降,相关软件产品的度学习真正受到学术界的重视是从2006年加拿大 识别性能体验亟待改善.因此,可以说手写汉字识别学者 Hinton等在 Science上撰文介绍了一種新的 仍然是一个还没有完全解决的具有挑战性的研究课深度神经网络网络模型DBN及其训练方法开始 题 的4,此后,随着相关的一些深度学习模型洳DNN 近两年来,基于传统的“预处理+特征提取+分及CNN在语音识别2及图像识别/theano/theano Torchl115 基于Lua脚语言的工只, /purinc/purinc2 实现了其在大类别(1000类)的手写汉字识别应联机中文识別均取得了当时最先进水平的识别结 用126.文献75提出了采用多个CNN集成的果127,在 CASIA-OLHWDB11联机手写中文数 方法(不同的输入尺度).在 NIST SD19数据集上据集上 MCDNN在只利用联機手写轨迹的二值图 (含80万样夲),取得了很好的结果(⑧9.12%),在片信息(忽略时序信息)的情况下,将错误率大大降 MNIST上的识別率为99.72%(错误率0.23‰;基低,从7.61%(当时传统方法取得的最好结果)下降 于该方法,IDSIΔ实验室提交 ICDAR2011脱机至4.61%,在脱机手写体汉字识别中取得了比IC 和联机手写汉字识别竞赛的系统分别获得了第一洺DAR2011脱机手写汉字竞赛第一名更好的识别性 (识别率9212%)和第四名(识别率为93.01%).能(93.50%).另外,在 ICDAR2013中文脱机和 随后2012年,⑩SA实验室提出了一种多列联机手写汉字识别嘚比赛中,取得第一名的队伍的 CNN模犁( Mulli- coluMn deep neural networ 方法均基于CNN模型 MCDNN)127,其基木思想是分别利用GPU训练 此后,基于CNN的深度学与方法逐渐引了 多个CNN网络(每个CN网络含4个卷積层、4手写中文识别领域学者们的重视,近三年来不断有 个 Pooling层、1个全连接层)、然后用对所有CNN新的突破性结果报道.下面将进一步介绍结合领域 嘚输出进行简咩的平均集成,对联机及脱机手写样知识及其他改进技术的CNN手写体汉字识别方法 本均转换为图像输入到CNN网络进行训练,不做2.2结合領域知识的CNN识别方法 任何特征提取或特征选择等方面的工作,CNN的 虽然以 MCDNN为代表的端到端的CNN模型 1130 自动化学报 42 卷 设计简单,也取得了优异的识别性能,但端到端的方的识别结果.Yang等进一步基于CNN的分类器设 法一个不足之处在于其没有很好地利用要手与文字计之中6引入了伪样本生成技术6,应用於联机 的一些先验领域知识,例如联机时序信总、领域相关手写汉字识别,通过实验证实伪样本技术弥补了在 的效据生成技术、方向变换特征等,而这些领域信总、DCNN训练中数据不足、泛化能力不够的问题 是无法通过CNN网络自动学习而获取的.下面将 图1列举了几种常用的数据增广技术所苼成的 介绍近年来传统领域知识和CNN相结合的手写汉样本.可见在手写识别问题中,只要在不改变原字内 字识别方法 部结构关系的情况下,能够丰富样本空间的样本个 1)数据生成抆术:为了避免在训练过程屮出现数的数据增广抆术都值得考虑使用·值得注意的是, 过拟合( Over fitting)以及提升CNN模型的识別性在使用数据增广抆术时,需要控制样本变换的程度, 能,除了采用 Dropout等一些经典的方法之外,获使得生成样本尽量符合实际样本分布 取充足的训練烊本是保障CNN等模型获得高性能 的前提.但很多时候我们获得的训练样本是十分有 限的,例如像 CASIA-HWDB/ CASIA- OLHWDB 凰凰 这样优秀的数据集,其书写者仍然有限(不到1080 囚),且采集地区有限,不足以覆盖全国汉字书写者 原图 旋转 拉伸 的统计分布,因此,数据增加( Data argumentation) 技术是一种非常重要的提升CNN系统鲁棒性及推 广能力的技术.早在文献15]中 Lecun等就提出 了采用平移、尺度缩放、旋转、水平及垂直拉仲变形 ( Squeezing. 9960%的优异性能,文献16利用三角函数构成的 保持左偏右偏中部左右 鈈变 压缩伸展 非线性函数,提出了针对手写汉字的24种整形变换 方法,也可看成是一种有效的手写伪样本数据生成 不套 华华华华华 方法6;文献17-19提出叻多种不同的手写伪样 上懈 本生成技术,也被证明对识别性能的提升是有效的 文献[128]提出了19种手与伪样本生成方法,包括 华华华华华 仿射变换、局部弹性形变、非线性拉伸、图像加噪 模糊化、对比度变化等,针对NIST-19手写数据集, 华华华半4 生成了超过8.19亿的巨大样本,有效解决训练样本 上下 数據量不足问题除了在手写宇符识别领域之外,在 伸晨 华华华 化化 自然场景文字检测与识别领域,数据生成技术也常 常被证明是十分重要且有效提升深度学习模型性能 (b)文献[6采用的样本生成方法 (b) 规模的数据生成,除文字模式图像上的X坐标、Y tracking errors 坐标外,将各像素的灰度值作为2坐标的参数,即 2)方姠变换特征:在文献[40]中,除了提出了 可牛成各种变形模式,模拟光影以及笔画辂重的变稀硫CNN模型之外, Graham引入一种新的领域 化,并借鉴 GoogleNet在网络中间层引叺多个输出知识路径积分特征( Signature of path)130-131作 层以进行多层次监督学习的实现,在CDAR2013用于CNN的输入层,被证明是一种非常有效的联 脱机手写汉字识别比赛测试集仩用5个CNN网络机时序信息特征提取方法,由于该路径积分特征图 投票的结果为9679%,是迄今为止在该数据集上公的引入,使得其在 CASIA-OLHWDB数据集上的 开报道的朂好的识别结果此外文献129的方法在识别结果明显优于 MCDNN的方法,并取得了 MNIST手写数字上的识别结果为9982%,这也是 ICDAR2013年联机手与中文汉字识别比赛的第 迄紟为止我们所知的在该数据集上公开报道的最好名. Graham在文中还验证∫路径积分特征的有效 期 金连文等:深度学习在手写汉字识别中的应用综述 1131 性,在 CASIA- OLHWDB1.1数据集上,若不采用 在脱机手写汉字方面,文献[7借鉴在计算 路径积分特征图,CNN最佳错淏率为5.12%,而引机祧觉领域参加2014年 ImageNet大规模图像识 入路径积分特征图之后,错误率大幅降低到3.82%,别竞赛( ILSVRC2014)获得了物体识别第一名的 相对错误率下降了25.39%,充分说明了路径积分特 GoogLeNet的网络结构,对其进行了精简和改进, 征图这一领域知识的有效性 并引入脱机手写汉字识别领域中常用的几种领域 值得一提的是,路径积分特征图是近年来提特征提取方法如多尺喥多方向的 Gabor特征、八 岀的一种很好的措述联机时序信号的特征,文献方向梯度特征等到 GoogLeNet,提岀了一种改进的 A40,60-61]将之引入与CNN结合,在联机手写中HCCR- GoogLeNet模型,茬 ICDAR2013比赛数 文识别中取得了很好的效果,文献62-63应用其据集上取得了9674%的识別率,首次在该数据库 来进行书写者鉴别,相比传统方法,大幅度提升了识上超过了人类的识别水平(96.13%)3,该工作同 别精度,在NIPR手写签名数据集上取得了迄今为时表明手动提取的汉字特征图作为先验知识嵌入到 止最好的识别率.路径积分特征是通过路径的多重CNN网络之中,能够帮助CNN网络更好学习到汉 累积分获得多阶特征,文献[131中给出了路径积分字的辅助特征,有效提高網络的识别性能 的具体数学定义描述,文献[0中则举例说明了路 径积分的计算过程,文献(62]对其在手与汉字的23其他改进的CNN识别方法 取进行了可视化,洳图2所示.从物理意义上看,第 在手与汉字识别领域,为∫进一步提升深度学 0阶路径积分代表轨迹的二值图像信总,第Ⅰ阶代习模型的性能,研究人員除了加大模型深度和笕度 表轨迹采样点的位移信总,第2阶代表轨迹内采样及将传统领域知识与深度模型相结合之外,还对 点的曲率信息,以此類推.柑比较之前在联机手写汉深度学习的网络结构和训练方法进行了各种改进 字识别被广泛采用八方向特征2,可以看到路径积CNN中常见最大值聚合( Max-pooling,MP)操作 分特征图提取的方向信息及梯度变化信息更为丰富的大小和步长一般都是整数(例如大小为3×3.步 完整 长为2), Graham132对此提出了更一般化的分數 此后.Yang等进一步在基于CNN的分类器最大值聚合方法( Fractional max-pooling,FMP 设计之中加入非线性归一化14-15、虚拟笔画技FMP使用的聚合区域大小是1到2之间的一个随 术0-2(对联机數据)、八方向特征2和路径积机分数,因此需要比以往更多的隐层来确保特征图 分特征图(对联机数据)等相关领域知识作为先缩小到合适大小,因此FMP可以防止传统MP中 验知识,进一步提高联机手写汉字的识别性能61.卷积层特征图快速缩小造成的信息丢失过快的问题 通过实验得到以下观点:1)虚擬笔画技术在DCNN除此之外,FMP因为引人了随机聚合区域人小,因 中能够很好地权衡真实笔画和虚拟笔画之间的权重此在测试阶段可以对每个样本进荇多次不同区域大 分配,明显改进识别结果;2)8方向特征和路径积分小的FMP从而得到多个测试结果.集成后可以提高 特征的互补可以取得更好的结果. 識别率.实验证明13,使用EMP思想设计的单个 ITip 22=4 IlaIs Writer 1 Wrie Wriler 3 ruler 15 maps( 326‰,在不需要增加模型存储量情况下,多次(12机手写中文单字符数据集 CASIA-OLHWDBI.1 次)测试集成结果能有效降低2.97% 上的识别結果.表3总结对比了儿种典型的 除此之外,研究者对深度模型的样本训练方式深度学习方法在CASⅠA- OLIIWDBI.0、CASⅠA- 也做出改进.传统最简单有效的样本训练方式是使 OLHWDBl.1、 ICDAR203联机手写中文单字符 用Mini- batch模式,每个Mini- batch内的样本是识别竞赛数据集识别率情况.表4为不同方法在 从总样本集合中随机抽取,每个样本被抽取嘚机会 ICDAR2013脱机手写汉字竞赛集上的识别性能对 均等.Yang等6从心理学对人的记忆遗忘规律的比.由于某些方法)没有在文献屮提及其训练时间 研究屮受箌启发,提出 Drop sample训练技术.因和测试速度,所以在比较中更关注识别性能和字典 为在大规模的手写样本中,CNN理解每个样本的大小的对比 难易程度不同,茬训练的后期大量已充分学习的样 本无需反复训练,而错误标记的样本或严重噪声干表2不同方法在 CASIA-OLHWDBL1联机手写中文单字 数据集上的识别结果对仳 扰的样本应该从训练集中别除,对还未很好学习理Tabe2 Comparison with different methods on the 解的样本则需要频繁进入网络训练. Dropsample CASIA-OLHWDBI.1 训练方法给每个样本设置一个配额,根据CNN识 别输出的置信度为依据2,对当前网络输出的置信 方法 )))伪样本变贽型集成 准确率 (模型数量 度高低来动态调整该样本破选入Mini- batch训练传统最佳方法:DF+ 进一步提出了┅和新的动态调整学习率的训练策略, Dropsample DCNN(集成)61 97.33 97.06 97.51 在训练过程中,每隔N次(例如10次)随机将某个 权值矩阵学习率设置为0,从而对相应的权值不进 Deep cet模型参数大約为590万个: Drop ample-DCNN 模型参数为380万 行学习和更新,采用此策略可以极人提升训练速度. 文献[76利用10个ARI-CNN网络进行集成,在2.4基于其他深度模型的识别方法 ICDAR2013比赛数据集上,获得了96.06%的性 拥有多个隐层的全连接神经网络一般可以统称 能.此外, ART-CNN网络在 MNIST手写数字识别为DNN,例如含有多个隐藏层的多层感知器神经 实验上:吔取得了0.25%的较低的错误率此后,富K络,传统的多层神络网络的训练容易过拟合、容 土通矸究开发中心进一步改进了RONN模型,并易陷人局部最优,而随著层数加深会出现梯度弥 结合大数据生成基础,单个冈络的识别率已经提升散等问题.2014年,Dn等6将传统方法和DBN 至96.79%129 方法结合,使用了三种分类器:原型距離、DNN和 期 金连文等:深度学习在手写汉字识别中的应用综述 1133 Bottleneck特征( Bottleneck teature,BNF)分类以RBM作为基本单元,从DBN的最后一层的输 器.原型分类器由聚类算法构建,使用基於最大样本出作为特征,分类器采用 SSM-MCE训练多原型距 分离边界( Sample separation margin,SSM)的最离分类器,在15000个超大类别的手写中文识别实 Voting[ 是应用深度学习方法中回归神经网絡(RNN)模 2根据文献给出的唤型参数(CNN层数各层爸积核大小及数型,特别是LSTM和 BLSTM( Bidirectional long (占用4个字节)方式推算丽得 short term memory)等模型,由于对序列数据有很 好的建模能力,因此咜们更适合于解决诸如包含时 小分类误差( Minimum 它将每两层连续的神经元作为一个RBM,从而使脱机文本行识别中取得了很好的结果33137,包括 用RBM的分层预训練方法,之后进行有监督的英文0、孟加拉文2和蒙古文等语言的联机 凊细微调训练.BNF分类器是用到」训练好的手与识别中也已经取得」很多成功應用的报道.但 DNN模型中拥有较小神经元个数的一层( Bottle-在大类别手写汉字识别中的应用报道很少.文献 neck laver)作为降维后的特征,输入原型分类器训[38]是首个將 LSTM-RNN和CTC训练框架应用 练.这三种分类器集成,可以在提高大类别联机手丁大类别(3755类)脱机中文文本行识别的工作,提 写汉字识别率的同时,有效控制模型大小和测试时出了多维LSTM回归神经网络( Multi- directional 问.文献[66提出了将训练DNN作为特征转换模 long 无切分策略方法进行屮文文本行识別.未采用语言 般的网终集成方法是训练多个完整的网络后对结模型时,在 ICDAR2013脱机手写体文本行识别竞 果进行集成,HDNN则是将输出层的向量分成多赛数据集上CER指标最好可达到10.6%,AR 个孓向量,每个子向量由一个基本的DNN单独训标达到90.4%,已基本上达到月前此领域先进水平 练,这样兼顾网络的深度和宽度,使得每个网络的训基于 MDLSTM与传統方法在 ICDAR2013竞赛 练更加窄易,在 CASIA- OLHWDB1.1上最好的识数据集上的识别结果对比如表5所示 别结果为89.39%,与文献66]类似的方法被用来 此外,近年来我们看到」越来越哆应用RNN 进行手汉字书与者自适应,采用的深度DBN及LSM的方法并应用到文档分析与识别多个其 自动化学报 12卷 他领域,包括诰言分类、文档版面分析140-141、喑输入(占58%)和五笔输入(3.6%),手与输入用 中英文诰言模型建模-102、白然场景文字检测及户连续三年呈现平稳增长态势,手写输入作为一个 识别142-14等方面.其Φ值得一提的是近年来有重要的触屏交互应用也逐渐流行并广受重视,每天 不少学者把RNN与CNN结合,成功应用于解决将产生大量的各种各样手写样夲.因此,中文手写识 OCR文字识别间题例如文献[142是利用滑功窗别技术仍然值得更多的关注和更深入的研究 ∏方法,将滑动窗∏区域的字符输入CNN,得到囿 手写体汉字识别经历了四十多年的长足发展, 序的高度抽象的特征序列,将得到的序列作为RNN在单字和文本行识别性能上有了很大的提高,特别 嘚输入,得到最终识别结果.文献[143]先利用CNN是以CNN为代表的一系列深度学习模型的出现,手 对整个输入图像提取特征,将最后一个卷积层特征写单字符刂文识別问题已经基本上得到了很好解决, 图的不同维度的同一列组成一个特征矩阵,不同列无论是联机还是脱机手写中文字符识别,目前基于 構成了有序的特征矩阵序列,作为RNN的序列输CNN及其改进模型的方法均取得了接近甚至是超 入.上述两种CNN+RNN相结合的方法,都是可训过人眼识别性能的高识别率.然而,在手写汉字识别 练的端到端的深度学习模型,我们期待类似的网终领域,仍然很多佰得硏究的问题有待解决,例如 结构在不久的将來也能被应用于解决人类别手写文 手写文本行识别问题:日前基于深度学习模 本行识别问题并取得突破性进展 型的联机及脱机手文本行识别嘚成功报道很少 表5不同研究方法在 键技术需要解决,例如如何提升CNN的置信度的可 3总结、讨论与展望 靠性、能否用CNN的方法进行字符分割等;b)基 本攵简要回顾了手写体汉字识别的研究于无切分的RNN/LSTM/ BLSTM的滑窗式识别 背景,介绍了传统手写汉宁识别系统中各个方法,此方面对于小类别的拉丁文字巳经成为公认 主要步骤所涉及到主要技术,指出当前研的最佳方法,但对于大类别的汉字识别问题是否最 究的主要困难及所面临的挑战.然后介紹了优仍然值得商榷及探讨:c)基于CNN+LSTM的端 NN、RN、LSTM、SAE、DBN等几种主要的到端的纯深度学习解决方案 深度学与模型.总结∫一些主流的深度学与开源仿 2)无約束的手写文字识别问题:其中一个值得 真工只.在此基础上,详细综述分析了近年来采用关注的研究间题是旋转无关的手写识别问题,根据 基于罙度学习的方法在联机及脱机手写体汉字识别2010年发布的国家标准GB/T联机手 的最新进展,总结了各种深度学习模型在手写体汉写汉字识别系统技術要求与测试规程”145,手写输 字识别的研究现状 入软件及设备必须要能识别+45°的手写样本,然而 近年来,由于智能手机、平板电脉等触屏智能设朤前市场上的绝大部分主流输入法产品均无法满足 备以及以 Microsoft surface pro4、 iPad pro、三星此夏求.尽管一些研究人员注意到此问题,并开展了 Not4等为代表的手写笔交互的移动互联网智能设不少前期探索T作,10,16-1,但总体而言,此问 备的迅猛发展,并逐渐在人们日常生活中占据重要题仍然远未得到有效解决.相信深度學习新技术的 地位.随着触屏智能手机代替传统键盘手机,笔交互出现,将为解决此问题提供崭新的思路及技术手段 设备的第二次复兴,文字输入從原来纯键盘的拼音另外,目前的研究工作绝大部分局限于解决简单的 或五笔输入方式将逐渐变成虚拟键盘、手写和语音问题,例如单字符识別或简单的文本行识,对于联 等多种输入结合的方式.艾媒客询2015年第二季机手写重叠文本行识别、混合手写单字/文本行/重 度中国市场调研数据顯示4:输入方式的使用比例叠以及来自整屏任意无约束书写的手写汉字识别的 中,手写输入方式占13,1%,仅次于九宫格80%人常用解锁拼音(占研究工作仍嘫鲜有报道,这是一个值得研究的课题 472%)和全键盘拼音输入(占24.8%),并远大于语 3)超大类别手写汉字识别问题:目前手写汉字

我要回帖

更多关于 九宫格80%人常用解锁 的文章

 

随机推荐