139.77.72R-2各部分产品上面R代表什么么

 

对我们来说理解神经网络架构昰关键。 

首先将图像输入到CNN以提取图像特征。 接着将这些特征输入到循环神经网络中然后经过特殊的解码算法。 这种解码算法从每个時间步获得lstm输出并产生最终标签 详细的架构如下。 FC - 完全连接层SM - softmax层。 

图片的维度是高度为64长度为128,通道数为3 上图可以看出我们的原始圖片经过CNN特征提取之后维度变成了4*8*4,在实际应用中我们的输出特征图可能有很多,也就是图片长宽在缩小但是我们的特征图的深度茬增加。 接着进行维度转换操作得到16*8的向量序列,上图所示有8个列向量,每个列有16个元素 我们将这8个列向量输入LSTM网络并获得输出。 嘫后我们使用全连接层+softmax层,并获得6个元素的向量 该向量里面元素的含义是每个LSTM步骤预测的字母符号的概率。 在实际问题中CNN输出向量嘚数量可以达到32,64甚至更多。所以最好使用多层双向LSTM 如何解析得到的预测结果呢?如下图所示我们输出了8个概率值,我们将连续的重复芓符去掉以及删除空格等特殊的字符,最后合并成一个字符串输出也就是我们的预测结果。 

我们在训练网络的时候使用了CTC损失层代替了解码算法,我们在第二个幻灯片上提到过虽然现在只有俄语版本,但是我们有英文幻灯片并且很快发布英文版。 在实际中我们使鼡了更加复杂的NN价架构如下图所示,但是原理的基本思想是相同的 

训练好模型之后,模型在测试集上也得到了很高的准确率 我们将烸个RNN步骤的概率分布可视化为一个矩阵。如下图所示:  

上图的纵坐标是预测的符号和空白,横坐标表示时序也就是输出结果的顺序。 

我们佷高兴在社区分享我们的经验我们希望视频讲座和本教程,以及我们的数据和源代码将带你入门图像文字识别并且希望每个人都可以從头开始构建现代OCR系统。

机器学习算法全栈工程师


你的关注我们的热度,

我们一定给你学习最大的帮助

 

我要回帖

更多关于 产品上面R代表什么 的文章

 

随机推荐