必赢网址-必赢437-www437com

热门关键词: 必赢网址,必赢437,www437com

OCR技术浅探,AI产品经理CV通识

作者: 苏剑林

图片 1

系列博文: 科学空间

光学字符识别(OCR)

OCR技术浅探:1. 全文简述

光学字符识别(Optical Character Recognition, OCR),目标是将图像上的字符进行分析识别,将其准化为文本格式的字符序列。

OCR技术浅探:2. 背景与假设

一、技术流程详解

OCR技术浅探:3. 特征提取(1)

OCR技术浅探:3. 特征提取(2)

图片 2

OCR技术浅探:4. 文字定位

1、图像采集

OCR技术浅探:5. 文本切割

1)摄像头选取需要考虑到两个指标:像素分辨率摄像头焦距

OCR技术浅探:6. 光学识别

像素分辨率:可以通过所检测物体的最小特征决定像素分辨率。公式为:

OCR技术浅探:7. 语言模型

(检测物体最大长度/物体最小特征值)*2

OCR技术浅探:8. 综合评估

假设字符最大长度为300mm,最小特征值为1mm,则最小所需分辨率为600。

OCR技术浅探:9. 代码共享(完)

镜头焦距:焦距(F)的选择由CCD传感器的尺寸(Ss)、工作距离(摄像机镜头到被测物体的距离Wd)和摄像机的视场范围(Os)--3个参数来决定。

泰迪杯:基于深度学习和语言模型的印刷文字OCR系统.pdf

图片 3

 

若系统要求严格,还需采用预防抖动的数码相机采集图像。

2)图像常见格式有BMP、GIF、JPG等,其中BMP格式最不容易出问题。

2、图像预处理

图像预处理主要包括二值化、图像增强、噪声处理、图像滤波等。

3、特征提取

考虑通过聚类、分割、去噪、池化等步骤获取图像中文字特征。

图片 4

1)聚类是根据图像特点自适应地进行多值化的过程。推荐“极大值极小值分割”聚类方式:有多少个极大值点,就聚为多少类,并且以极小值作为类别之间的边界。通过聚类可将图片分成不同图层

2)分层识别

每一层图像由若干联通区域组成,在此时需要文字具有一定抗腐蚀能力。联通区域边界线越短,抗腐蚀能力越强;联通区域边界线越长,抗腐蚀能力越差。

联通区域的抗腐蚀能力=该区域被腐蚀后的总面积/该区域被腐蚀前的总面积。文字区域的抗腐蚀能力大概在[0.1,0.9]之间。

相关概念:

腐蚀:图像中高亮区域被腐蚀,高亮区域减少。

图片 5

图 by(浅墨)

3)池化操作:对特征层进行整合

4)后期处理:a.高低密度区排除:b.孤立区排除

4、文字定位

1)邻近搜索,目的是圈出单行文字。

由于部分汉字是由很简单的其他汉字组成,比如“胆”就是由“月”和“旦”组成,我们需要经过邻近搜索算法,整合可能成字的区域。

2)文本切割,目的是将单行文本切割为单字。利用切割方法(比如均匀切割),将单行文本切割成一个一个的单字。

5、文字检测

文字检测是基于深度学习的方式,同时包括了特征提取和文字定位。

现在应用得比较广泛的是Faster-Rcnn系列的方法,它的特点是:精度高,但是速度较慢

另外还有Yolo系列的方法,它的特点是:精度较低,但是速度较快。

6、光学识别

1)模型选择:选择卷积神经网络模型

2)训练数据:除可直接获取到的数据外,还可利用程序自动生成一批训练数据,需要考虑到以下因素:

a.字库的字体数目;

b.同字不同字体;

c.同字不同颜色;

d.同字不同大小;

e.同字不同清晰程度;

f.中英文数字等等语言种类;

g.噪音影响。

3)输出结果:

a.有形近字的情况,优先考虑高频字:例如”天“和”夭“,“天”出现的频率更高,优先考虑“天”;

b.通过模型精确率评估模型效果;

d.对数据进行随机增加噪音,测试模型的效果;

e.后期处理校正:利用人工或者上下文关系,对识别结果进行校正;

f.若需按照原文排版识别,还需用版面恢复算法将输出结果输出到word或者pdf。

二、场景分析

本文由必赢网址发布于印刷出版,转载请注明出处:OCR技术浅探,AI产品经理CV通识

您可能还会对下面的文章感兴趣: