OCR (光学字符识别)如何工作?
一、OCR 如何工作?
OCR 引擎或 OCR 软件通过以下步骤工作:
1、图像采集
扫描仪读取文档并将这些文档转换为二进制数据。OCR 软件分析扫描的图像,将淡色区域分类为背景,将深色区域分类为文本。
2、预处理
OCR 软件首先清理图像并删除错误,以为读取做好准备。以下为其使用的一些清理技术:
扫描期间,对扫描文档进行轻微的偏移校正或倾斜,以修复对齐问题。去除杂点、移除数字图像斑点或平滑文本图像边缘。清理图像中的边框和线条。多语言 OCR 技术的脚本识别3、文本识别
OCR 软件用于文本识别的 OCR 算法或软件流程的两个主要类型为模式匹配和特征提取。
模式匹配
模式匹配分离字符图像(称为标志符号),并将其与存储的类似标志符号进行对比。模式匹配仅在存储的标志符号与输入的标志符号具有类似字体和大小时才能发挥作用。对于以已知字体输入的文档的扫描图像,此方法效果很好。
特征提取
特征提取将标志符号分割或分解为线条、闭环、线条方向和线条焦点等特征。然后,其使用这些特征在存储的多种标志符号中查找最佳匹配或最相近的匹配。
4、后处理
分析后,系统将提取的文本数据转换为计算机化的文件。某些 OCR 系统可以创建带注释的 PDF 文件,内含扫描文档的扫描前后版本。

相关推荐HOT
更多>>
Java中方法与类的区别是什么?
一、方法的定义什么是方法?简而言之,方法就是解决问题的办法。在Java语言中,方法大多用于处理一些数据并得到结果,其包括以下几种要素:修饰...详情>>
2023-10-18 23:27:40
全角和半角的区别是什么?
一、全角和半角的区别1、输入效果不一样正常情况下全角在输入字母、数字的时候,它每两个字母之间的间隔是很大的,而半角输入状态下,两个字母...详情>>
2023-10-18 21:27:26
人工智能核心技术有哪些方面?
一、人工智能核心技术1. 深度学习机器学习是实现人工智能的一种重要方法。机器学习的概念来自早期的人工智能研究者,简单来说,机器学习就是使...详情>>
2023-10-18 17:18:04
ajax乱码怎么解决?
一、ajax乱码解决办法1. 在服务器指定发送数据的格式在服务器指定发送数据的格式:在jsp文件中代码如下response.setContentType(“text/text;ch...详情>>
2023-10-18 15:24:52