| |
OCR软件使用经验谈
|
日期:2007年7月2日 作者:
查看:[大字体 中字体
小字体]
|
文本的OCR识别是用户使用扫描仪产品最常见的应用之一,目前几乎所有的扫描仪产品都附带了OCR识别软件。但我们在使用中发现,即使同一个OCR软件识别正确率的差距也较大。实际上,OCR识别正确率不仅与OCR软件本身有关,与使用方法的正确与否也有很大关系。根据笔者平时积累的经验,做OCR识别应从以下几个方面入手。这里以MICROTEK扫描仪配备的《尚书六号》OCR为例。
一、扫描操作及注意点
扫描仪联机 
在确定 MICROTEK扫描仪能够在被“Scanner Test”找到的条件下(见图一),运行《尚书六号》OCR软件。然后点击“扫描”按扭(见图二)。片刻之后,扫描仪的控制窗口出现,在保证 “黑白两值”300 dpi的条件下,进行图像预览(见图三)。以上步骤也可以通过MICROTEK扫描仪上的“OCR快捷键”实现。目前,市场上的绝大部分MICOTEK扫描仪都配备了方便用户的快捷键。  
放大预览及调节图像的清晰度
为了达到最佳的识别效果,对输入稿件在扫描时的最低要求是清晰。为此,我们可以通过“放大预览”对文稿中的几个文字进行取样扫描(见图四),从而对图像的亮度进行更为细致的调节。调节的工具是扫描仪工具内的“阀值”。 
以下是不同阀值下的扫描结果(见图五)。调节到适当的阀值后,就可以选择“扫描”按扭了。扫描的结果会传递到OCR软件内,同时扫描仪的控制窗口会自动消失。  二、辨识前所需的注意事项
当以上事项完成以后,我们所要做的就是在OCR软件中的实际操作了。
注意文字的倾斜校正
由于OCR的辨识原理是采用字模的方式进行的,所以一定要注意稿件是否水平。具体实施过程中,可以采用图像倾斜校正按扭来解决(见图六)。 
对稿件进行识别的预先处理
由于原稿的情况差异万千,所以我们在识别前,需做一些预先的处理。首先应该去除原稿中的杂点和图像。文稿中如含有图像,OCR是不能识别的,图像的存在,会影响OCR的文字切分。操作中,可使用“图像的块擦拭”工具将文档中的图像去除,同时文稿中的一些杂点,也应尽量地去除。 
针对文档中出现分栏的情况,建议您手动设定辨识范围,最好不要采用“自动切分”,只有这样才能保证辨识结果的连贯性(见图七)。
采用适当的辨识方式
在具体的辨识中,还应注意您的稿件是横排还是竖排,由此选择正确的编排格式按扭,以保持对应。
上一篇:用HyperSnap抓取相邻或不相邻的区域
下一篇:我的动画录像机Camtasia
|
特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.abcdown.net
| |