|
OCR(Optical Character Recognition)是通过扫描仪,利用OCR软件,将点阵图形的的字符转变成文本的技术。很多人在使用这项技术的时候,因为方法不当,致使识别后的文本误码率很高。下面,我就将本人在使用当中总结的经验推荐给大家,希望能给你的工作带来方便。
扫描阶段:识别率的高与低,很大程度取决于该阶段,其中原稿的质量起着决定性的作用。对于报纸等非常低劣的原稿,我们可通过扫描界面减小或增大亮度参数的方法提高识别率,如果还未达到要求,还可增大扫描时的分辩率。分辩率的提高会增大图像的大小,所以就会延长扫描时的时间。不过,对于太小的字体,或不太清楚的文字,适当增大分辩率,可提高识别率。对于杂志、书本等字迹清晰,对比强烈,质量比较好的原稿,可以把亮度设为0,分辩率设为300,在此基础上,根据预扫得到的图像,本着字体笔划即不能互相粘连漆黑一片,又不能断笔画少点的原则进行调整。
版面分析阶段:扫描得到的是图像,要把图像转变为文本,需要OCR软件。现在市面的上OCR系统很多,而且有些OCR系统的智能化程度很高,连表格也都能正确识别。本文以笔者经常使用的北信OCR系统为例向大家介绍OCR使用的技巧。
在识别前,首先要对扫描得到的图像进行校正,这是进行下一步工作的基础,所以在扫描时,应尽力使原稿摆正,若得到的图像还有点倾斜,就要进行倾斜校正。一般的OCR系统都有自动校正的功能,如果没有,那就只能手动校正了。
现在的OCR系统,它还不能自动识别扫描得到的图像中的文字、表格、图形等元素,这就要求我们分别对不同的元素进行画框,定义其属性,以便OCR系统能够正确识别。在这里要注意,对于大小不同的文字,特别是横竖排版的文字,最好分别定义在不同的框中。对于图像中的污点,可以使用清除、橡皮擦等命令或工具消除。另外,画框时这要注意画框的次序,以避免识别后的文字“前言不搭后语”。 后处理阶段:一般的OCR软件都有后处理系统,识别后的文字,OCR会自动导入这一程序中。在这里,为了处理错误码,OCR软件提供了“前相关”、“后相关”等功能,以便从不同的侧面对当前错误码时行改正。有的OCR系统还有学习功能,开启该功能并让OCR系统经常性地进行“学习”,可以使软件的识别率逐渐得以提高。笔者使用的北信OCR系统,如果扫描参数设置得当,版面分析细致正确,这些前期工作做得好的话,识别后的文本几乎就不用修改。
识别后得到的文本,它是根据扫描后的图像排版的,特别是像报纸,杂志等多栏式的原稿,它不合乎我们对日常文稿的排版要求,所以我们对识别后的文稿,一般这要进行一次排版操作。这种排版操作,OCR系统的后处理程序一般都不能完成,我们要借助Word、WPS等排版软件进行操作。
在OCR后处理程序中,把文本保存为纯文本文件后退出。在Word、WPS中,打开或灌入刚才的文本文件(也可以使用复制、粘贴命令在Word、WPS中新建文件)。在Word中,“查找”“^P”(没有引号)标记(段落标记),全部或部分替换为“^S”(没有引号),或者是直接替换为空(就是在“替换”文本框中什么都不填)可以取消每行文字后的硬回车。在WPS(WPS2000手写输入系统)中,在菜单栏执行“工具→文字→段落重排”命令,可以自动对全部段落重新排列,这一功能,对OCR处理后的文本,只执行一个命令,就可以使所有段落排列的整整齐齐,特别推荐OCR使用着使用这一功能。最后,设置标题样式,首行缩进两个字符等……怎么样,一篇漂亮的文档出来了吧!
现在市面上流行的OCR系统很多,比如清华紫光、中晶尚书等,而且你在购买扫描议的时候,厂商也大都会提供一套OCR软件,但是,笔者建议大家使用北信OCR系统,因为它的识别率很高,且在WPS2000手写系统中,能够方便的直接调用,使用非常方便。
最后,我在简单地说一下WPS2000手写系统。WPS2000手写系统增强了文字输入及校对方面的功能,它支持手写输入、语音输入和OCR输入,对经常进行文字录入的人员来说,它应是首选的工具。它的语音校对功能可以极大地降低录入错误的概率。与OCR的结合,更会使录入工作的效率得到很大的提高。
Microsoft Word不论多么强大,但在对OCR后的文字进行排版,特别是重新安排段落这一点,与WPS2000手写系统相比是相形见绌的(这一点是可以原谅的,因为它毕竟对中国人的文字使用不是十分了解),这是国产软件的又一次胜利!
上一篇:紫光拼音输入法崩溃之后的解决方案
下一篇:IPBook让网络打印机无处藏身
|