办公 频道

让OCR更聪明——OCR识别率提高五法


  
  
  OCR是扫描仪最为常用也是最主要的功能,在日常的应用中有些用户OCR的识别率的正确度非常的高,而有些用户OCR的识别率的正确度却较低,无法达到令人满意的程度。OCR的识别率固然和采用的识别软件有一定的关系,但实际目前市场上几种常用的识别软件的识别正确度的差距并不是很大,一般来说只有1、2个百分点的差距,甚至更低,并且几种产品都有自己独到的长。因此用户在使用中识别正确率的差距相当程度是和用户的应用有关,正确合理的应用和设置能够使OCR更聪明。
   一. 根据扫描对象选择分辨率。
  
  
  分辨率是扫描仪最重要的技术指标,无论在扫描图片还是扫描文字进行OCR识别的过程中都起到非常大的作用。但是需要注意的是扫描时应该根据扫描对象得实际情况选择分辨率,绝不是选得越高越好。因为分辨率高随之带来的是扫描时间长,占用空间大,对于一些配置较低的系统极可能造成系统的崩溃,给应用带来麻烦;当然分辨率也不能选得过低,因为过低的话会使OCR软件无法得到所需的足够信息。
  
  
  一般来说在印刷清晰的情况下,5号字选择250~300dpi的分辨率比较的合适;6号字可选择400dpi;7号字可选择600dpi;如果是4号以上的字的话则可选择150~200dpi。
  
  
  当然分辨率的选择也不是一成不变的,如果扫描对象印刷的清晰度较差的话,可根据实际的情况来调高分辨率。
   二. 根据实际情况选择亮度和对比度。
  
  
  各种扫描对象所采用的纸质和印刷的质量都不尽相同,对于一些纸质较黄或者印刷时散乱墨点较多的扫描对象,在扫描时可增加亮度和对比度,这样有利于OCR软件的识别。不过在设定亮度时请注意扫描图象中的汉字笔划不能发生断连。
   三. 合理的选择扫描对象的范围和识别方式。
  
  
  对于相同的字体、字号和字型进行OCR识别的准确率是最高的。根据这一情况,用户在扫描仪可对要识别的内容进行一下区域的划分,将字体、字号、字型、排列方式相同并且最好间距相等的内容划分在一个区域内,而将表格、图片等内容单独的划区,这样做OCR的识别率会大大的提高。对于中英文混排或者简繁体混排内容可先将其保存为图片文件,然后在划分区域,个别识别。
   四. 灵活利用预处理和校正功能。
  
  
  几乎所有的OCR软件在将内容扫描后都提供了在OCR识别前的预处理功能,对于用户来说应该灵活的使用这些功能,比如去除杂点,图象,将一些倾斜的字校正等。通过预处理功能能够进一步的提高识别的正确率。
   五. 充分的使用软件的自学功能。
  
  
  OCR软件字库中的汉字虽多,但是相对于庞大的汉字体系来说难免会有遗漏之处,所以在识别时遇到字库中没有的字OCR软件便会不知所措,并且由于大多数的识别软件在识别时都采用了一定的上下文联想功能,因此往往会造成上下多个字出现偏差的现象。
  
  
  对于这种情况,OCR软件都设定了学习的功能,可由用户将一些生字添加入字库中,也可以将一些较难识别的字进行一定的设定,通过学习系统的识别率则会进一步的得到提高。
  
  
  通过以上的五种方法,通过充分的发挥出软件的性能,让OCR的识别率更高,变得更聪明。
  
0
相关文章