办公 频道

如何提高扫描仪的文本识别率(图)

一、在扫描软件里作适当的设置

1、将图像输出类型设置成“灰阶”效果,但不要“黑白”效果,实践证明,输出为“灰阶”类型可以大大提高OER软件对文字的识别率。

2、实践证明,使用200PPI和200以上PPI分辨率扫描出来的图像质量大同小异,因此笔者建议将分辨率设置为200PPI,大了反而会加大图像文件的体积,减慢扫描速度。

#$[*45372.jpg*#a*#0*#0*#center*]$#没作任何调整之前的预扫截图
#$[*45373.jpg*#a*#0*#0*#center*]$#分辩率和图像类型的设置

3、重点调整好“曲线修正”一项。使用此项对图像进行调整时,可能不少的朋友会误以为它相当于调整图像的亮度和对比度呢,其实事实并非如此。
#$[*45374.jpg*#a*#0*#0*#center*]$#使用曲线之前

    此工具目的是让你控制 gamma, 它可以量测影像中间调灰阶的强度。Gamma一般用以描述输出密度与原稿密度中间调之间的关系。 调整 gamma 让你改变灰调的中间色调部分而不会影响暗部与亮部。如果能熟练运用此工具则可大大增加图像中文本的清晰度。
#$[*45375.jpg*#a*#0*#0*#center*]$#使用曲线之后

4、“锐化效果”可以使文字变得更加清晰。在扫描软件的“滤镜”一项里,通常有“柔化”、“锐化效果”、“更加锐化效果”等多项选择,我们要选择“锐化效果”,因为“柔化”和“更加锐化效果”都可能会使文字变得模糊。#$[*45376.jpg*#a*#0*#0*#center*]$#锐化效果可以使文字变得更加清晰

5、调整好亮度、对比度等等。亮度和对比度等设置也是不可或缺的,在运用上受操作者感性的因素影响较大,要多积累经验才能调整得最好,同时也要对图像进行去网线设置。
#$[*45377.jpg*#a*#0*#0*#center*]$#获取的图像效果

二、利用图像处理软件来优化

    实践证明,在扫描输出为图像文件后,再用PS或ACD对其进行一定的再加工可以使图像中的文字更加清晰,特别是调整图像的曝光度一项特别有效。

#$[*45383.jpg*#a*#0*#0*#center*]$#获取的图像效果(经ACD加工)

三、在OCR软件里再度进行优化

    OCR软件是用于识别图像文件中的文字内容的,一款识别率高的OCR软件可以大大提高对文字的识别效果,目前市面上有多种的OCR软件,包括清华紫光的、丹青和汉王、尚书等等,其中以尚书、汉王和清华紫光的较为有名,也较理想,经笔者多次对比,以尚书六号最为好用,下面以尚书六号为例。

    许多朋友可能都会忽略OCR的对图像的优化作用,其实,OCR优化的空间虽已非常有限,但也非常重要,用好了可以大大提高软件的识别率。在尚书六号的OCR里,按鼠标右键将弹出一个亮度调节窗口使用鼠标来调节图像的亮度值可以看到图像显示的深浅变化尽量将图像中的文字调节为“不糊”、“不断”的状态。在OCR里调节图像的亮度和在图形处理软件里调节亮度的区别在于:在其它软件里调节亮度要按下确定才能看到图像调整后的全面效果。此外,由于不同的文字所处的位置不同,不同的亮度值对不同位置的文字所表现的清晰度也不一样,当这种情况表现的较明显时,为了提高尚书六号的识别率,我们可以对不同的文字块根据具体的需要对亮度进行不同的设置,使其显示的更为清晰。不过,如果图像是彩色的则不能用上OCR里的亮度调节了。

#$[*45384.jpg*#a*#0*#0*#center*]$#

注意事项:

1、如果遇上一些多边形或形状复杂的图像需要清除时,可在PS进行剪切,这样可大大提高清除图像的速度。

2、用户对图像进行图像旋转倾斜校正、擦拭图像块和擦拭图像杂点等操作将使图像丢失灰度信息以后再按鼠标右键将不会弹出亮度调节窗口请注意图像操作的顺序。

3、如果文字处于倾斜状态的话则会大大降低OCR软件的识别率,所以在扫描仪里就应摆正原稿的形状,不要让它倾斜,而且尽量不要用尚书六号里的“倾斜校正”功能来校正图像的状态,因为在校正后会使部分文字变成扭曲状态,使软件不能识别或识别错误,如果扫出来后图像呈倾斜状态的,可用ACDSEE或PC对其进行校正,这样就不会使文字变成扭曲状态了,但会麻烦些。

    笔者用数码相机拍下来带有文字图像给尚书六号进行识别,结果效果跟用中晶扫描仪扫出来的图像效果一样。

0
相关文章