【IT168评测中心】对于专用扫描仪来说,一般都会随机带有OCR(Optical Character Recognition,字体识别)软件,软件首先对扫描的版面进行分析,把版面划分成若干个区域,有的是文字,有的是图像,然后对文字部分进行识别。
作为国内扫描仪行业的几家大公司都会自行设计ORC软件,比如我们今天测试的“方正锐思文字识别软件 v3.5”,我们选用的扫描平台是方正Z1000扫描仪。它们包括国标GB2312-80的全部一、二级汉字6800多个简体字符集和纯英文字符集;同时能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。
方正Z1000扫描仪 |
方正锐思文字识别软件界面简洁清晰,分为三部分,顶部是菜单和便捷操作栏,对于普通用户来说,通过“扫描图像”、“输入图像”、“版面纠斜”、“版面分析”、“识别”和“输出结果”六个按键基本可以完成所有的文字识别操作。和绝大多数文字识别软件类似,方正锐思也是要求输入的图像必须为TIF格式,以保证识别的精度和准确性。
界面的左侧是预览界面,扫描好图像后就会在此处显示,如果用户觉得满意可以继续进行版面分析,它会将版本划分成若干区域,区域以文字或者图像标识,只有文字框可以进行识别。右侧是上方显示识别结果,下方可以放大局部的扫描效果。
在文本识别的扫描设置上,建议选择以黑白模式进行扫描,扫描样张是以黑白激光打印机普通打印精度下输出的文本文档。我们测试了在150dpi扫描效果和300dpi的扫描效果。可以看到在300dpi下文字识别率达到100%,而150dpi下的文字识别率达到90%以上,有了很大的提升。
两种扫描文档 |
300dpi黑白扫描设置下,文字识别正确率:100%
150dpi黑白扫描设置下,文字识别正确率:93.75%
300dpi扫描结果 |
150dpi扫描结果 |
我们选择了清晰度逊色一些的文档,由彩色喷墨打印机的草稿模式输出,字迹相对较浅,在300dpi黑白扫描模式下的识别正确率仍然可以达到100%。
300dpi扫描效果 |
报纸的文字量大,字体相对较小,对于扫描识别是一个挑战。采用300dpi黑白扫描模式进行扫描后,我们首先对报纸的版面进行分析,从分析结果来看,由文字的位置基本都可以识别出来,反白字体则被识别为图片。
报纸版面分析 |
我们对其中的一段文字进行识别,一共153个字符,只有一个字识别错误,正确率达到99.35%。同时,识别结果对于“人”和“入”这样难以区分的字符都识别正确。
识别效果 |
我们选择宋体、黑体、楷体、华文隶书和华文新魏五种字体考察识别系统对于不同字体的识别率。从测试结果上看,只有华文新魏一个字识别错误,其它字体均识别准确无误。
不同字体的识别样张 |
识别结果 |
方正锐思对于印刷字识别率出色,我们突发奇想的测试对于手写的识别,很遗憾,对于手写的一段文字只能够正确的识别两个字,当然这和书写者有很大的关系。
手写样张 |
识别效果 |
【IT168评测中心观点】方正锐思文字识别软件v3.5对于印刷文本的识别能力很强,尤其对于中文的识别能力,特别是对于“入”和“人”这样非常相似的字都辨认准确。软件对于简单文本的识别速度很快,几乎是瞬间的,而对于A3幅面的全版面识别也可以保持在20秒以内。
目前,许多信息资料需要转化成电子文档以便于各种应用及管理,但因信息数字化处理的方式落后,不但费时费力,而且资金耗费巨大,造成了大量文档资料的积压,因此急需一种快速高效的软件系统来满足这种海量录入需求。方正锐思文字识别软件正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。