OCR技术在报刊加工中的应用分析

OCR技术在报刊加工中的应用分析姜嘉佳摘要OCR技术在图书数字化加工过程中发挥了巨大作用,实现了报刊的电子化形态,由于技术的限制,目前OCR技术的利用并不是最佳状态,在文字识别率过程中,会受到图像外在因素影响如扫描参数、图像质量等,降低识别率,未来对OCR技术的研究升级还有待完善和提高。关键词OCR技术;数字化;扫描参数;识别率G2文献标识码A1674-6708(2019)235-0159-02随着数字化时代的趋势,越来越多的图书馆致力于图书的信息化建设来实现信息资源的整合,以保证图书馆的生存和发展。通过将馆藏文献如期刊、报纸、图书等进行数字化加工,形成电子资源数据库,实现数字图书馆的功能。在图书数字化加工领域,OCR技术发挥了作用,最大限度地降低了人工著录时发生问题的概率,既节约成本,又提高效率。本文就以上海图书馆报刊数字化加工项目为例,探讨OCR技术在报刊加工中的应用及难点和解决方法。1OCR技术概念特点何为OCR?OCR的全称是OpticalCharacterRecognition,意为光学字符识别,是指利用电子设备查看印刷体字符,以检测亮暗方式来确定字符轮廓,通过字符识别方式将其转换成计算机文字,整个过程分为图像处理与文字识别两大步骤。图像处理,即对通过扫描仪存储到计算机的图像进行预处理,处理工作包括图片降噪、灰度值、二值化、倾斜矫正、文字切分等步骤。图像预处理过后,后期将通过文字特征来识别提取文字。2我国OCR技术的发展现状OCR是由德国科学家Tausheck于1929年提出来的,随后美国科学家Handel也提出了文字识别的想法,随后世界各国就开始了文字识别的研究。我国OCR技术起步较晚,70年代初才开始研究数字、字母、符号的识别,90年代清华大学推出了首套中文OCR产品,这一成果标志了国内在OCR技术研究领域有了质的飞跃。随着技术不断地推陈出新,目前国内已有多家大型公司致力于OCR技术的研究发展,像汉王科技公司、点通数据公司、合合信息技术公司等。从单一的印刷体字体识别,到多字体简繁混合、中英文混合识别,到现在各种识别系统的推出,OCR技术已經逐渐成熟并融入了各行各业。3OCR技术的应用及流程为顺应数字化时代的潮流,上海图书馆致力于图书的数字化加工工作,从最初的印刷月刊到网络平台一体化,每年数字化加工处理的期刊文献达500万条,创办的《全国报刊索引》亦是知名信息服务品牌,提供期刊、报纸、特辑资源数据库,包括《晚清期刊全文数据库》、《字林洋行中英文报全文纸数据库》、《现刊索引数据库》等。以《现刊索引数据库》为例,建立一个索引篇名数据库需要的信息包括期刊的期刊名、年卷期、题名、页码、作者、单位、分类号、主题词、摘要等。假设人工著录信息必须要大量的人力物力财力,且非常容易出错,比如录入错字,错行,甚至错篇等。使用OCR技术著录信息,就可以大大节省时间和成本,以下是OCR技术在实际运用中的大致流程,如图1。1)图像扫描输入。用扫描仪把期刊整本输入进计算机,为确保存储的图像质量及后续的识别工作,在扫描过程中,设备参数至关重要,包括色彩模式、分辨率、扫描阈值、亮度、对比度、保存格式等。2)图像预处理。扫描的时候由于不同纸张的厚薄度、光滑度、印刷质量等情况会出现图像模糊、畸变、断笔、粘连、倾斜等问题,所以需对其进行预处理,可使用Photoshop或其他工具,处理包括降噪、灰度化、二值化、去黑边、去底色等,如此一来可减少后期文字识别时遇到字迹模糊不清楚等问题。3)图像版面分析。图像版面分析即识别图像的区域属性,是横排文字还是竖排文字,表格还是图片、规则版面还是不规则版面等。4)文字切分。分为自动切分与人工切分。自动切分是计算机通过对图像的初步识别,按照字符每一行的上界限、下界限、每个字符的左右边界将文字自动切割成独立的个体。人工切分即在自动切分的基础上对完成切分的文字进行校对,在切割有误的地方重新切分,保证单词、词组、句子的完整性。5)文字特征识别。因为每个文字都有其固定的特征,根据特征对文字进行识别,通过特殊特征提取,如笔画位置、交叉点数等结构特征,就可以得到字符。6)文字比对识别。初步得到的字符通过对比文字数据库,可以得到文字...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?