基于膨胀算法的面分析技术

基于膨胀算法的版面分析技术基于膨胀算法的版面分析技术郊延辉黄剑华唐降龙(哈尔滨工业大学计算机学院,哈尔滨150001)E-mail:gyh1978C163摘要论文提山了基于数学形态学的版面分析方法.该方法是以自底向上为主.同时结合了数学形态学的思想.论丈提出的方法.利用数学形态学的1"3胀运算和搜索算法,实现对复杂版面进行快速准确的分析.论文以名片版面图像作为A'试样本,进行版面分析,取得了预期的效果.关健词版面分析数学形态学搜索算法空童编县1002-8331-(2003)34-0223-03文献标识码A中圈分类号TP391DocumentLayoutAnalysisBasedonDilationAlgorithmGuoYanhuiHuang激anhtutTangXianglong(ComputerScienceDepartment,HarbinInstituteofTechnology,Harbin150001)Abstract:Thispaperpresentsamethodfordocumentlayoutanalysisbasedonmathematicalmorphology.Thismethodmostlyisbasedonabottom-upapproach,italsobenefitsfromtheconceptofmathematicalmorphology.Bysomemor-phologicaloperationsandsearchalgorithm,theproposedmethodcananalyzeacomplexdocumentlayoutquicklyandaccurately.Theapproachhasbeentestedinarealapplicationforbusinesscardandgetsagoodresult.Keywords:DocumentLayoutAnalysis,Mathematicalmorphology,SearchAlgorithm1引言版面分析是印刷体汉字识别系统的重要组成部分,与字符识别具有同等重要的地位.它是利用计算机自动地对印刷体文档图像进行分析,提取出文本,图像,图形,表格等区城,并确定其逻辑关系m.这就使系统用户避免了手工画框标识文本块的素琐操作,减少人机交互的时间,从而提高识别系统的自动化程度和愉入效率.作为汉字识别的预处理过程,正确合理的版面分析结果是后续版面识别工作的必要条件.因此,研究能够适应各种中文版面特点的通用版面分析方法,具有十分重要的意义.目前版面分析有三个主要方法:(1)自顶向下的方法〔"I(ToptoDownMethod)这种方法是采用某种算法将整篇文本进行递归分割,直至得到版面块的分布结果为止.(2)自底向上的方法t',',q(BottomtoUpMethod)这种方法则恰恰相反,它是一个合并的过程,先在文档图像中标示出全部小的组件,再把这些组件归并成字符,进而组成文本行,段落块等,在合并的过程中得到版面结构.由于计算机运算速度的飞速发展,自底向上法的处理时间可以减少到应用的程度.因此自底向上法成为目前流行的版面分析思想.而文中所采用的方案就是以自底向上分析为主,并引入数学形态学中的膨胀运算来进行版面分析.以前的自底向上分析方法,主要是针对版面图像中的黑象索点进行连接域搜索不可避免地使计算量大大增大,速度很慢,而文中提出的方法先对版面图像进行数学形态学中的膨胀运算,不是以点为单位进行连接区域搜素,而是以一个黑象素块(如nxn的区域)为单位,再利用搜索算法进行连接域搜索,从而完成对版面图像的分析.该算法已应用到名片版面分析和银行票据版面分析上.比较明显地提高了搜索速度和分析正确率.2基于膨胀算法的版面分析方法在进行版面分析的时候,采用自底向上的方法比较准确,适合一些比较复杂的版面,而由于字符,文本行之间有间隙,从而使各个连通区域比较琐碎,这样就大大地增加了运算量.以前的版面分析技术采用"自底向上"的方法,是直接对版面图像上的黑点进行搜索,获得连通区域,这种方式容易受噪声的干扰,运算速度比较慢,并且给后面的连通区域合并带来很大的困难.论文借鉴图像处理中的方法,把数学形态学中的膨胀运算运用到版面分析中.为了使各个连通域"变大",从而提高搜素速度,降低合并的工作量,这一点也是文中的版面分析算法与以前算法的不同之处.以前的版面分析方法是先搜索出较小的区域,然后进行合并合并的计算量比较大,这里提出的算法,先通过对版面图像进行膨胀运算,合并各个空隙比较小的黑色区域,然后再进行区域搜索,这样就大大降低了区域合并的计算量,提高了版面分析的速度.算法的具体过程为:步1:膨胀运算和膨胀模板的选取根据中文面的一些特点,如宇符之间有较小的空隙,属性块(即文本块,表格块,图形块,图片块等)之间有较大的空隙,属性块的类型比较多等特点,该算法与以往的算法仅把每一个黑象素作为最小的基本连通区域不同,而...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?