-
题名基于图像统计学聚类的非规则表格处理算法
被引量:1
- 1
-
-
作者
吕志刚
李亮亮
王洪喜
王鹏
李晓艳
-
机构
西安工业大学机电工程学院
西安工业大学电子信息工程学院
-
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2022年第6期1755-1766,共12页
-
基金
陕西省科技厅重点研发计划资助项目(2019GY-065)
西安市科技计划资助项目(2020KJRC0033)
西安市未央区科技计划资助项目(201923)。
-
文摘
机械表格类档案广泛存在于生产、制造等领域,包括机械工艺卡、零部件测试报表等。纸质版机械表格类档案数字化,以及对表格中的表格、文字等有效元素进行提取,是有效管理机械类产品的关键内容。现有表格有效元素提取算法成果较为丰富,但对存在纵向框线为虚线、纵向框线错位、连续跨页等现象的非规则表格处理效果不佳。针对纵向直线不连续、框线错位的表格,提出一种图像统计学聚类表格识别分割算法,提高了算法的自适应能力及鲁棒性;然后针对表格跨页问题提出一种基于局部小区域内像素占比的跨页拼接算法,最终实现了机械产品中非规则表格的数字化复现。对现有的147张存在非规则现象的机械零部件测试报表进行数字化(分辨率为75 dpi~400 dpi)后,利用所提算法进行迭代测试,非规则表格的定位分割拼接准确率可达97.32%。实验证明了该方法的有效性。
-
关键词
投影统计
聚类
表格交点提取
跨页拼接
数字化复现
-
Keywords
projection statistics
clustering
table-node extraction
cross-page splicing
digital reproduction
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-