PDF阅读器的设计与实现被引量：10

Design and implementation of PDF reader

下载PDF

导出

摘要为有效提取PDF(portable document format)文件中的文字、图片、图形信息,提出了包含文件预处理、显示预处理、功能扩展、显示4个单元的PDF阅读器的实现模型。基于PDF文件结构特点,提出了忽略次要信息定位关键位置的解析思路。在此基础上,针对FlateDecode、DCTDecode和CCITTFaxDecode这3种过滤器处理的数据流,给出了详细的解决方案,然后对PDF页面内容进行两次解析,设计相应的文字图形等数据结构保存结果,最后对数据利用和功能扩展进行了讨论。通过实验结果表明,该模型能较好地实现PDF信息提取和显示,有利于PDF在中文信息处理领域中的进一步开发利用。 To extract the text,images and graphical information from PDF file validly,an implementation model including four units（file pretreatment,display pretreatment,function extension and display） is raised.Based on the structure of PDF file,a solution of ignoring secondary message and positioning key information is put forward.On this basis,a solution to the data stream processed by FlateDecode,DCTDecode and CCITTFaxDecode filters is presented.After analyzed PDF pages twice,corresponding data structure of text and graphical are designed to record the results.At last the data utilization and function extension are discussed.The model can implement the extraction and display of information in PDF file well by experimental comparison,and it will benefit the further deve-lopment of PDF in the field of Chinese information processing.

作者李强刘时进

机构地区华中师范大学物理科学与技术学院

出处《计算机工程与设计》 CSCD 北大核心 2010年第7期1635-1638,共4页 Computer Engineering and Design

关键词可移植文档格式阅读器文件解析图像提取信息处理 PDF reader file parse image extraction information processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1ISO 32000-1:2008,Document management-Portable document format-Part 1:PDF 1.7[S]. 被引量：1
2李德华.利用方正小样与PDF文件的无缝对接实现远程校对[J].编辑学报,2008,20(6):545-546. 被引量：11
3张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009(2):102-106. 被引量：10
4陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
5李贵林,李建中,杨艳.用Plug-in实现对PDF文件的信息提取[J].计算机应用,2003,23(2):110-112. 被引量：16
6郭文强,赵玉章,韩莉英.面向PDF文档的安全电子邮件系统[J].计算机应用研究,2007,24(2):151-154. 被引量：2
7Adobe Systems Inc.PDF reference version 1.7 (6thEdition)[EB/ OL].htt://www.adobe.com/devnet/acrobat/pdfs/PDF32000_2008.pdf,2009-01-17. 被引量：1
8陈云榕,刘立柱,叶晗.PDF文档中JPEG图像的自动提取技术研究[J].信息工程大学学报,2007,8(2):213-216. 被引量：2
9Adobe Developers Association.TIFF revision 6.0.[EB/OL].http://www.adobe.com/Support/TechNotes.html,2008-12-08. 被引量：1
10王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8

二级参考文献40

1何忠平,张爱筠,施伟祥.一种基于Java的PDF文件的生成方法[J].应用科技,2004,31(9):8-9. 被引量：1
2葛一兵,余智华.基于XML的PDF文档内容与结构的表示的实现[J].计算机工程与应用,2004,40(14):120-122. 被引量：7
3王燕萍,臧庆军,辛明红,向政,刘永新.用Adobe Acrobat将北大方正大样文件制成作者校样的新方法[J].编辑学报,2004,16(5):354-354. 被引量：7
4郑河荣,冯晓斐,熊丽荣,王天舟.基于Reed-Solomon算法的PDF417码纠错研究[J].计算机工程与设计,2004,25(11):1897-1899. 被引量：4
5卢正鼎,廖振松.Rijndael算法的研究[J].计算机工程与科学,2005,27(6):72-74. 被引量：10
6田学军.PDF文件格式及其转化方法探讨[J].荆门职业技术学院学报,2005,20(3):30-32. 被引量：11
7陶冶,慕春棣.嵌入式系统中PDF格式的高效压缩算法[J].计算机工程,2005,31(13):72-74. 被引量：1
8徐正全,杨志云,李伟,陈琳.数字视频加密技术发展现状及展望[J].武汉大学学报（信息科学版）,2005,30(7):570-574. 被引量：9
9陈铁英,陈华,刘瑜.基于三层次的数据库加密应用系统[J].华中科技大学学报（自然科学版）,2005,33(7):41-43. 被引量：18
10顾兆军,张俊.PDF文件链接信息提取与修改[J].计算机工程,2005,31(B07):187-188. 被引量：3

共引文献46

1周国祥,吴自文.Acrobat插件在PDF安全中的研究与应用[J].计算机研究与发展,2010,47(S1):327-331.
2黄崇亚,张武宁.期刊网络采编办公系统在编辑实践中的应用分析[J].科协论坛（下半月）,2009(9):158-159. 被引量：5
3顾兆军,张俊.PDF文件链接信息提取与修改[J].计算机工程,2005,31(B07):187-188. 被引量：3
4王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
5陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
6刘平,廖兆存,于俊清.科技文档对象在标签PDF中的表示研究[J].计算机工程与设计,2007,28(13):3198-3200.
7周志新.方正书版10．0大样文件免费生成PDF文件的方法[J].中国科技期刊研究,2010,21(1):71-73. 被引量：8
8褚纪红,云宪明,左宏良.一种实现PDF文档加密的方法[J].情报杂志,2009,28(B12):168-169.
9欧阳辉,禄乐滨.基于SVM的论文元数据抽取方法研究[J].电子设计工程,2010,18(5):4-7. 被引量：6
10邵小东,崔伟宏.基于PDF规范的地理信息系统架构设计[J].物探化探计算技术,2010,32(4):429-432. 被引量：1

同被引文献71

1刘真,石教英,彭浩宇,秦爱红.基于PC集群并行图形绘制系统综述[J].系统仿真学报,2006,18(z1):70-72. 被引量：11
2郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4
3葛一兵,余智华.基于XML的PDF文档内容与结构的表示的实现[J].计算机工程与应用,2004,40(14):120-122. 被引量：7
4谢谦,吴健,孙玉芳.X Window核心系统的民文支持[J].中文信息学报,2005,19(4):97-104. 被引量：6
5宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
6王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
7孙传庆,朱正平,王秀丽.基于WEB的PDF格式输出实现[J].甘肃科技,2007,23(1):80-81. 被引量：2
8陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007(2):18-23. 被引量：9
9张兴亮,芮建武,谢谦,程伟,吴健.藏文编码字符集的扩充集在Linux上的实现[J].中文信息学报,2007,21(2):122-128. 被引量：5
10陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12

引证文献10

1王晓娟,谭建龙,刘燕兵,刘金刚.基于自动机理论的PDF文本内容抽取[J].计算机应用,2012,32(9):2491-2495. 被引量：8
2李树霞.农业科技核心期刊网站建设及OA出版调查研究[J].中国编辑,2013(5):52-56. 被引量：5
3龙珑,邓伟,覃晓.绿色网络PDF提取系统[J].计算机技术与发展,2014,24(1):204-207. 被引量：1
4罗明宇,付燕平,刘其军,归强.PDF集群并行解析显示技术研究[J].计算机技术与发展,2014,24(6):243-246. 被引量：2
5林青,李健.PDF文档HTML化中文本重排问题研究[J].电脑与信息技术,2014,22(3):27-30.
6昌磊,陆阳,吴雷.PDF文档的跨终端发布技术[J].计算机工程与应用,2014,50(22):158-162.
7牛永洁,薛苏琴.基于PDFBox抽取学术论文信息的实现[J].计算机技术与发展,2014,24(12):61-63. 被引量：11
8童英华,耿生玲.基于ARM的嵌入式藏文电子阅读器的设计与实现[J].电子设计工程,2016,24(1):138-140.
9陈卓,张荣,郭立君,黄洋.PDF电子签章控件关键技术研究与实现[J].移动通信,2019,43(5):85-91. 被引量：4
10师子源,李成,王明飞.文档一致性测试系统的研究与设计[J].北京印刷学院学报,2022,30(3):56-60.

二级引证文献30

1王向东,金玉玕.石炭纪年代地层学研究概况[J].地层学杂志,2000,24(2):90-98. 被引量：27
2龙珑,邓伟,覃晓.绿色网络PDF提取系统[J].计算机技术与发展,2014,24(1):204-207. 被引量：1
3何振宇.基于自动机理论的自动循迹搜索目标算法[J].信息技术,2014,38(12):152-154.
4吴其林,汪世义.面向应用型人才能力培养的编译原理教学内容剪裁研究[J].巢湖学院学报,2014,16(6):146-150. 被引量：1
5牛永洁,薛苏琴.基于PDFBox抽取学术论文信息的实现[J].计算机技术与发展,2014,24(12):61-63. 被引量：11
6王明华,沙勤,顾凯,程启厚.学术期刊独立网站网络传播环境特征及其品牌拓展[J].编辑学报,2015,27(2):112-115. 被引量：22
7娄景艺,屈晓旭.一种基于PDF动态标注的远程维修指导系统[J].微型机与应用,2015,34(11):89-92.
8胡荣磊,左珮良,蒋华.基于JavaWeb的PDF安全编辑系统的设计与实现[J].北京电子科技学院学报,2015,23(2):68-73. 被引量：1
9徐琳君,陈国荣,程彬彬,逯连静.“互联网+”时代农业核心期刊网站的应用现状及提升策略[J].编辑学报,2018,30(S1):92-94. 被引量：7
10陈海燕,任银玲,刘毓侠.数字化背景下农业科技期刊品牌建设途径的研究[J].农业图书情报学刊,2016,28(5):141-144. 被引量：7

1陈晓军.WPS文字让您一键输出PDF文件[J].电脑知识与技术（经验技巧）,2012(1):41-42.
2dream.PDF搜索Reader更专业[J].电脑迷,2012(2):78-78.
3Windows 8技巧隐藏小工具大揭秘[J].计算机与网络,2011,37(11):22-23.
4魏宏安,陈忠辉.电纸书PDF阅读器的设计与实现[J].福州大学学报（自然科学版）,2012,40(6):754-758. 被引量：1
5巫华芳.基于ActiveX控件的PDF文档阅读器的设计与实现[J].科技广场,2007(1):151-152.
6只需一招——PDF变成纯文本[J].桌面黄页,2005(12):34-34.
7王利生.选款简单实用的PDF阅读器[J].电脑爱好者,2013(21):73-73.
8经典阅读器的经典死锁[J].程序员,2011(7):112-115.
9倚楼.不装软件云端玩转PDF[J].电脑爱好者,2016,0(1):46-47.
10杯中水.只用邮箱就能阅览文档[J].电脑爱好者（普及版）,2010(6):34-34.

计算机工程与设计

2010年第7期

浏览历史

内容加载中请稍等...

PDF阅读器的设计与实现被引量：10

参考文献10

二级参考文献40

共引文献46

同被引文献71

引证文献10

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

PDF阅读器的设计与实现 被引量：10

参考文献10

二级参考文献40

共引文献46

同被引文献71

引证文献10

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

PDF阅读器的设计与实现被引量：10