期刊文献+

PDF阅读器的设计与实现 被引量:10

Design and implementation of PDF reader
下载PDF
导出
摘要 为有效提取PDF(portable document format)文件中的文字、图片、图形信息,提出了包含文件预处理、显示预处理、功能扩展、显示4个单元的PDF阅读器的实现模型。基于PDF文件结构特点,提出了忽略次要信息定位关键位置的解析思路。在此基础上,针对FlateDecode、DCTDecode和CCITTFaxDecode这3种过滤器处理的数据流,给出了详细的解决方案,然后对PDF页面内容进行两次解析,设计相应的文字图形等数据结构保存结果,最后对数据利用和功能扩展进行了讨论。通过实验结果表明,该模型能较好地实现PDF信息提取和显示,有利于PDF在中文信息处理领域中的进一步开发利用。 To extract the text,images and graphical information from PDF file validly,an implementation model including four units(file pretreatment,display pretreatment,function extension and display) is raised.Based on the structure of PDF file,a solution of ignoring secondary message and positioning key information is put forward.On this basis,a solution to the data stream processed by FlateDecode,DCTDecode and CCITTFaxDecode filters is presented.After analyzed PDF pages twice,corresponding data structure of text and graphical are designed to record the results.At last the data utilization and function extension are discussed.The model can implement the extraction and display of information in PDF file well by experimental comparison,and it will benefit the further deve-lopment of PDF in the field of Chinese information processing.
作者 李强 刘时进
出处 《计算机工程与设计》 CSCD 北大核心 2010年第7期1635-1638,共4页 Computer Engineering and Design
关键词 可移植文档格式 阅读器 文件解析 图像提取 信息处理 PDF reader file parse image extraction information processing
  • 相关文献

参考文献10

二级参考文献40

共引文献46

同被引文献71

引证文献10

二级引证文献30

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部