期刊文献+

一种流式文档逻辑结构重建方法 被引量:2

A method of logical structure reconstruction for flow documents
下载PDF
导出
摘要 提出了一种基于段落角色识别的流式文档逻辑结构重建方法。借助格式信息判断段落角色,基于XML来描述文档的章节逻辑结构和内容;面向OOXML实现了一个原型系统,能够自动地将标准文档转换为带有结构逻辑信息的XML文档。通过实验验证了方案的可行性,从而为后期文档数据挖掘提供了有效基础。 A method of reconstructing the logical structure of flow document based on the passage character recognition is proposed. Based on XML,the logical structure and content of the document are described. An OOXML oriented prototype system is implemented. The standard document can be automatically converted to XML documents with the structure of the logic of information,which verifies the feasibility of the scheme,thus providing an effective basis for data mining in the later stage.
作者 赵雪 侯霞 ZHAO Xue HOU Xia(Computer School, Beijing Information Science & Technology University, Beijing 100101, China)
出处 《北京信息科技大学学报(自然科学版)》 2017年第5期56-61,66,共7页 Journal of Beijing Information Science and Technology University
基金 北京市属高等学校高层次人才引进与培养计划项目(CIT&TCD201504056)
关键词 WORD文档 OOXML 逻辑重构 段落角色 word document OOXML logical reconstruction paragraph role
  • 相关文献

参考文献6

二级参考文献35

  • 1陈国胜,何宗明.基于XML技术的Word文档录入及格式检测系统设计[J].计算机时代,2009(4):35-37. 被引量:7
  • 2李宁.XML与信息共享[J].计算机应用与软件,2004,21(10):20-21. 被引量:14
  • 3李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量:114
  • 4ISO/IEC JTC1.ISO/IEC 26300:2006,Information technology—Open DocumentFormat for Office Applications(OpenDocument)v1.0[S/OL].Geneva:ISO/IEC,2006.(2006-11-30)[2010-11-22].http:∥www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=43485. 被引量:1
  • 5ISO/IEC JTC1.ISO/IEC 29500:2008,Information technology—Office Open XML fileformats[S/OL].Geneva:ISO/IEC,2008.(2008-11-15)[2010-11-22].http:∥www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=51463. 被引量:1
  • 6全国信息技术标准化技术委员会.GB/T20916—2007,中文办公软件文档格式规范[S].北京:中国标准出版社,2007. 被引量:1
  • 7ISO 32000-1:2008,Document management—Portable document format—Part 1:PDF 1.7[S].Geneva:ISO/IEC,2008. 被引量:1
  • 8Apache ODF Toolkit(incubating)[EB/OL].(2012-01-14)[2012-05-08].http:∥incubator.apache.org/odftoolkit/. 被引量:1
  • 9Independentsoft.ODF.NET[EB/OL].[2012-05-08].http:∥www.independentsoft.com/odf/index.html. 被引量:1
  • 10Microsoft.Open XML SDK 2.0 for MicrosoftOffice[EB/OL].[2012-05-08].http:∥www.microsoft.com/en-us/download/details.aspx?id=5124#top. 被引量:1

共引文献11

同被引文献11

引证文献2

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部