基于特征及规则模式的学位论文元数据信息自动抽取研究被引量：1

Automatic Extraction of Metadata Information for Dissertation based on Feature and Rule Pattern

下载PDF

导出

摘要目前,在中国高校数字图书馆,学位论文数据库是重要的数字资源,然而,其元数据录入一直依赖手工完成,效率低,耗费大量的人力。针对这一问题,采用基于文档特征与规则模式匹配的方法,利用正则表达式研究学位论文元数据的自动抽取,该算法包括信息定位和元数据抽取两个模块。实验数据表明,该算法具有较高的准确率和召回率以及综合性能指数F。 Currently, in our digital library, dissertations database is one important of digital resources. However, metadata en- try has relied on manual to complete, which is low efficiency, and cost a lot of manpower. For this problem, our applied the method of document features and pattern matching, and made use of regular expressions to research automatic extraction of dissertation metadata. The algorithm includes two modules of information field location and metadata extraction. The experimental data shows that the algorithm has higher precision and recall, and overall performance index F.

作者陈淑平

机构地区燕山大学图书馆

出处《农业图书情报学刊》 2015年第2期57-59,共3页 Journal of Library and Information Sciences in Agriculture

关键词学位论文元数据信息抽取正则表达式模式匹配 Dissertation Metadata Information extraction Regular expression Pattern matching

分类号 G203 [文化科学—传播学]

引文网络
相关文献

参考文献7

1李胜利,李昌清,袁平鹏,刘英书.基于Web的电子期刊元数据信息抽取方法[J].华中科技大学学报（自然科学版）,2007,35(12):13-15. 被引量：7
2北大方正集团有限公司.北京方正阿帕比技术有限公司.一种基于文字流的文章元数据信息自动抽取方法及系统:中国,CN200810119832.x[P].2010-3-17. 被引量：1
3钱建立,吴广茂,蒋路.基于特征相似度的科技论文元数据提取算法研究[J].微电子学与计算机,2008,25(8):129-132. 被引量：9
4Liger F,Queen C M,Wilton P.C#字符串和正则表达式参考手册[M].刘乐亭,译.北京:清华大学出版社,2003. 被引量：6
5Ben Forta,杨涛,等.正则表达式必知必会[M].北京:人民邮电出版社,2007. 被引量：2
6曹俊,万晓云,廖顺宝.基于正则表达式批量提取CNKI文献元数据技术探究[J].图书情报工作,2010,54(19):111-114. 被引量：3
7李朝光,张铭,邓志鸿,杨冬青,唐世渭.论文元数据信息的自动抽取[J].计算机工程与应用,2002,38(21):189-191. 被引量：38

二级参考文献20

1孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
2张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量：6
3李跃进,赵晶,林鸿飞.基于Internet的军事演习信息抽取系统[J].计算机工程与应用,2006,42(14):214-218. 被引量：6
4郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
5胡立辉,张健,陈曦.基于正则式的CNKI网页全自动包装器[J].长沙理工大学学报（自然科学版）,2006,3(2):58-63. 被引量：3
6屠彤辉.期刊论文的元数据描述探析[J].上海高校图书情报工作研究,2006,16(4):30-34. 被引量：3
7李姜.基于DOM的评论发现及抽取模型研究[J].计算机工程与设计,2007,28(9):2150-2153. 被引量：5
8[1]Garcia-Molina H,Hammer J,Ireland K,et al.Integrating and Accessing Heterogeneous Information Sources in TSIMMIS[C]∥Proceedings of the AAAI Symposium on Information Gathering.San Francisco:Stanford,1995:61-64. 被引量：1
9[2]ARANAUD S,FABIEN A.Building light-weight wrappers for legacy Web data-sources using W4F[C]∥Proceedings of 25th VLDB Conference.Scotland:Edinburgh,1999:738-741. 被引量：1
10[3]Laender A H F,Ribeiro-Neto B A,da Silva A S,et al.A Brief Survey of Web Data Extraction Tools[J].ACM SIGMOD Record,2002,31(2):84-93. 被引量：1

共引文献56

1周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
2宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
3严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
4郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
5郭志鑫,金海,陈汉华.SemreX中基于语义的文档参考文献元数据信息提取[J].计算机研究与发展,2006,43(8):1368-1374. 被引量：8
6李小斌.一种从HTML页面到RDF文档的转化方法[J].电脑与信息技术,2006,14(4):24-26. 被引量：1
7邱清盈,郑国民,冯培恩,武建伟.基于正则表达式的专利信息提取方法研究[J].中国机械工程,2007,18(19):2326-2329. 被引量：15
8黄永文,李广建.数字图书馆中的ETL应用研究综述[J].现代图书情报技术,2007(12):1-5. 被引量：6
9曾苏,马建霞,张秀秀.元数据自动抽取研究新进展[J].现代图书情报技术,2008(4):7-11. 被引量：10
10张诚,郝东白,龙海,黄皓.基于正则表达式的WebMail监控与审计[J].计算机工程与设计,2008,29(13):3277-3279. 被引量：3

同被引文献6

1周法国,王映龙,杨炳儒,宋泽锋.非结构化信息抽取关键技术研究探讨[J].计算机工程与应用,2009,45(14):1-6. 被引量：10
2徐荣华.基于元数据仓储的资源整合应用[J].图书馆杂志,2012,31(4):67-73. 被引量：24
3梁蕙玮,萨蕾.数字图书馆推广工程面向数字资源整合的元数据仓储构建[J].国家图书馆学刊,2012,21(5):27-32. 被引量：16
4张宏伟,齐明明,史磊,李杨.基于元数据仓储的统一检索系统研究[J].图书馆学刊,2014,36(9):121-123. 被引量：2
5肖希明,刘巧园.基于元数据仓储的公共数字文化资源整合研究[J].图书馆,2015(9):17-21. 被引量：14
6黎伟健,胡斌,李威,唐健玲,肖西西.大数据视角下的非结构化文本挖掘分析方法[J].新媒体研究,2021,7(8):8-10. 被引量：6

引证文献1

1张学青.非结构化数字资源元数据的抽取方式研究[J].江苏科技信息,2022,39(27):29-32. 被引量：2

二级引证文献2

1胡铭,陈竟.大数据法律监督建模的定位、流程与方法[J].北方法学,2024,18(1):5-19. 被引量：5
2胡晨,蔡博阳,项文新.开发区档案数据归集平台技术架构设计[J].兰台世界,2024(2):62-68.

1谷俊.基于互联网的信息采集系统的设计与实现[J].情报探索,2008(12):65-67.
2郑力,王松俊,朱鸽昀,高艳玲.情报学研究生学位论文选题发展趋势研究[J].情报理论与实践,2002,25(3):173-175.
3徐延华,李静.正则表达式在控制MARC数据质量中的应用研究[J].创新科技,2014,0(20):44-46.
4曾红英.浅谈基于正则表达式的参考文献格式验证技术[J].农业图书情报学刊,2014,26(8):138-140. 被引量：2
5孙乐,方自金.基于互联网的信息采集系统的设计与实现[J].河北大学成人教育学院学报,2010,12(4):126-127.
6程冲,黄水清.利用正则表达式解析新闻网页的算法研究[J].农业图书情报学刊,2005,17(4):5-8. 被引量：7
7李国君.第13届组合模式匹配国际会议[J].国际学术动态,2005(4):45-45.
8主流新闻客户端需坚守“传播定力”[J].声屏世界,2016,0(4):69-69.
9陈彬.新媒体竞争中报纸的舆论引导[J].大江周刊（论坛）,2012(2):13-13.
10韩立新,谢立.一种从WEB上抽取信息的方法[J].情报学报,2004,23(1):45-51. 被引量：1

农业图书情报学刊

2015年第2期

浏览历史

内容加载中请稍等...

基于特征及规则模式的学位论文元数据信息自动抽取研究被引量：1

参考文献7

二级参考文献20

共引文献56

同被引文献6

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于特征及规则模式的学位论文元数据信息自动抽取研究 被引量：1

参考文献7

二级参考文献20

共引文献56

同被引文献6

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于特征及规则模式的学位论文元数据信息自动抽取研究被引量：1