期刊文献+

朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究 被引量:9

Semantic Annotation of Species Description Text in Chinese by Combining Na?ve Bayes Algorithm with Bootstrapping Method
原文传递
导出
摘要 【目的】降低中文物种描述文本语义标注的学习成本。【方法】设计基于Bootstrapping的弱监督学习方法,以少量数据为基础,迭代执行学习和标注过程。在迭代过程中,利用置信度最高的标注数据扩充知识库,提升标注能力。【结果】运用15 041条数据测试算法效率,F-value的平均值达到0.911 2。【局限】对过于稀疏的数据,标注效率相对较低。【结论】本研究设计的方法不仅有效降低系统学习对训练数据规模的要求,而且可提高标注效率。 [Objective] To reduce cost of machine learning by declining the size of learning dataset in species description text annotation in Chinese. [Methods] Based on Bootstrapping method, design a weakly supervised learning method which performs learning and tagging processes iteratively with a small amount of data at the beginning. The iteration process promotes annotation ability continuously by expanding the knowledge base. [Results] The average score of F-value runs up to 0.911 2 on a dataset with 15 041 sentences. [Limitations] The annotation efficiency might be relatively low on sparse data. [Conclusions] The experimental data shows that the algorithm in this study not only declines the dataset size requirement of machine learning dramatically, but also increases annotation efficiency.
出处 《现代图书情报技术》 CSSCI 北大核心 2014年第5期83-89,共7页 New Technology of Library and Information Service
基金 国家社会科学基金一般项目"基于无监督语义标注的网络中文学术信息抽取研究"(项目编号:11BTQ024)的研究成果之一
关键词 Bootstrapping方法 朴素贝叶斯 物种描述文本 语义标注 Bootstrapping method Naive Bayes Species description text Semantic annotation
  • 相关文献

参考文献10

二级参考文献42

  • 1罗贝,吴洁,曹存根,邵志清.从文本中获取植物知识方法的研究[J].计算机科学,2005,32(10):6-13. 被引量:13
  • 2郑家恒,菅小艳.农作物信息抽取系统的设计与实现[J].计算机工程,2006,32(7):197-198. 被引量:5
  • 3中国植物志编辑委员会.中国植物志[M].北京:科学出版社,1959. 被引量:4
  • 4Bemers-Lee T. Semantic Web-annotation Tools [EB/OL]. [2009-08 11]. http,//annotation, sernanticweb, org/tools/. 被引量:1
  • 5Sebastiani F. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys, 2002, 34(1): 1- 47. 被引量:1
  • 6Abney S. Bootstrapping[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA: [s. n. ], 2002. 被引量:1
  • 7Nnublauch H. travel, owl [EB/OL]. [ 2009-09-20]. http:// gaia. fdi. ucm. es/ontologies/travel, owl. 被引量:1
  • 8Widmer G, Kubat M.Leaming in the presence of concept drift and hidden contexts [J].Machine Learning, 1996,23 ( 1 ) : 69-101. 被引量:1
  • 9Hulten G, Spencer L, Domingos P.Mining time-changing data streams[C]//Proc of the Int'l Conf on Knowledge Discovery and Data Mining.New York:ACM Press,2001:97-106. 被引量:1
  • 10Wang Hai-xun,Han Jia-wei.Mining concept-drifting data streams using ensemble classifiers[C]//Proc of the Int'l Conf on Knowl- edge Discovery and Data Mining.New York:ACM Press,2003. 被引量:1

共引文献55

同被引文献108

引证文献9

二级引证文献46

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部