朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究被引量：9

Semantic Annotation of Species Description Text in Chinese by Combining Na?ve Bayes Algorithm with Bootstrapping Method

原文传递

导出

摘要【目的】降低中文物种描述文本语义标注的学习成本。【方法】设计基于Bootstrapping的弱监督学习方法,以少量数据为基础,迭代执行学习和标注过程。在迭代过程中,利用置信度最高的标注数据扩充知识库,提升标注能力。【结果】运用15 041条数据测试算法效率,F-value的平均值达到0.911 2。【局限】对过于稀疏的数据,标注效率相对较低。【结论】本研究设计的方法不仅有效降低系统学习对训练数据规模的要求,而且可提高标注效率。 [Objective] To reduce cost of machine learning by declining the size of learning dataset in species description text annotation in Chinese. [Methods] Based on Bootstrapping method, design a weakly supervised learning method which performs learning and tagging processes iteratively with a small amount of data at the beginning. The iteration process promotes annotation ability continuously by expanding the knowledge base. [Results] The average score of F-value runs up to 0.911 2 on a dataset with 15 041 sentences. [Limitations] The annotation efficiency might be relatively low on sparse data. [Conclusions] The experimental data shows that the algorithm in this study not only declines the dataset size requirement of machine learning dramatically, but also increases annotation efficiency.

作者段宇锋朱雯晶陈巧崔红

机构地区华东师范大学商学院上海图书馆上海科学技术情报研究所美国亚利桑那大学信息资源与图书馆学学院

出处《现代图书情报技术》 CSSCI 北大核心 2014年第5期83-89,共7页 New Technology of Library and Information Service

基金国家社会科学基金一般项目"基于无监督语义标注的网络中文学术信息抽取研究"(项目编号:11BTQ024)的研究成果之一

关键词 Bootstrapping方法朴素贝叶斯物种描述文本语义标注 Bootstrapping method Naive Bayes Species description text Semantic annotation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1段宇锋,黑珍珍,鞠菲,崔红.基于自主学习规则的中文物种描述文本的语义标注研究[J].现代图书情报技术,2012(5):41-47. 被引量：4
2段宇锋,黑珍珍,鞠菲,崔红.基于贝叶斯分类的中文物种描述文本的语义标注研究[J].情报学报,2012,31(8):805-812. 被引量：3
3中国植物志编辑委员会.中国植物志[M].北京:科学出版社,1959. 被引量：4
4Cui H. The XML Schema for MARTT[OL].[2012-08-08]. http://publish.uwo.ca/-hcui7/research/xmlschema.xsd. 被引量：1
5Michie D,Spiegelhalter D J,Taylor C C.Machine Learning, Neural and Statistical Classification[M]. New York: Ellis Horwood, 1994. 被引量：1
6罗军,高琦,王翊.基于Bootstrapping的本体标注方法[J].计算机工程,2010,36(23):85-87. 被引量：3
7琚春华,殷贤君,许翀寰.结合自助抽样的动态数据流贝叶斯分类算法[J].计算机工程与应用,2011,47(8):118-121. 被引量：3
8Sacchi L, Tucker A, Counsell S, et al. Improving Predictive Models of Glaucoma Severity by Incorporationg Quality Indicators[J]. Artificial Intelligence in Medicine, 2014, 60(2): 103-112. 被引量：1
9MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003.. 被引量：46
10Cui H. MARTT:A General Approach to Automatic Markup of Taxonomic Descriptions with XML[OL]. [2011-10-12]. http://cais-acsi.ca/proceedings/2005/cui_2005.pdf. 被引量：1

二级参考文献42

1罗贝,吴洁,曹存根,邵志清.从文本中获取植物知识方法的研究[J].计算机科学,2005,32(10):6-13. 被引量：13
2郑家恒,菅小艳.农作物信息抽取系统的设计与实现[J].计算机工程,2006,32(7):197-198. 被引量：5
3中国植物志编辑委员会.中国植物志[M].北京:科学出版社,1959. 被引量：4
4Bemers-Lee T. Semantic Web-annotation Tools [EB/OL]. [2009-08 11]. http,//annotation, sernanticweb, org/tools/. 被引量：1
5Sebastiani F. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys, 2002, 34(1): 1- 47. 被引量：1
6Abney S. Bootstrapping[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA: [s. n. ], 2002. 被引量：1
7Nnublauch H. travel, owl [EB/OL]. [ 2009-09-20]. http:// gaia. fdi. ucm. es/ontologies/travel, owl. 被引量：1
8Widmer G, Kubat M.Leaming in the presence of concept drift and hidden contexts [J].Machine Learning, 1996,23 ( 1 ) : 69-101. 被引量：1
9Hulten G, Spencer L, Domingos P.Mining time-changing data streams[C]//Proc of the Int'l Conf on Knowledge Discovery and Data Mining.New York:ACM Press,2001:97-106. 被引量：1
10Wang Hai-xun,Han Jia-wei.Mining concept-drifting data streams using ensemble classifiers[C]//Proc of the Int'l Conf on Knowl- edge Discovery and Data Mining.New York:ACM Press,2003. 被引量：1

共引文献55

1张峡,黄团华,赵晓岩.基于遗传算法进行加速器自动调束[J].强激光与粒子束,2004,16(9):1222-1224. 被引量：4
2张辉,张浩,徐征,陆剑峰.基于支持向量机的供应链伙伴企业选择方法的研究[J].计算机集成制造系统,2004,10(7):796-800. 被引量：10
3余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报（自然科学版）,2004,43(5):118-120. 被引量：24
4孙微微,刘才兴,田绪红.训练集容量对决策树分类错误率的影响研究[J].计算机工程与应用,2005,41(10):159-161. 被引量：6
5巨同升.机器学习在汉字智能拼音输入中的应用[J].山东理工大学学报（自然科学版）,2005,19(3):86-88. 被引量：1
6杨金辉,易中华,王煦法.一种基于Straight的语音焦点合成方法[J].计算机工程,2005,31(13):46-47. 被引量：3
7黄健聪,万海,郝小卫,李磊.用近邻算法预测通信量时间序列[J].计算机科学,2005,32(7):31-33. 被引量：3
8杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
9费洪晓,巩艳玲,谢文彪,倪敏.基于混合学习策略的多Agent信息过滤系统[J].计算机应用,2006,26(2):267-269. 被引量：3
10阎铁,王长江,毕雪亮,陈要辉,刘维凯.石油钻井中钻具失效的支持向量机技术[J].大庆石油学院学报,2006,30(1):70-72.

同被引文献108

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2郑家恒,菅小艳.农作物信息抽取系统的设计与实现[J].计算机工程,2006,32(7):197-198. 被引量：5
3耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
4索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
5张素香,李蕾,秦颖,钟义信.基于Boot Strapping的中文实体关系自动生成[J].微电子学与计算机,2006,23(12):15-18. 被引量：3
6王新卫,周利莉,苏大伟,史红刚.一种基于奇异值分解的视频运动分割算法[J].计算机工程与设计,2006,27(23):4453-4456. 被引量：1
7刘毅.略论网络舆情的概念、特点、表达与传播[J].理论界,2007(1):11-12. 被引量：312
8向阳,王敏,马强.基于Jena的本体构建方法研究[J].计算机工程,2007,33(14):59-61. 被引量：33
9Domingue J, Dzbor M, Motta E. Magpie: Supporting Browsing and Navigating on the Semantic Web [C]. In: Proceeding of the 9th International Conference on Intelligent User Interfaces, Funehal, Portugal. 2004:191 - 197. 被引量：1
10Handschuh S, Staab S. Authoring and Annotation of Web Pages in CREAM [C]. In: Proceeding of the llth International Conference on World Wide Web, Honolulu, Hawaii, USA. 2002: 462-473. 被引量：1

引证文献9

1许德山,李辉,张运良.文献关键词链接标引方法研究[J].现代图书情报技术,2015(9):31-37. 被引量：3
2段宇锋,黄思思.中文植物物种多样性描述文本的信息抽取研究[J].现代图书情报技术,2016(1):87-96. 被引量：4
3李薇,肖仰华,汪卫.基于中文知识图谱的人物实体识别[J].计算机工程,2017,34(3):225-231. 被引量：8
4李煜甫,黄蔚,胡国超.弱监督军事实体关系识别[J].电子设计工程,2018,26(1):74-78. 被引量：3
5孙建军,裴雷,蒋婷.面向学科领域的学术文献语义标注框架研究[J].情报学报,2018,37(11):1077-1086. 被引量：12
6王小芳,刘树林,刘洪江.融合机器学习算法在旅游推荐中的研究与实现[J].电脑知识与技术,2020,16(9):198-199.
7高雨,张倍,高倩倩,井淇,盛红旗,马桂峰,马安宁,蔡伟芹.新医改前后我国卫生总费用影响因素变化研究[J].中国卫生经济,2020,39(8):39-41. 被引量：10
8孙杰.高斯朴素贝叶斯算法在大学生成绩预测中的应用研究[J].电脑知识与技术,2021,17(20):23-26. 被引量：4
9龚韶,刘兴均.网络舆情安全监测语义识别研究综述[J].网络安全技术与应用,2019,0(7):52-57. 被引量：2

二级引证文献46

1王学锋,杨若鹏,贾明亮.基于循环神经网络的作战文书实体关系抽取[J].智能安全,2022,1(1):29-35.
2刘建华,王颖,张智雄,李传席.植物物种多样性语义知识抽取研究[J].数据分析与知识发现,2017,1(1):37-46. 被引量：1
3阳广元.国内基于本体的信息抽取研究现状与热点分析[J].图书馆理论与实践,2017,0(5):38-43. 被引量：1
4张紫玄,王雪颖,王昊.题名与关键词在文献内容揭示中的对比研究——基于农产品品牌评价领域[J].情报科学,2017,35(10):88-93. 被引量：13
5陆伟,戚越,胡潇戈,黄勇凯,程齐凯.图书馆自动问答系统的设计与实现[J].情报工程,2019,5(2):5-16. 被引量：22
6连宇江,冯磊,孙琳,樊长军,赵军亮,刘丽.基于搜索引擎的知识自我获取和自我更新能力提升途径研究[J].内蒙古科技与经济,2019,0(13):139-141. 被引量：1
7陈优敏,李长云.基于知识图谱的目标战术意图识别仿真[J].计算机仿真,2019,36(8):1-4. 被引量：11
8徐浩,朱学芳,章成志,江川.面向学术文献全文本的方法论知识抽取系统分析与设计[J].数据分析与知识发现,2019,3(10):29-36. 被引量：5
9吴一凡,薛醒思,柯学,詹先银,刘伟,张清端,何子皓,吴秉恒.基于领域本体的股票资讯新闻自动语义标注技术[J].宝鸡文理学院学报（自然科学版）,2019,39(4):66-72. 被引量：1
10刘晓玲,刘柏嵩,王洋洋,唐浩.基于深度学习的多标签生成研究进展[J].计算机科学,2020,47(3):192-199. 被引量：7

1王昌厚,王菲.使用基于模式的Bootstrapping方法抽取情感词[J].计算机工程与应用,2014,50(1):127-129. 被引量：6
2赵传君,王素格,李德玉,李欣.基于分组提升集成的跨领域文本情感分类[J].计算机研究与发展,2015,52(3):629-638. 被引量：12
3吕云云,李旸,王素格.基于BootStrapping的集成分类器的中文观点句识别方法[J].中文信息学报,2013,27(5):84-92. 被引量：8
4李林苍,刘建平,袁鲁,毕秋军,卢刚.发展数据仓库技术促进深层应用[J].油气田地面工程,2002,21(3):8-9. 被引量：1
5为满足高速增长的移动硬盘市场西部数据扩充WD Scorpio 2．5英寸硬盘产品线至SATA120G[J].电子与电脑,2006,6(3):47-47.
6谭红叶,赵铁军,王浩畅.基于向量相似度计算的半监督的名实体识别[J].计算机工程与设计,2008,29(19):5047-5050. 被引量：1
7李知菲,端木春江.基于半监督学习的人体异常行为识别[J].浙江师范大学学报（自然科学版）,2013,36(3):258-262. 被引量：3
8钱昌夏.利用foxpro建立天体测量数据库[J].中国科学院上海天文台年刊,1996(17):326-331.
9李素建,宋涛,高杰,幺鹏跃,李文捷.一种基于使用差异的词语领域性分析方法[J].中文信息学报,2009,23(6):72-78. 被引量：5
10张巧,熊锦华,程学旗.基于弱监督学习的主页人物属性抽取方法[J].山西大学学报（自然科学版）,2015,38(1):8-15. 被引量：5

现代图书情报技术

2014年第5期

浏览历史

内容加载中请稍等...

朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究被引量：9

参考文献10

二级参考文献42

共引文献55

同被引文献108

引证文献9

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究 被引量：9

参考文献10

二级参考文献42

共引文献55

同被引文献108

引证文献9

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究被引量：9