期刊文献+

基于高校网站内容的实体抽取研究 被引量:1

Entity extraction based on college website content
下载PDF
导出
摘要 针对高校网站上大量的会议稿中的人名、地名以及会议名称等重要信息,提出了一种基于规则与统计相结合的识别方法,首先根据会议稿的特点将会议稿分为2类,规则和非规则会议稿,其中规则会议稿采用编写规则的方法来抽取会议稿中的实体,非规则会议稿则通过条件随机场进行初步识别,然后,再针对条件随机场未能识别的实体进行基于规则的识别。实验结果表明,该方法的识别效果明显优于仅采用单次规则或条件随机场的处理结果。 Aiming at important information such as names of people,places and conference in large amount of conference scripts,a method combining rules and statistics is proposed. First,conference scripts are divided into two categories including regular and irregular one. For the regular one,the entity extraction is realized by the method of writing rules. For the irregular one,the entity extraction is made through Conditional Random Fields( CRFs) to get preliminary recognition result,and the unrecognized entities are recognized based on rules. Experimental results show that the effect of the proposed method is superior to those using a single rule or CRFs.
出处 《北京信息科技大学学报(自然科学版)》 2016年第5期92-96,共5页 Journal of Beijing Information Science and Technology University
基金 国家自然科学基金资助项目(61271304 61671070) 北京成像技术高精尖创新中心资助项目(BAICIT-2016003) 国家社会科学基金资助项目(14@ZH036) 国家社科基金重大资助项目(15ZDB017)
关键词 高校会议稿 实体识别 基于规则 条件随机场 university conference scripts entity recognition rule-based conditional random fields(CRFs)
  • 相关文献

参考文献11

二级参考文献175

共引文献551

同被引文献69

引证文献1

二级引证文献50

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部