基于高校网站内容的实体抽取研究被引量：1

Entity extraction based on college website content

下载PDF

导出

摘要针对高校网站上大量的会议稿中的人名、地名以及会议名称等重要信息,提出了一种基于规则与统计相结合的识别方法,首先根据会议稿的特点将会议稿分为2类,规则和非规则会议稿,其中规则会议稿采用编写规则的方法来抽取会议稿中的实体,非规则会议稿则通过条件随机场进行初步识别,然后,再针对条件随机场未能识别的实体进行基于规则的识别。实验结果表明,该方法的识别效果明显优于仅采用单次规则或条件随机场的处理结果。 Aiming at important information such as names of people,places and conference in large amount of conference scripts,a method combining rules and statistics is proposed. First,conference scripts are divided into two categories including regular and irregular one. For the regular one,the entity extraction is realized by the method of writing rules. For the irregular one,the entity extraction is made through Conditional Random Fields（ CRFs） to get preliminary recognition result,and the unrecognized entities are recognized based on rules. Experimental results show that the effect of the proposed method is superior to those using a single rule or CRFs.

作者崔梦娇李红莲吕学强周建设

机构地区北京信息科技大学网络文化与数字传播北京市重点实验室

出处《北京信息科技大学学报（自然科学版）》 2016年第5期92-96,共5页 Journal of Beijing Information Science and Technology University

基金国家自然科学基金资助项目(61271304 61671070) 北京成像技术高精尖创新中心资助项目(BAICIT-2016003) 国家社会科学基金资助项目(14@ZH036) 国家社科基金重大资助项目(15ZDB017)

关键词高校会议稿实体识别基于规则条件随机场 university conference scripts entity recognition rule-based conditional random fields（CRFs）

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献11

1Chinchor N.MUC-7 named entity task definition[C]∥Virginia:Pro-ceedings of the 7th Message Understanding Conference,1998. 被引量：1
2刘鹏博,车海燕,陈伟.知识抽取技术综述[J].计算机应用研究,2010,27(9):3222-3226. 被引量：15
3何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：330
4孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：100
5李航著..统计学习方法[M].北京:清华大学出版社,2012:235.
6Borthwick A,Sterlin J,Agiehtein E,et al.NYU:description of the MENE named entity system as used m UC-7[C]∥Proceedings of the 7th Message Understanding Conference(MUC-7).Washington D C,1998:145-150. 被引量：1
7张华平,刘群.基于角色标注的中国人名自动识别研究[J].计算机学报,2004,27(1):85-91. 被引量：104
8Viola P,Narasimhand M.Learning to extract information from semi-structured text using a discriminative context free grammar[C]∥Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2005:330-337. 被引量：1
9王志强..基于条件随机域的中文命名实体识别研究[D].南京理工大学,2006:
10唐惠丽,郑小妹.正则表达式的研究及在Web中的应用[J].计算机技术与发展,2013,23(2):82-84. 被引量：11

二级参考文献175

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
2车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
3王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31
4刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
5俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
6佘石泉,周肆清.正则表达式在编程题自动阅卷中的应用[J].计算机技术与发展,2007,17(7):244-246. 被引量：16
7罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328. 被引量：5
8Chinchor N. MUC - 7 Named Entity Task Definition[C]. In :Proceedings of the 7th Message Understanding Conference, Virginia. 1998. 被引量：1
9Sproat R, Emerson T. The First International Chinese Word Segmentation Bakeoff[ C ]. In : Proceedings of the 2rid SIGHAN Workshop on Chinese Language Processing, Sapporo, Japan. 2003 : 133 - 143. 被引量：1
10Rau L F. Extracting Company Names from Text [ C ]. In : Proceedings of the 7th IEEE Conference on Artificial Intelligence Applicatiorts. 1991:29 -32. 被引量：1

共引文献551

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
3孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：6
4陈欣宇.基于大数据背景的机器学习算法研究[J].计算机产品与流通,2020,0(3):85-85. 被引量：1
5成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
6张毅,田浩.XGBoost在量化选股中的应用研究[J].金融管理研究,2020(2):122-132.
7朱赫夫.论证型式:司法人工智能的希冀[J].法大研究生,2021(1):83-101.
8李玥.机器学习的分类、聚类研究[J].电脑知识与技术,2020,0(4):161-162. 被引量：5
9路威,赵丽君.兵要知识图谱的构建与应用研究[J].测绘地理信息,2022,47(4):119-123. 被引量：4
10宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5

同被引文献69

1刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：27
2冯硕.TikTok被禁中的数据博弈与法律回应[J].东方法学,2021(1):74-89. 被引量：41
3陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：7514
4余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：44
5徐健,张智雄,吴振新.实体关系抽取的技术方法综述[J].现代图书情报技术,2008(8):18-23. 被引量：54
6孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：100
7黄晨,钱龙华,周国栋,朱巧明.基于卷积树核的无指导中文实体关系抽取研究[J].中文信息学报,2010,24(4):11-17. 被引量：12
8刘兴林,郑启伦,马千里.一种基于主题词集的自动文摘方法[J].计算机应用研究,2011,28(4):1322-1324. 被引量：6
9刘征,鲁娜,孙凌云.面向概念设计过程的隐性知识获取方法[J].机械工程学报,2011,47(14):184-191. 被引量：21
10赵丹群.基于CiteSpace的科学知识图谱绘制若干问题探讨[J].情报理论与实践,2012,35(10):56-58. 被引量：265

引证文献1

1付雷杰,曹岩,白瑀,冷杰武.国内垂直领域知识图谱发展现状与展望[J].计算机应用研究,2021,38(11):3201-3214. 被引量：50

二级引证文献50

1陈田,黄泓毓,杨东升,董淑婷.基于相互学习和SoftLexicon的中文命名实体识别模型[J].计算机应用,2023,43(S01):61-66. 被引量：1
2闫博.基于HanLP关键词抽取与句法分析的图谱构建[J].电子元器件与信息技术,2022,6(9):77-80. 被引量：3
3熊中敏,马海宇,李帅,张娜.知识图谱在海洋领域的应用及前景分析综述[J].计算机工程与应用,2022,58(3):15-33. 被引量：8
4程子佳,陈翀.面向流行性疾病科普的用户问题理解与答案内容组织[J].数据分析与知识发现,2022,6(2):202-211. 被引量：2
5唐勇.基于Neo4J的知识图谱管理系统的分析与设计[J].办公自动化,2022,27(12):59-61. 被引量：1
6张晓明,窦全胜,陈淑振,唐焕玲.面向小样本关系抽取的自适应胶囊网络[J].计算机应用研究,2022,39(8):2357-2362. 被引量：1
7胡红娟,周阳,匡泽民,谭玲.医学知识图谱应用研究进展[J].医学信息学杂志,2022,43(5):30-33. 被引量：6
8李建旺,李安云,焦雷.基于知识图谱技术的盾构工程知识库研究[J].工程建设与设计,2022(17):153-155.
9魏晓,王晓鑫,陈永琪,张惠然.基于自然语言处理的材料领域知识图谱构建方法[J].上海大学学报（自然科学版）,2022,28(3):386-398. 被引量：4
10李书洋,李紫鹏,韩小亮,王夏冰.基于微服务架构的知识工程系统设计[J].信息技术与信息化,2022(11):75-78. 被引量：1

1洛桑嘎登,杨媛媛,赵小兵.基于知识融合的CRFs藏文分词系统[J].中文信息学报,2015,29(6):213-219. 被引量：17
2石翠.依存句法分析研究综述[J].智能计算机与应用,2013,3(6):47-49. 被引量：6
3于璇.“中国好声音”学员代言TV+TCL娱乐化转型又出新招[J].电器,2014,0(11):48-48.
4会议信息[J].食品与生物技术学报,2016,35(6):583-583.
5黄德根,张丽静,张艳丽,杨元生.规则与统计相结合的兼类词处理机制[J].小型微型计算机系统,2003,24(7):1252-1255. 被引量：6
6赵伟,戴新宇,尹存燕,陈家骏.一种规则与统计相结合的汉语分词方法[J].计算机应用研究,2004,21(3):23-25. 被引量：35
7李春芳,骆盈盈,谭庆平.基于业务规则的工作流管理系统模型[J].计算机工程与设计,2006,27(20):3861-3863. 被引量：4
8史月美,胡国华.基于粗糙集的不完全相容的关联规则挖掘[J].电脑与信息技术,2010,18(3):47-49.
92009北京批发论坛[J].生产力研究,2009(18).
10会议信息[J].食品与生物技术学报,2014,33(5):541-541.

北京信息科技大学学报（自然科学版）

2016年第5期

浏览历史

内容加载中请稍等...

基于高校网站内容的实体抽取研究被引量：1

参考文献11

二级参考文献175

共引文献551

同被引文献69

引证文献1

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于高校网站内容的实体抽取研究 被引量：1

参考文献11

二级参考文献175

共引文献551

同被引文献69

引证文献1

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于高校网站内容的实体抽取研究被引量：1