基于词性合并的浅层句法分析方法研究

Research on the Method of Shallow Syntactic Analysis Based on Word Combination

下载PDF

导出

摘要互联网已是一个海量的开放式知识库,如何提取里面有价值的信息,成为当今研究的热点。而网页作为互联网信息承载的载体,有其独特的特点,如形式多样、有网页标题等,对网页文本信息进行抽取并结构化是知识库构建的基础。本文对网页信息进行正文信息抽取、代词消解、文本信息提取等处理过程,并提出基于词性合并的浅层句法分析方法,能更好地适应文本信息内容。 The Intemet has become a massive open knowledge base. How to extract valuable information from the Intemet has become a hot topic in today＇s research. As the carrier of Intemet information, webpage has its unique characteristics. Webpages contain many features, such as various forms and page titles. Extracting and structuring web information is the foundation of building knowledge base. This paper processes the webpage information with text information extraction, pronoun digestion and so on. It proposes a shallow syntactic analysis method based on word combination, which can better adapt to text information content.

作者刘利 LIU Li(Luzhou Vocational and Technical College,Luzhou 646005,Sichua)

机构地区泸州职业技术学院信息工程系

出处《电脑与电信》 2018年第8期18-20,共3页 Computer & Telecommunication

基金泸州职业技术学院院级科研课题项目编号:K-1716 泸州市社科联项目项目编号:LZ18A031

关键词文本信息知识库构建信息提取词性合并 text information building knowledge base information extraction word combinatio

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(2):14-17. 被引量：87
2钱伟中,王娟,傅翀,秦志光.融合浅层句法分析的蛋白质互作用信息抽取方法[J].计算机应用研究,2011,28(3):972-975. 被引量：2
3周顺先,林亚平,王耀南.基于规则和统计抽取模型中的主动学习算法[J].系统仿真学报,2008,20(23):6477-6480. 被引量：1
4吕叔湘著..中国文法要略[M].北京:商务印书馆,1982:463.

二级参考文献48

1张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：67
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
3冯冲,陈肇雄,黄河燕.采用主动学习策略的组织机构名识别[J].小型微型计算机系统,2006,27(4):710-714. 被引量：12
4Scheffer T, Decomain C, et al. Active Hidden Markov Models for Information Extraction [C]// Proceedings of the International Symposium on Intelligent Data Analysis. Lisbon, Portugal: Springer, 2001: 309-318. 被引量：1
5Scheffer T, Wrobel S. Active learning of partially hidden markov models [C]// Proceedings of the ECML/PKDD Workshop on Instance Selection. Germany: ECML-PKDD, 2001: 1-15. 被引量：1
6Engelson S A, Dagan I. Committee-based sample selection for probabilistic classifiers [J]. Journal of Artificial Intelligence Research (S1076-9757), 1999, 11(2): 335-460. 被引量：1
7Andrew K, McCallum K, Nigam.Employing EM and pool-based active leaming for text classification [C]// Proceedings of the International Conference on Machine Learning. USA: ICML, 1998: 359-367. 被引量：1
8Tong S, Koller D. Support vector machine active learning with applications to text classification [J]. Journal of Machine Learning research (S1532-4435), 2001, 2(1): 45-66. 被引量：1
9Wang Jing-pu, Lin Ya-ping, Zhou Shun-xian. Web Text Information Extraction on Wrapper Model [C]//2005 International Symposium on Computer Science and Technology. China: IEEE, 2005:607-612. 被引量：1
10Kseymore. Data set for information extraction [DB/OL]. (1999)[2007]. http://www-2.c s.cmu.edu/-kseymore/ie.html. 被引量：1

共引文献87

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：6
2陈平,匡尧,陈婧.基于BERT-wwm-ext多特征文本表示的经济事件主体抽取方法研究[J].武汉电力职业技术学院学报,2020(2):45-50. 被引量：1
3张海瑜,陈庆龙,张斯静,张子怡,杨帆,李鑫星.基于语义知识图谱的农业知识智能检索方法[J].农业机械学报,2021,52(S01):156-163. 被引量：13
4王竹,谷松原.基于裁判文书争议焦点的民事案由逻辑图谱构建研究——以产品责任领域为例[J].民商法争鸣,2022(2):13-25.
5李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：21
6吴天昊,古丽拉·阿东别克.基于神经元块级别注意力机制的LSTM关系抽取[J].计算机应用研究,2020,37(S02):76-79. 被引量：7
7程乔,王映华,李冉,李友建.基于互联网+舆情数据发掘支撑网络优化新思路的研究[J].广西通信技术,2020(1):1-7.
8丁若尧.面向古汉语史料的信息抽取方法综述[J].中国科技纵横,2019,0(14):50-51. 被引量：1
9杨中国,李洪奇,朱丽萍,刘蔷.基于语义模式和引用分布的科技文献信息抽取[J].山东大学学报（理学版）,2015,50(3):11-19. 被引量：3
10郭红转.基于信息增长模式的信息研究探讨[J].安徽工程大学学报,2015,30(5):86-90.

1贾丹丹,贾晓强,王圆月.基于慕课理念的高校马克思主义课程设置[J].智富时代,2018,0(4X):170-170.
2于韬,王洪岩.基于TF-IDF算法的文本信息提取[J].科技视界,2018(16):117-118. 被引量：12
3李薇.阅文、阅人、阅情——核心素养关照下的英语文本解读[J].英语画刊（高级）,2017,0(25):26-27. 被引量：1
4陈锋.基于控制系统与主题挖掘的网络文本信息提取方案研究[J].自动化应用,2017(10):33-34.
5吴明军,潘娟.接口条件对高级英语学习者消解反身代词的影响[J].现代外语,2017,40(5):684-694. 被引量：7
6顾问,曹阳.基于jsoup的Web页面自适应转换系统的实现[J].电子技术与软件工程,2017(18):200-202. 被引量：3
7吴明军,杨玉兰,吴晓明.加工深度对二语代词消解的影响[J].现代外语,2018,41(5):674-685. 被引量：3
8赵晓永,王磊.电商网页中商品规格信息自动抽取方法研究[J].计算机工程与应用,2017,53(24):168-171. 被引量：4
9郭强,邹广天,连菲,张斯.应用Web标注技术的建筑图像语义采集方法[J].哈尔滨工业大学学报,2017,49(10):158-163. 被引量：6
10丁宇平.三个同等重视——民航内刊应对新媒体冲击策略初探[J].江苏航空,2018,0(2):56-56.

电脑与电信

2018年第8期

浏览历史

内容加载中请稍等...

基于词性合并的浅层句法分析方法研究

参考文献4

二级参考文献48

共引文献87

相关作者

相关机构

相关主题

浏览历史