知识抽取中的停用词处理技术被引量：39

Stop-word Processing Technique in Knowledge Extraction

下载PDF

导出

摘要在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。 It is indispensable to index stop - word before word segmentation in knowledge extraction. The key technique of processing stop - word is how to select stop - word, acquire and organize stop - word lists, and match stop - word. To recognize stop -word, constructing stop -word list is necessary. In processing stop -word, recognizing false stop -word can decrease noise. According to experiment, processing stop -word can not only save segment time, but also improve following syntactic analysis efficiency.

作者化柏林

机构地区中国科学技术信息研究所

出处《现代图书情报技术》 CSSCI 北大核心 2007年第8期48-51,共4页 New Technology of Library and Information Service

关键词知识抽取停用词中文分词自然语言处理文本信息分析 Knowledge extraction Stop -word Chinese segmentation Natural language processing Text information analysis

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
2熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
3梁南元.书面汉语的自动分词与一个自动分词系统-CDWS.北京航空学院学报,1984,(4):97-104. 被引量：2
4罗杰,陈力,夏德麟,王凯.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34. 被引量：17
5Ho T K. Stop Word Location and Identification for Adaptive Text Recognition[J]. International Journal on Document Analysis and Recognition,2000,3 ( 1 ) : 16 - 26. 被引量：1
6Stop Word List--Words Filtered out by Search Engine Spiders[ EB/ OL]. [ 2007 - 06 - 14 ]. http ://www. seo - innovation, corn/support - files/stopwordlist. pdf. 被引量：1
7顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
8Zou F,Wang F L,Deng X T,et al. Stop Word List Construction and Application in Chinese Language Processing [J]. WSEAS Transactions on Information Science and Applications, 2006,3 ( 6 ) : 1036 - 1044. 被引量：1
9Al Shalabi R, Kanaan G, Jaam J M, et al. Stop -word Removal Algorithm for Arabic language [ C ]. Information and Communication Technologies:From Theory to Applications,2004. Proceedings. 2004 International Conference on. 被引量：1
10Savoy J. Data Fusion for Effective European Monolingual Information Retrieval [ C ]. Workshop of the Cross - Language Evaluation Forum ( CLEF 2004 ) ,2005:233 - 244. 被引量：1

二级参考文献38

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
3唐振民,靳从,杨静宇,李远复.一种用于自动标引系统的主题词自动切分方法[J].南京理工大学学报,1995,19(5):401-404. 被引量：2
4[1]Bernard Merialdo.Tagging English Text with a Probabilistic Model[J].Computational Linguistics,1995,20:155-171. 被引量：1
5[2]Weischedel, Ralph; Meteer, Marie; Schwartz, Richard;Ramshaw, Lance;and Palmucci,Jeff(1993). Coping with ambiguity and unknown words through probabilistic models[J].Computational Linguistics,1996,19(2):359-382. 被引量：1
6Kjersti Aas,et al. Text Classification: A Survey[ M]. 1999. 被引量：1
7Yiming Yang. An Evaluation of Statistical Approaches to Text Categorization[ J]. Information Retrieval, 1999,1 ( 1/2 ) :67-88. 被引量：1
8Yiming Yang, Xin Liu. A Re-Examination of Text Categorization Methods[ C]. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR) , 1999. 42-49. 被引量：1
9梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52. 被引量：45
10边肇祺张学工.模式识别[M].北京：清华大学出版社,1999.282-283. 被引量：143

共引文献201

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
2李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
3马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
4李乐强,唐常杰,左劼,邱源枞,段磊,李川.基于同现度和自学习的中文字符组合发现[J].计算机研究与发展,2007,44(z3):268-272. 被引量：2
5崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
6方华,陆汝占,刘绍明.一个实现多种切分标注算法的系统[J].计算机工程,2004,30(24):122-124. 被引量：2
7《自然杂志》征稿简则[J].自然杂志,2004,26(6):372-372. 被引量：1
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
10钱铁云,王元珍,冯小年.利用prefix-hash-tree实现从中文文本到事务数据的转换[J].计算机科学,2005,32(5):167-169.

同被引文献336

1彭德军,曹树斌,马平,赵俊达.煤矿安全隐患信息关键语义智能提取方法研究[J].煤炭工程,2022,54(S01):224-229. 被引量：3
2方皓,张功耀,陈士奎,王宝玉,杨念群.取消中医:无知还是拯救?[J].中国医疗前沿,2006(6):70-74. 被引量：1
3于波,于慧娜,孙立镌.基于概念格的网站信息资源的知识抽取[J].科技资讯,2007,5(2). 被引量：1
4林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析[J].情报学报,1997,16(S1):37-40. 被引量：8
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
8孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
9费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
10金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80

引证文献39

1雷刚,冷荣秋,林思扬.一种计算机领域英汉双语语料库平台的构建[J].科技广场,2009(9):132-135.
2江耿豪.基于FAQ的自动答疑系统的设计与实现[J].计算机时代,2009(12):39-41. 被引量：4
3江耿豪.基于VisualProlog的自动答疑系统设计与实现[J].现代教育技术,2010,20(7):122-125. 被引量：3
4程肖,陆蓓,谌志群.热点主题词提取方法研究[J].现代图书情报技术,2010(10):43-48. 被引量：5
5巩政,关高娃.蒙古文停用词和英文停用词比较研究[J].中文信息学报,2011,25(4):35-38. 被引量：6
6刘里,刘小明.基于分隔符和上下文术语的领域现象术语抽取[J].华南理工大学学报（自然科学版）,2011,39(7):146-149. 被引量：6
7郑炜冬,江耿豪.网络答疑系统的研究、设计与实现[J].中国现代教育装备,2012(3):36-38. 被引量：2
8张寿华,刘振鹏.网络舆情热点话题聚类方法研究[J].小型微型计算机系统,2013,34(3):471-474. 被引量：25
9杨智强,殷钊,王衡.结合用户交互行为和资源内容的资源推荐[J].计算机辅助设计与图形学学报,2014,26(5):747-754. 被引量：9
10杨永涛,李静.一种改进的K-means数字资源聚类算法[J].计算机技术与发展,2014,24(6):107-109. 被引量：1

二级引证文献230

1张振刚,罗泰晔.基于在线评论数据挖掘和Kano模型的产品需求分析[J].管理评论,2022,34(11):109-117. 被引量：20
2冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：8
3穆波,余春林.信息技术在课程答疑教学中的运用构想——以“计算机辅助设计I”课程教学为例[J].设计艺术研究,2021,11(4):114-117. 被引量：1
4楚东晓,王雯露,穆勤远.基于LDA和语义网络的产品感知价值维度研究[J].包装工程,2023,44(S01):47-55. 被引量：2
5彭卫华.情感、文化与身体:中医药文化现代研究的情感人类学考察[J].广西民族大学学报（哲学社会科学版）,2021,43(1):52-57. 被引量：2
6李伟,杨思春,纪滨.自动答疑系统中问题的聚类分析[J].计算机技术与发展,2012,22(3):43-46. 被引量：1
7邱鹏瑞,杨波,张丽华.基于Prolog与Java的教学评价专家系统设计[J].红河学院学报,2012,10(2):57-59.
8祝清松,冷伏海.自动术语识别存在的问题及发展趋势综述[J].图书情报工作,2012,56(18):104-109. 被引量：16
9罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013,34(3):64-68. 被引量：16
10徐川,施水才,房祥,吕学强.中文专利文献术语抽取[J].计算机工程与设计,2013,34(6):2175-2179. 被引量：10

1李珍,田学东.PDF文件信息的抽取与分析[J].计算机应用,2003,23(12):145-147. 被引量：21
2高楚舒,丁于思.因特网中文文本信息分析[J].合肥工业大学学报（自然科学版）,2001,24(z1):751-754.
3朱亚东,张成,俞晓明,程学旗.基于逐点互信息的查询结构分析[J].中文信息学报,2012,26(5):33-39. 被引量：3
4谷瑞.对中文分词歧义消除算法的研究[J].苏州市职业大学学报,2015,26(4):25-27. 被引量：1
5张冰怡,魏博,陈建成,魏杰,饶国政.基于对偶编码的中文分词算法[J].南京理工大学学报,2014,38(4):526-530. 被引量：6
6蔡勇智.基于最大匹配分词算法的中文词语粗分模型[J].福建电脑,2005,21(9):39-40. 被引量：2
7王惠仙,龙华.基于改进的正向最大匹配中文分词算法研究[J].贵州大学学报（自然科学版）,2011,28(5):112-115. 被引量：11
8周昌乐,秦莉娟.一种采用基于语境松弛算法的汉语分词排歧方法[J].厦门大学学报（自然科学版）,2002,41(6):711-714. 被引量：1
9黄翼彪.实现Lucene接口的中文分词器的比较研究[J].科技信息,2012(12):246-247. 被引量：11
10赵栋材.基于虚词切分的藏文分词系统的设计与实现[J].西藏大学学报（社会科学版）,2012,27(5):61-65. 被引量：5

现代图书情报技术

2007年第8期

浏览历史

内容加载中请稍等...

知识抽取中的停用词处理技术被引量：39

参考文献15

二级参考文献38

共引文献201

同被引文献336

引证文献39

二级引证文献230

相关作者

相关机构

相关主题

浏览历史

知识抽取中的停用词处理技术 被引量：39

参考文献15

二级参考文献38

共引文献201

同被引文献336

引证文献39

二级引证文献230

相关作者

相关机构

相关主题

浏览历史

知识抽取中的停用词处理技术被引量：39