基于分类和关键词组抽取的信息检索算法被引量：10

An Information-retrieval Algorithm Based on Classification and Key Phrase Extraction

下载PDF

导出

摘要本文提出一种基于分类和关键词组抽取的信息检索算法。该算法利用文本分类和信息抽取技术辅助检索,避免了向量空间模型算法中时间复杂度过大,查准率不高的缺点。针对传统的信息检索性能指标无法有效地衡量检索结果的排序状况,本文还引入了排序误差率概念用于评价检索结果的排序。实验结果表明,所提算法与TFIDF算法、基于分类的交互式检索算法相比,具有更快的查询速度,更高的查准率和更小的排序误差率。 In this paper, a new information retrieval algorithm based on classification and key phrase extraction is proposed. Compared with traditional vector space model, this algorithm reduces time complexity and improves precision using of text classification and information extraction. Then a new performance criterion named ranking error is contributed to solve the problem that the traditional performance evaluation methodology cant evaluate the ranking results of retrieved documents efficiently. The experiment result shows that the proposed algorithm outperforms TF*IDF and Interactive Retrieval based on classification in speed, precision and ranking error.

作者钟敏娟林亚平陈治平

机构地区湖南大学计算机与通信学院

出处《系统仿真学报》 CAS CSCD 2004年第5期1009-1012,1016,共5页 Journal of System Simulation

基金国家自然科学基金(60272051)

关键词向量空间模型文本分类关键词组抽取查准率排序误差率 vector space model text classification key phrase extraction precision ranking error

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Jian Zhang, Jianfeng Gao. Improving the effective of information retrieval with clustering and fusion [J].Computational Linguistics and Chinese Language Processing,2001,6(1): 109-125. 被引量：1
2MingFang Wu, Michael Fuller, Ross Wilkinson. Using Clustering and Classification Approaches in Interactive Retrieval [J].Information Processing & Management, 2001,37(3): 459-484. 被引量：1
3Kiduk Yang. Combining text-,link-,and classification-based retrieval methods to enhance information discovery on the Web. [D]. PHD thesis, Chapel Hill:Univ. of North Carolina, 2002-5, 157-171. 被引量：1
4Anton Leuski. Evaluating Document Clustering for Interactive Information Retrieval. [A]. In the Proceedings of the ACM CIKM 2001 Tenth International Conference on Information and Knowledge Management[C], 2001, 33-40. 被引量：1
5A.Leuski, J.Allan. Improving interactive retrieval by combining ranked lists and clustering. [A]. In the proceedings of RIAO 2000 conference[C], 2000,665-681. 被引量：1
6Salton,G Wong,A and Yang,C.S. On the specification of term values in automatic indexing. Journal of Documentation, 1973, 29(4): 351-372. 被引量：1
7Buckley C. Implementation of the SMART information retrieval system. Technical Report, Cornell University, TR85-686, 1985. 被引量：1
8P. Husbands, H. Simon &C.Ding. On the Use of Singular Value Decomposition for Text Retrieval. http://www.citeseer.nj.nec.com/ 540137.html, 2000. 被引量：1
9Mei Kobayashi & Koichi Takeda, Information Retrieval on the Web [J]. ACM Computing Surveys, 2000,32(2). 被引量：1
10王继成,萧嵘,孙正兴,张福炎.Web信息检索研究进展[J].计算机研究与发展,2001,38(2):187-193. 被引量：118

二级参考文献4

1王继成邹涛等.网络信息搜集与出版系统WinGPS.南京大学计算机科学与技术系，科技报告[M].,1999.. 被引量：1
2王继成，科技报告，1999年被引量：1
3邹涛,王继成,杨文清,张福炎.文本信息检索技术[J].计算机科学,1999,26(9):72-75. 被引量：31
4胡舜耕,刘晓宇,钟义信.基于多Agent技术的自动文摘系统的研究和设计[J].电子学报,2001,29(2):247-249. 被引量：4

共引文献139

1赵燕平,朱东华.科技信息的网络动态监测和信息自动获取技术研究[J].科学学研究,2003,21(z1):230-237. 被引量：6
2杨万春.基于访问控制的内部网搜索引擎[J].科技信息,2009(1).
3薛帆,顾兆军,王静,张俊.面向校园网的搜索引擎CAUCIIC[J].中国民航大学学报,2005,23(z1):134-136.
4戚涌,徐永红,刘凤玉.基于潜在语义标引的WEB文档自动分类[J].计算机工程与应用,2004,40(22):28-31. 被引量：9
5樊孝忠,李宏乔,李良富.Hybrid Chinese Information Retrieval Model Based on the Combination of Keyword and Concept[J].Journal of Beijing Institute of Technology,2003,12(S1):120-123. 被引量：2
6陈康,奚伟鹏,蒋凯,武港山.Web智能信息服务系统的设计与实现[J].计算机应用研究,2004,21(6):161-163. 被引量：1
7葛蓉.利用网络日志分析提高搜索引擎的检准率[J].情报科学,2004,22(10):1250-1253. 被引量：5
8刘艳青,田萱,苏桂莲.基于Internet的个性化信息检索技术的研究[J].计算机工程与设计,2004,25(5):772-775. 被引量：12
9刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
10刘海波,顾国昌.研究生Internet信息获取[J].情报探索,2004(4):84-86.

同被引文献62

1曾玉.信息检索的模糊聚类分析模型[J].情报学报,2004,23(4):433-436. 被引量：15
2王知津,郑红军.基于集合理论的信息检索模型[J].情报科学,2004,22(11):1288-1291. 被引量：6
3陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864. 被引量：9
4岳文,陈治平,林亚平.基于查询扩展和分类的信息检索算法[J].系统仿真学报,2006,18(7):1926-1929. 被引量：10
5郝晓燕,常晓明.中文文本分类研究[J].太原理工大学学报,2006,37(6):710-713. 被引量：6
6Dong G,Zhang X,Wong L,et al.CAEP:Classification by aggregating emerging patterns[C]//Proceedings of the Second International Conference on Discovery Science.Tokyo: Japan, 1999 : 30-42. 被引量：1
7Delgado M,Martin-bautista M J,Sanehez D,et al.Mining text data:special features and pattems[C]//Proceedings of ESF Exploratory Workshop.London, U.K, Sept, 2002: 32-38. 被引量：1
8Pawlak Z.Rough sets[J].International Journal of Information and Computer Sciences, 1982,11 ( 5 ) : 341-383. 被引量：1
9Liang Jiye,Chin K S,Dang Chuangyin,et al.A new method for measuring uncertainty and fuzziness in rough set theory[J].International Journal of General Systems, 2002,51 ( 4 ) : 331-342. 被引量：1
10Escudero G,Marquez L,Rigau G.Boosting applied to word sense disambiguation[C]//Proceedings of ECML-00,Fihh European Conference on Machine Learning,Barcelona,Spain,2000:129-141. 被引量：1

引证文献10

1刘海峰,王元元,张学仁.基于VSM的模糊标引文本检索若干问题研究[J].图书情报工作,2006,50(S2):127-130.
2侯丽敏,朱一,周舫,葛强.基于网络的智能答疑系统的研究[J].微机发展,2005,15(8):120-123. 被引量：3
3刘华.基于语料库的领域词语聚类C#实现[J].计算机工程与应用,2005,41(36):167-169. 被引量：3
4刘海峰,王元元,王倩.基于分类的VSM模式下文本检索研究[J].情报科学,2006,24(11):1700-1703. 被引量：11
5刘华.基于文本分类中特征提取的领域词语聚类[J].语言文字应用,2007(1):139-144. 被引量：22
6刘海峰,张学仁,王倩.基于聚类的VSM模糊标引模式下文本检索问题研究[J].工程地质计算机应用,2007(1):7-12. 被引量：1
7王铮,王庆,汪定伟.基于互联网的元搜索引擎中领域搜索模型的设计[J].系统仿真学报,2008,20(5):1218-1223. 被引量：3
8赵红宇.基于关键词组合向量模型的文本自动分类研究[J].商场现代化,2008(26):20-21.
9马春华,朱颢东.一种有效的特征词获取方法[J].计算机工程与应用,2009,45(17):129-132.
10刘建本.用于信息检索的查询分析与优化算法[J].福建电脑,2012,28(2):121-122.

二级引证文献43

1刘华.词典编撰的领域词语自动获取与选择[J].计算机工程与应用,2006,42(24):176-178. 被引量：2
2刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
3辛平.面向商务汉语教材的商务领域词语等级参数研究[J].语言文字应用,2007(3):70-77. 被引量：13
4王琴.一种实用智能答疑系统的设计与实现[J].计算机与现代化,2007(9):110-113. 被引量：3
5刘希宋,喻登科,李玥.基于客户知识的客户CABOSFV聚类[J].情报杂志,2008,27(2):7-9. 被引量：3
6刘海峰,王元元,姚泽清.一种基于类别分布信息的中文文本分类模型[J].图书情报工作,2008,52(1):73-76. 被引量：1
7殷蜀梅.判断新兴研究趋势的技术框架研究[J].图书情报知识,2008,25(3):76-80. 被引量：17
8程节华.基于FAQ的智能答疑系统中分词模块的设计[J].计算机技术与发展,2008,18(7):181-183. 被引量：1
9殷蜀梅,张智雄,吴振新.一种从医学文本中实现自动关键词抽取和筛选的技术方法[J].现代图书情报技术,2008(8):31-36. 被引量：3
10卓佳,张俊坤,李畅.使用向量空间模型进行信息检索的实现[J].华南金融电脑,2008,16(10):44-47. 被引量：1

1钟敏娟,凌传繁,白耀辉,郭攀.CDSE:一个面向领域的智能搜索引擎[J].计算机工程,2006,32(24):206-208.
2程诚,陈笑蓉,曾林肖.基于本体的GIS语料库信息检索[J].毕节学院学报（综合版）,2008,26(4):87-91.
3常凯.基于TF＊IDF垃圾邮件过滤改进算法的研究[J].电脑知识与技术,2010,6(9):6928-6930. 被引量：2
4宋峻峰,李国辉.信息检索算法评价指标的分析与改进[J].小型微型计算机系统,2003,24(10):1800-1803. 被引量：6
5岳文,陈治平,林亚平.基于查询扩展和分类的信息检索算法[J].系统仿真学报,2006,18(7):1926-1929. 被引量：10
6万程,王东.结果页面信息的提取和结果筛选算法的研究[J].计算技术与自动化,2008,27(3):24-27.
7张亮,邹福泰,张文举,马范援.基于社区的对等网络信息检索[J].上海交通大学学报,2006,40(5):767-770. 被引量：4
8陶锐.信息检索中P2P技术的应用研究[J].电子技术与软件工程,2014(6):20-20. 被引量：2
9郝慎学.AWAR算法在信息检索查询扩展中的研究[J].科技通报,2013,29(9):181-184.
10李庆华,赵彦斌,赵峰,彭进劲.基于向量空间模型的并行信息检索算法[J].小型微型计算机系统,2005,26(9):1560-1562. 被引量：8

系统仿真学报

2004年第5期

浏览历史

内容加载中请稍等...

基于分类和关键词组抽取的信息检索算法被引量：10

参考文献11

二级参考文献4

共引文献139

同被引文献62

引证文献10

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于分类和关键词组抽取的信息检索算法 被引量：10

参考文献11

二级参考文献4

共引文献139

同被引文献62

引证文献10

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于分类和关键词组抽取的信息检索算法被引量：10