基于加权词频的信息检索相似度评价模型被引量：2

A Relevance Evaluation Model of Information Retrieval Based on Weighted Term Frequency

下载PDF

导出

摘要在信息检索领域,相似度评价模型是一个重要的研究课题。基本的评价模型有布尔模型,向量空间模型和概率模型。后两种模型在许多的信息检索系统中被采用,但是它们都没有考虑查询词在文档中的位置信息对相似性度量起到的作用。一些研究考虑了诸如HTML标签之类的信息,但是确定加权系数的方案不是太理想。针对这些问题,文中提出了一种基于加权词频的相似度评价模型(Weighted Term Frequency Model,WTFM),而引入的权重系数可以通过模拟退火算法学习得到。实验结果表明,权重系数的引入提高了系统的相关度评价质量。 Relevance evaluation model is an important research issue in the field of information retrieval. The basic information retrieval models are boolean model, vector space model and probabilistic model. The latter two models are implemented in many retrieval systems extensively but the different position of query term in every document is ignored. Some researches have considered the information HTML tags but the scheme of assigning weighted parameters is not ideal. In this paper, WTFM（Weighted Term Frequency Model） is proposed according to the existence of term frequency （TF）. And these weighted coefficients are learned by simulated annealing algorithm. The results of the experiments show that the introduction of TF＇s weights brings improvements to the system.

作者张纯青陈超邵正荣俞能海

机构地区中国科学技术大学电子工程与信息科学系中国科学技术大学图书馆

出处《计算机仿真》 CSCD 2008年第1期134-137,239,共5页 Computer Simulation

基金国家自然科学基金(60672056) 微软亚洲研究院基金项目(06120809)

关键词信息检索相关度评价模拟退火算法 Information retrieval Relevance evaluation Simulated annealing algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Ricardo Baeza- Yates, Berthier Ribeiro- Neto. Modern Information Retrieval[M]. Beijing: China Machine Press, 2004-2.1 - 49. 被引量：1
2G Salton, M E Lesk. Computer Evaluation of Indexing and Text Processing[ J]. Journal of the ACM, 1968, 15 ( 1 ) : 8 - 36. 被引量：1
3S E Roberston, K Spark Jones. Relevance Weighting of Search Terms[J]. Journal of the American Society for Information Sciences, 1976, 27(3) :129 - 146. 被引量：1
4M Cutler, Y Shih, W Meng. Using the Structure of HTML Documents to Improve Retrieval[ J]. Proceedings of the USENIX Symposium on Internet Technologies and Systems . 1997,12:241 - 251. 被引量：1
5刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000,21(9):986-988. 被引量：23
6R A M Pereira, A Molinari, G Pasi. Contextual Weighted Representations and Indexing Models for the Retrieval of HTML Documents[J]. Soft Computing-A Fusion of Foundations, Methodologies and Applications,2005, 9(7) :481 -492. 被引量：1
7S E Robertson, et al. Okapi at TREC - 4 [ C ]. Proceedings of the Fourth Text Retrieval Conference, 1995.73 - 96. 被引量：1
8S Kirkpatrick, C D Gelatt, M P Vecchi. Optimization by Simulated Annealing [ M ]. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc, 1987. 606 - 615. 被引量：1
9Zaiqing Nie, Yuanzhi Zhang, JiRong Wen. Object - Level Ranking: Bringing Order to Web Objects [ C ]. International World Wide Web Conference,2005. 567 - 574. 被引量：1

二级参考文献1

1上海交大远程教育中心，HTML 语言参考 .WWW书籍，1998年被引量：1

共引文献22

1钟敏娟,林亚平,陈治平.基于超链接和标记文本的信息检索算法[J].小型微型计算机系统,2004,25(7):1344-1347. 被引量：7
2刘志为,何丕廉,孙越恒,郑小慎.N层向量空间模型在Web信息检索中的应用[J].微型机与应用,2004,23(12):60-62. 被引量：5
3胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. 被引量：10
4胡敏,杨红,戴玉刚.基于XML的向量空间模型在数字图书馆检索中的应用研究[J].福建电脑,2005,21(11):1-1.
5刘斌,陈桦.向量空间模型信息检索技术讨论[J].情报杂志,2006,25(7):92-93. 被引量：21
6钟敏娟,凌传繁,白耀辉,郭攀.CDSE:一个面向领域的智能搜索引擎[J].计算机工程,2006,32(24):206-208.
7赵正文,康耀红.Web信息检索结构化排序函数与标引词加权技术[J].计算机工程与应用,2007,43(11):181-184. 被引量：1
8刘斌,徐谦,陈桦.一种关系型数据库并行概念学习系统的探讨[J].微型电脑应用,2007,23(3):53-54.
9周竹荣,黄果,周亭.一种混合的文本信息检索模型研究[J].计算机工程与设计,2007,28(11):2671-2673. 被引量：2
10黄宏涛,徐谦,刘斌.一种关系型数据库并行概念学习系统的探讨[J].陕西科技大学学报（自然科学版）,2007,25(4):135-137.

同被引文献17

1王知津,赵洪.基于改进遗传算法的XML信息检索研究[J].图书馆杂志,2007,26(11):20-26. 被引量：2
2宋峻峰,张维明,肖卫东,唐九阳.基于本体的信息检索模型研究[J].南京大学学报（自然科学版）,2005,41(2):189-197. 被引量：44
3李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计,2007,28(1):227-229. 被引量：39
4Salton G, Lesk M E. Computer evaluation of indexing and text processing[J ]. Journal of the ACM, 1968, 15 ( l ) : 8 - 36. 被引量：1
5Salton G. Automatic text processing: the transform ation analysis and retrieval of information by computer [ M ]. Pennsylvania: Addison- wesley,1989. 被引量：1
6Sheridan P, Ballerini J P. Experiments in multilingual information retrieval using the SPIDER system [ C]//Proc the 8 Annual A CMSIGIR Intl. Conf. on Research and Development in Information Reterieval. Canada, 1996:58 - 65. 被引量：1
7Zaiqing Nie, Yuanzhi Zhang, JiRong Wen. Object--level ranking: bringing order to web objects [ C]//International World Wide Web Conference. USA: Hawaii, 2005:567 - 574. 被引量：1
8赵金帅,鲁瑞华.一种用于防止早熟收敛的改进遗传算法[J].西南大学学报（自然科学版）,2008,30(1):156-159. 被引量：7
9钱建立,吴广茂,蒋路.基于特征相似度的科技论文元数据提取算法研究[J].微电子学与计算机,2008,25(8):129-132. 被引量：9
10陈沈焰,吴军华.基于本体的概念语义相似度计算及其应用[J].微电子学与计算机,2008,25(12):96-99. 被引量：31

引证文献2

1陈琴.信息检索中相似度计算的新方法[J].微电子学与计算机,2010,27(9):159-161.
2党小琴.基于本体论的数字图书馆信息检索技术[J].科技通报,2022,38(8):110-113. 被引量：8

二级引证文献8

1董志娜.现代数字图书馆的个性化信息检索研究[J].信息系统工程,2023(7):91-94. 被引量：1
2翟小乐,任云鹏,蒋丽铭.基于Spark框架的图书馆文献信息检索方法[J].信息与电脑,2023,35(8):60-62.
3董志娜.信息时代数字图书馆检索系统研究[J].信息与电脑,2023,35(10):120-122.
4李彬蕙.基于贝叶斯网络的航空化工材料信息快速检索方法[J].粘接,2024,51(3):61-64.
5陈彦海.基于语义特征挖掘的图书馆文献资源智能检索方法[J].信息与电脑,2024,36(2):125-127. 被引量：1
6田原.基于随机Petri网的图书相似重复属性记录存证系统[J].电子设计工程,2024,32(13):36-40.
7陈天宇.基于人工智能的数字图书馆信息检索系统[J].信息技术,2024,48(7):173-179.
8张志强,张丽,周晓清,王伟钧,黎忠文.一种多视角新闻信息快速检索方法[J].现代电子技术,2024,47(18):57-64.

1张彦钊,李霞.关联规则在教学评价数据分析中的应用[J].微计算机应用,2005,26(5):616-619. 被引量：6
2刘晓莉,彭波.基于概率模型的名人网页相关度评价[J].清华大学学报（自然科学版）,2005,45(S1):1887-1891. 被引量：2
3欧阳柳波,邹北骥,刘丽杰.一种基于混合判定模型的复合概念抽取方法[J].电子学报,2013,41(3):488-495. 被引量：3
4陈争艳,朱保锋.名人网页相关度评价的概率模型研究[J].河南教育学院学报（自然科学版）,2008,17(1):39-41.
5欧阳柳波,周伟光.基于位置标签与词性结合的组合词抽取方法[J].计算机应用研究,2016,33(4):1062-1065. 被引量：3
6欧阳柳波,兰小飞,伍振兴.一种基于文本的领域本体进化需求自动生成模型[J].计算机系统应用,2010,19(6):144-147. 被引量：1
7陈璐,赵衍,尚珊珊.基于加权词频的I-Match算法改进及其应用分析--以电商网站为例[J].上海管理科学,2016,38(1):51-54.
8谈文蓉,冯山,刘莉.语义分析在汉语相似性文献检测中的应用研究[J].四川师范大学学报（自然科学版）,2010,33(4):554-558. 被引量：1
9张汛涞.利用超链分析自动获取网页的主题词描述[J].现代计算机,2001,7(10):25-27.
10昝红英,苏玉梅,孙斌,俞士汶.名人网页的相关度评价[J].中文信息学报,2003,17(5):27-33. 被引量：9

计算机仿真

2008年第1期

浏览历史

内容加载中请稍等...

基于加权词频的信息检索相似度评价模型被引量：2

参考文献9

二级参考文献1

共引文献22

同被引文献17

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于加权词频的信息检索相似度评价模型 被引量：2

参考文献9

二级参考文献1

共引文献22

同被引文献17

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于加权词频的信息检索相似度评价模型被引量：2