基于后缀树的Web检索结果聚类标签生成方法被引量：9

Suffix Tree Based Label Generation Method for Web Search Results Clustering

下载PDF

导出

摘要对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。 Organizing web search results into clusters is helpful for users to browse through search results. Many clustering methods have been widely used for this purpose, but most of them do not work well because the generated cluster labels are not readable and informative enough for users to identify the right cluster quickly. In this paper, we focus on how to generate more readable cluster labels and propose a novel method to address this problem. Based on the ranked list of snippets returned by a web search engine for a given query, we first construct a suffix tree for these snippets. Then we calculate scores for all the phrases in the tree by Ieveraging their statistic and syntactic information. Finally, we rank the phrases in descending order of their scores, and then select the top k phrases as the final cluster labels. Having the labels, we can form clusters by assigning each snippet to the relevant label Experimental results show that our method works well for clustering web search results.

作者骆雄武万小军杨建武吴於茜

机构地区北京大学计算机科学技术研究所

出处《中文信息学报》 CSCD 北大核心 2009年第2期83-88,共6页 Journal of Chinese Information Processing

基金国家十一五资助项目(2006BAH02A10) 国家863计划资助项目(2008AA01Z421)

关键词计算机应用中文信息处理检索结果聚类聚类标签生成后缀树 computer application Chinese information processing search results clustering cluster label generation suffix tree

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Baidu search engine[CP].http://www, baidu, com. 被引量：1
2Carrot clustering engine[CP].http://demo, carrot2. org/demo-stable/main. 被引量：1
3Dragon toolkit[CP].http://www, dragontoolkit, org 被引量：1
4H. Chim and X. Deng. A new suffix tree similarity measure for document clustering[C]//WWW.121- 129, 2007. 被引量：1
5Google search engine[CP].http://www, google, com 被引量：1
6Vivisimo clustering engine[CP].http://vivisimo.com 被引量：1
7X. Wang and C. Zhai. Learn from web search logs to organize search results[C]//SIGIR, 87-94, 2007. 被引量：1
8O. Zamir and O. Etzioni. Web document clustering: A feasibility demonstration.[C]//SIGIR, 46-54,1998. 被引量：1
9H. Zeng, Q. He, Z. Chen, W. Ma and J. Ma. Learning to cluster web search results.[C]//SIGIR, 210- 217, 2004. 被引量：1
10Levenshtein distance [EB]. http://en.wikipedia.org/ wiki/Levenshtein_distance. 被引量：1

同被引文献150

1肖欣延,张东站,高君杰,薛永生.一种新的Web检索结果聚类方法[J].计算机研究与发展,2007,44(z2):79-83. 被引量：3
2曾玉.信息检索的模糊聚类分析模型[J].情报学报,2004,23(4):433-436. 被引量：15
3于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
4YANGJian-wu.A Chinese Web Page Clustering Algorithm Based on the Suffix Tree[J].Wuhan University Journal of Natural Sciences,2004,9(5):817-822. 被引量：4
5郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报（自然科学版）,2004,23(6):826-828. 被引量：4
6刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
7马张华,陈文广.查询优化与动态自动聚类系统[J].大学图书馆学报,2005,23(3):34-40. 被引量：7
8赵悦阳 ,崔雷 .专题文献的同被引聚类分析在表现学科专业发展历史的可靠性评价[J].情报学报,2005,24(4):414-421. 被引量：15
9郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
10许云,樊孝忠,张锋.一种不需分词的中文文本分类方法[J].北京理工大学学报,2005,25(9):778-781. 被引量：5

引证文献9

1苏冲,陈清才,王晓龙,孟宪军.基于最大频繁项集的搜索引擎查询结果聚类算法[J].中文信息学报,2010,24(2):58-67. 被引量：5
2刘文婷,滕奇志.后缀树聚类在专用搜索引擎中的应用研究与改进[J].成都信息工程学院学报,2010,25(3):269-274. 被引量：2
3吴夙慧,成颖,郑彦宁,潘云涛.基于N元语法的英文学术文献聚类标签抽取算法[J].现代图书情报技术,2011(7):68-75. 被引量：3
4罗宏,陈黎,王亚强,朱洪波,韩国辉,于中华.基于查询相关性分析的检索结果聚类算法[J].小型微型计算机系统,2011,32(10):2021-2026.
5刘德山.一种改进的基于后缀树模型搜索结果聚类算法[J].计算机科学,2011,38(11):148-152. 被引量：3
6吴夙慧,成颖,郑彦宁,潘云涛.基于学术文献同被引分析的K-means算法改进研究[J].情报学报,2012,31(1):82-94. 被引量：4
7邹志华,田生伟,禹龙,冯冠军.改进的维吾尔语Web文本后缀树聚类[J].中文信息学报,2013,27(2):118-126. 被引量：1
8袁津生,荣元媛.改进后缀树的中文检索结果聚类研究[J].计算机工程与应用,2014,50(21):143-146. 被引量：1
9柏晗,成颖,柯青.网络检索结果聚类研究综述[J].情报理论与实践,2015,38(10):138-144. 被引量：2

二级引证文献19

1吴夙慧,成颖,郑彦宁,潘云涛.一种基于引用上下文和引文网络的相关反馈算法[J].情报学报,2012,31(10):1052-1061. 被引量：3
2党秋月,陆月明.基于OPTICS可达图的自动识别簇方法[J].计算机应用,2012,32(A02):19-21. 被引量：7
3陈雪.基于嵌套圆的可视化聚类方法研究[J].情报杂志,2013,32(9):195-198. 被引量：1
4李青,朱恒民,杨东超.微博网络中舆情话题传播演化模型[J].现代图书情报技术,2013(12):74-80. 被引量：22
5袁津生,荣元媛.改进后缀树的中文检索结果聚类研究[J].计算机工程与应用,2014,50(21):143-146. 被引量：1
6骆绍烨.一种基于用户兴趣的STC改进算法[J].江南大学学报（自然科学版）,2015,14(1):85-89.
7彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(9):1941-1953. 被引量：31
8王贤明,谷琼,胡智文.基于R-Grams的文本聚类方法[J].计算机应用,2015,35(11):3130-3134. 被引量：1
9化柏林,李广建.面向情报流程的情报方法体系构建[J].情报学报,2016,35(2):177-188. 被引量：48
10董亚则,李万龙,李航,郑山红.改进的基于后缀树的Web搜索结果聚类算法[J].吉林大学学报（信息科学版）,2016,34(4):543-549.

1李晶,顾国强.一种改进的FCM检索结果聚类算法研究[J].软件产业与工程,2014(5):39-41.
2袁津生,荣元媛.改进后缀树的中文检索结果聚类研究[J].计算机工程与应用,2014,50(21):143-146. 被引量：1
3柏晗,成颖,柯青.网络检索结果聚类研究综述[J].情报理论与实践,2015,38(10):138-144. 被引量：2
4王晓博,李晓,马博.基于频繁词义序列的检索结果聚类算法研究[J].计算机工程与应用,2015,51(1):13-20. 被引量：3
5陈毅恒,秦兵,宋凡,刘挺,李生.基于ontology抽取优化初始选择的检索结果聚类[J].电子学报,2008,36(B12):166-170. 被引量：8
6庞观松,张黎莎,蒋盛益,邝丽敏,吴美玲.一种基于名词短语的检索结果多层聚类方法[J].山东大学学报（理学版）,2010,45(7):39-44. 被引量：3
7陈毅恒,秦兵,刘挺,王平,李生.基于潜在语义索引和自组织映射网的检索结果聚类方法[J].计算机研究与发展,2009,46(7):1176-1183. 被引量：4
8钟敏娟,万常选,刘德喜,江腾蛟,刘爱红.基于伪反馈的有效XML查询扩展[J].计算机科学与探索,2016,10(12):1673-1682.
9卢仁猛.检索结果聚类算法研究综述[J].计算机光盘软件与应用,2014,17(18):109-110.
10夏斌,徐彬.基于超链接信息的搜索引擎检索结果聚类方法研究[J].电脑开发与应用,2007,20(5):16-17. 被引量：1

中文信息学报

2009年第2期

浏览历史

内容加载中请稍等...

基于后缀树的Web检索结果聚类标签生成方法被引量：9

参考文献10

同被引文献150

引证文献9

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于后缀树的Web检索结果聚类标签生成方法 被引量：9

参考文献10

同被引文献150

引证文献9

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于后缀树的Web检索结果聚类标签生成方法被引量：9