基于概念的网页相似度处理算法研究被引量：8

Concept based algorithm of dealing near-replicas of documents on the Web

下载PDF

导出

摘要针对海量网页信息,提出适于搜索引擎使用的网页相似度处理算法。算法依据网页抽象形成的概念,在倒排文档基础上建立相似度处理模型。该模型缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为优化相似度计算奠定了良好基础。 To solve near-replicas of documents on the Web obtained by search engine, a similarity dealing algorithm was proposed. Based on concepts extracted from the Web pages and inverted file, the algorithm built a model which shrank the scale of the Web pages processed. The algorithm saved a great deal of temporal and spatial resources and provides a good foundation for near-replicas detection.

作者郭晨娟李战怀

机构地区西北工业大学计算机学院

出处《计算机应用》 CSCD 北大核心 2006年第12期3030-3032,共3页 journal of Computer Applications

基金西北工业大学研究生创业种子基金资助项目(Z200644)

关键词相似网页概念抽取聚类分析消重 near-repllcas documents concept extraction cluster analysis near-replicas detection

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1SALTON G,MCGILL MJ.Introduction to Modern Information Retrieval[M].McGraw-Hill,Inc.,1983. 被引量：1
2SALTON G.Automatic Text Processin-the Transformation,Analysis and Retrieval of Information by Computer[M].Addison-Wesley Publishing Co.,Reading,MA,1989. 被引量：1
3李晓明,闫宏飞,王继民著..搜索引擎原理、技术与系统[M].北京:科学出版社,2005:248.
4SHIAN-HUA LIN,JAN-MING HO.Discovering informative content blocks from Web documents[A].Proceedings of the SIGKDD Conference[C].2002.588 -593. 被引量：1
5YANG YM.Noise reduction in a statistical approach to text categorization[A].Proceedings of SIGIR295,18th ACM International Conference on Research and Development in Information Retrieval[C].1995. 被引量：1
6HAN JW,KAMBER M.Data Mining:Concepts and Techniques[M].Morgan Kaufmann Publishers,Inc.,1998. 被引量：1
7ETZWEILER L,MARTIN C.Binary cluster division and its application to a modified single pass clustering algorithm[R].In Report No.ISR-21 to the National Library of Medicine,1972. 被引量：1
8JOON HO LEE.Combining Multiple Evidence from Different Properties of Weighting Schemes[A].Proceeding of the 18th annual international ACM SIGIR conference on Research and development in information retrieval[C].1995. 被引量：1
9BRIN S,PAGE L.The Anatomy of a Large-Scale Hypertextual Web Search Engine[A].Proceedings of the 7th International World Wide Web Conference[C].1998. 被引量：1

同被引文献78

1韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
6徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
7金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
8陈伟柱,陈英,吴燕.基于分类技术的搜索引擎排名算法——CategoryRank[J].计算机应用,2005,25(5):995-997. 被引量：6
9白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
10赫枫龄,左万利,张雪松.高性能网页索引器JU_Indexer的实现[J].吉林大学学报（理学版）,2006,44(1):50-56. 被引量：4

引证文献8

1杜海刚,李先国.一种基于关键词的近似网页检测算法[J].微计算机应用,2008,29(2):41-45. 被引量：2
2潘昊,谭龙远.领域相关自适应的PageRank算法搜索策略[J].计算机应用,2008,28(9):2192-2194. 被引量：4
3何忠秀,王霜,安礼成.基于向量空间的网页内容相似度计算方法研究[J].计算机与现代化,2010(9):53-55. 被引量：4
4李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
5李卫东,陆玲.融合VSM技术的PageRank算法研究与应用[J].计算机与现代化,2011(7):96-98. 被引量：4
6楼俊君.一种高校网站群近似镜像网页检测系统的设计[J].黑龙江科技信息,2013(22):146-146.
7余翔,郭垸汝,马广浩.基于图论模型的改进型频谱分配算法[J].广东通信技术,2014,34(3):33-37. 被引量：3
8吴树芳,徐建民,武晓波.融合用户标签和关系的微博用户相似性度量[J].情报杂志,2014,33(12):170-173. 被引量：8

二级引证文献34

1邓丹君,周彩兰.基于内容相关性和时间分析的改进PageRank算法[J].计算机与数字工程,2011,39(1):25-27. 被引量：7
2李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
3虞曼,熊前兴.基于净化网页的改进消重算法[J].计算机系统应用,2011,20(12):197-199.
4郭庆宝,贾代平.融合反馈信息与内容相关度的PageRank改进算法[J].计算机工程与设计,2011,32(12):4071-4074. 被引量：9
5李娜,刘俊辉.采用改进受欢迎度的PageRank优化算法[J].计算技术与自动化,2011,30(4):95-97.
6程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
7毕硕本,曾晓文,马燕.基于相似度的快速网页排序算法[J].科学技术与工程,2014,22(13):67-70. 被引量：2
8蒋宗礼,时福林.基于链接关系的网页分类优化算法[J].计算机与现代化,2014(5):14-17. 被引量：2
9高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
10郭鹏涛,胡晓龙.认知无线电中基于图论的频谱分配研究[J].数字技术与应用,2014,32(9):79-79.

1符于江.基于内容特征码的重复网页检测方法探析[J].科技信息,2012(26):162-163.
2沈盈洪,丰翔龙,黄荣游.基于网页聚类的搜索结果优化算法研究[J].计算机应用,2010,30(A01):51-53. 被引量：3
3小黔.快速关闭相似网页[J].网友世界,2006(17):33-33.
4张敏.信息抽取技术在网页中的应用[J].中国城市经济,2011(20):150-151.
5徐铁,耿佳宁.网页信息抽取方法的研究[J].信息技术,2009,33(4):112-115. 被引量：4
6赵坤.网页过滤中文本内容的抽取技术研究[J].硅谷,2010,3(8):64-64.
7罗备针.倒排文档在FOXBASE上的实现[J].云南软件产业,1991(1):22-28.
8刘明政,蔡小芳.利用倒排文档实现基于内容的图像检索[J].计算机与数字工程,2009,37(7):143-146. 被引量：1
9蔡新华.一种倒排文挡的结构和算法设计[J].中文信息,1991(2):73-74.
10连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7

计算机应用

2006年第12期

浏览历史

内容加载中请稍等...

基于概念的网页相似度处理算法研究被引量：8

参考文献9

同被引文献78

引证文献8

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于概念的网页相似度处理算法研究 被引量：8

参考文献9

同被引文献78

引证文献8

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于概念的网页相似度处理算法研究被引量：8