基于发布时间的新闻网页去重方法研究被引量：3

Research on duplicated news webpages deletion method based on issue time

下载PDF

导出

摘要网页检索结果中,用户经常会得到内容相同的冗余页面。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。论文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分“群”,对冗余网页去重方法进行了探索性研究,从而很大程度地缩小了计算时间,提高了去重准确性。 In the homepage retrieval result,users often get the redundant page with same content.It not only wa set the storing resources,but also bring a great deal of inconvenience to information retrieval or other text-processing.We first extract the news title,the subject content and the issue date in this article,then divide group according to data issued on the basis of news fragility and conduct the exploration research to duplicated web pages removal.It greatly reduces the computing time,enhances the duplicated news webpages deletion accuracy.

作者罗永莲张永奎

机构地区晋中学院计算机科学与技术学院山西大学计算机与信息技术学院

出处《计算机工程与应用》 CSCD 北大核心 2007年第6期119-121,共3页 Computer Engineering and Applications

基金国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022) 山西省自然科学基金(the NaturalScience Foundation of Shanxi Province of China under Grant No.20041041) 山西省留学回国人员基金项目(No.2002004)。

关键词新闻网页主题内容抽取网页去重权值计算 news webpages theme＇s extraction duplicated web pages removal weight calculating

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41
2卜东波..聚类/分类理论研究及其在文本挖掘中的应用[D].中国科学院计算技术研究所,2000:
3Yan T W,Molina H G.Duplicate removal in information dissemination[C]//Proceedings of the 21st International Conference on Very Large Data Bases,1995:66-77. 被引量：1
4Liu C J,Wechsler H.A shape-and texture-based enhanced Fisher classifier for face recognition[J].IEEE Transactions on Image Processing,2001,10(4):598-608. 被引量：1
5张刚,刘挺,郑实福,等.大规模网页快速去重算法[C].中国中文信息学学会二十周年学术会议论文集(续集),2001. 被引量：15

二级参考文献5

1[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc. 被引量：1
2[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995. 被引量：1
3[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000. 被引量：1
4[4]J.W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database search outputs using hierarchic cluster analysis,in Program-automated library and information,(1995)29(3) :241-256. 被引量：1
5[5]Buckley C. ,Cardie C. ,Mardis S. ,Mitra M. ,Pierce D. ,Wagstaff K. ,Walz J. ,The Smart/Empire TIPSTER IR System, TIPSTER Phase Ⅲ Proceedings,Morgan Kaufmann,San Francisco,CA,2000. 被引量：1

共引文献49

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
2姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
3曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
4谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
5魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
6连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
7黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
8王鹏,张永奎,张彦,刘睿.基于新闻网页主题要素的网页去重方法研究[J].计算机工程与应用,2007,43(28):177-180. 被引量：7
9钱爱兵,江岚.基于后缀树的中文新闻重复网页识别算法[J].现代图书情报技术,2008(3):55-61. 被引量：6
10陈锦言,孙济洲,张亚平.基于傅立叶变换的网页去重算法[J].计算机应用,2008,28(4):948-950. 被引量：2

同被引文献43

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
3陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
4简国明.地方高校数学建模教学模式的探索与实践[J].大学数学,2005,21(2):35-38. 被引量：25
5程岚岚,何丕廉,孙越恒.基于朴素贝叶斯模型的中文关键词提取算法研究[J].计算机应用,2005,25(12):2780-2782. 被引量：13
6王开选,张永奎.信息过滤中用户模型的表示方法[J].计算机工程,2006,32(5):205-206. 被引量：3
7骆魁敏.信息技术与高中数学建模课程整合的研究[J].信息技术教育,2006(7):44-47. 被引量：5
8张永奎,张彦,安增波,刘睿.Web新闻语料分词和标注错误分析[J].计算机工程与应用,2007,43(15):166-169. 被引量：4
9陈炯.Web突发事件新闻个性化推荐方法的研究[D].太原:山西大学硕士学位论文,2005. 被引量：1
10赵园丁.突发事件语料多层次加工与语义表示方法研究[D].太原:山西大学硕士学位论文,2006. 被引量：1

引证文献3

1张永奎,张晴,王磊.面向信息处理的突发事件新闻语料库建设与应用研究[J].山西大学学报（自然科学版）,2009,32(4):546-551. 被引量：8
2罗永莲,赵昌垣,贾玉芳,芦彩林.基于朴素贝叶斯Web新闻内容的抽取方法[J].计算机与现代化,2016(1):59-63. 被引量：4
3余浛,郭龙,袁琴琴,余红,毛啟,宋紫荆.基于“互联网+中学数学建模”的创新共享平台[J].物联网技术,2018,8(9):114-115.

二级引证文献12

1钟丹,朱倩,李梅,程显毅.人称名词短语单复数信息和最大熵模型的指代消解[J].江南大学学报（自然科学版）,2009,8(6):666-669. 被引量：1
2田芬.英汉语经济类硬新闻的裁决系统对比研究[J].山东外语教学,2011,32(2):32-36. 被引量：3
3宋云霞,张大伟,孙卓,韦军.以语料库为载体的实践教学模式研究[J].实验技术与管理,2011,28(9):110-113. 被引量：3
4韩永峰,郭志刚,陈翰,许旭阳.基于领域特征词的突发事件层次分类方法[J].信息工程大学学报,2012,13(5):593-600. 被引量：3
5张钰莎,蒋盛益.微博公共事件演化分析研究综述[J].广东工业大学学报,2015,32(2):58-63. 被引量：1
6张春菊,张雪英,王曙,廖建平,陈晓丹.中文文本的事件时空信息标注[J].中文信息学报,2016,30(3):213-222. 被引量：12
7司文豪,贾雷萍,戚银城.基于卷积神经网络的中文人物关系抽取方法[J].计算机与现代化,2018(9):17-20. 被引量：4
8梁东,杨永全,魏志强.基于支持向量机的网页正文内容提取方法[J].计算机与现代化,2018(9):21-26. 被引量：2
9杨林伟.突发事件新闻标题的语言学特点——一项语料库驱动的实证研究[J].时代文学（下半月）,2012,0(6):132-133. 被引量：1
10何春辉,王孟然.改进的中文静态网页新闻正文自动抽取算法[J].东莞理工学院学报,2018,25(5):46-50. 被引量：2

1聂卉,张津华.基于网页规划布局的页面主题内容抽取[J].情报理论与实践,2011,34(12):117-120. 被引量：1
2吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41
3罗永莲,秦振吉.新闻网页主题内容提取方法研究[J].微计算机应用,2007,28(5):556-560. 被引量：5
4刘驰,闫宏飞.基于元信息的云盘资源检索结果去重[J].山东大学学报（理学版）,2016,51(7):11-17.
5孙明柱,魏海平.基于结构树的网页正文内容抽取方法[J].科学技术与工程,2011,11(28):6990-6993. 被引量：2
6黄恩博.基于布隆过滤器的网页搜索去重方法[J].现代计算机,2013,19(14):7-10. 被引量：4
7谢蕙,秦杰,胡双双.基于用户查询关键词的网页去重方法研究[J].现代图书情报技术,2008(7):43-46. 被引量：6
8李林,刘桂峰,赵朋朋,崔志明.结构化信息的去重方法[J].计算机工程,2009,35(3):23-25. 被引量：3
9樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2
10赵晓永,杨扬,王宁.基于声学指纹的海量MP3文件近似去重方法[J].计算机工程,2013,39(7):73-75. 被引量：2

计算机工程与应用

2007年第6期

浏览历史

内容加载中请稍等...

基于发布时间的新闻网页去重方法研究被引量：3

参考文献5

二级参考文献5

共引文献49

同被引文献43

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于发布时间的新闻网页去重方法研究 被引量：3

参考文献5

二级参考文献5

共引文献49

同被引文献43

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于发布时间的新闻网页去重方法研究被引量：3