期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
基于特征码的大规模XML文档去重研究
被引量:
1
下载PDF
职称材料
导出
摘要
本文总结了目前基于XML文档的一些信息检索技术,并通过一种特征码技术,将海量的XML文档中内容重复的文档检索出来。利用可以将XML文档映射到关系数据库中的X-RESTORE技术管理、存储、查找XML文档,并利用它的解析器快速定位特征码。将特征码通过高效的B+树来索引,大大提高系统的处理效率。
作者
韩正服
杨喜权
张一鸣
丛荣华
机构地区
吉林大学网络中心
东北师范大学计算机学院
出处
《中国管理信息化(综合版)》
2006年第7期75-77,共3页
China Management Informationization
基金
国家自然科学基金项目(60473042)
关键词
XML
信息检索
特征码技术
X-RESTORE
B+树
分类号
TP393 [自动化与计算机技术—计算机应用技术]
引文网络
相关文献
节点文献
二级参考文献
5
参考文献
5
共引文献
23
同被引文献
21
引证文献
1
二级引证文献
9
参考文献
5
1
蒲秋梅..基于XML的Web数据挖掘技术的研究[D].武汉大学,2004:
2
曾民族主编..信息服务的信息技术应用 上[M].北京:国防工业出版社,2001:428.
3
孙登峰..XML文档信息检索技术研究与实现[D].中国人民解放军国防科学技术大学,2002:
4
[4]万长选编著.XML数据库技术[M].北京:清华大学出版社,2004.
被引量:1
5
赵汀,孟祥武.
基于LUCENEAPI的中文全文数据库设计与实现[J]
.计算机工程与应用,2003,39(20):179-181.
被引量:24
二级参考文献
5
1
胡盈盈.单汉字标引与检索技术综析[M].南京大学信息管理系,..
被引量:1
2
张政保.全文数据库研究[M].中山大学,1995..
被引量:1
3
杨沛.全文数据库索引机制的比较研究[M].中国科技信息研究所,1995..
被引量:1
4
Lucene 1.2-RC4 API.http://jakarta.apache.org/lucene/docs/api/index.html, 2002.
被引量:1
5
java offical web site.http://java.sun.com/,2002.
被引量:1
共引文献
23
1
周强.
用Lucene实现MARC记录全文索引之探索[J]
.图书馆学刊,2005,27(2):22-24.
被引量:2
2
郭一平,向晖,王亮.
基于Lucene的Ftp搜索引擎的设计[J]
.高校图书情报论坛,2005,4(4):7-9.
3
郭一平,向晖,王亮.
基于Lucene的Ftp搜索引擎的设计[J]
.图书情报工作,2006,50(4):122-125.
被引量:3
4
蒋国瑞,孙明.
基于Lucene的TBT文档管理Agent系统研究[J]
.情报杂志,2006,25(5):37-40.
被引量:1
5
向晖,郭一平,王亮.
基于Lucene的中文字典分词模块的设计与实现[J]
.现代图书情报技术,2006(8):46-50.
被引量:27
6
蔡建超,郭一平,王亮.
基于Lucene.Net校园网搜索引擎的设计与实现[J]
.计算机技术与发展,2006,16(11):73-75.
被引量:14
7
张晓卫,朱巧明.
一种基于Lucene的Web全文信息检索系统的设计与实现[J]
.计算机与现代化,2006(12):111-115.
被引量:6
8
温艳鸿.
基于lucene的文件搜索引擎的设计与扩展[J]
.福建电脑,2007,23(8):144-144.
被引量:4
9
宋佳,诸云强,刘润达.
一种基于Lucene改进的全文检索工具包[J]
.计算机工程与应用,2008,44(4):172-175.
被引量:15
10
周祥,王丽芳,蒋泽军,张羽.
基于Lucene的企业信息门户搜索引擎设计[J]
.微处理机,2009,30(4):62-64.
被引量:6
同被引文献
21
1
谢蕙,秦杰.
基于元搜索的网页消重方法研究[J]
.计算机系统应用,2008,17(8):94-96.
被引量:5
2
姚新波,马治坤.
基于特征串的网页去重算法[J]
.科技信息,2008(28).
被引量:3
3
白广慧,连浩,刘悦,程学旗.
网页查重技术在企业数据仓库中的应用[J]
.计算机应用,2005,25(7):1713-1715.
被引量:3
4
陈基漓,牛秦洲.
基于特征码的网页去重[J]
.微计算机信息,2006,22(03X):113-115.
被引量:11
5
高凯,王永成,肖君.
网页去重策略[J]
.上海交通大学学报,2006,40(5):775-777.
被引量:13
6
郭晨娟,李战怀.
基于概念的网页相似度处理算法研究[J]
.计算机应用,2006,26(12):3030-3032.
被引量:8
7
连浩,刘悦,许洪波,程学旗.
改进的基于布尔模型的网页查重算法[J]
.计算机应用研究,2007,24(2):36-39.
被引量:7
8
张元丰,董守斌,张凌,陈晓志.
基于Map/Reduce的网页消重并行算法[J]
.广西师范大学学报(自然科学版),2007,25(2):153-156.
被引量:2
9
王鹏,张永奎,张彦,刘睿.
基于新闻网页主题要素的网页去重方法研究[J]
.计算机工程与应用,2007,43(28):177-180.
被引量:7
10
魏丽霞,郑家恒.
基于网页文本结构的网页去重[J]
.计算机应用,2007,27(11):2854-2856.
被引量:13
引证文献
1
1
李志义,梁士金.
国内网页去重技术研究:现状与总结[J]
.图书情报工作,2011,55(7):118-121.
被引量:9
二级引证文献
9
1
程芃森,安俊秀.
基于特征词群的新闻类重复网页和近似网页识别算法[J]
.成都信息工程学院学报,2012,27(4):374-379.
2
高翔,李兵.
中文短文本去重方法研究[J]
.计算机工程与应用,2014,50(16):192-197.
被引量:4
3
王君泽,曾润喜,杜洪涛.
基于网页转载关系判别的网络舆情传播态势分析[J]
.情报杂志,2015,34(1):144-149.
被引量:4
4
贲兴龙,贾大文,袁林.
一种面向大规模网页去重的三层分布式架构[J]
.计算机与数字工程,2015,43(10):1751-1755.
被引量:2
5
刘年国,王芬,吴家奇,李雪,陶涛.
基于Counting Bloom Filter的海量网页快速去重研究[J]
.安徽电气工程职业技术学院学报,2016,21(3):92-97.
6
黄伟建,杨海龙.
Hadoop下改进布隆过滤器算法的网页去重[J]
.计算机工程与科学,2017,39(2):285-290.
被引量:1
7
张庆梅.
舆情去重算法的研究与比较[J]
.电子设计工程,2017,25(14):23-27.
被引量:1
8
吴家奇,刘年国,李雪,谢翔,王涛.
基于Counting Bloom Filter的海量网页快速去重研究[J]
.电力大数据,2018,21(12):37-42.
被引量:1
9
李洪奇,冯海波,张伟,杨中国,宋伟城.
基于字集特征向量的网页消重改进算法[J]
.计算机工程与应用,2017,53(2):53-57.
1
张迎春.
基于特征码技术的攻防策略[J]
.计算机系统应用,2009,18(3):114-117.
被引量:4
2
刘卓.
相同内容重复巧输入[J]
.电脑爱好者,2012(9):51-51.
被引量:1
3
徐勇,成良玉,李猛.
基于XML数据的关联规则挖掘研究[J]
.计算机工程与设计,2006,27(24):4704-4706.
被引量:3
4
杨树珍,徐红伟.
两种GML数据挖掘方法之比较[J]
.产业与科技论坛,2011(8):96-97.
5
贾小恒.
XML文档存储在关系数据库中的研究[J]
.电脑编程技巧与维护,2009(24):56-57.
被引量:1
6
朱连军,董雪.
数据库中XML文档的存储研究[J]
.河南教育学院学报(自然科学版),2009,18(3):35-37.
7
朝格.
浅谈EXCEL与XML的数据交换[J]
.软件,2012,33(5):48-50.
被引量:1
8
杨科,赖朝安,赵阳.
基于XML数据的FP-growth算法挖掘研究[J]
.计算机工程与应用,2008,44(19):150-152.
被引量:2
9
王行哲.
XML Schema到UML类图的转换方法[J]
.电脑知识与技术(过刊),2007(24):113-114.
10
崔清华.
XML文档在关系数据库中的存储研究[J]
.微计算机信息,2007,23(04X):184-186.
被引量:4
中国管理信息化(综合版)
2006年 第7期
职称评审材料打包下载
相关作者
内容加载中请稍等...
相关机构
内容加载中请稍等...
相关主题
内容加载中请稍等...
浏览历史
内容加载中请稍等...
;
用户登录
登录
IP登录
使用帮助
返回顶部