基于编辑距离的Web数据挖掘被引量：16

Web data extraction based on edit distance

下载PDF

导出

摘要 Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级。为了更好地从网页中挖掘数据,提出了一种新的Web数据挖掘算法,把树编辑距离转化为字符串编辑距离的计算,改进字符串编辑距离算法,利用字符串编辑距离评价树的相似度,进而找到网页中的重复模式,提取数据。通过针对不同重复模式特征的网页的实验说明,基于编辑距离的Web数据挖掘算法不仅能提取具有根节点及上面几层相同的网页的数据,对具有底层节点相同的网页也是有效的。 Div ＋ CSS is popular in Web page layout.In this layout,a lot of data records of Web pages gather in a layer in the form of repetition structure.To mine data from Web well,this paper proposed a new kind of Web data mining algorithm,computed tree edit distance through string edit distance,improved string edit distance algorithm,used string edit distance to access similarity between one tree and another,and then found repeated patterns in Web pages and mined data.By testing pages of different features of repeated patterns,this algorithm is proved to extract Web data successfully with the feature whether the root and upper layer nodes are the same or the lowest layer nodes are the same.

作者黄亮赵泽茂梁兴开

机构地区杭州电子科技大学通信工程学院

出处《计算机应用》 CSCD 北大核心 2012年第6期1662-1665,共4页 journal of Computer Applications

基金上海市信息安全综合管理技术研究重点实验室开放课题资助项目(AGK2009008)

关键词 WEB数据挖掘编辑距离字符串编辑距离树编辑距离 Web data mining edit distance string edit distance tree edit distance

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1CRESCENZI V, MECCA G, MERIALDO P. RoadRunner: Towards automatic data extraction from large Web sites[ C]// Proceedings of the 27th Very Large Data Base Endowment Conference. San Fran- cisco: Morgan Kaufmann Publishers Inc, 2001 : 109 - 118. 被引量：1
2CHANG CHIA-HUI, LUI SHAO-CHEN. IEPAD: information ex- traction based on pattern discovery[ C]// Proceedings of the 10th International Conference on World Wide Web. New York: ACM, 2001:681 -688. 被引量：1
3LIU BING, GROSSMAN R L, ZHAI YANHONG. Mining data re- cords in Web pages[ C]//Proceedings of the 9th ACM SIGKDD In- ternational Conference on Knowledge Discovery and Data Mining. New York: ACM, 2003:601 -606. 被引量：1
4顾韵华,田伟.基于DOM模型扩展的Web信息提取[J].计算机科学,2009,36(11):235-237. 被引量：21
5李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
6胡仁龙,袁春风,武港山,濮小佳.基于重复模式的自动Web信息抽取[J].计算机工程,2008,34(22):73-76. 被引量：8
7姜波,丁岳伟.基于约束树编辑距离与导航树的信息采集[J].计算机工程,2009,35(14):75-77. 被引量：9
8聂卉,黄贵鹏.树编辑距离在Web信息抽取中的应用与实现[J].现代图书情报技术,2010(5):29-34. 被引量：8
9乔少杰唐常杰陈瑜等.基于树编辑距离的层次聚类算法.计算机科学与探索,2007,1(3):282-292. 被引量：5
10朱南丽,朱晓鸣,叶五梅.Web信息抽取中基于结点权重的树编辑距离匹配法研究[J].计算机时代,2010(3):49-51. 被引量：2

二级参考文献69

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4陈晓志,董守斌,张凌,张元丰.基于URL类型和网页链接变化的信息采集更新算法[J].郑州大学学报（理学版）,2007,39(2):60-64. 被引量：1
5高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
6Chang Chia-Hui, Kayed M, Girgis M R. A Survey of Web Information Extraction Systems[J]. IEEE Transaction on Know-ledge and Data Engineering, 2006, 18( 10): 1411 - 1428. 被引量：1
7Crescenzi V, Mecca G, Merialdo R Road-runner: Towards Automatic Data Extraction from Large Web Sites[C]//Proc. of the 26th Int'l Conf. on Very Large Database Systems. Roma, Italy: [s. n.], 2001: 109-118. 被引量：1
8Chang Chia-Hui, Lui C. IEPAD: Information Extraction Based on Pattern Discovery[C]//Proceedings of the 10th International Conference on World Wide Web. Hong Kong, China: [s. n.], 2001: 681-688. 被引量：1
9Liu Bing, Grossman R, Zhai Yanhong. Mining Data Records in Web Pages[C]//Proceedings of KDD'03. Washington D. C., USA: [s. n.], 2003: 601-606. 被引量：1
10Phong L Vuong B Gao Xiaoying, et al. Data Extraction from Semi-structured Web Pages by Clustering[C]//Proceedings of WI'06. Hong Kong, China: [s. n.], 2006: 374-377. 被引量：1

共引文献143

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
6王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
7孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
8李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
9张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
10LIXiang-yang,ZHANGYa-fei,LUJian-jiang,XUBao-wen.A Classification Method for Web Information Extraction[J].Wuhan University Journal of Natural Sciences,2004,9(5):823-827. 被引量：2

同被引文献221

1程蓓,李小洁.高校科研成果数据处理流程及质量控制探讨[J].图书馆杂志,2020,39(1):48-55. 被引量：4
2赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
3张雪英,闾国年.基于字面相似度的地理信息分类体系自动转换方法[J].遥感学报,2008,12(3):433-441. 被引量：15
4何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
5胡雄伟,张宝林,李抵飞.大数据研究与应用综述(下)[J].标准科学,2013(11):29-33. 被引量：25
6王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报（自然科学版）,2010,30(2):61-64. 被引量：5
7曹犟,邬晓钧,夏云庆,郑方.基于拼音索引的中文模糊匹配算法[J].清华大学学报（自然科学版）,2009(S1):1328-1332. 被引量：14
8李由,刘东波,张维明.基于数据实例分布特征的自动模式匹配方法[J].计算机科学,2005,32(11):85-87. 被引量：11
9凌云,刘军,王勋.多层次web文本分类[J].情报学报,2005,24(6):684-689. 被引量：12
10章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量：39

引证文献16

1陈熙.编辑距离的Web数据挖掘问题研究[J].中国电子商务,2014(6):46-46.
2姜蕾,董东.一种古诗词联机评判算法[J].福建电脑,2014,30(2):1-4.
3郭文龙.基于长度过滤和有效权值的SNM改进算法[J].计算机工程与应用,2014,50(19):123-127. 被引量：7
4李雪琴,李聪,马丽,梁昌勇.树型网络相似性度量方法研究：一个分类视角[J].情报学报,2014,33(11):1146-1159.
5何锋,谷锁林,陈彦辉.基于编辑距离相似度的文本校验技术研究与应用[J].飞行器测控学报,2015,34(4):389-394. 被引量：12
6李圣文,凌微,龚君芳,周长征.一种基于熵的文本相似性计算方法[J].计算机应用研究,2016,33(3):665-668. 被引量：13
7赵艳妮,郭华磊.基于有效路径权重的XML树匹配算法[J].计算机工程与设计,2016,37(4):949-953. 被引量：2
8杨巧巧,郭振波,王开西.基于聚类分组和属性综合权值的SNM改进算法[J].工业控制计算机,2017,30(9):27-28. 被引量：6
9吴振华,高瑞泽.智能家居场景下改进的中文字符串匹配算法[J].南昌航空大学学报（自然科学版）,2018,32(2):81-85. 被引量：1
10张培根,黄树成.一种用于中文数据清洗的近邻排序算法[J].计算机应用与软件,2018,35(8):286-288. 被引量：8

二级引证文献63

1钟顺杰,葛小三.多权组与双半径结合的异源POI融合方法[J].测绘科学,2023,48(11):230-244.
2王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：11
3刘雅思,程力,李晓.基于长度过滤和动态容错的SNM改进算法[J].计算机应用研究,2017,34(1):147-150. 被引量：9
4邓帅,乔向阳,马兵,陆振坤,杜鸣亮,程宜风.变电站继电保护定值单电子核验交接系统研究与应用[J].电工技术,2017(1):6-8. 被引量：2
5李跃.大数据算法的设计与实现[J].电子技术与软件工程,2017(6):181-182. 被引量：2
6涂静文.大数据库的相似记录检测方法研究[J].计算机仿真,2017,34(3):410-413. 被引量：3
7杨晓东,李军,王继荣,王芳.基于增量自适应的邻近排序算法优化[J].青岛大学学报（自然科学版）,2017,30(2):53-57. 被引量：2
8张瀚.大数据算法的供应链管理关键技术探究[J].网络安全技术与应用,2017(7):76-77. 被引量：2
9黄泽波.大数据时代的数据挖掘技术分析[J].农村经济与科技,2017,28(12):294-294. 被引量：2
10郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1

1常国锋.浅析编写计算机程序的三种结构[J].电子制作,2015,23(2Z).
2郑启华.PASCAL语言讲座(三)[J].电脑爱好者,1998(11):29-31.
3黄浩锋,肖南峰.基于组稀疏表示的医学图像超分辨率重建[J].计算机科学,2015,42(S1):151-153 189. 被引量：6
4许细清,林世平.Web文档评价对象抽取研究[J].计算机工程,2011,37(6):30-31. 被引量：2
5周少恒,何桃,龙鹏程,程梦云,江平,FDS团队.MCNP大规模重复结构体素的实时交互可视化方法研究[J].核科学与工程,2012,32(3):266-270. 被引量：1
6黄亮,赵泽茂,梁兴开.基于属性标签的Web数据挖掘[J].计算机应用与软件,2012,29(11):156-159. 被引量：1
7孔燕燕,施化吉.基于相似URL的深层网数据区域识别[J].计算机工程,2012,38(2):48-50. 被引量：1
8DONG Fang,ZHANG Dong,YANG Yan,YANG Yue,QIN Qianqing.Distance Estimation in Ultrasound Images Using Specific Decorrelation Curves[J].Wuhan University Journal of Natural Sciences,2013,18(6):517-522.
9鲁统伟,任莹,闵锋.基于松弛与投票的目标定位算法[J].软件导刊,2013,12(5):57-59.
10周凯汀,郑力新.基于改进ORB特征的多姿态人脸识别[J].计算机辅助设计与图形学学报,2015,27(2):287-295. 被引量：24

计算机应用

2012年第6期

浏览历史

内容加载中请稍等...

基于编辑距离的Web数据挖掘被引量：16

参考文献12

二级参考文献69

共引文献143

同被引文献221

引证文献16

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于编辑距离的Web数据挖掘 被引量：16

参考文献12

二级参考文献69

共引文献143

同被引文献221

引证文献16

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于编辑距离的Web数据挖掘被引量：16