基于加权余弦相似度的XML文档聚类研究被引量：10

XML Domument Clustering Research Based on Weighted Cosine Similarity

下载PDF

导出

摘要在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。 In practical applications,some structures of an XML （eXtensible Markup Language） document are often changed. In order to mining knowledge hiden in the freduently changing structures in the XML document history changes,a method to found the frequently changing structures is proposed,then uses a document-vector model which composition by a set of frequently changing structures to represent an XML document,to proportion that frequently changing structures appearance in the cluster as weight,and cluster XML documents use weighted cosine similarity. After experimental analysis,according to frequently changing structures which found in the XML document historical change process will be better able to cluster XML documents. Cluster XML document using the weighted cosine similarity,the precision rate,recall rate and cluster internal distance of cluster result are all better than the results obtained by use non-weighted cosine similarity.

作者李巍孙涛陈建孝罗梓恒李雄飞

机构地区吉林大学计算机科学与技术学院韩山师范学院数学与信息技术系

出处《吉林大学学报（信息科学版）》 CAS 2010年第1期68-76,共9页 Journal of Jilin University（Information Science Edition）

基金吉林省科技发展计划基金资助项目(20090704)

关键词 XML文档聚类加权余弦相似度频繁变化结构 XML document clustering weighted cosine similarity frequently changing structures

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1BUCHNER A G,MULVENNA M D,ANAND S S,et al.Data Mining and XML:Current and Future Issues[C]∥Web Information Systems Engineering.Washington:IEEE Computer Society,2000:131-135. 被引量：1
2ALEXANDRE TERMIER,MARIE-CHRISTINE ROUSSET,MICHELE SEBAG.Tree Finder:A First Step Towards XML Data Mining[C]∥Proceedings of the 2002 IEEE International Conference on Data Mining.Maebashi City,Japan:IEEE Computer Society,2002:450-457. 被引量：1
3ZHAO Qian-kun,CHENG Ling,BHOWMICK SOURAV S,et al.XML Structural Delta Mining:Issues and Challenges[J].Data and Knowledge Engineering Journal,2006,59(3):627-651. 被引量：1
4ZHAO Qian-kun,BHOWMICK SOURAV S,MOHANIA MUKESH K,et al.Discovering Frequently Changing Structures from Historical Structural Deltas of Unordered XML[C]∥Proceedings of the CIKM.New York,USA:ACM,2004:188-197. 被引量：1
5FLAVIO RIZZOLO,ALEJANDRO A VAISMAN.Temporal XML:Modeling,Indexing,and Query Processing[J].The VLDB Journal,2008,17:1179-1212. 被引量：1
6徐沛娟,李雄飞,惠玥,张桂林.中文文本分类相关算法的研究与实现[J].吉林大学学报（理学版）,2009,47(4):790-794. 被引量：12
7TAY M,SUN Y,LIU D,et al.Mapping XML Data to Relational Data:A DOM-based Approach[C] ∥Internet and Multimedia Systems and Applications.Washington,DC USA:IEEE,2004:426-431. 被引量：1
8NIERMAN A,JAGADISH H V.Evaluating Structural Similarity in XML Documents[C]∥ Proceedings of the WebDB Workshop.Madison Wisconsin,USA:EECS,2002:61-66. 被引量：1
9WANG L,CHEUNG D W,MAMOULIS N,et al.An Efficient and Scalable Algorithm for Clustering XML Documents by Structure[J].IEEE Transactions on Knowledge and Data Engineering,2004,16(1):82-96. 被引量：1
10LEUNG Ho-pong,CHUNG Fu-lai,STEPHEN C F CHAN,et al.XML Document Clustering Using Common XPath[C]//Web Information Retrieval and Integration.Washington,DC,USA:IEEE Computer Society,2005:91-96. 被引量：1

二级参考文献10

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
4屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量：8
5Athanasios Kehagias,Vassilios Petridis,Vassilis G. Kaburlasos,Pavlina Fragkou. A Comparison of Word- and Sense-Based Text Categorization Using Several Classification Algorithms[J] 2003,Journal of Intelligent Information Systems(3):227～247 被引量：1
6Kamal Nigam,Andrew Kachites Mccallum,Sebastian Thrun,Tom Mitchell. Text Classification from Labeled and Unlabeled Documents using EM[J] 2000,Machine Learning(2-3):103～134 被引量：1
7李艳玲,戴冠中,朱烨行.基于类别空间模型的文本倾向性分类方法[J].计算机应用,2007,27(9):2194-2196. 被引量：12
8徐燕,李锦涛,王斌,孙春明,张森.文本分类中特征选择的约束研究[J].计算机研究与发展,2008,45(4):596-602. 被引量：26
9都云琪,肖诗斌.基于支持向量机的中文文本自动分类研究[J].计算机工程,2002,28(11):137-138. 被引量：25
10单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003,39(22):146-148. 被引量：76

共引文献11

1李会,王立峰.Web网页文本特征选择方法研究[J].计算机工程与设计,2010,31(16):3724-3727. 被引量：4
2李鑫,王璐,林金花,韩冬,谷德山.4种计算自然常数e的方法及精度比较[J].东北师大学报（自然科学版）,2010,42(4):57-61. 被引量：4
3丁军平,蔡皖东.面向元信息分类的支持向量机改进技术[J].西安交通大学学报,2011,45(8):37-42. 被引量：1
4王飞,何学文.二元正态分离的特征词提取算法的研究与改进[J].黑龙江科技信息,2012(10):107-107.
5张凤琴,王磊,张水平,王鹏,程超.一种基于聚类加权的文本特征生成算法[J].计算机应用研究,2013,30(1):146-148. 被引量：3
6赵专政,李云翔.聚类加权和CS-LSSVM的文本分类[J].计算机工程与应用,2013,49(16):124-128. 被引量：4
7张人上,曲开社.一种基于新的特征选择的海量网络文本挖掘算法研究[J].计算机应用研究,2014,31(9):2632-2634. 被引量：9
8石文娟,龙舜,云飞.基于背景学习的迭代式文本分类框架[J].计算机工程与应用,2015,51(9):129-134. 被引量：2
9杨凡,任丹,丁函.计算机技术文本分类中的语义分析算法的实践探讨[J].软件,2019,40(6):78-80. 被引量：5
10黎洁仪,梁之彦,范绍佳,梁家鸿.线上降雨灾情检测系统设计与应用[J].计算机技术与发展,2022,32(8):191-196.

同被引文献60

1陈汉军,杨雪.欧几里德距离的几种定义与应用[J].天津轻工业学院学报,2003,18(B12):65-66. 被引量：9
2陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
3田社平,王坚,颜德田,石浩峰.基于遗传算法的正弦波信号参数提取方法[J].计量技术,2005(5):3-5. 被引量：18
4张丙奇,白硕,赵章界.XML数据相似度研究[J].计算机工程,2005,31(11):25-27. 被引量：6
5杨宜东,孙志挥,朱玉全,杨明,张柏礼.基于动态网格的数据流离群点快速检测算法[J].软件学报,2006,17(8):1796-1803. 被引量：22
6薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
7韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2004. 被引量：8
8A.Micarilli, F.Gaspaetti, F.Sciarrone, et al. Personalized Search on the World Wide Web [ C ]. Lecture Notes in Computer Science, 2007 : 225 - 230. 被引量：1
9F. Paul M. Speretta and S. Ganch. Personalized search based on user search histories [C]. Proceedings of the IEEE/WIC/ACM Internation- al Conference on Web Intelligence, 2005: 622- 628. 被引量：1
10FLAVIO RIZZOLO, AL[JANDRO A VAISMAN. Temporal XML. Modeling, Indexing, and Query Processing[J]. The VLDB Journal,2008(1?) : 1179-1212. 被引量：1

引证文献10

1张强,王春霞,赵健,武龙举,李静永.基于聚类和局部信息的离群点检测算法[J].吉林大学学报（理学版）,2012,50(6):1214-1217. 被引量：1
2张一洲.基于用户兴趣的个性化信息检索方法研究[J].现代情报,2015,35(6):25-28. 被引量：4
3张跟鹏.XML中基于聚类的相似度改进算法[J].计算机与数字工程,2015,43(12):2141-2144.
4罗维佳,乔少杰,韩楠,元昌安,闭应洲,舒红平.面向LBSN的k-medoids聚类算法[J].中国科学技术大学学报,2017,47(1):70-79. 被引量：1
5彭艳兵,姚伟烈,刘卫江.基于地理位置时间序列的相似性研究[J].电子设计工程,2017,25(8):37-40. 被引量：1
6邹学玉,袁延秀,熊杰.基于粒子滤波的短时正弦信号相位参数估计[J].长江大学学报（自然科学版）,2017,14(9):13-16. 被引量：1
7许林,张烈华,王晋春.梯度硬质合金齿渗碳工艺对其梯度层厚度的影响[J].长江大学学报（自然科学版）,2017,14(9):33-37. 被引量：1
8罗浪,汪静.基于多宽度高斯核的支持向量机特征选取算法研究[J].软件导刊,2018,17(2):80-85.
9宁光涛,陈明帆,林强,周航,黄亮,高玉洁.一种结合降维技术的负荷曲线双层聚类算法[J].自动化与仪器仪表,2018,0(5):18-23. 被引量：3
10陶铭.基于FTP+Web的作业管理系统设计与应用实践[J].东莞理工学院学报,2019,26(3):22-27. 被引量：4

二级引证文献16

1王丽娜,许朴,谢亚琴.基于WSRFCM聚类的局部离群点检测算法[J].微电子学与计算机,2015,32(10):129-133. 被引量：2
2任敏.大数据网络中虚假情报信息优化识别仿真研究[J].计算机仿真,2017,34(3):297-300. 被引量：6
3夏虹,伍利.医学图书馆信息报道用户点击行为影响因素实证分析研究[J].医学信息学杂志,2017,38(9):74-77.
4於馨彦,孙瑞玲.医院特定患者信息资源快速检索仿真研究[J].计算机仿真,2017,34(12):389-392. 被引量：3
5王慧娟,王勇.分布式数据库用户兴趣信息优化检索仿真[J].计算机仿真,2018,35(6):422-425. 被引量：1
6陈波,张云贺,邱少明,王运明.基于IRWQS与模糊特征的位置预测算法[J].计算机科学,2018,45(B06):318-322.
7王玙.基于聚类算法的企业管理系统的设计[J].电子设计工程,2019,27(4):47-51. 被引量：3
8顾金宝,高建,时凯华,舒军,曾伟,董凯林,董定乾.矿用WC-Co梯度硬质合金的制备及应用研究现状[J].稀有金属与硬质合金,2019,47(4):83-88. 被引量：5
9余健,林炳锋,赵瞩华,张婉婷.一种基于聚类分析的电力计量自动化检定流水线故障诊断方法[J].电子设计工程,2020,28(8):76-79. 被引量：9
10吴淑珍.智慧教育背景下应用型高校教学资源管理系统的优化设计[J].信息与电脑,2021,33(8):233-235. 被引量：2

1孙霞,程宏斌.基于模式的XML文档相似度算法[J].计算机工程,2010,36(21):54-56. 被引量：2
2刘爱琴,荀亚玲.基于属性熵和加权余弦相似度的离群算法[J].太原科技大学学报,2014,35(3):171-175. 被引量：5
3罗梓恒,李巍,孙涛,李雄飞.基于频繁变化结构的时序XML文档聚类方法[J].计算机工程,2010,36(21):28-30.
4李巍,李雄飞,郭建芳.XML空间频繁变化结构挖掘方法[J].计算机学报,2013,36(2):317-326. 被引量：1
5潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
6冯少荣,潘炜炜,林子雨.基于改进k-medoids算法的XML文档聚类[J].计算机工程,2015,41(9):56-62. 被引量：4
7苏强,李雄飞,罗梓恒.从XML历史结构变化中发现频繁变化结构[J].小型微型计算机系统,2010,31(11):2154-2159.
8郅大鹏,汤进,江波,罗斌.多模复杂网络模型的形状特征提取方法[J].计算机科学与探索,2013,7(6):570-576. 被引量：3
9蒋宗礼,鲁国相.MatchLink：一种主题爬行方法[J].北京工业大学学报,2007,33(11):1227-1232.
10汤进,郅大鹏,江波,罗斌.基于有向复杂网络模型的形状描述与识别[J].计算机辅助设计与图形学学报,2014,26(11):2039-2045. 被引量：4

吉林大学学报（信息科学版）

2010年第1期

浏览历史

内容加载中请稍等...

基于加权余弦相似度的XML文档聚类研究被引量：10

参考文献11

二级参考文献10

共引文献11

同被引文献60

引证文献10

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于加权余弦相似度的XML文档聚类研究 被引量：10

参考文献11

二级参考文献10

共引文献11

同被引文献60

引证文献10

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于加权余弦相似度的XML文档聚类研究被引量：10