图像-文本相关性挖掘的Web图像聚类方法被引量：10

Clustering Web Images by Correlation Mining of Image-Text

下载PDF

导出

摘要为了实现Web图像检索结果的聚类,提出了一种Web图像的图聚类方法.首先定义了两种类型关联:单词与图像结点之间的异构链接以及单词结点之间的同构链接.为了克服传统的TF-IDF方法不能直接反映单词与图像之间的语义关联局限性,提出并定义了单词可见度(visibility)这一属性,并将其集成到传统的tf-idf模型中以挖掘单词-图像之间关联的权重.根据LDA(latent Dirichlet allocation)模型,单词-单词之间关联权重通过一个定义的主题相关度函数来计算.最后,应用复杂图聚类和二部图协同谱聚类等算法验证了在图模型上引入两种相关性关联的有效性,达到了改进了Web图像聚类性能的目的. To cluster the retrieval results of Web image, a framework for the clustering is proposed in this paper. It explores the surrounding text to mine the correlations between words and images and therefore the correlations are used to improve clustering results. Two kinds of correlations, namely word to image and word to word correlations, are mainly considered. As a standard text process technique, tf-idf method cannot measure the correlation of word to image directly. Therefore, this paper proposes to combine tf-idf method with a feature of word, namely visibility, to infer the correlation of word to image. Through LDA model, it defines a topic relevance function to compute the weights of word to word correlations. Finally, complex graph clustering and spectral co-clustering algorithms are used to testify the effect of introducing visibility and topic relevance into image clustering. Encouraging experimental results are reported in this paper.

作者吴飞韩亚洪庄越挺邵健

机构地区浙江大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2010年第7期1561-1575,共15页 Journal of Software

基金国家自然科学基金Nos.60603096 60533090 国家高技术研究发展计划(863)No.2006AA010107 长江学者和创新团队发展计划Nos.IRT0652 PCSIRT~~

关键词图聚类复杂图可见度 LDA(latent DIRICHLET allocation) 谱聚类 graph clustering complex graph visibility latent Dirichlet allocation spectral clustering

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103
2张鸿,吴飞,庄越挺,陈建勋.一种基于内容相关性的跨媒体检索方法[J].计算机学报,2008,31(5):820-826. 被引量：34

二级参考文献34

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
2曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
4Fabrizio Sebastiani. Text categorization//Alessandro Zanasi. Text Mining and its Applications. Southampton, UK: WIT Press, 2005:109-129 被引量：1
5Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1): 1-47 被引量：1
6Moschitti A, Basili R. Complex linguistic features for text classification: A comprehensive study//McDonald S, Tait J. Proceedings of the ECIR-04. Sunderland: Springer-Verlag. Sunderland, U. K., 2004:181-196 被引量：1
7Kehagias A, Petridis V, Kaburlasos V G, Fragkou P. A comparison of word- and sense- based text categorization using several classification algorithms. Journal of Intelligent Information Systems, 2003, 21(3): 227-247 被引量：1
8Deerwester S, Dumais S T, Furnas et al. Indexing by latent semantic indexing. Journal of the American Society for Information Science, 1990, 41(6): 391-407 被引量：1
9Thomas Hofmann. Probabilistic latent semantic indexing// Proceedings of the SIGIR. Berkeley, CA, USA, 1999:50-57 被引量：1
10Schutze H, Hull D A et al, A comparison of classifiers and document representations for the routing problem//Proceedings of the SIGIR-95. Seattle, Washington, USA, 1995: 229-237 被引量：1

共引文献135

1吴飞,刘亚楠,庄越挺.基于张量表示的直推式多模态视频语义概念检测[J].软件学报,2008,19(11):2853-2868. 被引量：10
2陈铭,郭同强,吴飞,王叶钧,庄越挺.情景式跨媒体数字城市系统[J].计算机辅助设计与图形学学报,2008,20(11):1432-1439. 被引量：3
3刘扬,郑逢斌,姜保庆,蔡坤.基于多模态融合和时空上下文语义的跨媒体检索模型的研究[J].计算机应用,2009,29(4):1182-1187. 被引量：7
4杨易,郭同强,庄越挺,王文华.基于综合推理的多媒体语义挖掘和跨媒体检索[J].计算机辅助设计与图形学学报,2009,21(9):1307-1314. 被引量：12
5吴飞,庄越挺.互联网跨媒体分析与检索:理论与算法[J].计算机辅助设计与图形学学报,2010,22(1):1-9. 被引量：34
6王朝飞,王凯.主题模型在数字图书馆Web服务中的应用[J].情报理论与实践,2010,33(2):118-120. 被引量：4
7张小平,周雪忠,黄厚宽,冯奇,陈世波.基于词相似性与CRP的主题模型[J].模式识别与人工智能,2010,23(1):72-76. 被引量：8
8柳培忠,王守觉.适用于视觉媒体检索的视频镜头分割算法[J].计算机应用研究,2010,27(5):1935-1937. 被引量：4
9唐颖军,须德,解文杰,薄一航.一种基于类主题空间的图像场景分类方法[J].中国图象图形学报,2010,15(7):1067-1073. 被引量：14
10肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6

同被引文献90

1王国胜.核函数的性质及其构造方法[J].计算机科学,2006,33(6):172-174. 被引量：52
2谷瑞军,须文波.基于核方法的彩色图像量化研究[J].计算机应用,2006,26(9):2063-2064. 被引量：1
3余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：44
4薄树奎,李盛阳,朱重光.基于统计学的最近邻查询中维数灾难的研究[J].计算机工程,2006,32(21):6-8. 被引量：15
5施智平,胡宏,李清勇,史俊,史忠植.视频数据库的聚类索引方法[J].计算机学报,2007,30(3):397-404. 被引量：6
6JIA Y Q,WANG J D,ZHANG C S,et al.Finding image exemplar-susing fast sparse affinity propagation[C]//Proceedings of the 13thAnnual ACM International Conference on Multimedia.New York:ACM Press,2008:639-642. 被引量：1
7JING Y,BALUJA S.Pagerank for product image search[C]//Pro-ceedings of ACM WWW'08.New York:ACM Press,2008:307-316. 被引量：1
8CAI D,HE X,LI Z,et al.Hierarchical clustering of WWW imagesearch results using visual,textual and link information[C]//Pro-ceedings of the 12th Annual ACM International Conference on Multi-media.New York:ACM Press,2004:952-959. 被引量：1
9WANG L,ZHANG Y,FENG J.On the Euclidean distance of ima-ges[J].IEEE Transactions on Pattern Analysis and Machine Intelli-gence,2005,27(8):1334-1339. 被引量：1
10AHN Y Y,BAGROW J P,LEHMANN S.Link communities revealmultiscale complexity in networks[J].Nature,2010,466(7307):761-764. 被引量：1

引证文献10

1吴飞,韩亚洪,庄越挺.Multiple Hypergraph Clustering of Web Images by Mining Word2Image Correlations[J].Journal of Computer Science & Technology,2010,25(4):750-760. 被引量：3
2谷瑞军,陈圣磊,陈耿,汪加才.图像搜索结果的重叠层次聚类与代表点展现[J].计算机应用,2012,32(4):1097-1100. 被引量：1
3谷瑞军,陈圣磊,陈耿,汪加才.图像搜索结果的滑动窗口多标记传播聚类[J].中国图象图形学报,2012,17(9):1128-1134. 被引量：1
4张寅,汤斯亮,罗杰斯,鲁伟明,邵健,吴飞.结合作者与地理信息的主题建模[J].计算机辅助设计与图形学学报,2012,24(9):1180-1187. 被引量：2
5李阳,刘扬,郭茂祖.融合空间信息LDA的视觉对象识别研究[J].智能计算机与应用,2013,3(4):29-33.
6林滨.K-Means聚类的多种距离计算方法的文本实验比较[J].福建工程学院学报,2016,14(1):80-85. 被引量：6
7徐奕枫,刘利军,黄青松,傅铁威.智能导医系统中TF-IDF权重改进算法研究[J].计算机工程与应用,2017,53(4):238-243. 被引量：8
8刘异,赵辉.基于IOS平台的移动搜课宝系统设计[J].软件,2018,39(6):118-124. 被引量：3
9潘浩,高英铭,潘尔顺.短文本相似性的改进及其在电商评论推荐中的应用[J].工业工程与管理,2019,24(5):132-137. 被引量：2
10刘文博,梁盛楠.基于伪柯西类核函数的主成分降维方法[J].东北师大学报（自然科学版）,2021,53(3):30-35. 被引量：3

二级引证文献29

1方爽,殷俊杰,徐武平.基于相似图片聚类的Web文本特征算法[J].计算机工程,2014,40(12):161-165. 被引量：3
2汤斯亮,程璐,邵健,吴飞,鲁伟明.基于概率主题建模的新闻文本可视化综述[J].计算机辅助设计与图形学学报,2015,27(5):771-782. 被引量：9
3梁晓贺,田儒雅,吴蕾,张学福.微博主题发现研究方法述评[J].图书情报工作,2017,61(14):141-148. 被引量：9
4肖鹏,刘娜,季长清,李媛媛,路莹,唐晓君.基于相容性分析的医疗诊断专家系统[J].计算机工程与应用,2018,54(23):264-270. 被引量：5
5刘芳芳,谷瑞军,张婉婷.滑动窗口多标记传播算法在微博用户聚类的应用[J].内江科技,2018,39(12):42-44. 被引量：1
6常振业,刘佳伟,闫茜茜,刘鑫豪,周丽平,朱国良,鲁池梅,刘兴云.基于Ionic的App跨平台混合开发技术的研究[J].软件,2019,40(4):215-218. 被引量：2
7杨少琦,侯开虎,谢鹏辉,肖灵云.基于.Net平台的学习账本分布式系统的设计[J].软件,2019,40(8):84-88. 被引量：1
8宁建飞,黄发良.基于词向量句子相似度量的医疗科室推荐[J].福建师范大学学报（自然科学版）,2018,34(4):10-15. 被引量：4
9朱淑鑫,杨宸,顾兴健,张永春,艾玉春,徐焕良.K均值算法结合连续投影算法应用于土壤速效钾含量的高光谱分析[J].江苏农业学报,2020,36(2):358-365. 被引量：10
10但松健.基于多核聚类算法和用户兴趣模型的图像搜索方法[J].山东农业工程学院学报,2020,37(9):39-45.

1周蓓.一种改进的Apriori算法及应用[J].常熟理工学院学报,2010,24(8):95-99.
2周铁军,谭义红.基于统计方法的正负时态相关性挖掘[J].湘潭大学自然科学学报,2005,27(3):28-31.
3李雪婵.关联规则在课程相关性中研究与应用[J].计算机与数字工程,2006,34(9):173-176. 被引量：8
4刘宝山.基于C++的面向对象数据库——关联的实现[J].阴山学刊（自然科学版）,2003,17(1):57-58.
5任永功,钱海振,郎泓钰.基于改进布尔约减级数分层的大数据流滞后相关性挖掘方法[J].模式识别与人工智能,2016,29(5):455-463.
6袁淼,王鑫.基于抽样的Deep Web模式匹配框架[J].计算机工程与应用,2015,51(3):117-123.
7潘炯光,韦余永.一种基于领域语义相关性挖掘的迁移学习方法[J].西南师范大学学报（自然科学版）,2016,41(5):184-189. 被引量：1
8张剑飞,李大辉.网页相关性挖掘原型系统的设计[J].齐齐哈尔大学学报（自然科学版）,2007,23(5):31-34.
9陈静,彭宇,李祺,庞景月,刘大同.数据驱动的机载设备PHM软件系统[J].电子测量与仪器学报,2015,29(10):1536-1543. 被引量：12
10江志雄,陆春阳,余宏亮.删冗系统数据冗余特征挖掘[J].小型微型计算机系统,2014,35(10):2237-2242. 被引量：1

软件学报

2010年第7期

浏览历史

内容加载中请稍等...

图像-文本相关性挖掘的Web图像聚类方法被引量：10

参考文献2

二级参考文献34

共引文献135

同被引文献90

引证文献10

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

图像-文本相关性挖掘的Web图像聚类方法 被引量：10

参考文献2

二级参考文献34

共引文献135

同被引文献90

引证文献10

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

图像-文本相关性挖掘的Web图像聚类方法被引量：10