基于概念格的Web文本聚类被引量：3

Web text clustering based on concept lattice

下载PDF

导出

摘要 Web文本聚类大多是基于空间向量文本表示模型的,它没有考虑特征词之间的语义关系,并且特征词的维数非常高,造成文本语义信息的损失和时间复杂度的增加。把文本作为对象,文本中的特征词作为对应的属性,形成了基于文本的形式背景,从中提取概念来表示文本并度量文本之间的相似度,从而降低了特征词的维数,减少了计算的复杂度,取得了良好的聚类结果。 Web text clustering are mostly based on space vector text express model,the semantics relation of the terms in the text is not considered in this method and the dimension of the terms is very high,which results in the losing of text semantics and the increase of time complexity.The text is considered as object in this paper,and the term of text is abstract as the corresponding attribute.Therefore,a formal context is formed based on text,To express text and measure the similarity the authors extract the concept from formal context, Thus,the dimension of term is reduced,and the complexity of computation is decreased too,Theoretical analysis shows that the method of clustering is effective.

作者李云田素方李拓徐涛

机构地区扬州大学信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2008年第23期169-171,186,共4页 Computer Engineering and Applications

基金国家自然科学基金(No.60575035 No.60673060) 江苏省自然科学基金(No.BK2004052)~~

关键词 WEB文档聚类概念格约简 Web document clustering concept lattice reduce

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1Zamir O.A dynamic clustering interface to Web search results[J]. Computer Networks, 1999,31(11/16) : 1361-1374. 被引量：1
2Osinski S.An algorithm for clustering of Web search result[D]. Poland: Poznan University of Technology, 2003. 被引量：1
3Godoy D,Amandi A.Modeling user interests by conceptual clustering[J].Information Systems, 2006,31 : 247-265. 被引量：1
4Hotho A,Staab S,Maedche A.Ontology-based text clustering[J]. Kunstliche Intelligenz, 2002,4: 48-54. 被引量：1
5Flotho A,Staab S,Stumme G.Text clustering based on background knowledge[R].University of Karlsruhe,Institute AIFB,2003. 被引量：1
6Bhogalb J,Macfarlane A.A review of ontology based query expansion[J].Information Processing and Management, 2006,43 : 866-886. 被引量：1
7Wille R.Restructuring lattice theory:an approach based on hierarchies of concepts[M]//Rival I.Ordered Sets.Dordrecht:Reidel,1982: 445-470. 被引量：1
8Kim M,Compton P.Evolutionary document management and retrieval for specialisted domains[J]Journal of Human Computer Studies, 2004,60(2) :201-241. 被引量：1
9Porter M F.An algorithm for suffix stripping[J].Program, 1980,14 (3):130. 被引量：1
10Li-Ping J,Hou-Kuan H,Hong-Bo S.Improved feature selection approach TFIFF in text mining[C]//IEEE Proceedings of the First International Conference on Machine Learning and Cybernetics, Beijing, 2002. 被引量：1

同被引文献33

1梁吉业,王俊红.基于概念格的规则产生集挖掘算法[J].计算机研究与发展,2004,41(8):1339-1344. 被引量：57
2张凯,胡运发,王瑜.基于互关联后继树的概念格构造算法[J].计算机研究与发展,2004,41(9):1493-1499. 被引量：15
3左雄辉,糜麒.个性化搜索引擎研究[J].计算机工程与应用,2005,41(17):190-192. 被引量：14
4徐泉清,朱玉文,刘万春.基于概念格的关联规则算法[J].计算机应用,2005,25(8):1856-1857. 被引量：11
5胡学钢,王媛媛.一种基于约简概念格的关联规则快速求解算法[J].计算机工程与应用,2005,41(22):180-183. 被引量：8
6谢润,李海霞,马骏,宋振明.概念格的分层及逐层建格法[J].西南交通大学学报,2005,40(6):837-841. 被引量：7
7王旭,马垣.基本概念格的关联规则挖掘算法[J].鞍山科技大学学报,2006,29(1):50-53. 被引量：1
8程伟,李云,陈崚,谢翠华.基于信息熵的约简概念格渐进式构造[J].计算机应用研究,2006,23(11):131-133. 被引量：2
9梁高明,张忠磊.基于概念格的数据挖掘方法研究[J].科技信息,2007(8):55-56. 被引量：1
10许研,沈夏炯,刘宗田.基于FCA的搜索引擎的信息检索模型及其实现(英文)[J].南昌工程学院学报,2007,26(1):30-34. 被引量：1

引证文献3

1姜传菊.概念格在数字图书馆中的应用研究[J].情报科学,2010,28(12):1908-1911. 被引量：1
2叶宇飞,安世全,代劲.一种新的Web中文文本聚类方法研究[J].计算机应用与软件,2013,30(12):222-225. 被引量：3
3顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8

二级引证文献12

1降惠.概念格理论研究进展与发展综述[J].办公自动化,2019,24(9):18-21.
2顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
3王金水,唐郑熠,薛醒思.基于词性标注的文本聚类算法[J].福建工程学院学报,2015,13(4):372-375.
4黄凌云.图书馆数字资源自动推荐优化算法研究[J].情报探索,2016(2):25-29. 被引量：1
5洪文,聂延平,青巧.馆藏资源自动推荐模型结构与处理流程优化分析[J].情报理论与实践,2016,39(5):130-133. 被引量：1
6毕强,刘健,鲍玉来.基于语义相似度的文本聚类研究[J].现代图书情报技术,2016(12):9-16. 被引量：8
7钟学燕,陈国青,孙磊磊,张明月,刘澜.基于多视角特征融合的移动信息服务模式挖掘[J].系统工程理论与实践,2018,38(7):1853-1861. 被引量：5
8郭红建,陈一飞.社会标注系统自适应网页聚类算法研究[J].电子科技,2018,31(8):73-76.
9郭蕾蕾,俞璐,段国仑,陶性留.基于伴随文本信息的Web图像批量标注方法[J].信息技术与网络安全,2018,37(9):70-75.
10林淑贞.基于读者信息挖掘的图书馆资源推荐自动模型研究[J].情报探索,2018(4):6-10. 被引量：1

1李建忠.Web网页聚类系统研究与设计[J].韩山师范学院学报,2008,29(6):27-30.
2陈宇,王强.聚类算法在Web文本挖掘中的应用研究[J].中国电子商情（通信市场）,2009(2):62-68.
3张万山,肖瑶,梁俊杰,余敦辉.基于主题的Web文本聚类方法[J].计算机应用,2014,34(11):3144-3146. 被引量：3
4傅华忠,茅剑.基于DBSCAN聚类算法的Web文本挖掘[J].科技信息,2007(1):55-56. 被引量：5
5贾丙静,吴长勤,葛华.Web文本聚类的研究与实现[J].长春师范学院学报（自然科学版）,2011,30(3):26-29. 被引量：2
6贾丙静,王传安,王亚军,吴长勤.基于属性重要性的Web文本聚类研究[J].重庆文理学院学报（自然科学版）,2011,30(3):49-51.
7王卫玲,刘培玉,刘克非.一种用于Web文本聚类的特征选择方法[J].计算机应用与软件,2007,24(1):154-156. 被引量：2
8叶宇飞,安世全,代劲.一种新的Web中文文本聚类方法研究[J].计算机应用与软件,2013,30(12):222-225. 被引量：3
9周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
10张玉峰,蔡皎洁.基于数据挖掘的Web文本语义分析与标注研究[J].情报理论与实践,2010,33(2):85-88. 被引量：7

计算机工程与应用

2008年第23期

浏览历史

内容加载中请稍等...

基于概念格的Web文本聚类被引量：3

参考文献14

同被引文献33

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于概念格的Web文本聚类 被引量：3

参考文献14

同被引文献33

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于概念格的Web文本聚类被引量：3