期刊文献+
共找到256篇文章
< 1 2 13 >
每页显示 20 50 100
文档聚类综述 被引量:65
1
作者 刘远超 王晓龙 +1 位作者 徐志明 关毅 《中文信息学报》 CSCD 北大核心 2006年第3期55-62,共8页
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行... 聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。 展开更多
关键词 计算机应用 中文信息处理 综述 文档聚类 降维 概念相关 聚类算法
下载PDF
一种基于群体智能的Web文档聚类算法 被引量:41
2
作者 吴斌 傅伟鹏 +2 位作者 郑毅 刘少辉 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2002年第11期1429-1435,共7页
将群体智能聚类模型运用于文档聚类 ,提出了一种基于群体智能的 Web文档聚类算法 .首先运用向量空间模型表示 Web文档信息 ,采用常规方法如消除无用词和特征词条约简法则得到文本特征集 ,然后将文档向量随机分布到一个平面上 ,运用基于... 将群体智能聚类模型运用于文档聚类 ,提出了一种基于群体智能的 Web文档聚类算法 .首先运用向量空间模型表示 Web文档信息 ,采用常规方法如消除无用词和特征词条约简法则得到文本特征集 ,然后将文档向量随机分布到一个平面上 ,运用基于群体智能的聚类方法进行文档聚类 ,最后从平面上采用递归算法收集聚类结果 .为了改善算法的实用性 ,将原算法与 k均值算法相结合提出一种混合聚类算法 .通过实验比较 ,结果表明基于群体智能的 Web文档聚类算法具有较好的聚类特性 ,它能将与一个主题相关的 Web文档较完全而准确地聚成一类 . 展开更多
关键词 群体智能 WEB 文档聚类算法 自组织聚类 群体相似度 互联网 信息检索
下载PDF
用户兴趣模型的表示和更新机制 被引量:23
3
作者 林鸿飞 杨元生 《计算机研究与发展》 EI CSCD 北大核心 2002年第7期843-847,共5页
面对因特网的海量信息 ,为了实现基于用户兴趣的个性化信息服务 ,提出了用户兴趣模型的表示和更新机制 .它根据用户提供的各类示例文档 ,将文本的段落作为识别用户兴趣的基本要素 .在聚类分析基础上 ,考察特征项、段落和类别的表达能力 ... 面对因特网的海量信息 ,为了实现基于用户兴趣的个性化信息服务 ,提出了用户兴趣模型的表示和更新机制 .它根据用户提供的各类示例文档 ,将文本的段落作为识别用户兴趣的基本要素 .在聚类分析基础上 ,考察特征项、段落和类别的表达能力 ,建立用户兴趣模型 ,通过计算与文本的匹配程度 ,将满足约定条件的文本推荐给用户 .利用相关反馈 ,追踪和更新用户兴趣模型 。 展开更多
关键词 个性化信息服务 用户兴趣模型 段落匹配 文本聚类 相关反馈
下载PDF
基于关联规则的Web文档聚类算法 被引量:41
4
作者 宋擒豹 沈钧毅 《软件学报》 EI CSCD 北大核心 2002年第3期417-423,共7页
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看... Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值. 展开更多
关键词 产联规则 WWW Web文档聚类算法 数据挖掘 数据库
下载PDF
文档聚类中k-means算法的一种改进算法 被引量:29
5
作者 万小军 杨建武 陈晓鸥 《计算机工程》 CAS CSCD 北大核心 2003年第2期102-103,157,共3页
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感。为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法。实验表明,该改进算法比原... 介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感。为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法。实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。 展开更多
关键词 文档聚类 K-MEANS算法 划分聚类算法 数据库
下载PDF
一种用于文本聚类的改进k-means算法 被引量:34
6
作者 索红光 王玉伟 《山东大学学报(理学版)》 CAS CSCD 北大核心 2008年第1期60-64,共5页
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展... k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。 展开更多
关键词 文本聚类 K-MEANS 向量空间模型 局部迭代
下载PDF
一种基于数据流的软子空间聚类算法 被引量:31
7
作者 朱林 雷景生 +1 位作者 毕忠勤 杨杰 《软件学报》 EI CSCD 北大核心 2013年第11期2610-2627,共18页
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究... 针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果. 展开更多
关键词 子空间聚类 数据流聚类 可扩展聚类 模糊聚类 文本聚类
下载PDF
Web挖掘技术研究 被引量:21
8
作者 张蓉 《计算机工程》 EI CAS CSCD 北大核心 2006年第15期4-6,共3页
随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该... 随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该系统的协作能力。 展开更多
关键词 WEB挖掘 日志文件 文档聚类 矢量空间模型 关联规则
下载PDF
一种结合主动学习的半监督文档聚类算法 被引量:30
9
作者 赵卫中 马慧芳 +1 位作者 李志清 史忠植 《软件学报》 EI CSCD 北大核心 2012年第6期1486-1499,共14页
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种... 半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法. 展开更多
关键词 半监督聚类 文档聚类 主动学习 成对约束
下载PDF
基于概率主题模型的文档聚类 被引量:24
10
作者 王李冬 魏宝刚 袁杰 《电子学报》 EI CAS CSCD 北大核心 2012年第11期2346-2350,共5页
为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法... 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法. 展开更多
关键词 主题模型 LDA模型 TC-LDA模型 文档聚类
下载PDF
一种改进的k-means文档聚类初值选择算法 被引量:23
11
作者 刘远超 王晓龙 刘秉权 《高技术通讯》 CAS CSCD 北大核心 2006年第1期11-15,共5页
提出了一种改进的基于最小最大原则的k-means文档聚类初始值选择算法。该方法首先构造相似度矩阵,然后利用最小最大原则对相似度矩阵进行分析,从而选择初始聚点并自动确定聚类k值。实验结果表明利用该方法找到的k值比较接近真实值。
关键词 文档聚类 K-MEANS 最小最大原则 相似度矩阵
下载PDF
一种基于聚类的PU主动文本分类方法 被引量:23
12
作者 刘露 彭涛 +1 位作者 左万利 戴耀康 《软件学报》 EI CSCD 北大核心 2013年第11期2571-2583,共13页
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别... 文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. 展开更多
关键词 PU(FIositive and unlabeled)文本分类 聚类 TFIPNDF(term FREQUENCY inverse positive negative document frequency) 主动学习 可信反例 改进的Rocchio
下载PDF
解决文本聚类集成问题的两个谱算法 被引量:20
13
作者 徐森 卢志茂 顾国昌 《自动化学报》 EI CSCD 北大核心 2009年第7期997-1002,共6页
聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果.本文引入谱聚类思想解决文本聚类集成问题,然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入,并用于后续聚类.本文首先提出了一个集成算... 聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果.本文引入谱聚类思想解决文本聚类集成问题,然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入,并用于后续聚类.本文首先提出了一个集成算法,该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题,并继续转化为规模更小的特征值分解问题;然后进一步研究了谱聚类算法的特性,提出了另一个集成算法,该算法通过求解超边的低维嵌入,间接得到文本的低维嵌入.在TREC和Reuters文本数据集上的实验结果表明,本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒,是解决文本聚类集成问题行之有效的方法. 展开更多
关键词 聚类分析 聚类集成 谱聚类 文本聚类
下载PDF
奇异值分解算法优化 被引量:21
14
作者 王佰玲 田志宏 张永铮 《电子学报》 EI CAS CSCD 北大核心 2010年第10期2234-2239,共6页
奇异值分解算法在信号处理、图像处理、信息安全等领域均有重要应用.针对该算法存在的性能问题,提出了基于gamma:1驱动的数据重用模型,提高计算负载平衡性,降低数据通信量;给出基于多处理器的并行分解模型,数值试验均表明算法具有较高... 奇异值分解算法在信号处理、图像处理、信息安全等领域均有重要应用.针对该算法存在的性能问题,提出了基于gamma:1驱动的数据重用模型,提高计算负载平衡性,降低数据通信量;给出基于多处理器的并行分解模型,数值试验均表明算法具有较高的并行加速比和效率. 展开更多
关键词 数据挖掘 文本聚类 奇异值分解 矩阵计算
下载PDF
基于主题聚类的学科研究热点及其趋势监测方法 被引量:20
15
作者 章成志 梁勇 《情报学报》 CSSCI 北大核心 2010年第2期342-349,共8页
常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题。因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性。本文以图书情报档案学科为例,依据学科学术论文全文,从主题... 常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题。因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性。本文以图书情报档案学科为例,依据学科学术论文全文,从主题角度对学术论文集合进行全面分析,即:采用主题聚类方法,对包括时间信息的学科学术全文进行主题分析与主题聚类,归纳出某一特定学科的研究热点和这些热点的发展趋势。实验结果表明,基于主题聚类的学科热点及其趋势监测方法,其监测结果在很大程度上接近于常规方法的监测结果,但基于主题聚类的监测方法,在监测成本和监测信息时效方面得到改善。 展开更多
关键词 学科热点监测 主题聚类 主题抽取 文本聚类
下载PDF
一种基于LDA的潜在语义区划分及Web文档聚类算法 被引量:19
16
作者 刘振鹿 王大玲 +2 位作者 冯时 张一飞 方东昊 《中文信息学报》 CSCD 北大核心 2011年第1期60-65,70,共7页
该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关... 该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,该文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web文档聚类。实验表明,该文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。 展开更多
关键词 LDA 潜在语义 语义分布 文档聚类
下载PDF
基于主题地图的文献组织方法研究 被引量:15
17
作者 吴江宁 田海燕 《情报学报》 CSSCI 北大核心 2007年第3期323-331,共9页
网络信息的膨胀导致了文献检索的困难,而检索效率的提高则依赖于其组织方法的改善。主题地图是适应信息资源的网络化而出现的一种新的组织技术,可以较好地解决大量无序、非结构化信息的组织问题。本文提出一个基于主题地图的多层文献... 网络信息的膨胀导致了文献检索的困难,而检索效率的提高则依赖于其组织方法的改善。主题地图是适应信息资源的网络化而出现的一种新的组织技术,可以较好地解决大量无序、非结构化信息的组织问题。本文提出一个基于主题地图的多层文献组织模型(TMDOM),通过从文献内容中概化出主题并定义主题之间的关联,将领域内主要的概念及其关联以合理的层次结构体现出来,以实现对文献资源的有效组织。试验结果证明了这种组织方法的优越性,通过主题之间的各种关联,实现了有效的信息导航。 展开更多
关键词 主题地图 TMDOM模型 文献组织 文献检索 文本聚类
下载PDF
一种基于词共现的文档聚类算法 被引量:15
18
作者 常鹏 冯楠 马辉 《计算机工程》 CAS CSCD 2012年第2期213-214,220,共3页
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验... 为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。 展开更多
关键词 文档聚类 文档模型 词共现 文档相似度 聚类增益
下载PDF
使用谱聚类算法解决文本聚类集成问题 被引量:15
19
作者 徐森 卢志茂 顾国昌 《通信学报》 EI CSCD 北大核心 2010年第6期58-66,共9页
采用2个不同的谱聚类算法解决文本聚类集成问题。为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度。分别从矩阵扰动理论和图上的... 采用2个不同的谱聚类算法解决文本聚类集成问题。为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度。分别从矩阵扰动理论和图上的随机游走的角度解释了2个算法的有效性。在真实文本集上的实验结果表明:提出的代数变换方法是有效的,该方法可以有效提高谱聚类算法的运行效率;该聚类集成谱算法比其他常见的聚类集成算法更优越、更高效,可以有效解决文本聚类集成问题。 展开更多
关键词 聚类集成 文本聚类 谱聚类 矩阵扰动理论 图上的随机游动
下载PDF
面向短文本的神经网络聚类算法研究 被引量:14
20
作者 孙昭颖 刘功申 《计算机科学》 CSCD 北大核心 2018年第B06期392-395,共4页
词汇个数少、描述信息弱的缺陷,导致短文本具有维度高、特征稀疏和噪声干扰等特点。现有的众多聚类算法在对大规模短文本进行聚类时,存在精度较低和效率低下的问题。针对该问题,提出一种基于深度学习卷积神经网络的短文本聚类算法。所... 词汇个数少、描述信息弱的缺陷,导致短文本具有维度高、特征稀疏和噪声干扰等特点。现有的众多聚类算法在对大规模短文本进行聚类时,存在精度较低和效率低下的问题。针对该问题,提出一种基于深度学习卷积神经网络的短文本聚类算法。所提算法以大规模语料为基础,利用word2vec模型学习短文本中词语之间潜在的语义关联,用多维向量表示单个词语,进而将短文本也表示成多维的原始向量形式;结合深度学习卷积神经网络,对稀疏高维的原始向量进行特征提取,以此得到特征更为集中、有效的低维文本向量;最后,利用传统的聚类算法对短文本进行聚类。实验结果表明,所提聚类方法对文本向量的降维是可行、有效的,并且取得了F值达到75%以上的文本聚类效果。 展开更多
关键词 短文本 文本聚类 深度学习 卷积神经网络 word2vec
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部