期刊文献+
共找到164篇文章
< 1 2 9 >
每页显示 20 50 100
一种基于中心文档的KNN中文文本分类算法 被引量:17
1
作者 鲁婷 王浩 姚宏亮 《计算机工程与应用》 CSCD 北大核心 2011年第2期127-130,共4页
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项... 在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。 展开更多
关键词 中文文本分类 k最邻近 中心文档 语义相似度 聚类
下载PDF
基于模糊相似度的科技文献软聚类算法 被引量:9
2
作者 孟海涛 陈笑蓉 《贵州大学学报(自然科学版)》 2007年第2期175-178,共4页
本文提出了一种新的文档软聚类算法。将关键字通过文档的题名、摘要进行映射扩展,并对关键字的出现位置进行加权构造文本向量空间。利用模糊最大支撑树聚类过程中类间和类内相似度变化的规律自动识别最佳聚类数K及硬聚类簇。以硬聚类簇... 本文提出了一种新的文档软聚类算法。将关键字通过文档的题名、摘要进行映射扩展,并对关键字的出现位置进行加权构造文本向量空间。利用模糊最大支撑树聚类过程中类间和类内相似度变化的规律自动识别最佳聚类数K及硬聚类簇。以硬聚类簇为核心将聚类相似度减小到下相似度进行扩展,从而形成相应软聚类。实验表明该算法能够有效地降低特征维数、提高软聚类精度和速度。 展开更多
关键词 科技文献 特征提取 相似度 软聚类
下载PDF
一种基于SOM和层次凝聚的中文文本聚类方法 被引量:8
3
作者 朱红灿 孟志青 《湘潭大学自然科学学报》 CAS CSCD 北大核心 2005年第3期36-40,共5页
研究了一种基于SOM(self-organizing map)和层次聚集的中文文本聚类方法,按照提出的中文聚类模型,该方法首先对文档集向量化,文档向量矩阵通过SOM训练映射到虚拟的二维空间,形成初步聚类;然后对虚拟坐标集进行二次聚类.与直接聚类方法相... 研究了一种基于SOM(self-organizing map)和层次聚集的中文文本聚类方法,按照提出的中文聚类模型,该方法首先对文档集向量化,文档向量矩阵通过SOM训练映射到虚拟的二维空间,形成初步聚类;然后对虚拟坐标集进行二次聚类.与直接聚类方法相比,该方法提高了聚类的效果,减少了计算时间,通过数值实验对比表明该方法对中文文本聚类具有有效性. 展开更多
关键词 中文文本 文本聚类 自组织神经网络(SOM) 向量空间模型
下载PDF
基于MapReduce的大规模文本聚类并行化 被引量:9
4
作者 武森 冯小东 +1 位作者 杨杰 张晓楠 《北京科技大学学报》 EI CAS CSCD 北大核心 2014年第10期1411-1419,共9页
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向... 建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性. 展开更多
关键词 云计算 文本 聚类 相似度
原文传递
球型模糊c均值算法在中文文本聚类中的应用 被引量:8
5
作者 黄钢石 陆建江 张亚非 《系统仿真学报》 CAS CSCD 2004年第3期516-518,共3页
一般的聚类算法只能将给定的文本归到一个类,但实际的文本往往属于多个类。提出一种基于球形的模糊c-均值算法的中文文本聚类方法。聚类方法仅考虑文本向量的方向而不考虑文本向量的大小。同时,聚类方法能充分考虑文本隶属于类的程度,... 一般的聚类算法只能将给定的文本归到一个类,但实际的文本往往属于多个类。提出一种基于球形的模糊c-均值算法的中文文本聚类方法。聚类方法仅考虑文本向量的方向而不考虑文本向量的大小。同时,聚类方法能充分考虑文本隶属于类的程度,并能通过用户给定的阈值将给定的文本归到多个类。实验表明,球形的模糊c-均值算法不仅具有好的聚类精度,而且能找出属于多个类的文本。 展开更多
关键词 中文文本 球形的模糊c-均值算法 聚类 文本挖掘
下载PDF
概念与文档的语义相似度计算 被引量:7
6
作者 宋玲 郭家义 +2 位作者 张冬梅 汤晓兵 高楠 《计算机工程与应用》 CSCD 北大核心 2008年第35期163-167,共5页
将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计... 将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计算的基础之上。在概念相似度的计算过程中引入了语义相似度矩阵以及基于共信息理论的模糊相似度方法。 展开更多
关键词 概念相似度 文档相似度 本体 文档聚类
下载PDF
以业务单据为中心的业务流程模型聚类及相似性查询方法 被引量:6
7
作者 刘海滨 刘国华 +1 位作者 黄立明 宋金玲 《计算机集成制造系统》 EI CSCD 北大核心 2013年第8期1810-1821,共12页
针对已有模型查询机制的查询效率和查准率低下的问题,提出一种以业务单据为中心的业务流程模型相似性查询方法。首先利用聚类技术,综合流程中关键业务单据相似、流程模型结构相似和流程行为相似三个层面对流程模型进行预处理,降低模型... 针对已有模型查询机制的查询效率和查准率低下的问题,提出一种以业务单据为中心的业务流程模型相似性查询方法。首先利用聚类技术,综合流程中关键业务单据相似、流程模型结构相似和流程行为相似三个层面对流程模型进行预处理,降低模型查询空间,提高检索效率。在查询过程中,该方法不仅考虑了流程模型的结构和行为,也考虑了流程中的核心业务数据,在保证查全率的前提下进一步提高了查准率。通过实验验证了该方法的有效性。 展开更多
关键词 业务流程管理 流程相似性 图匹配 业务单据 生命周期树 聚类
下载PDF
一种结构与内容相结合的XML文档聚类方法 被引量:4
8
作者 谌志群 王小华 王荣波 《情报学报》 CSSCI 北大核心 2009年第5期693-699,共7页
XML(可扩展标记语言)正在成为Web数据交换的标准格式。随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点。XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇。现有的大部... XML(可扩展标记语言)正在成为Web数据交换的标准格式。随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点。XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇。现有的大部分XML文档聚类是基于文档结构特征的。本文提出了一个新的结构与内容相结合的XML文档聚类方法。首先从文档中抽取构件向量,并把文档转换为向量化的表示。然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类。在DBLPXML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法。 展开更多
关键词 XML 文档聚类 结构 内容 层次聚类
下载PDF
利用单词超团的二分图文本聚类算法 被引量:4
9
作者 朱君 曲超 汤庸 《电子科技大学学报》 EI CAS CSCD 北大核心 2008年第3期439-442,共4页
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利... 鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。 展开更多
关键词 二分图划分 文本聚类 单词超团
下载PDF
融合模拟退火的遗传算法在文档聚类中的应用 被引量:2
10
作者 白曦 吕晓枫 孙吉贵 《计算机工程与应用》 CSCD 北大核心 2006年第23期144-148,共5页
为了准确高效地对网上获取的文档进行聚类,在布尔逻辑模型的基础上提出了一种改进的最优相似度搜索方法。该方法将模拟退火的思想融入到遗传算法当中,通过“撒种”操作将模拟退火算法的局部搜索能力以及遗传算法的全局搜索能力结合起来... 为了准确高效地对网上获取的文档进行聚类,在布尔逻辑模型的基础上提出了一种改进的最优相似度搜索方法。该方法将模拟退火的思想融入到遗传算法当中,通过“撒种”操作将模拟退火算法的局部搜索能力以及遗传算法的全局搜索能力结合起来。实验表明,使用该混合算法对文档进行聚类,不仅搜索效率得到了提高,而且准确度优于使用传统的遗传算法。 展开更多
关键词 布尔模型 向量空间模型 文档聚类 遗传算法 模拟退火
下载PDF
基于Multi-Agent的Web个性化信息推送系统 被引量:3
11
作者 黄继征 《现代情报》 2009年第8期117-121,共5页
针对搜索引擎在信息检索过程中存在的缺陷,本文提出了一种基于Multi-Agent的Web个性化信息推送系统模型,并给出了该模型的结构、工作流程以及算法设计。该系统采用Multi-Agent系统的体系结构和反馈机制,各个Agent分工协作完成信息推送任... 针对搜索引擎在信息检索过程中存在的缺陷,本文提出了一种基于Multi-Agent的Web个性化信息推送系统模型,并给出了该模型的结构、工作流程以及算法设计。该系统采用Multi-Agent系统的体系结构和反馈机制,各个Agent分工协作完成信息推送任务,体现了信息服务的智能化与个性化等特点。 展开更多
关键词 Agent 信息检索 信息过滤 信息推送 向量空间模型 相似度 文档聚类
下载PDF
基于复杂网络社团划分的Web services聚类 被引量:1
12
作者 欧有远 张海粟 +1 位作者 孟晖 李德毅 《计算机应用研究》 CSCD 北大核心 2009年第6期2299-2302,共4页
以单词为网络节点,由自然语言描述中单词的同现频率确定单词间的相关度并作为边的权值,构建自然语言描述集合的加权单词网络模型。利用Newman快速算法对加权单词网络模型进行社团划分,得到单词聚类结果;根据单词聚类结果与服务之间的映... 以单词为网络节点,由自然语言描述中单词的同现频率确定单词间的相关度并作为边的权值,构建自然语言描述集合的加权单词网络模型。利用Newman快速算法对加权单词网络模型进行社团划分,得到单词聚类结果;根据单词聚类结果与服务之间的映射关系实现服务聚类。实验结果与手工分类结果的对比表明,平均查准率达74.7%以上。 展开更多
关键词 WEB服务 聚类 复杂网络 社团划分 文本聚类
下载PDF
XBASE:一个语义文档数据库系统
13
作者 于亚新 王国仁 于戈 《小型微型计算机系统》 CSCD 北大核心 2004年第4期613-616,共4页
XBASE语义文档数据库系统是一种基于语义信息的文档数据库原型系统 .该系统利用文档外部描述信息和文档内部特征等语义信息 ,可以对结构化文档、半结构化文档以及无结构文档等多种类型的文档进行有效存储、索引和查询 ,同时该系统还提... XBASE语义文档数据库系统是一种基于语义信息的文档数据库原型系统 .该系统利用文档外部描述信息和文档内部特征等语义信息 ,可以对结构化文档、半结构化文档以及无结构文档等多种类型的文档进行有效存储、索引和查询 ,同时该系统还提供了一个可视化的多维交互浏览器 。 展开更多
关键词 文档数据库 语义文档 XML 多维索引 可视化 聚类
下载PDF
链接文档中基于子空间分解的高效谱聚类算法 被引量:1
14
作者 原虹 赵丽 王溢琴 《太赫兹科学与电子信息学报》 2022年第9期965-972,共8页
提出了一种基于子空间分解的高效谱聚类算法。首先,基于共识信息和特定域信息的矩阵分解将链接文档划分为3个子空间,然后对子空间添加正则化项建模共识信息和特定域信息对聚类的不同影响,并采用交替优化方法实现谱聚类。考虑到谱聚类的... 提出了一种基于子空间分解的高效谱聚类算法。首先,基于共识信息和特定域信息的矩阵分解将链接文档划分为3个子空间,然后对子空间添加正则化项建模共识信息和特定域信息对聚类的不同影响,并采用交替优化方法实现谱聚类。考虑到谱聚类的复杂性,提出了一种带曲线搜索的梯度下降法加速求解过程。3个真实数据集上的实验结果表明,所提算法在聚类质量和效率方面始终明显优于目前典型的基线算法,且对输入参数不敏感。 展开更多
关键词 链接文档 子空间分解 谱聚类 梯度下降法 基线算法
下载PDF
一种基于SOM的中文文本两阶段快速聚类方法应用研究
15
作者 易华容 《株洲工学院学报》 2006年第2期66-69,共4页
研究了一种基于自组织神经网络的中文文档聚类方法,按照提出的中文聚类模型,该方法首先对文档进行SOM训练产生初步的聚类结果,然后对第一次聚类结果进行基于参考点和密度的快速聚类,理论分析和实验结果也证明了该方法适合高维中文文档... 研究了一种基于自组织神经网络的中文文档聚类方法,按照提出的中文聚类模型,该方法首先对文档进行SOM训练产生初步的聚类结果,然后对第一次聚类结果进行基于参考点和密度的快速聚类,理论分析和实验结果也证明了该方法适合高维中文文档的聚类,与直接聚类方法相比,该方法提高了聚类的效果,减少了计算时间。 展开更多
关键词 中文文本 文本聚类 自组织神经网络 密度 参考点
下载PDF
融合DSTM和USTM方法的主题模型 被引量:1
16
作者 江雨燕 李平 +1 位作者 王清 李常训 《计算机科学与探索》 CSCD 2014年第5期630-639,共10页
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然... 当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究,提出了一种将DSTM和USTM结合的概率主题模型ART(author&reference topic)。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程,因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling方法对模型参数进行了学习,并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明,ART模型不仅拥有高效的文档主题提取和聚类能力,同时还拥有优良的文档作者判别和引用文献排序能力。 展开更多
关键词 隐藏狄利克雷分配(LDA) 监督主题模型 文档聚类 作者预测 LATENT DIRICHLET allocation (LDA)
下载PDF
Genetic-Frog-Leaping Algorithm for Text Document Clustering 被引量:1
17
作者 Lubna Alhenak Manar Hosny 《Computers, Materials & Continua》 SCIE EI 2019年第9期1045-1074,共30页
In recent years,the volume of information in digital form has increased tremendously owing to the increased popularity of the World Wide Web.As a result,the use of techniques for extracting useful information from lar... In recent years,the volume of information in digital form has increased tremendously owing to the increased popularity of the World Wide Web.As a result,the use of techniques for extracting useful information from large collections of data,and particularly documents,has become more necessary and challenging.Text clustering is such a technique;it consists in dividing a set of text documents into clusters(groups),so that documents within the same cluster are closely related,whereas documents in different clusters are as different as possible.Clustering depends on measuring the content(i.e.,words)of a document in terms of relevance.Nevertheless,as documents usually contain a large number of words,some of them may be irrelevant to the topic under consideration or redundant.This can confuse and complicate the clustering process and make it less accurate.Accordingly,feature selection methods have been employed to reduce data dimensionality by selecting the most relevant features.In this study,we developed a text document clustering optimization model using a novel genetic frog-leaping algorithm that efficiently clusters text documents based on selected features.The proposed approach is based on two metaheuristic algorithms:a genetic algorithm(GA)and a shuffled frog-leaping algorithm(SFLA).The GA performs feature selection,and the SFLA performs clustering.To evaluate its effectiveness,the proposed approach was tested on a well-known text document dataset:the“20Newsgroup”dataset from the University of California Irvine Machine Learning Repository.Overall,after multiple experiments were compared and analyzed,it was demonstrated that using the proposed algorithm on the 20Newsgroup dataset greatly facilitated text document clustering,compared with classical K-means clustering.Nevertheless,this improvement requires longer computational time. 展开更多
关键词 Text documents clustering meta-heuristic algorithms shuffled frog-leaping algorithm genetic algorithm feature selection
下载PDF
基于DBSACN聚类算法的XML文档聚类
18
作者 张鑫 《电子测试》 2017年第8期72-73,共2页
为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类。与其他聚类算法相比,其聚类的速度... 为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类。与其他聚类算法相比,其聚类的速度得到了很大的提高. 展开更多
关键词 XML文档 文档聚类 DBCSAN聚类算法 结构相似度
下载PDF
基于聚类和双向门控循环单元-条件随机场的多类型流式文档结构识别
19
作者 王娟 李宁 +1 位作者 姜雨彤 田英爱 《科学技术与工程》 北大核心 2021年第17期7208-7216,共9页
流式文档结构识别对于文档自动排版和优化、信息检索等领域有着重要作用。以往针对流式文档结构识别主要集中于学术论文领域,对于其他诸如公文、报告等多类型的文档结构识别研究较少。针对此现状,使用聚类的方法对文档进行分类,在此基... 流式文档结构识别对于文档自动排版和优化、信息检索等领域有着重要作用。以往针对流式文档结构识别主要集中于学术论文领域,对于其他诸如公文、报告等多类型的文档结构识别研究较少。针对此现状,使用聚类的方法对文档进行分类,在此基础上提出了针对不同文档分类的、基于双向门控循环单元-条件随机场(bidirectional gated recurrent unit-conditional random field,BIGRU-CRF)的文档结构识别方法,以此来解决多类型文档结构识别的问题。实验结果表明,该方法不仅能够提高学术论文结构识别的效果,对其他类型的文档结构也能够进行较好地识别。 展开更多
关键词 流式文档 结构识别 聚类 多类型文档
下载PDF
数字图书馆中的检索结果聚类和关联推荐研究 被引量:13
20
作者 吉雍慧 《现代图书情报技术》 CSSCI 北大核心 2008年第2期69-75,共7页
探讨如何在数字图书馆的文献检索平台中集成实现检索结果聚类、相关文献的关联推荐、相关作者和研究机构的关联推荐以及相关词语的关联推荐,由此帮助用户全面提高查准率和查全率,并且对聚类和推荐结果采用图形进行可视化展示,进一步提... 探讨如何在数字图书馆的文献检索平台中集成实现检索结果聚类、相关文献的关联推荐、相关作者和研究机构的关联推荐以及相关词语的关联推荐,由此帮助用户全面提高查准率和查全率,并且对聚类和推荐结果采用图形进行可视化展示,进一步提高用户的使用满意度。 展开更多
关键词 数字图书馆 文献检索 聚类 关联推荐 可视化 GDI+ K-MEANS算法
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部