期刊文献+
共找到875篇文章
< 1 2 44 >
每页显示 20 50 100
Web文本挖掘技术研究 被引量:275
1
作者 王继成 潘金贵 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2000年第5期513-520,共8页
作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也... 作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 . 展开更多
关键词 文本挖掘 文本 文本 信息检索 WEB
下载PDF
一种结合词项语义信息和TF-IDF方法的文本相似度量方法 被引量:218
2
作者 黄承慧 印鉴 侯昉 《计算机学报》 EI CSCD 北大核心 2011年第5期856-864,共9页
传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增... 传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法. 展开更多
关键词 文本 词项语义相似度 文本相似度 自然语言处理
下载PDF
最大距离法选取初始簇中心的K-means文本聚类算法的研究 被引量:108
3
作者 翟东海 鱼江 +2 位作者 高飞 于磊 丁锋 《计算机应用研究》 CSCD 北大核心 2014年第3期713-715,719,共4页
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实... 由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。 展开更多
关键词 K-MEANS算法 最大距离 文本 文本距离 测度函数 F度量值
下载PDF
基于微博数据的“新冠肺炎疫情”舆情演化时空分析 被引量:86
4
作者 陈兴蜀 常天祐 +2 位作者 王海舟 赵志龙 张杰 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期409-416,共8页
本文依托2020年1月1日至2月29日期间共计6万条新浪微博博文与1.5万条微博热门评论,基于分布式爬虫技术、分布式数据库系统、SnowNLP情感分析模型以及K-Means文本聚类算法,对与“新冠肺炎疫情”相关的话题展开舆情分析,可视化地展现本次... 本文依托2020年1月1日至2月29日期间共计6万条新浪微博博文与1.5万条微博热门评论,基于分布式爬虫技术、分布式数据库系统、SnowNLP情感分析模型以及K-Means文本聚类算法,对与“新冠肺炎疫情”相关的话题展开舆情分析,可视化地展现本次疫情事件中网络舆情的时空演化过程.在时间维度层面,通过文本聚类与情感分析,发现网民对于此次肺炎疫情的态度大致经历了三个阶段,即起伏不定的紧张焦虑期、缓慢攀升的团结振作期以及波动很小的自信平稳期,总体上呈现积极大于消极、正面大于负面的情绪状态.在空间维度层面,通过地理统计分析,发现疫情最严重地区网民评论人数最多,同时情感值也最低. 展开更多
关键词 新浪微博 新冠肺炎疫情 分布式爬虫 情感分析 文本 地理统计分析
下载PDF
文本挖掘技术研究进展 被引量:57
5
作者 袁军鹏 朱东华 +2 位作者 李毅 李连宏 黄进 《计算机应用研究》 CSCD 北大核心 2006年第2期1-4,共4页
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视... 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。 展开更多
关键词 文本挖掘 中文分词 特征选取 文本摘要 文本 文本 关联分析 数据可视化
下载PDF
用户兴趣模型的表示和更新机制 被引量:23
6
作者 林鸿飞 杨元生 《计算机研究与发展》 EI CSCD 北大核心 2002年第7期843-847,共5页
面对因特网的海量信息 ,为了实现基于用户兴趣的个性化信息服务 ,提出了用户兴趣模型的表示和更新机制 .它根据用户提供的各类示例文档 ,将文本的段落作为识别用户兴趣的基本要素 .在聚类分析基础上 ,考察特征项、段落和类别的表达能力 ... 面对因特网的海量信息 ,为了实现基于用户兴趣的个性化信息服务 ,提出了用户兴趣模型的表示和更新机制 .它根据用户提供的各类示例文档 ,将文本的段落作为识别用户兴趣的基本要素 .在聚类分析基础上 ,考察特征项、段落和类别的表达能力 ,建立用户兴趣模型 ,通过计算与文本的匹配程度 ,将满足约定条件的文本推荐给用户 .利用相关反馈 ,追踪和更新用户兴趣模型 。 展开更多
关键词 个性化信息服务 用户兴趣模型 段落匹配 文本 相关反馈
下载PDF
基于聚类的网络舆情热点发现及分析 被引量:62
7
作者 王伟 许鑫 《现代图书情报技术》 CSSCI 北大核心 2009年第3期74-79,共6页
根据对网络舆情分析的需求,构建出基于聚类的网络舆情热点发现及分析系统。通过对样本网页文本的特征提取,构建向量空间模型,使用OPTICS算法获取网页热点簇,根据热点簇特征向量对网页进行二次聚类,从而获取关于舆情的时间演变模式,为相... 根据对网络舆情分析的需求,构建出基于聚类的网络舆情热点发现及分析系统。通过对样本网页文本的特征提取,构建向量空间模型,使用OPTICS算法获取网页热点簇,根据热点簇特征向量对网页进行二次聚类,从而获取关于舆情的时间演变模式,为相关领域研究提供决策支持。通过二次聚类,提高舆情网页相关度的质量,使网络舆情分析更为准确可靠。 展开更多
关键词 网络舆情 热点发现 舆情分析 文本
下载PDF
基于LDA模型的文本聚类研究 被引量:66
8
作者 王鹏 高铖 陈晓美 《情报科学》 CSSCI 北大核心 2015年第1期63-68,共6页
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的... 在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。 展开更多
关键词 文本 LDA模型 文本相似度 层次
原文传递
基于向量空间模型的文本聚类算法 被引量:50
9
作者 姚清耘 刘功申 李翔 《计算机工程》 CAS CSCD 北大核心 2008年第18期39-41,44,共4页
文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。... 文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法有效地减少了聚类所消耗的时间,实用性和灵活性都较高。 展开更多
关键词 向量空间模型 文本 语料库
下载PDF
一种基于语义内积空间模型的文本聚类算法 被引量:44
10
作者 彭京 杨冬青 +2 位作者 唐世渭 付艳 蒋汉奎 《计算机学报》 EI CSCD 北大核心 2007年第8期1354-1363,共10页
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的... 现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好. 展开更多
关键词 内积空间 文本 概念相似度 相似计算 数据挖掘
下载PDF
一种高效的用于文本聚类的无监督特征选择算法 被引量:37
11
作者 刘涛 吴功宜 陈正 《计算机研究与发展》 EI CSCD 北大核心 2005年第3期381-386,共6页
特征选择虽然非常成功地应用于文本分类,但却很少用于文本聚类,这是因为那些高效的特征选择方法通常都是有监督的特征选择算法,它们因为需要类信息而无法直接应用于文本聚类.为了能将这些方法应用到文本聚类上,提出了一种新的无监督特... 特征选择虽然非常成功地应用于文本分类,但却很少用于文本聚类,这是因为那些高效的特征选择方法通常都是有监督的特征选择算法,它们因为需要类信息而无法直接应用于文本聚类.为了能将这些方法应用到文本聚类上,提出了一种新的无监督特征选择算法:基于K-Means的特征选择算法(KFS).这个算法通过在不同K-Means聚类结果上使用有监督特征选择的方法,成功地选择出了最为重要的一小部分特征,使文本聚类的性能提高了近15%. 展开更多
关键词 特征选择 文本
下载PDF
文本挖掘研究进展 被引量:49
12
作者 谌志群 张国煊 《模式识别与人工智能》 EI CSCD 北大核心 2005年第1期65-74,共10页
文本挖掘又称为文本数据挖掘或文本知识发现,是指在大规模文本集合中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先介绍了文本挖掘的概念,包括文本挖掘的定义、特点、与其它几个研究领域(数据挖掘、信息检索、信息抽取、计... 文本挖掘又称为文本数据挖掘或文本知识发现,是指在大规模文本集合中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先介绍了文本挖掘的概念,包括文本挖掘的定义、特点、与其它几个研究领域(数据挖掘、信息检索、信息抽取、计算语言学等)的关系;然后讨论了文本挖掘模型、文本特征抽取与中间表示、文本挖掘的分类与实现技术;最后介绍了几个文本挖掘产品。 展开更多
关键词 文本挖掘 数据挖掘 文本知识发现 自然语言处理 关联规则 文本 趋势分析
原文传递
Web内容挖掘技术研究 被引量:23
13
作者 涂承胜 鲁明羽 陆玉昌 《计算机应用研究》 CSCD 北大核心 2003年第11期5-9,15,共6页
简要介绍了Web挖掘的概念、分类以及其功能,阐述了Web挖掘与传统数据挖掘以及Web信息检索之间的关系。给出了Web内容挖掘的不同分类方法、文本以及多媒体文本数据挖掘的定义、分类与应用。重点分析了Web文本挖掘的方法,包括文本的特征... 简要介绍了Web挖掘的概念、分类以及其功能,阐述了Web挖掘与传统数据挖掘以及Web信息检索之间的关系。给出了Web内容挖掘的不同分类方法、文本以及多媒体文本数据挖掘的定义、分类与应用。重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等,讨论了多媒体文本分类挖掘方法。 展开更多
关键词 WEB挖掘 WEB内容挖掘 文本的分 文本 多媒体文本挖掘
下载PDF
一种K-means改进算法的并行化实现与应用 被引量:49
14
作者 李晓瑜 俞丽颖 +1 位作者 雷航 唐雪飞 《电子科技大学学报》 EI CAS CSCD 北大核心 2017年第1期61-68,共8页
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因... 随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。 展开更多
关键词 canopy算法 HADOOP MAPREDUCE 并行K—means 文本
下载PDF
中文文本聚类常用停用词表对比研究 被引量:46
15
作者 官琴 邓三鸿 王昊 《数据分析与知识发现》 CSSCI CSCD 2017年第3期72-80,共9页
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用... 【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要。同时,过度增加停用词的数量并不会一直改善聚类结果。 展开更多
关键词 文本 停用词 K—means
原文传递
基于文本聚类与LDA相融合的微博主题检索模型研究 被引量:44
16
作者 唐晓波 房小可 《情报理论与实践》 CSSCI 北大核心 2013年第8期85-90,共6页
伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段。其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素。文章针对文本聚类和LDA主题模型的互补特征,综合考... 伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段。其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素。文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型。实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题。 展开更多
关键词 文本 主题检索 微博
原文传递
一种用于文本聚类的改进k-means算法 被引量:34
17
作者 索红光 王玉伟 《山东大学学报(理学版)》 CAS CSCD 北大核心 2008年第1期60-64,共5页
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展... k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。 展开更多
关键词 文本 K-MEANS 向量空间模型 局部迭代
下载PDF
文本聚类中权重计算的对偶性策略 被引量:20
18
作者 卜东波 白硕 李国杰 《软件学报》 EI CSCD 北大核心 2002年第11期2083-2089,共7页
在文本聚类/分类处理中,一个重要步骤就是寻找文本的合理表示.在被广泛采用的向量空间模型中,一个文本被表示成一个向量,向量的各维是特征项,而向量空间模型的核心问题就是如何进行特征的抽取和选择.在特征的权重计算中,存在一种对偶性... 在文本聚类/分类处理中,一个重要步骤就是寻找文本的合理表示.在被广泛采用的向量空间模型中,一个文本被表示成一个向量,向量的各维是特征项,而向量空间模型的核心问题就是如何进行特征的抽取和选择.在特征的权重计算中,存在一种对偶性现象.利用迭代的方法来处理和利用这种对偶性,获得了文本的隐含概念.实验结果表明,采用概念空间代替原始词空间来表示文本,能够得到更好的聚类结果. 展开更多
关键词 文本 权重计算 对偶性策略 向量空间模型 特征抽取 隐含概念空间 汉字信息处理
下载PDF
文本聚类中的贝叶斯后验模型选择方法 被引量:21
19
作者 姜宁 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2002年第5期580-587,共8页
对聚类分析中的模型选择特别是混合模型方法进行了较全面地介绍与总结 ,对其中的关键技术逐一进行了讨论 .在此基础上 ,提出了贝叶斯后验模型选择方法 ,并把它与文档产生特征序列的物理模型相结合 ,给出了一个用于聚类分析的概率模型 .... 对聚类分析中的模型选择特别是混合模型方法进行了较全面地介绍与总结 ,对其中的关键技术逐一进行了讨论 .在此基础上 ,提出了贝叶斯后验模型选择方法 ,并把它与文档产生特征序列的物理模型相结合 ,给出了一个用于聚类分析的概率模型 .对真实文本数据的测试中该模型取得了非常好的效果 . 展开更多
关键词 文本 贝叶斯后验模型选择 混合模型 贝叶斯估计 人工智能
下载PDF
一种基于LDA主题模型的政策文本聚类方法研究 被引量:39
20
作者 张涛 马海群 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第9期59-65,共7页
【目的】利用LDA主题模型有效提升政策文本聚类精准度。【方法】通过对政策文本模拟数据的预处理、导入政策词表、LDA模型生成基础数据、利用加权算法进行文本计算等步骤对政策文本聚类。【结果】实验数据表明:k=4时,加权后的政策文本... 【目的】利用LDA主题模型有效提升政策文本聚类精准度。【方法】通过对政策文本模拟数据的预处理、导入政策词表、LDA模型生成基础数据、利用加权算法进行文本计算等步骤对政策文本聚类。【结果】实验数据表明:k=4时,加权后的政策文本聚类结果 G值最大,与初始人工分类数量吻合,Purity值和F值较高,因此验证该方法是合理有效的。【局限】实验中每步操作结果的精度都会对政策文本聚类的准确性产生影响。【结论】通过运用该方法的整体性设计,可对未来新政策的制定及对已有政策的反向评价检验和双向互动生成机制的形成提供借鉴。 展开更多
关键词 政策文本 LDA 主题模型 文本
原文传递
上一页 1 2 44 下一页 到第
使用帮助 返回顶部