期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
最大距离法选取初始簇中心的K-means文本聚类算法的研究 被引量:108
1
作者 翟东海 鱼江 +2 位作者 高飞 于磊 丁锋 《计算机应用研究》 CSCD 北大核心 2014年第3期713-715,719,共4页
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实... 由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。 展开更多
关键词 K-MEANS聚类算法 最大距离 文本聚类 文本距离 测度函数 F度量值
下载PDF
基于改进的K-means算法在文本挖掘中的应用 被引量:9
2
作者 杨丹 朱世玲 卞正宇 《计算机技术与发展》 2019年第4期68-71,共4页
K-means算法具有简单易于理解的特征,广泛运用于聚类过程中,但是其初始聚类中心是随机确定的,这样极容易导致聚类结果的稳定性很差。针对传统K-means算法对于初始聚类中心选择的敏感性及最大最小距离法容易选取离散点的不足,提出了一种... K-means算法具有简单易于理解的特征,广泛运用于聚类过程中,但是其初始聚类中心是随机确定的,这样极容易导致聚类结果的稳定性很差。针对传统K-means算法对于初始聚类中心选择的敏感性及最大最小距离法容易选取离散点的不足,提出了一种新的聚类中心选择评判函数,依次考察每个点的函数值,选取当前函数值最大的点作为新的聚类中心,直到满足事先确定的聚类中心数。新聚类中心评判函数既可以保证新中心点周围是紧凑的,又可以保证远离其他中心点。最后将该算法运应用于文本聚类之中,根据准确率、召回率及F度量值来衡量算法的聚类质量。实验结果表明,该算法相对于传统算法和最大最小距离算法,准确率更高,聚类质量更好,较适合于文本聚类。 展开更多
关键词 K-MEANS算法 聚类中心 文本聚类 文本距离 稀疏度
下载PDF
基于贝叶斯网和RoBERTa的文本派生关系挖掘方法
3
作者 庄园 翁年凤 李杰 《计算机工程与设计》 北大核心 2024年第9期2690-2696,共7页
对不实信息进行溯源分析是抑制社交网络中不实信息传播的重要手段,传统数据溯源方法主要针对结构化数据,难以准确判断文本之间的派生关系。针对这些问题,提出一种基于贝叶斯网和RoBERTa的文本派生关系挖掘方法,通过RoBERTa模型获得文本... 对不实信息进行溯源分析是抑制社交网络中不实信息传播的重要手段,传统数据溯源方法主要针对结构化数据,难以准确判断文本之间的派生关系。针对这些问题,提出一种基于贝叶斯网和RoBERTa的文本派生关系挖掘方法,通过RoBERTa模型获得文本向量;通过RoBERTa模型初步预测文本间的派生关系,得到文本是否具有派生关系的分类标签;基于向量距离、文本距离、时间跨度和文本分类标签构建贝叶斯网,对文本派生关系进行判断。实验结果表明,所提方法查准率、查全率、F 1值均高于对比方法,验证了该方法的有效性。 展开更多
关键词 数据溯源 文本派生 贝叶斯网 预训练语言模型 派生关系 文本距离 概率模型
下载PDF
基于TF-IDF算法的文本量化方法及作者识别应用 被引量:2
4
作者 李楚 《现代信息科技》 2022年第19期1-6,12,共7页
作者识别任务旨在找到匿名文本的作者,在互联网蓬勃发展的时代,准确识别出匿名文本的作者对维护网络环境的安全有着积极作用。在该任务中,文本内容的量化非常关键,能直接影响作者识别的准确率。基于词频-逆文档频率(TF-IDF)算法,文章提... 作者识别任务旨在找到匿名文本的作者,在互联网蓬勃发展的时代,准确识别出匿名文本的作者对维护网络环境的安全有着积极作用。在该任务中,文本内容的量化非常关键,能直接影响作者识别的准确率。基于词频-逆文档频率(TF-IDF)算法,文章提出了一种文本量化方法将文本转变为向量。为评估闵可夫斯基距离和余弦相似度识别作者的共同作用,提出了一种混合距离用于计算两个文本之间的距离。实验结果显示在中英文两种数据集上,运用提出的量化方法量化文本能有效提高支持向量机、K近邻和闵可夫斯基距离(p=1和p=2)识别文本作者的准确率。 展开更多
关键词 作者识别 文本量化 TF-IDF算法 文本距离
下载PDF
论20世纪90年代诗歌的文本距离与接受困境
5
作者 周德波 《沈阳农业大学学报(社会科学版)》 2007年第3期456-458,共3页
20世纪90年代诗歌在文学的整体架构中处于相对尴尬的境遇,个体话语场的衍生和叙述策略的变化同时并存。诗歌文本在书写的过程中,受主体价值认定、文化环境的变迁、书写状态的差异等因素的影响,其文本距离不断衍生。这造成了批评的困难,... 20世纪90年代诗歌在文学的整体架构中处于相对尴尬的境遇,个体话语场的衍生和叙述策略的变化同时并存。诗歌文本在书写的过程中,受主体价值认定、文化环境的变迁、书写状态的差异等因素的影响,其文本距离不断衍生。这造成了批评的困难,也导致了诗美的泛化,对于诗歌发展本身起了阻滞的作用。认识这一状况将有利于当下诗歌文本书写的自觉。 展开更多
关键词 20世纪90年代诗歌 文本书写 文本距离
下载PDF
A Comparison of Demonstratives in English and Chinese
6
作者 张天乾 《海外英语》 2011年第4X期14-15,共2页
This paper re-examines the comparison of the demonstratives in English and Chinese,which has been discussed by many linguists.They argue that the demonstratives in English and Chinese don't correspond symmetricall... This paper re-examines the comparison of the demonstratives in English and Chinese,which has been discussed by many linguists.They argue that the demonstratives in English and Chinese don't correspond symmetrically,and that '这' in Chinese,for example,is more widely used than this in English.Earlier approaches to the comparison in terms of space,time and text distance are reviewed.This paper assumes that,compared with English demonstratives,the proximity indicated by Chinese demonstratives is more influenced by psychological factors.This paper holds that the space,time and text distance as well as psychological distance act upon each other,co-determining the choice of demonstratives in Chinese. 展开更多
关键词 DEMONSTRATIVES SPACE TIME and text distance PSYCHOLOGICAL distance
下载PDF
基于文本相似度的网页消重策略 被引量:6
7
作者 刘书一 《计算机应用与软件》 CSCD 2011年第11期228-229,278,共3页
针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基... 针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基础上得到网页的相似度。经与相似方法比较,结果表明,该方法减少了时间复杂度,具有较高的查全率和查准率,适于大规模网页消重。 展开更多
关键词 网页消重 网页特征码 文本相似度 编辑距离
下载PDF
翻译中心智距离存在的客观性 被引量:3
8
作者 王文斌 《宁波大学学报(人文科学版)》 1994年第1期50-55,共6页
翻译难是一个众所周知的事实。难的原因有多种,涉及许多内在和外在诸因素,其中有一个不容忽视的成因是译者与原作者之间客观地存在着“心智距离”,即译者在语际传译过程中,受自身诸种内在因素的制约,不可能真正地深入到原作者的内... 翻译难是一个众所周知的事实。难的原因有多种,涉及许多内在和外在诸因素,其中有一个不容忽视的成因是译者与原作者之间客观地存在着“心智距离”,即译者在语际传译过程中,受自身诸种内在因素的制约,不可能真正地深入到原作者的内心中去,与原作者同思维、共呼吸,与原作者的意旨彻底复合。当代西方流行的接受美学理论为这一现象作了很好的佐证。 展开更多
关键词 翻译 文本 心智距离 理解 阐祥 接受美学
下载PDF
现代远程教育个性化Web挖掘研究 被引量:2
9
作者 张涛 邓军 《科学技术与工程》 2007年第5期742-746,共5页
从Web上异质的、非结构化的数据中发现有用的知识或者模式是目前数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。介绍了Web挖掘基本情况,在此基础上对基于Web的文本挖掘进... 从Web上异质的、非结构化的数据中发现有用的知识或者模式是目前数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。介绍了Web挖掘基本情况,在此基础上对基于Web的文本挖掘进行了分析研究,给出了一个基于Web的文本挖掘的结构模型图。重点介绍了网页聚类算法,实现了远程教学的按需学习和因材施教的要求。提出了一个基于Web挖掘的智能化、个性化的现代远程教育系统结构模型。 展开更多
关键词 WEB挖掘 文本挖掘 现代远程教育 个性化 聚类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部