期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
最大距离法选取初始簇中心的K-means文本聚类算法的研究 被引量:108
1
作者 翟东海 鱼江 +2 位作者 高飞 于磊 丁锋 《计算机应用研究》 CSCD 北大核心 2014年第3期713-715,719,共4页
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实... 由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。 展开更多
关键词 K-MEANS聚类算法 最大距离 文本聚类 文本距离 测度函数 F度量值
下载PDF
基于改进的K-means算法在文本挖掘中的应用 被引量:9
2
作者 杨丹 朱世玲 卞正宇 《计算机技术与发展》 2019年第4期68-71,共4页
K-means算法具有简单易于理解的特征,广泛运用于聚类过程中,但是其初始聚类中心是随机确定的,这样极容易导致聚类结果的稳定性很差。针对传统K-means算法对于初始聚类中心选择的敏感性及最大最小距离法容易选取离散点的不足,提出了一种... K-means算法具有简单易于理解的特征,广泛运用于聚类过程中,但是其初始聚类中心是随机确定的,这样极容易导致聚类结果的稳定性很差。针对传统K-means算法对于初始聚类中心选择的敏感性及最大最小距离法容易选取离散点的不足,提出了一种新的聚类中心选择评判函数,依次考察每个点的函数值,选取当前函数值最大的点作为新的聚类中心,直到满足事先确定的聚类中心数。新聚类中心评判函数既可以保证新中心点周围是紧凑的,又可以保证远离其他中心点。最后将该算法运应用于文本聚类之中,根据准确率、召回率及F度量值来衡量算法的聚类质量。实验结果表明,该算法相对于传统算法和最大最小距离算法,准确率更高,聚类质量更好,较适合于文本聚类。 展开更多
关键词 K-MEANS算法 聚类中心 文本聚类 文本距离 稀疏度
下载PDF
基于贝叶斯网和RoBERTa的文本派生关系挖掘方法
3
作者 庄园 翁年凤 李杰 《计算机工程与设计》 北大核心 2024年第9期2690-2696,共7页
对不实信息进行溯源分析是抑制社交网络中不实信息传播的重要手段,传统数据溯源方法主要针对结构化数据,难以准确判断文本之间的派生关系。针对这些问题,提出一种基于贝叶斯网和RoBERTa的文本派生关系挖掘方法,通过RoBERTa模型获得文本... 对不实信息进行溯源分析是抑制社交网络中不实信息传播的重要手段,传统数据溯源方法主要针对结构化数据,难以准确判断文本之间的派生关系。针对这些问题,提出一种基于贝叶斯网和RoBERTa的文本派生关系挖掘方法,通过RoBERTa模型获得文本向量;通过RoBERTa模型初步预测文本间的派生关系,得到文本是否具有派生关系的分类标签;基于向量距离、文本距离、时间跨度和文本分类标签构建贝叶斯网,对文本派生关系进行判断。实验结果表明,所提方法查准率、查全率、F 1值均高于对比方法,验证了该方法的有效性。 展开更多
关键词 数据溯源 文本派生 贝叶斯网 预训练语言模型 派生关系 文本距离 概率模型
下载PDF
基于TF-IDF算法的文本量化方法及作者识别应用 被引量:2
4
作者 李楚 《现代信息科技》 2022年第19期1-6,12,共7页
作者识别任务旨在找到匿名文本的作者,在互联网蓬勃发展的时代,准确识别出匿名文本的作者对维护网络环境的安全有着积极作用。在该任务中,文本内容的量化非常关键,能直接影响作者识别的准确率。基于词频-逆文档频率(TF-IDF)算法,文章提... 作者识别任务旨在找到匿名文本的作者,在互联网蓬勃发展的时代,准确识别出匿名文本的作者对维护网络环境的安全有着积极作用。在该任务中,文本内容的量化非常关键,能直接影响作者识别的准确率。基于词频-逆文档频率(TF-IDF)算法,文章提出了一种文本量化方法将文本转变为向量。为评估闵可夫斯基距离和余弦相似度识别作者的共同作用,提出了一种混合距离用于计算两个文本之间的距离。实验结果显示在中英文两种数据集上,运用提出的量化方法量化文本能有效提高支持向量机、K近邻和闵可夫斯基距离(p=1和p=2)识别文本作者的准确率。 展开更多
关键词 作者识别 文本量化 TF-IDF算法 文本距离
下载PDF
论20世纪90年代诗歌的文本距离与接受困境
5
作者 周德波 《沈阳农业大学学报(社会科学版)》 2007年第3期456-458,共3页
20世纪90年代诗歌在文学的整体架构中处于相对尴尬的境遇,个体话语场的衍生和叙述策略的变化同时并存。诗歌文本在书写的过程中,受主体价值认定、文化环境的变迁、书写状态的差异等因素的影响,其文本距离不断衍生。这造成了批评的困难,... 20世纪90年代诗歌在文学的整体架构中处于相对尴尬的境遇,个体话语场的衍生和叙述策略的变化同时并存。诗歌文本在书写的过程中,受主体价值认定、文化环境的变迁、书写状态的差异等因素的影响,其文本距离不断衍生。这造成了批评的困难,也导致了诗美的泛化,对于诗歌发展本身起了阻滞的作用。认识这一状况将有利于当下诗歌文本书写的自觉。 展开更多
关键词 20世纪90年代诗歌 文本书写 文本距离
下载PDF
基于文本成分距离的节事“官方投射形象-观众感知形象”比较研究 被引量:6
6
作者 耿爽 何钰琴 +1 位作者 许欣 牛奔 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第6期115-127,共13页
【目的】探究节事活动官方宣传的投射形象与观众分享内容的感知形象在不同形象维度上的差异与一致性。【方法】通过爬虫收集官方宣传数据与观众相关评论数据,采用扎根理论构建节事形象概念模型,通过文本成分距离计算分析各维度要素上的... 【目的】探究节事活动官方宣传的投射形象与观众分享内容的感知形象在不同形象维度上的差异与一致性。【方法】通过爬虫收集官方宣传数据与观众相关评论数据,采用扎根理论构建节事形象概念模型,通过文本成分距离计算分析各维度要素上的形象距离,量化分析节事观众感知形象和官方投射形象之间的差异,最后收集问卷数据对节事概念模型与文本成分距离分析结果进行多元数据的验证。【结果】节事形象包含节事、社会、场所三个维度和19个范畴,场所维度上“感知-投射”形象差异最大(4.349),社会维度上“感知-投射”形象差异最小(3.251)。【局限】以草莓音乐节为研究案例,数据量相对有限,未来考虑补充其他节事活动数据进行拓展。【结论】本研究为追踪和分析官方投射形象与观众感知形象的差距提供了有效的数据驱动的分析路径。 展开更多
关键词 感知形象 投射形象 扎根理论 文本成分距离
原文传递
基于文本技术距离的企业知识溢出研究
7
作者 于云云 冯树辉 +1 位作者 廖辉 朱平芳 《数量经济研究》 2023年第3期173-190,共18页
技术距离是衡量企业、行业或区域间技术差异和知识溢出的重要工具。本文通过文本分析方法计算企业技术相似性,测度技术距离,并将其用于微观企业知识溢出研究。本文基于企业描述信息,使用词频-逆文档频率(TF-IDF)方法和文本动态网络分类(... 技术距离是衡量企业、行业或区域间技术差异和知识溢出的重要工具。本文通过文本分析方法计算企业技术相似性,测度技术距离,并将其用于微观企业知识溢出研究。本文基于企业描述信息,使用词频-逆文档频率(TF-IDF)方法和文本动态网络分类(TNIC)方法提取微观企业技术特征,构造两种基于文本技术距离的空间权重矩阵WTF-IDF和WTNIC;以长三角、珠三角、京津冀三大城市群科技型中小企业知识溢出为例进行实证研究,证实该方法在实际应用中的使用价值;并将其与传统技术距离构建方法进行比较,实证结果表明基于文本方法构造的技术距离在微观知识溢出实证研究中具有更好的效果。此外,实证研究也发现:三大城市群内科技型中小企业间存在正向的显性知识溢出,相比之下,京津冀的科技型中小企业显性知识溢出并不明显;三大城市群均出现了研发资本投入的挤占效应;京津冀地区技术壁垒较高的技术领域存在“隐性知识过度向中心集中”现象。 展开更多
关键词 文本技术距离 企业技术相似性矩阵 知识溢出 城市群
下载PDF
透视文本的距离与语言的张力
8
作者 周呈宝 《课外语文(下)》 2016年第5期19-19,共1页
两篇不同体裁的文章,却可以透过文本和深入挖掘语言的张力,进而走进文本。当人的思想和文本中语言与文字的延展与变形相契合的时候,自然我们就"触底"了。
关键词 文本距离 语言的张力
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部