期刊文献+
共找到430篇文章
< 1 2 22 >
每页显示 20 50 100
一种结合词项语义信息和TF-IDF方法的文本相似度量方法 被引量:218
1
作者 黄承慧 印鉴 侯昉 《计算机学报》 EI CSCD 北大核心 2011年第5期856-864,共9页
传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增... 传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法. 展开更多
关键词 文本聚类 词项语义相似 文本相似 自然语言处理
下载PDF
基于语义理解的文本相似度算法 被引量:79
2
作者 金博 史彦军 滕弘飞 《大连理工大学学报》 EI CAS CSCD 北大核心 2005年第2期291-297,共7页
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包... 相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高. 展开更多
关键词 语义理解 相似算法 相似计算 计算方法 文本相似 语义相似 信息检索 实例验证 计算公式 准确性 文档 知网
下载PDF
基于VSM的文本相似度计算的研究 被引量:101
3
作者 郭庆琳 李艳梅 唐琦 《计算机应用研究》 CSCD 北大核心 2008年第11期3256-3258,共3页
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词... 文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。 展开更多
关键词 文本相似 特征选择 词频—逆文档频率法 向量空间模型
下载PDF
基于LDA主题模型的文本相似度计算 被引量:94
4
作者 王振振 何明 杜永萍 《计算机科学》 CSCD 北大核心 2013年第12期229-232,共4页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。 展开更多
关键词 主题模型 LDA 文本相似 GIBBS抽样
下载PDF
基于属性论的文本相似度计算 被引量:63
5
作者 潘谦红 王炬 史忠植 《计算机学报》 EI CSCD 北大核心 1999年第6期651-655,共5页
以属性论为理论依据,分析了文本属性与属性重心剖分模型的关系,建立了文本属性重心剖分模型,并在属性坐标系中表示文本向量与查询式向量,确定向量之间的匹配基准,计算匹配距离,从而建立一个文本与查询式之间的匹配相似度计算公式... 以属性论为理论依据,分析了文本属性与属性重心剖分模型的关系,建立了文本属性重心剖分模型,并在属性坐标系中表示文本向量与查询式向量,确定向量之间的匹配基准,计算匹配距离,从而建立一个文本与查询式之间的匹配相似度计算公式.该模型有效地描述文本属性和查询式属性之间的关系. 展开更多
关键词 信息检索 人工智能 属性论 文本相似 计算
下载PDF
基于汉明距离的文本相似度计算 被引量:58
6
作者 张焕炯 王国胜 钟义信 《计算机工程与应用》 CSCD 北大核心 2001年第19期21-22,共2页
传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式... 传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式,得到了一种全新的文本相似度的计算方法,与传统的方法相比较,它具有简便,快速等优点。 展开更多
关键词 INTERNET 汉明距离 文本相似 信息检索 信息论
下载PDF
文本相似度计算方法研究综述 被引量:78
7
作者 王春柳 杨永辉 +1 位作者 邓霏 赖辉源 《情报科学》 CSSCI 北大核心 2019年第3期158-168,共11页
【目的/意义】文本相似度计算是自然语言处理中的一项基础性研究,通过总结和分析文本相似度计算的经典方法和当前最新的研究成果,完善对文本相似度计算方法的系统化研究,以便于快速学习和掌握文本相似度计算方法。【方法/内容】对过去2... 【目的/意义】文本相似度计算是自然语言处理中的一项基础性研究,通过总结和分析文本相似度计算的经典方法和当前最新的研究成果,完善对文本相似度计算方法的系统化研究,以便于快速学习和掌握文本相似度计算方法。【方法/内容】对过去20年的文本相似度计算领域的经典文献进行整理,分析不同计算方法的基本思想、优缺点,总结每种计算方法的侧重点和不同方向上最新的研究进展。【结果/结论】从表面文本相似度计算方法和语义相似度计算方法两方面进行阐述,形成较为全面的分类体系,其中语义相似度计算方法中的基于语料库的方法是该领域最为主要的研究方向。 展开更多
关键词 文本相似 语义相似 语料库
原文传递
文本相似度计算方法研究综述 被引量:73
8
作者 陈二静 姜恩波 《数据分析与知识发现》 CSSCI CSCD 2017年第6期1-11,共11页
【目的】分析文本相似度计算方法,了解该领域的发展态势。【文献范围】在CNKI和Web of Science中分别以检索式"篇名:文本相似度OR篇名:词汇相似度OR篇名:语义相似度"和"TI:‘text similarity’or‘semantic similarity... 【目的】分析文本相似度计算方法,了解该领域的发展态势。【文献范围】在CNKI和Web of Science中分别以检索式"篇名:文本相似度OR篇名:词汇相似度OR篇名:语义相似度"和"TI:‘text similarity’or‘semantic similarity’or‘lexical similarity’"并限定文献类型进行检索,最终得到69篇重点文献。【方法】对文本相似度计算方法进行系统梳理,分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系,文本相似度计算方法可分为4类:基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中,基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心,未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。 展开更多
关键词 文本相似 语义相似 本体 词袋模型 神经网络
原文传递
基于LDA模型的文本聚类研究 被引量:66
9
作者 王鹏 高铖 陈晓美 《情报科学》 CSSCI 北大核心 2015年第1期63-68,共6页
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的... 在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。 展开更多
关键词 文本聚类 LDA模型 文本相似 层次聚类
原文传递
面向产品设计的知识主动推送研究 被引量:38
10
作者 王生发 顾新建 +2 位作者 郭剑锋 马军 战洪飞 《计算机集成制造系统》 EI CSCD 北大核心 2007年第2期234-239,共6页
分析了基于知识的产品设计,针对现有系统不能主动将知识在适当的时候传递到适当设计人员的缺点,提出了一种基于知识管理的、以工作流驱动的、产品设计的知识主动推送体系结构,分析了其主要层次结构及知识的组织和管理,提出了以工作流驱... 分析了基于知识的产品设计,针对现有系统不能主动将知识在适当的时候传递到适当设计人员的缺点,提出了一种基于知识管理的、以工作流驱动的、产品设计的知识主动推送体系结构,分析了其主要层次结构及知识的组织和管理,提出了以工作流驱动的知识主动推送方式。建立了知识主动推送的控制模型,根据知识主动匹配算法分析了设计任务、设计子任务、设计人员、设计知识及其数据结构;将基于语境框架的文本相似度计算延伸到设计领域,提出了基于设计对象的文本相似度计算方法;通过相似度计算对设计人员匹配适当的知识,开发了知识管理和工作流的集成原型系统,并以电涡流缓速器设计为例实现了知识的主动推送。 展开更多
关键词 知识管理 工作流 产品设计 文本相似 主动推送
下载PDF
语义分析与词频统计相结合的中文文本相似度量方法研究 被引量:42
11
作者 华秀丽 朱巧明 李培峰 《计算机应用研究》 CSCD 北大核心 2012年第3期833-836,共4页
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需... 基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。 展开更多
关键词 向量空间模型 语义分析 词频 概率分布 文本相似
下载PDF
基于语境框架的文本相似度计算 被引量:26
12
作者 晋耀红 《计算机工程与应用》 CSCD 北大核心 2004年第16期36-39,共4页
介绍了一种新的文本形式化的语义模型———语境框架。语境框架是一个三维的语义描述,它把文本内容抽象成领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个侧面。在语境框架的基础上,设计实现了文本相似度计算算法。算法从概念... 介绍了一种新的文本形式化的语义模型———语境框架。语境框架是一个三维的语义描述,它把文本内容抽象成领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个侧面。在语境框架的基础上,设计实现了文本相似度计算算法。算法从概念层面入手,充分考虑了文本的领域和对象的语义角色对相似度的影响,重点针对文本中的歧义、多义、概念组合现象,以及语言中的褒贬倾向,实现了文本间语义相似程度的量化。算法已经应用到文本过滤系统中,用以比较用户过滤要求和待过滤文本之间的相似度。实际应用中取得了比较满意的效果。 展开更多
关键词 文本相似 语境框架 领域 情景 背景 文本语义结构 褒贬
下载PDF
一种改进的基于向量空间文本相似度算法的研究与实现 被引量:35
13
作者 李连 朱爱红 苏涛 《计算机应用与软件》 CSCD 北大核心 2012年第2期282-284,共3页
通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间相同特征词对文本相似度的影响,有效减少了相似度低的文本干扰。仿真实验和系统运行结果验证了改进... 通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间相同特征词对文本相似度的影响,有效减少了相似度低的文本干扰。仿真实验和系统运行结果验证了改进算法的有效性和准确性。 展开更多
关键词 向量空间 文本相似 特征词 覆盖
下载PDF
文本相似度视角下我国大数据政策比较研究 被引量:34
14
作者 张涛 马海群 易扬 《图书情报工作》 CSSCI 北大核心 2020年第12期26-37,共12页
[目的/意义]大数据政策的制定与实施是国家推动大数据产业发展的重要手段,因此对大数据的政策研究也受到了社会广泛关注。[方法/过程]以文本相似度为视角对国务院发布的《促进大数据发展行动纲要》和我国22个地区发布的大数据政策文本... [目的/意义]大数据政策的制定与实施是国家推动大数据产业发展的重要手段,因此对大数据的政策研究也受到了社会广泛关注。[方法/过程]以文本相似度为视角对国务院发布的《促进大数据发展行动纲要》和我国22个地区发布的大数据政策文本进行比较研究。[结果/结论]数据表明:广东省、福建省所制定的政策最为完整和全面,数据开放共享和安全保障在各地区大数据政策制定层面整体关注最高,呈现出相似性,在内蒙古自治区、四川省等地区大数据政策制定中区域特色较为突出,呈现出差异性。随着各地区相继颁布人工智能政策,未来对人工智能视域下大数据政策的研究将成为新方向。 展开更多
关键词 文本相似 大数据政策 政策比较研究 政策文本计算
原文传递
基于改进的Jaccard系数文档相似度计算方法 被引量:28
15
作者 俞婷婷 徐彭娜 +1 位作者 江育娥 林劼 《计算机系统应用》 2017年第12期137-142,共6页
文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性.为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文... 文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性.为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度.实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题. 展开更多
关键词 文本相似 Jaccard系数 文本分析 文本查重 文本检索
下载PDF
基于LDA的文本聚类在网络舆情分析中的应用研究 被引量:28
16
作者 王少鹏 彭岩 王洁 《山东大学学报(理学版)》 CAS CSCD 北大核心 2014年第9期129-134,共6页
针对传统的基于词语的文本聚类算法忽略了文本中可能具有的隐含信息的问题,提出了一种基于LDA(latent dirichlet allocation)主题模型的文本聚类算法。该方法利用TF-IDF算法和LDA主题模型分别计算文本的相似度,通过耗费函数确定文本相... 针对传统的基于词语的文本聚类算法忽略了文本中可能具有的隐含信息的问题,提出了一种基于LDA(latent dirichlet allocation)主题模型的文本聚类算法。该方法利用TF-IDF算法和LDA主题模型分别计算文本的相似度,通过耗费函数确定文本相似度的融合系数并进行线性结合来获取文本之间的相似度,同时使用F-measure值来对聚类结果进行评估。在构建LDA主题模型时,采用Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定。从仿真实验的聚类结果的准确性和稳定性来看,该方法相比传统的文本聚类算法具有更良好的效果。 展开更多
关键词 网络舆情 主题模型 LDA TF-IDF 文本相似
原文传递
语义文本相似度计算方法 被引量:27
17
作者 韩程程 李磊 +1 位作者 刘婷婷 高明 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第5期95-112,共18页
综述了语义文本相似度计算的最新研究进展,主要包括基于字符串、基于统计、基于知识库和基于深度学习的方法.针对每一类方法,不仅介绍了其中典型的模型和方法,而且深入探讨了各类方法的优缺点;并对该领域的常用公开数据集和评估指标进... 综述了语义文本相似度计算的最新研究进展,主要包括基于字符串、基于统计、基于知识库和基于深度学习的方法.针对每一类方法,不仅介绍了其中典型的模型和方法,而且深入探讨了各类方法的优缺点;并对该领域的常用公开数据集和评估指标进行了整理,最后讨论并总结了该领域未来可能的研究方向. 展开更多
关键词 文本相似 语义相似 自然语言处理 知识库 学习
下载PDF
基于词汇语义信息的文本相似度计算 被引量:27
18
作者 谷重阳 徐浩煜 +1 位作者 周晗 张俊杰 《计算机应用研究》 CSCD 北大核心 2018年第2期391-395,共5页
传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇... 传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。针对以上问题,提出了一种新的计算方法。该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。因此,利用词汇相似度改进了基于余弦公式的文本相似度计算方法。实验表明该方法在F1值和准确度评价标准上优于其他方法。 展开更多
关键词 文本相似 词向量 词频—逆文档频率
下载PDF
关键审计事项信息含量与公司债券发行定价——基于文本相似度视角 被引量:23
19
作者 宋建波 冯晓晴 《会计研究》 CSSCI 北大核心 2022年第3期174-191,共18页
关键审计事项是来自审计师视角的信息,其蕴含的特质性信息对实现沟通价值至关重要。本文采用文本分析方法计算的文本相似度衡量关键审计事项特质性信息含量,考察其对公司债券发行定价的影响。结果发现,以较低文本相似度代表的较高关键... 关键审计事项是来自审计师视角的信息,其蕴含的特质性信息对实现沟通价值至关重要。本文采用文本分析方法计算的文本相似度衡量关键审计事项特质性信息含量,考察其对公司债券发行定价的影响。结果发现,以较低文本相似度代表的较高关键审计事项信息含量能够降低公司债券发行定价。较高的审计师专业胜任能力和独立性能够增强关键审计事项信息含量对公司债券发行定价的降低作用。信息不对称的缓解是关键审计事项信息含量降低公司债券发行定价的具体影响渠道。考虑关键审计事项类型后发现,关联交易类关键审计事项信息含量对公司债券发行定价的降低作用更强。本文研究结论有助于未来改进关键审计事项的披露要求。 展开更多
关键词 关键审计事项 公司债券 发行定价 信息含量 文本相似
原文传递
MB-SinglePass:基于组合相似度的微博话题检测 被引量:24
20
作者 周刚 邹鸿程 +1 位作者 熊小兵 黄永忠 《计算机科学》 CSCD 北大核心 2012年第10期198-202,共5页
话题检测技术在传统媒体的研究中取得了较好的效果。探讨了针对微博类的新型媒体短文本对象话题检测技术的优化及性能评价。基于微博中联系人存在的关注和粉丝等结构化信息、帖子之间转发评论等内在关联关系,提出了针对微博的MB-SingleP... 话题检测技术在传统媒体的研究中取得了较好的效果。探讨了针对微博类的新型媒体短文本对象话题检测技术的优化及性能评价。基于微博中联系人存在的关注和粉丝等结构化信息、帖子之间转发评论等内在关联关系,提出了针对微博的MB-SinglePass话题检测算法。该算法除了考虑微博上述特点之外,还针对短文本特征稀疏的问题,利用同义词典,引入了微博特征扩展技术,丰富了特征信息。同时,针对单一使用余弦相似度、雅各比相似度和语义相似度的不足,采用了组合相似度策略。相较传统算法,MB-SinglePass算法在新浪微博实测数据集上取得了更好的性能。另外,针对相似度策略的对照实验说明采用组合相似度的效果优于单一相似度。 展开更多
关键词 微博 SinglePass 话题检测 文本相似 同义词扩展
下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部