期刊文献+
共找到149篇文章
< 1 2 8 >
每页显示 20 50 100
一种基于知网的词汇语义相似度改进计算方法 被引量:23
1
作者 蒋溢 丁优 +1 位作者 熊安萍 王化晶 《重庆邮电大学学报(自然科学版)》 北大核心 2009年第4期533-537,共5页
汉语词语语义相似度计算是中文信息处理中的一个关键问题。在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计... 汉语词语语义相似度计算是中文信息处理中的一个关键问题。在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计算过程。实验结果表明,该方法使词汇相似度计算结果更趋于合理,绝大部分结果更符合人们的日常体验,有效提高了词汇相似度计算结果的精确度和准确性。 展开更多
关键词 知网 语义 词汇相似度 义元
下载PDF
一种基于Word2Vec的训练效果优化策略研究 被引量:20
2
作者 王飞 谭新 《计算机应用与软件》 北大核心 2018年第1期97-102,174,共7页
Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word... Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word2 Vec词向量训练的中文分词和算法选择环节进行试验,配合深入解析部分核心源代码,发现能使训练效果最优的策略,使得Word2Vec的性能获得一定的提升,为下一步的应用提供了更好的词向量。 展开更多
关键词 word2Vec 词向量 语义相似度 算法
下载PDF
供需匹配视角下基于语义相似聚类的技术需求识别模型 被引量:16
3
作者 何喜军 张婷婷 +1 位作者 武玉英 蒋国瑞 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2019年第2期476-485,共10页
在技术供需文本匹配视角下,提出了一种基于语义相似聚类的技术需求识别模型.首先,采集网络中技术需求文本提取关键短语;然后,建立领域专利技术转让索引库,基于需求关键短语检索出高相关专利,构建专利技术供给背景库,并对背景库中专利标... 在技术供需文本匹配视角下,提出了一种基于语义相似聚类的技术需求识别模型.首先,采集网络中技术需求文本提取关键短语;然后,建立领域专利技术转让索引库,基于需求关键短语检索出高相关专利,构建专利技术供给背景库,并对背景库中专利标题与摘要进行分词;第三,提出基于词向量的供需文本语义匹配度算法,筛选有效技术需求并进行语义相似聚类;最后,考虑技术需求对应的需求量和专利技术转让量,对聚类结果进行二维分类.以新能源领域为例进行实证,识别出有效技术需求195个,基于语义相似聚成12类,结合需求量与专利转让量,将12类技术需求分为"高需求、高转让"、"高需求、低转让"、"低需求、高转让"、"低需求、低转让"四大类.该研究为网络技术需求挖掘及供需匹配提供一种新思路. 展开更多
关键词 技术供需匹配度 技术需求识别 词向量语义相似度
原文传递
一种基于复杂网络的中文文本表示算法 被引量:3
4
作者 杨志墨 刘怀亮 赵辉 《现代图书情报技术》 CSSCI 北大核心 2014年第11期38-44,共7页
【目的】为解决基于向量空间文本表示模型中语义信息缺失问题,提出一种基于复杂网络的中文文本表示算法。【方法】利用维基百科中所蕴涵的概念、链接结构和类别体系信息进行词语间相关度的计算,然后以此为基础将文本表示为以特征词为节... 【目的】为解决基于向量空间文本表示模型中语义信息缺失问题,提出一种基于复杂网络的中文文本表示算法。【方法】利用维基百科中所蕴涵的概念、链接结构和类别体系信息进行词语间相关度的计算,然后以此为基础将文本表示为以特征词为节点、词语相关关系为边及其相关度为权重的加权文本复杂网络。【结果】实验结果表明,该文本表示方法可以提高文本相似度计算结果,改善文本分类效果。【局限】文本网络中共现窗口的选择及跨度的选择规则借鉴的是已有研究。【结论】该文本表示方法可以较好地保留文本的结构信息及词汇间的关联信息,且利用基于维基百科的词语相关度计算方法使文本网络所表示的语义信息更加准确。 展开更多
关键词 文本表示 复杂网络 维基百科 词语相关度 文本相似度
原文传递
基于同义词词林的词语相似度计算方法 被引量:179
5
作者 田久乐 赵蔚 《吉林大学学报(信息科学版)》 CAS 2010年第6期602-608,共7页
为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。... 为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。进行人工测试,替换测试以及与当前流行的基于"知网"的词语相似度算法对比测试的结果表明,该算法与人们思维中的相似度值基本一致,有较高的准确性。 展开更多
关键词 词语相似度 同义词词林 自适应学习系统
下载PDF
一种改进的基于《知网》的词语语义相似度计算 被引量:109
6
作者 江敏 肖诗斌 +1 位作者 王弘蔚 施水才 《中文信息学报》 CSCD 北大核心 2008年第5期84-89,共6页
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与&... 中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。 展开更多
关键词 计算机应用 中文信息处理 知网 词语相似度 义原 词语极性识别
下载PDF
一种基于词汇链的关键词抽取方法 被引量:88
7
作者 索红光 刘玉树 曹淑英 《中文信息学报》 CSCD 北大核心 2006年第6期25-30,共6页
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇... 关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。 展开更多
关键词 计算机应用 中文信息处理 关键词标引 关键词抽取 词汇链 词义相似度 知网
下载PDF
基于语义网计算英语词语相似度 被引量:41
8
作者 荀恩东 颜伟 《情报学报》 CSSCI 北大核心 2006年第1期43-48,共6页
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense expl... 本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense explanation)。实验结果表明,这是计算英语词语相似度的一种可行的方法。 展开更多
关键词 wordNET 词语相似度
下载PDF
改进的基于知网的词语相似度算法 被引量:38
9
作者 王小林 王义 《计算机应用》 CSCD 北大核心 2011年第11期3075-3077,3090,共4页
词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种... 词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种新的改进的词语相似度算法,首先根据义项中各类义原的个数不同,提出了一种新的变系数义项相似度计算方法;其次从词性的角度,认为词语义项中的不同词性对词语相似度的贡献度不同,剔除不同词性义项之间的组合。实验结果证明,改进的算法结果在原有基础上得到较好的提升,大幅度降低了相似度计算的复杂度,提高了运算效率。 展开更多
关键词 词语相似度 知网 义原 义项 词性
下载PDF
词语相似度计算研究 被引量:30
10
作者 秦春秀 赵捧未 刘怀亮 《情报理论与实践》 CSSCI 北大核心 2007年第1期105-108,共4页
词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。本文首先讨论了词语相似度计算的应用背景,然后总结了词语相似度计算的两类策略,包括每类策略的思想、依赖的工... 词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。本文首先讨论了词语相似度计算的应用背景,然后总结了词语相似度计算的两类策略,包括每类策略的思想、依赖的工具和主要的方法,并对这两类策略进行了简单的比较。 展开更多
关键词 词语相似度 语义词典 语料库
下载PDF
基于《知网》的词语相似度算法研究 被引量:34
11
作者 刘青磊 顾小丰 《中文信息学报》 CSCD 北大核心 2010年第6期31-36,共6页
基于《知网》的词语(句子)相似度计算通常是把义原(词语)之间的最优匹配做为运算的基本单位的,最终的整体相似度数值可由每一部分的相似度值通过适当的加权计算合成而来,这样的做法往往会造成一些匹配对的信息重复和结构不合理。针对这... 基于《知网》的词语(句子)相似度计算通常是把义原(词语)之间的最优匹配做为运算的基本单位的,最终的整体相似度数值可由每一部分的相似度值通过适当的加权计算合成而来,这样的做法往往会造成一些匹配对的信息重复和结构不合理。针对这个问题,该文通过统计出两个直接义原集合间的共有信息(共性)和差异信息(个性)来计算集合的相似度,并把此方法引入到词语(句子)的相似度计算中去。最终的实验比对结果表明该文所采用的方法更为稳定和有效。 展开更多
关键词 《知网》 词语相似度 句子相似度 共有信息 差异信息
下载PDF
一种改进的基于《知网》的词语相似度计算方法 被引量:26
12
作者 林丽 薛方 任仲晟 《计算机应用》 CSCD 北大核心 2009年第1期217-220,共4页
《知网》是一部比较详尽的中文语义知识词典,共用1618个义原描述词语,故相关的词语用《知网》的概念描述时,有相同的义原。通过这一规律,与当前的词语相似度计算方法结合,提出改进的方法计算相关词对的相似度。并引入弱义原的概念,排除... 《知网》是一部比较详尽的中文语义知识词典,共用1618个义原描述词语,故相关的词语用《知网》的概念描述时,有相同的义原。通过这一规律,与当前的词语相似度计算方法结合,提出改进的方法计算相关词对的相似度。并引入弱义原的概念,排除弱义原对词语相似度计算的干扰。实验证明:该改进方法更符合人的直观,更适用于文本挖掘。 展开更多
关键词 《知网》 词语相似度 相关词对 弱义原
下载PDF
基于Corpus库的词语相似度计算方法 被引量:17
13
作者 章志凌 虞立群 +2 位作者 陈奕秋 罗海飞 邵晓敏 《计算机应用》 CSCD 北大核心 2006年第3期638-640,644,共4页
构建了一个语义关联库,称为Corpus库,该库使用词语空间和关系空间结构化地存储了词语和其上下文之间的统计信息,并通过阅读大量的预料数据来训练其相关数据。详细介绍了Corpus库的训练方法,并对训练过程中出现的大量关系提出了裁剪方案... 构建了一个语义关联库,称为Corpus库,该库使用词语空间和关系空间结构化地存储了词语和其上下文之间的统计信息,并通过阅读大量的预料数据来训练其相关数据。详细介绍了Corpus库的训练方法,并对训练过程中出现的大量关系提出了裁剪方案。在此基础上,通过构建词语的上下文关系向量提出了一种词语相似度算法。实验证明这是一种有效的对词语相似度进行计算的方法。 展开更多
关键词 CORPUS 词语相似度 信息检索
下载PDF
基于《知网》的词语语义相似度改进算法研究 被引量:22
14
作者 张沪寅 刘道波 温春艳 《计算机工程》 CAS CSCD 北大核心 2015年第2期151-156,共6页
现有词语相似度计算方法未深入考虑义原之间的距离与义原深度的主次关系,或直接指定含具体词概念的相似度,导致计算结果不够精确。针对该问题,通过义原之间的距离限制义原深度对义原相似度的影响,分析统计《知网》中概念的义项表达式,... 现有词语相似度计算方法未深入考虑义原之间的距离与义原深度的主次关系,或直接指定含具体词概念的相似度,导致计算结果不够精确。针对该问题,通过义原之间的距离限制义原深度对义原相似度的影响,分析统计《知网》中概念的义项表达式,使用第一基本义原(能反映具体词本质)替换概念义项表达式中出现的具体词,从而提出一种改进的词语语义相似度计算算法。实验结果表明,该算法能有效提高词汇相似度计算的精确度。 展开更多
关键词 词语相似度 词语语义 义原深度 概念
下载PDF
基于百度百科的词语相似度计算 被引量:22
15
作者 詹志建 梁丽娜 杨小平 《计算机科学》 CSCD 北大核心 2013年第6期199-202,共4页
词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题。传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库。提出了一种新的基于百度... 词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题。传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库。提出了一种新的基于百度百科的词语相似度量方法,通过分析百度百科词条信息,从表征词条的解释内容方面综合分析词条相似度,并定义了词条间的相似度计算公式,通过计算部分之间的相似度得到整体的相似度。实验结果表明,与已有的相似度计算方法对比,提出的算法更加有效合理。 展开更多
关键词 词语相似度 语言网络 百度百科 向量空间模型
下载PDF
基于中文WordNet的中英文词语相似度计算 被引量:21
16
作者 吴思颖 吴扬扬 《郑州大学学报(理学版)》 CAS 北大核心 2010年第2期66-69,共4页
介绍一种基于中文WordNet的中英文词语相似度计算方法.在WordNet同义词集的上下位关系图中,引入了距离、密度、深度3个因素来估计同义词集之间的相似度,采用一个自适应的方案来解决候选同义词集组合的权重和取舍问题.实现了一个可以计算... 介绍一种基于中文WordNet的中英文词语相似度计算方法.在WordNet同义词集的上下位关系图中,引入了距离、密度、深度3个因素来估计同义词集之间的相似度,采用一个自适应的方案来解决候选同义词集组合的权重和取舍问题.实现了一个可以计算英-英、汉-英、汉-汉词语之间相似度的算法,所得结果比较符合人们对词语的理解. 展开更多
关键词 中文wordNet 词语相似度 语义相似度
下载PDF
基于语义与最大匹配度的短文本分类研究 被引量:18
17
作者 孙建旺 吕学强 张雷瀚 《计算机工程与设计》 CSCD 北大核心 2013年第10期3613-3618,共6页
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出... 为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高。 展开更多
关键词 短文本分类 义原相似度 词语相似度 语义 最大匹配度 KNN算法
下载PDF
词语相似度算法研究综述 被引量:17
18
作者 李慧 《现代情报》 CSSCI 北大核心 2015年第4期172-177,共6页
词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人... 词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人工构建的语义词典或语义网络计算相似度。本文比较分析了两类词语相似度算法,重点介绍了基于Web语料库和基于维基百科的算法,并总结了各自的特点和不足之处。最后提出,在信息技术的影响下,基于维基百科和基于混合技术的词语相似度算法以及关联数据驱动的相似性计算具有潜在的发展趋势。 展开更多
关键词 词语相似度 语义资源 语料库 维基百科 wordNET
下载PDF
基于上下文的短信文本分类方法 被引量:13
19
作者 刘金岭 严云洋 《计算机工程》 CAS CSCD 北大核心 2011年第10期41-43,共3页
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统... 针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统的简单向量距离分类法相比,该方法的分类效果较优。 展开更多
关键词 短信文本 词语共现 上下文 词语相似度 短信文本分类
下载PDF
文本相似度计算研究进展综述 被引量:11
20
作者 王寒茹 张仰森 《北京信息科技大学学报(自然科学版)》 2019年第1期68-74,共7页
相似度计算是自然语言处理工作的基石。随着自然语言处理技术的发展,相似度计算的研究价值和应用价值突显。现有的计算方法因其复杂度和精确度的问题,与现实应用的需求并不匹配。针对现有需求,对于不同粒度的文本,研究出一套适合大规模... 相似度计算是自然语言处理工作的基石。随着自然语言处理技术的发展,相似度计算的研究价值和应用价值突显。现有的计算方法因其复杂度和精确度的问题,与现实应用的需求并不匹配。针对现有需求,对于不同粒度的文本,研究出一套适合大规模实际应用的相似度计算方法体系迫在眉睫。从方法论的角度,对目前主流的相似度计算方法进行总结,介绍了不同粒度的文本相似度计算的差别以及近几年的研究进展,总结了目前相似度计算方向存在的问题,并对发展趋势进行了展望。 展开更多
关键词 距离公式 相似度计算方法 词语相似度 句子相似度 篇章相似度
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部