期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
149
篇文章
<
1
2
…
8
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种基于知网的词汇语义相似度改进计算方法
被引量:
23
1
作者
蒋溢
丁优
+1 位作者
熊安萍
王化晶
《重庆邮电大学学报(自然科学版)》
北大核心
2009年第4期533-537,共5页
汉语词语语义相似度计算是中文信息处理中的一个关键问题。在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计...
汉语词语语义相似度计算是中文信息处理中的一个关键问题。在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计算过程。实验结果表明,该方法使词汇相似度计算结果更趋于合理,绝大部分结果更符合人们的日常体验,有效提高了词汇相似度计算结果的精确度和准确性。
展开更多
关键词
知网
语义
词汇相似度
义元
下载PDF
职称材料
一种基于Word2Vec的训练效果优化策略研究
被引量:
20
2
作者
王飞
谭新
《计算机应用与软件》
北大核心
2018年第1期97-102,174,共7页
Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word...
Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word2 Vec词向量训练的中文分词和算法选择环节进行试验,配合深入解析部分核心源代码,发现能使训练效果最优的策略,使得Word2Vec的性能获得一定的提升,为下一步的应用提供了更好的词向量。
展开更多
关键词
word
2Vec
词向量
语义相似度
算法
下载PDF
职称材料
供需匹配视角下基于语义相似聚类的技术需求识别模型
被引量:
16
3
作者
何喜军
张婷婷
+1 位作者
武玉英
蒋国瑞
《系统工程理论与实践》
EI
CSSCI
CSCD
北大核心
2019年第2期476-485,共10页
在技术供需文本匹配视角下,提出了一种基于语义相似聚类的技术需求识别模型.首先,采集网络中技术需求文本提取关键短语;然后,建立领域专利技术转让索引库,基于需求关键短语检索出高相关专利,构建专利技术供给背景库,并对背景库中专利标...
在技术供需文本匹配视角下,提出了一种基于语义相似聚类的技术需求识别模型.首先,采集网络中技术需求文本提取关键短语;然后,建立领域专利技术转让索引库,基于需求关键短语检索出高相关专利,构建专利技术供给背景库,并对背景库中专利标题与摘要进行分词;第三,提出基于词向量的供需文本语义匹配度算法,筛选有效技术需求并进行语义相似聚类;最后,考虑技术需求对应的需求量和专利技术转让量,对聚类结果进行二维分类.以新能源领域为例进行实证,识别出有效技术需求195个,基于语义相似聚成12类,结合需求量与专利转让量,将12类技术需求分为"高需求、高转让"、"高需求、低转让"、"低需求、高转让"、"低需求、低转让"四大类.该研究为网络技术需求挖掘及供需匹配提供一种新思路.
展开更多
关键词
技术供需匹配度
技术需求识别
词向量语义相似度
原文传递
一种基于复杂网络的中文文本表示算法
被引量:
3
4
作者
杨志墨
刘怀亮
赵辉
《现代图书情报技术》
CSSCI
北大核心
2014年第11期38-44,共7页
【目的】为解决基于向量空间文本表示模型中语义信息缺失问题,提出一种基于复杂网络的中文文本表示算法。【方法】利用维基百科中所蕴涵的概念、链接结构和类别体系信息进行词语间相关度的计算,然后以此为基础将文本表示为以特征词为节...
【目的】为解决基于向量空间文本表示模型中语义信息缺失问题,提出一种基于复杂网络的中文文本表示算法。【方法】利用维基百科中所蕴涵的概念、链接结构和类别体系信息进行词语间相关度的计算,然后以此为基础将文本表示为以特征词为节点、词语相关关系为边及其相关度为权重的加权文本复杂网络。【结果】实验结果表明,该文本表示方法可以提高文本相似度计算结果,改善文本分类效果。【局限】文本网络中共现窗口的选择及跨度的选择规则借鉴的是已有研究。【结论】该文本表示方法可以较好地保留文本的结构信息及词汇间的关联信息,且利用基于维基百科的词语相关度计算方法使文本网络所表示的语义信息更加准确。
展开更多
关键词
文本表示
复杂网络
维基百科
词语相关度
文本相似度
原文传递
基于同义词词林的词语相似度计算方法
被引量:
179
5
作者
田久乐
赵蔚
《吉林大学学报(信息科学版)》
CAS
2010年第6期602-608,共7页
为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。...
为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。进行人工测试,替换测试以及与当前流行的基于"知网"的词语相似度算法对比测试的结果表明,该算法与人们思维中的相似度值基本一致,有较高的准确性。
展开更多
关键词
词语相似度
同义词词林
自适应学习系统
下载PDF
职称材料
一种改进的基于《知网》的词语语义相似度计算
被引量:
109
6
作者
江敏
肖诗斌
+1 位作者
王弘蔚
施水才
《中文信息学报》
CSCD
北大核心
2008年第5期84-89,共6页
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与&...
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。
展开更多
关键词
计算机应用
中文信息处理
知网
词语相似度
义原
词语极性识别
下载PDF
职称材料
一种基于词汇链的关键词抽取方法
被引量:
88
7
作者
索红光
刘玉树
曹淑英
《中文信息学报》
CSCD
北大核心
2006年第6期25-30,共6页
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇...
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。
展开更多
关键词
计算机应用
中文信息处理
关键词标引
关键词抽取
词汇链
词义相似度
知网
下载PDF
职称材料
基于语义网计算英语词语相似度
被引量:
41
8
作者
荀恩东
颜伟
《情报学报》
CSSCI
北大核心
2006年第1期43-48,共6页
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense expl...
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense explanation)。实验结果表明,这是计算英语词语相似度的一种可行的方法。
展开更多
关键词
word
NET
词语相似度
下载PDF
职称材料
改进的基于知网的词语相似度算法
被引量:
38
9
作者
王小林
王义
《计算机应用》
CSCD
北大核心
2011年第11期3075-3077,3090,共4页
词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种...
词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种新的改进的词语相似度算法,首先根据义项中各类义原的个数不同,提出了一种新的变系数义项相似度计算方法;其次从词性的角度,认为词语义项中的不同词性对词语相似度的贡献度不同,剔除不同词性义项之间的组合。实验结果证明,改进的算法结果在原有基础上得到较好的提升,大幅度降低了相似度计算的复杂度,提高了运算效率。
展开更多
关键词
词语相似度
知网
义原
义项
词性
下载PDF
职称材料
词语相似度计算研究
被引量:
30
10
作者
秦春秀
赵捧未
刘怀亮
《情报理论与实践》
CSSCI
北大核心
2007年第1期105-108,共4页
词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。本文首先讨论了词语相似度计算的应用背景,然后总结了词语相似度计算的两类策略,包括每类策略的思想、依赖的工...
词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。本文首先讨论了词语相似度计算的应用背景,然后总结了词语相似度计算的两类策略,包括每类策略的思想、依赖的工具和主要的方法,并对这两类策略进行了简单的比较。
展开更多
关键词
词语相似度
语义词典
语料库
下载PDF
职称材料
基于《知网》的词语相似度算法研究
被引量:
34
11
作者
刘青磊
顾小丰
《中文信息学报》
CSCD
北大核心
2010年第6期31-36,共6页
基于《知网》的词语(句子)相似度计算通常是把义原(词语)之间的最优匹配做为运算的基本单位的,最终的整体相似度数值可由每一部分的相似度值通过适当的加权计算合成而来,这样的做法往往会造成一些匹配对的信息重复和结构不合理。针对这...
基于《知网》的词语(句子)相似度计算通常是把义原(词语)之间的最优匹配做为运算的基本单位的,最终的整体相似度数值可由每一部分的相似度值通过适当的加权计算合成而来,这样的做法往往会造成一些匹配对的信息重复和结构不合理。针对这个问题,该文通过统计出两个直接义原集合间的共有信息(共性)和差异信息(个性)来计算集合的相似度,并把此方法引入到词语(句子)的相似度计算中去。最终的实验比对结果表明该文所采用的方法更为稳定和有效。
展开更多
关键词
《知网》
词语相似度
句子相似度
共有信息
差异信息
下载PDF
职称材料
一种改进的基于《知网》的词语相似度计算方法
被引量:
26
12
作者
林丽
薛方
任仲晟
《计算机应用》
CSCD
北大核心
2009年第1期217-220,共4页
《知网》是一部比较详尽的中文语义知识词典,共用1618个义原描述词语,故相关的词语用《知网》的概念描述时,有相同的义原。通过这一规律,与当前的词语相似度计算方法结合,提出改进的方法计算相关词对的相似度。并引入弱义原的概念,排除...
《知网》是一部比较详尽的中文语义知识词典,共用1618个义原描述词语,故相关的词语用《知网》的概念描述时,有相同的义原。通过这一规律,与当前的词语相似度计算方法结合,提出改进的方法计算相关词对的相似度。并引入弱义原的概念,排除弱义原对词语相似度计算的干扰。实验证明:该改进方法更符合人的直观,更适用于文本挖掘。
展开更多
关键词
《知网》
词语相似度
相关词对
弱义原
下载PDF
职称材料
基于Corpus库的词语相似度计算方法
被引量:
17
13
作者
章志凌
虞立群
+2 位作者
陈奕秋
罗海飞
邵晓敏
《计算机应用》
CSCD
北大核心
2006年第3期638-640,644,共4页
构建了一个语义关联库,称为Corpus库,该库使用词语空间和关系空间结构化地存储了词语和其上下文之间的统计信息,并通过阅读大量的预料数据来训练其相关数据。详细介绍了Corpus库的训练方法,并对训练过程中出现的大量关系提出了裁剪方案...
构建了一个语义关联库,称为Corpus库,该库使用词语空间和关系空间结构化地存储了词语和其上下文之间的统计信息,并通过阅读大量的预料数据来训练其相关数据。详细介绍了Corpus库的训练方法,并对训练过程中出现的大量关系提出了裁剪方案。在此基础上,通过构建词语的上下文关系向量提出了一种词语相似度算法。实验证明这是一种有效的对词语相似度进行计算的方法。
展开更多
关键词
CORPUS
词语相似度
信息检索
下载PDF
职称材料
基于《知网》的词语语义相似度改进算法研究
被引量:
22
14
作者
张沪寅
刘道波
温春艳
《计算机工程》
CAS
CSCD
北大核心
2015年第2期151-156,共6页
现有词语相似度计算方法未深入考虑义原之间的距离与义原深度的主次关系,或直接指定含具体词概念的相似度,导致计算结果不够精确。针对该问题,通过义原之间的距离限制义原深度对义原相似度的影响,分析统计《知网》中概念的义项表达式,...
现有词语相似度计算方法未深入考虑义原之间的距离与义原深度的主次关系,或直接指定含具体词概念的相似度,导致计算结果不够精确。针对该问题,通过义原之间的距离限制义原深度对义原相似度的影响,分析统计《知网》中概念的义项表达式,使用第一基本义原(能反映具体词本质)替换概念义项表达式中出现的具体词,从而提出一种改进的词语语义相似度计算算法。实验结果表明,该算法能有效提高词汇相似度计算的精确度。
展开更多
关键词
词语相似度
词语语义
义原深度
概念
下载PDF
职称材料
基于百度百科的词语相似度计算
被引量:
22
15
作者
詹志建
梁丽娜
杨小平
《计算机科学》
CSCD
北大核心
2013年第6期199-202,共4页
词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题。传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库。提出了一种新的基于百度...
词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题。传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库。提出了一种新的基于百度百科的词语相似度量方法,通过分析百度百科词条信息,从表征词条的解释内容方面综合分析词条相似度,并定义了词条间的相似度计算公式,通过计算部分之间的相似度得到整体的相似度。实验结果表明,与已有的相似度计算方法对比,提出的算法更加有效合理。
展开更多
关键词
词语相似度
语言网络
百度百科
向量空间模型
下载PDF
职称材料
基于中文WordNet的中英文词语相似度计算
被引量:
21
16
作者
吴思颖
吴扬扬
《郑州大学学报(理学版)》
CAS
北大核心
2010年第2期66-69,共4页
介绍一种基于中文WordNet的中英文词语相似度计算方法.在WordNet同义词集的上下位关系图中,引入了距离、密度、深度3个因素来估计同义词集之间的相似度,采用一个自适应的方案来解决候选同义词集组合的权重和取舍问题.实现了一个可以计算...
介绍一种基于中文WordNet的中英文词语相似度计算方法.在WordNet同义词集的上下位关系图中,引入了距离、密度、深度3个因素来估计同义词集之间的相似度,采用一个自适应的方案来解决候选同义词集组合的权重和取舍问题.实现了一个可以计算英-英、汉-英、汉-汉词语之间相似度的算法,所得结果比较符合人们对词语的理解.
展开更多
关键词
中文
word
Net
词语相似度
语义相似度
下载PDF
职称材料
基于语义与最大匹配度的短文本分类研究
被引量:
18
17
作者
孙建旺
吕学强
张雷瀚
《计算机工程与设计》
CSCD
北大核心
2013年第10期3613-3618,共6页
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出...
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高。
展开更多
关键词
短文本分类
义原相似度
词语相似度
语义
最大匹配度
KNN算法
下载PDF
职称材料
词语相似度算法研究综述
被引量:
17
18
作者
李慧
《现代情报》
CSSCI
北大核心
2015年第4期172-177,共6页
词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人...
词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人工构建的语义词典或语义网络计算相似度。本文比较分析了两类词语相似度算法,重点介绍了基于Web语料库和基于维基百科的算法,并总结了各自的特点和不足之处。最后提出,在信息技术的影响下,基于维基百科和基于混合技术的词语相似度算法以及关联数据驱动的相似性计算具有潜在的发展趋势。
展开更多
关键词
词语相似度
语义资源
语料库
维基百科
word
NET
下载PDF
职称材料
基于上下文的短信文本分类方法
被引量:
13
19
作者
刘金岭
严云洋
《计算机工程》
CAS
CSCD
北大核心
2011年第10期41-43,共3页
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统...
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统的简单向量距离分类法相比,该方法的分类效果较优。
展开更多
关键词
短信文本
词语共现
上下文
词语相似度
短信文本分类
下载PDF
职称材料
文本相似度计算研究进展综述
被引量:
11
20
作者
王寒茹
张仰森
《北京信息科技大学学报(自然科学版)》
2019年第1期68-74,共7页
相似度计算是自然语言处理工作的基石。随着自然语言处理技术的发展,相似度计算的研究价值和应用价值突显。现有的计算方法因其复杂度和精确度的问题,与现实应用的需求并不匹配。针对现有需求,对于不同粒度的文本,研究出一套适合大规模...
相似度计算是自然语言处理工作的基石。随着自然语言处理技术的发展,相似度计算的研究价值和应用价值突显。现有的计算方法因其复杂度和精确度的问题,与现实应用的需求并不匹配。针对现有需求,对于不同粒度的文本,研究出一套适合大规模实际应用的相似度计算方法体系迫在眉睫。从方法论的角度,对目前主流的相似度计算方法进行总结,介绍了不同粒度的文本相似度计算的差别以及近几年的研究进展,总结了目前相似度计算方向存在的问题,并对发展趋势进行了展望。
展开更多
关键词
距离公式
相似度计算方法
词语相似度
句子相似度
篇章相似度
下载PDF
职称材料
题名
一种基于知网的词汇语义相似度改进计算方法
被引量:
23
1
作者
蒋溢
丁优
熊安萍
王化晶
机构
重庆邮电大学计算机科学与技术学院
出处
《重庆邮电大学学报(自然科学版)》
北大核心
2009年第4期533-537,共5页
基金
重庆市自然科学基金重点项目(2008BA2017)
重庆市信息产业发展专项资金(200811004)
文摘
汉语词语语义相似度计算是中文信息处理中的一个关键问题。在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计算过程。实验结果表明,该方法使词汇相似度计算结果更趋于合理,绝大部分结果更符合人们的日常体验,有效提高了词汇相似度计算结果的精确度和准确性。
关键词
知网
语义
词汇相似度
义元
Keywords
HowNet
semantics
word
's
similarity
sememe
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于Word2Vec的训练效果优化策略研究
被引量:
20
2
作者
王飞
谭新
机构
解放军外国语学院
[
出处
《计算机应用与软件》
北大核心
2018年第1期97-102,174,共7页
基金
国家自然科学基金项目(11590771)
文摘
Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word2 Vec词向量训练的中文分词和算法选择环节进行试验,配合深入解析部分核心源代码,发现能使训练效果最优的策略,使得Word2Vec的性能获得一定的提升,为下一步的应用提供了更好的词向量。
关键词
word
2Vec
词向量
语义相似度
算法
Keywords
word
2Vec
word
vector
Semantic
similarity
Algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
供需匹配视角下基于语义相似聚类的技术需求识别模型
被引量:
16
3
作者
何喜军
张婷婷
武玉英
蒋国瑞
机构
北京工业大学经济与管理学院
出处
《系统工程理论与实践》
EI
CSSCI
CSCD
北大核心
2019年第2期476-485,共10页
基金
北京市自然科学基金(9172002)~~
文摘
在技术供需文本匹配视角下,提出了一种基于语义相似聚类的技术需求识别模型.首先,采集网络中技术需求文本提取关键短语;然后,建立领域专利技术转让索引库,基于需求关键短语检索出高相关专利,构建专利技术供给背景库,并对背景库中专利标题与摘要进行分词;第三,提出基于词向量的供需文本语义匹配度算法,筛选有效技术需求并进行语义相似聚类;最后,考虑技术需求对应的需求量和专利技术转让量,对聚类结果进行二维分类.以新能源领域为例进行实证,识别出有效技术需求195个,基于语义相似聚成12类,结合需求量与专利转让量,将12类技术需求分为"高需求、高转让"、"高需求、低转让"、"低需求、高转让"、"低需求、低转让"四大类.该研究为网络技术需求挖掘及供需匹配提供一种新思路.
关键词
技术供需匹配度
技术需求识别
词向量语义相似度
Keywords
technology
supply
and
demand
matching
degree
technical
demand
recognition
word
vector
semantics
similarity
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
一种基于复杂网络的中文文本表示算法
被引量:
3
4
作者
杨志墨
刘怀亮
赵辉
机构
西安电子科技大学经济与管理学院
出处
《现代图书情报技术》
CSSCI
北大核心
2014年第11期38-44,共7页
基金
国家自然科学基金项目"基于复杂网络的中文文本语义相似度研究"(项目编号:71373200)的研究成果之一
文摘
【目的】为解决基于向量空间文本表示模型中语义信息缺失问题,提出一种基于复杂网络的中文文本表示算法。【方法】利用维基百科中所蕴涵的概念、链接结构和类别体系信息进行词语间相关度的计算,然后以此为基础将文本表示为以特征词为节点、词语相关关系为边及其相关度为权重的加权文本复杂网络。【结果】实验结果表明,该文本表示方法可以提高文本相似度计算结果,改善文本分类效果。【局限】文本网络中共现窗口的选择及跨度的选择规则借鉴的是已有研究。【结论】该文本表示方法可以较好地保留文本的结构信息及词汇间的关联信息,且利用基于维基百科的词语相关度计算方法使文本网络所表示的语义信息更加准确。
关键词
文本表示
复杂网络
维基百科
词语相关度
文本相似度
Keywords
Text
representation
Complex
network
Wikipedia
word
relevance
Text
similarity
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于同义词词林的词语相似度计算方法
被引量:
179
5
作者
田久乐
赵蔚
机构
东北师范大学计算机科学与信息技术学院
出处
《吉林大学学报(信息科学版)》
CAS
2010年第6期602-608,共7页
基金
教育部人文社会科学规划基金资助项目(08JA880012)
吉林省科技发展计划基金资助项目(20070521)
文摘
为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。进行人工测试,替换测试以及与当前流行的基于"知网"的词语相似度算法对比测试的结果表明,该算法与人们思维中的相似度值基本一致,有较高的准确性。
关键词
词语相似度
同义词词林
自适应学习系统
Keywords
word
similarity
tongyici
cilin
adaptive
learning
system
分类号
TP391.5 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种改进的基于《知网》的词语语义相似度计算
被引量:
109
6
作者
江敏
肖诗斌
王弘蔚
施水才
机构
北京信息科技大学中文信息处理研究中心
出处
《中文信息学报》
CSCD
北大核心
2008年第5期84-89,共6页
基金
国家863计划重点资助项目(2006AA010105)
国家自然科学基金资助项目(60772081)
+1 种基金
北京市属市管高校人才强教计划项目(PXM2007_014224_044677,PXM2007_014224_044676)
北京市教委科技发展计划项目(KM200710772010)
文摘
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。
关键词
计算机应用
中文信息处理
知网
词语相似度
义原
词语极性识别
Keywords
computer
application
Chinese
information
processing
HowNet
word
similarity
sememe
word
polarity
recognition
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于词汇链的关键词抽取方法
被引量:
88
7
作者
索红光
刘玉树
曹淑英
机构
北京理工大学计算机科学技术学院
中国石油大学计算机与通信工程学院
出处
《中文信息学报》
CSCD
北大核心
2006年第6期25-30,共6页
基金
国家自然科学基金资助项目(60503050)
文摘
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。
关键词
计算机应用
中文信息处理
关键词标引
关键词抽取
词汇链
词义相似度
知网
Keywords
computer
application
Chinese
information
processing
key
word
indexing
key
word
extraction
lexical
chains
word
similarity
HowNet
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语义网计算英语词语相似度
被引量:
41
8
作者
荀恩东
颜伟
机构
北京语言大学语言信息处理研究所
出处
《情报学报》
CSSCI
北大核心
2006年第1期43-48,共6页
文摘
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense explanation)。实验结果表明,这是计算英语词语相似度的一种可行的方法。
关键词
word
NET
词语相似度
Keywords
word
Net,
word
similarity
.
分类号
H313 [语言文字—英语]
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
改进的基于知网的词语相似度算法
被引量:
38
9
作者
王小林
王义
机构
安徽工业大学计算机学院
山东省淄博市周村区人民医院信息科
出处
《计算机应用》
CSCD
北大核心
2011年第11期3075-3077,3090,共4页
基金
国家自然科学基金资助项目(61003311)
安徽省高校省级自然科学基金资助项目(KJ2011A040)
文摘
词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种新的改进的词语相似度算法,首先根据义项中各类义原的个数不同,提出了一种新的变系数义项相似度计算方法;其次从词性的角度,认为词语义项中的不同词性对词语相似度的贡献度不同,剔除不同词性义项之间的组合。实验结果证明,改进的算法结果在原有基础上得到较好的提升,大幅度降低了相似度计算的复杂度,提高了运算效率。
关键词
词语相似度
知网
义原
义项
词性
Keywords
word
similarity
HowNet
sememe
homonym
part
of
speech
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
词语相似度计算研究
被引量:
30
10
作者
秦春秀
赵捧未
刘怀亮
机构
西安电子科技大学经济管理学院
出处
《情报理论与实践》
CSSCI
北大核心
2007年第1期105-108,共4页
文摘
词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。本文首先讨论了词语相似度计算的应用背景,然后总结了词语相似度计算的两类策略,包括每类策略的思想、依赖的工具和主要的方法,并对这两类策略进行了简单的比较。
关键词
词语相似度
语义词典
语料库
Keywords
word
similarity
semantic
lexicon
corpus
分类号
G354 [文化科学—情报学]
下载PDF
职称材料
题名
基于《知网》的词语相似度算法研究
被引量:
34
11
作者
刘青磊
顾小丰
机构
电子科技大学计算机科学与工程学院
出处
《中文信息学报》
CSCD
北大核心
2010年第6期31-36,共6页
基金
国家863计划资助项目(2007AA01Z423)
国家自然科学基金资助项目(60703113)
四川省科技厅资助项目(2008CD00053)
文摘
基于《知网》的词语(句子)相似度计算通常是把义原(词语)之间的最优匹配做为运算的基本单位的,最终的整体相似度数值可由每一部分的相似度值通过适当的加权计算合成而来,这样的做法往往会造成一些匹配对的信息重复和结构不合理。针对这个问题,该文通过统计出两个直接义原集合间的共有信息(共性)和差异信息(个性)来计算集合的相似度,并把此方法引入到词语(句子)的相似度计算中去。最终的实验比对结果表明该文所采用的方法更为稳定和有效。
关键词
《知网》
词语相似度
句子相似度
共有信息
差异信息
Keywords
HowNet
word
similarity
sentence
similarity
common
information
different
information
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种改进的基于《知网》的词语相似度计算方法
被引量:
26
12
作者
林丽
薛方
任仲晟
机构
集美大学计算机工程学院
福建师范大学计算机实验中心
出处
《计算机应用》
CSCD
北大核心
2009年第1期217-220,共4页
文摘
《知网》是一部比较详尽的中文语义知识词典,共用1618个义原描述词语,故相关的词语用《知网》的概念描述时,有相同的义原。通过这一规律,与当前的词语相似度计算方法结合,提出改进的方法计算相关词对的相似度。并引入弱义原的概念,排除弱义原对词语相似度计算的干扰。实验证明:该改进方法更符合人的直观,更适用于文本挖掘。
关键词
《知网》
词语相似度
相关词对
弱义原
Keywords
HowNet
word
similarity
related
word
weak
sememe
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP311.53 [自动化与计算机技术—控制科学与工程]
下载PDF
职称材料
题名
基于Corpus库的词语相似度计算方法
被引量:
17
13
作者
章志凌
虞立群
陈奕秋
罗海飞
邵晓敏
机构
上海交通大学软件学院
出处
《计算机应用》
CSCD
北大核心
2006年第3期638-640,644,共4页
基金
交大数字家电实验室"Advanced information retrieval technology using the knowledge base"项目
文摘
构建了一个语义关联库,称为Corpus库,该库使用词语空间和关系空间结构化地存储了词语和其上下文之间的统计信息,并通过阅读大量的预料数据来训练其相关数据。详细介绍了Corpus库的训练方法,并对训练过程中出现的大量关系提出了裁剪方案。在此基础上,通过构建词语的上下文关系向量提出了一种词语相似度算法。实验证明这是一种有效的对词语相似度进行计算的方法。
关键词
CORPUS
词语相似度
信息检索
Keywords
Corpus
word
similarity
information
retrieval
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP18 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于《知网》的词语语义相似度改进算法研究
被引量:
22
14
作者
张沪寅
刘道波
温春艳
机构
武汉大学计算机学院
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第2期151-156,共6页
基金
教育部博士点基金资助项目(20130141110022)
文摘
现有词语相似度计算方法未深入考虑义原之间的距离与义原深度的主次关系,或直接指定含具体词概念的相似度,导致计算结果不够精确。针对该问题,通过义原之间的距离限制义原深度对义原相似度的影响,分析统计《知网》中概念的义项表达式,使用第一基本义原(能反映具体词本质)替换概念义项表达式中出现的具体词,从而提出一种改进的词语语义相似度计算算法。实验结果表明,该算法能有效提高词汇相似度计算的精确度。
关键词
词语相似度
词语语义
义原深度
概念
Keywords
word
similarity
word
semantic
depth
of
sememe
concept
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于百度百科的词语相似度计算
被引量:
22
15
作者
詹志建
梁丽娜
杨小平
机构
中国人民大学信息学院北京
出处
《计算机科学》
CSCD
北大核心
2013年第6期199-202,共4页
基金
国家自然科学基金(70871115)资助
文摘
词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题。传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库。提出了一种新的基于百度百科的词语相似度量方法,通过分析百度百科词条信息,从表征词条的解释内容方面综合分析词条相似度,并定义了词条间的相似度计算公式,通过计算部分之间的相似度得到整体的相似度。实验结果表明,与已有的相似度计算方法对比,提出的算法更加有效合理。
关键词
词语相似度
语言网络
百度百科
向量空间模型
Keywords
word
similarity
,
Language
network,
BaiduBaike,
VSM
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于中文WordNet的中英文词语相似度计算
被引量:
21
16
作者
吴思颖
吴扬扬
机构
华侨大学计算机科学与技术学院
出处
《郑州大学学报(理学版)》
CAS
北大核心
2010年第2期66-69,共4页
基金
福建省科技计划重点项目,编号2008I0021
福建省自然科学基金资助项目,编号2009J01289
文摘
介绍一种基于中文WordNet的中英文词语相似度计算方法.在WordNet同义词集的上下位关系图中,引入了距离、密度、深度3个因素来估计同义词集之间的相似度,采用一个自适应的方案来解决候选同义词集组合的权重和取舍问题.实现了一个可以计算英-英、汉-英、汉-汉词语之间相似度的算法,所得结果比较符合人们对词语的理解.
关键词
中文
word
Net
词语相似度
语义相似度
Keywords
Chinese
word
Net
word
similarity
semantic
similarity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语义与最大匹配度的短文本分类研究
被引量:
18
17
作者
孙建旺
吕学强
张雷瀚
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
出处
《计算机工程与设计》
CSCD
北大核心
2013年第10期3613-3618,共6页
基金
国家自然科学基金项目(61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)
文摘
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高。
关键词
短文本分类
义原相似度
词语相似度
语义
最大匹配度
KNN算法
Keywords
short
text
classification
primary
similarity
word
similarity
the
semantics
maximum
matching
degree
KNN
algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
词语相似度算法研究综述
被引量:
17
18
作者
李慧
机构
南京邮电大学图书馆
出处
《现代情报》
CSSCI
北大核心
2015年第4期172-177,共6页
文摘
词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人工构建的语义词典或语义网络计算相似度。本文比较分析了两类词语相似度算法,重点介绍了基于Web语料库和基于维基百科的算法,并总结了各自的特点和不足之处。最后提出,在信息技术的影响下,基于维基百科和基于混合技术的词语相似度算法以及关联数据驱动的相似性计算具有潜在的发展趋势。
关键词
词语相似度
语义资源
语料库
维基百科
word
NET
Keywords
word
similarity
semantic
resources
corpus
wikipedia
word
Net
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于上下文的短信文本分类方法
被引量:
13
19
作者
刘金岭
严云洋
机构
淮阴工学院计算机工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第10期41-43,共3页
基金
淮安科技计划基金资助项目(HAG09061)
淮阴工学院基金资助重点项目(HGA0907)
文摘
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统的简单向量距离分类法相比,该方法的分类效果较优。
关键词
短信文本
词语共现
上下文
词语相似度
短信文本分类
Keywords
Short
Messaging
Service(SMS)
text
word
co-occurrence
context
word
similarity
SMS
text
classification
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
文本相似度计算研究进展综述
被引量:
11
20
作者
王寒茹
张仰森
机构
北京信息科技大学计算机学院
出处
《北京信息科技大学学报(自然科学版)》
2019年第1期68-74,共7页
基金
国家自然科学基金项目(61772081)
文摘
相似度计算是自然语言处理工作的基石。随着自然语言处理技术的发展,相似度计算的研究价值和应用价值突显。现有的计算方法因其复杂度和精确度的问题,与现实应用的需求并不匹配。针对现有需求,对于不同粒度的文本,研究出一套适合大规模实际应用的相似度计算方法体系迫在眉睫。从方法论的角度,对目前主流的相似度计算方法进行总结,介绍了不同粒度的文本相似度计算的差别以及近几年的研究进展,总结了目前相似度计算方向存在的问题,并对发展趋势进行了展望。
关键词
距离公式
相似度计算方法
词语相似度
句子相似度
篇章相似度
Keywords
distance
formula
similarity
calculation
method
word
similarity
sentence
similarity
text
similarity
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种基于知网的词汇语义相似度改进计算方法
蒋溢
丁优
熊安萍
王化晶
《重庆邮电大学学报(自然科学版)》
北大核心
2009
23
下载PDF
职称材料
2
一种基于Word2Vec的训练效果优化策略研究
王飞
谭新
《计算机应用与软件》
北大核心
2018
20
下载PDF
职称材料
3
供需匹配视角下基于语义相似聚类的技术需求识别模型
何喜军
张婷婷
武玉英
蒋国瑞
《系统工程理论与实践》
EI
CSSCI
CSCD
北大核心
2019
16
原文传递
4
一种基于复杂网络的中文文本表示算法
杨志墨
刘怀亮
赵辉
《现代图书情报技术》
CSSCI
北大核心
2014
3
原文传递
5
基于同义词词林的词语相似度计算方法
田久乐
赵蔚
《吉林大学学报(信息科学版)》
CAS
2010
179
下载PDF
职称材料
6
一种改进的基于《知网》的词语语义相似度计算
江敏
肖诗斌
王弘蔚
施水才
《中文信息学报》
CSCD
北大核心
2008
109
下载PDF
职称材料
7
一种基于词汇链的关键词抽取方法
索红光
刘玉树
曹淑英
《中文信息学报》
CSCD
北大核心
2006
88
下载PDF
职称材料
8
基于语义网计算英语词语相似度
荀恩东
颜伟
《情报学报》
CSSCI
北大核心
2006
41
下载PDF
职称材料
9
改进的基于知网的词语相似度算法
王小林
王义
《计算机应用》
CSCD
北大核心
2011
38
下载PDF
职称材料
10
词语相似度计算研究
秦春秀
赵捧未
刘怀亮
《情报理论与实践》
CSSCI
北大核心
2007
30
下载PDF
职称材料
11
基于《知网》的词语相似度算法研究
刘青磊
顾小丰
《中文信息学报》
CSCD
北大核心
2010
34
下载PDF
职称材料
12
一种改进的基于《知网》的词语相似度计算方法
林丽
薛方
任仲晟
《计算机应用》
CSCD
北大核心
2009
26
下载PDF
职称材料
13
基于Corpus库的词语相似度计算方法
章志凌
虞立群
陈奕秋
罗海飞
邵晓敏
《计算机应用》
CSCD
北大核心
2006
17
下载PDF
职称材料
14
基于《知网》的词语语义相似度改进算法研究
张沪寅
刘道波
温春艳
《计算机工程》
CAS
CSCD
北大核心
2015
22
下载PDF
职称材料
15
基于百度百科的词语相似度计算
詹志建
梁丽娜
杨小平
《计算机科学》
CSCD
北大核心
2013
22
下载PDF
职称材料
16
基于中文WordNet的中英文词语相似度计算
吴思颖
吴扬扬
《郑州大学学报(理学版)》
CAS
北大核心
2010
21
下载PDF
职称材料
17
基于语义与最大匹配度的短文本分类研究
孙建旺
吕学强
张雷瀚
《计算机工程与设计》
CSCD
北大核心
2013
18
下载PDF
职称材料
18
词语相似度算法研究综述
李慧
《现代情报》
CSSCI
北大核心
2015
17
下载PDF
职称材料
19
基于上下文的短信文本分类方法
刘金岭
严云洋
《计算机工程》
CAS
CSCD
北大核心
2011
13
下载PDF
职称材料
20
文本相似度计算研究进展综述
王寒茹
张仰森
《北京信息科技大学学报(自然科学版)》
2019
11
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
8
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部