期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
基于知网的词汇语义相似度计算方法研究 被引量:66
1
作者 葛斌 李芳芳 +1 位作者 郭丝路 汤大权 《计算机应用研究》 CSCD 北大核心 2010年第9期3329-3333,共5页
利用知网的义原层次树,考虑树的深度、密度等因素对义原节点权重的影响,得到义原相似度。通过分析义项的描述语言结构,将关系义原和关系符号描述结构进行加权合并,综合考虑主要特征、次要特征、关系特征计算义项相似度,减少补充义原作... 利用知网的义原层次树,考虑树的深度、密度等因素对义原节点权重的影响,得到义原相似度。通过分析义项的描述语言结构,将关系义原和关系符号描述结构进行加权合并,综合考虑主要特征、次要特征、关系特征计算义项相似度,减少补充义原作为次要特征中的基本义原所带来的误差,在此基础上提出一种改进的词汇相似度计算方法。实验证明,该方法呈现向两端扩散的现象,能够更精确地区分词汇间的细微语义差别,计算结果更趋于合理。 展开更多
关键词 知网 描述语言结构 词汇相似 补充义原
下载PDF
基于词汇相似度的元素级本体匹配 被引量:25
2
作者 何娟 高志强 +1 位作者 陆青健 瞿裕忠 《计算机工程》 EI CAS CSCD 北大核心 2006年第16期185-187,共3页
随着语义Web的不断发展,本体数量日益增加。本体匹配作为本体映射、比较和集成的基础,具有重要的实际意义。由第3届国际语义Web大会(3thISWC)主办的本体匹配竞赛(EON2004)对多种本体匹配工具进行比较和评估。该文提出了一种元素级本体... 随着语义Web的不断发展,本体数量日益增加。本体匹配作为本体映射、比较和集成的基础,具有重要的实际意义。由第3届国际语义Web大会(3thISWC)主办的本体匹配竞赛(EON2004)对多种本体匹配工具进行比较和评估。该文提出了一种元素级本体匹配算法LANA(LexicalAnalyzer),该算法通过计算词汇相似度得到两本体间的元素匹配对。与EON2004中的其它元素级本体匹配方法相比,LANA在没有增加匹配复杂度的基础上,具有较好的准确率和召回率。 展开更多
关键词 语义WEB 本体匹配 词汇相似
下载PDF
一种基于知网的词汇语义相似度改进计算方法 被引量:23
3
作者 蒋溢 丁优 +1 位作者 熊安萍 王化晶 《重庆邮电大学学报(自然科学版)》 北大核心 2009年第4期533-537,共5页
汉语词语语义相似度计算是中文信息处理中的一个关键问题。在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计... 汉语词语语义相似度计算是中文信息处理中的一个关键问题。在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计算过程。实验结果表明,该方法使词汇相似度计算结果更趋于合理,绝大部分结果更符合人们的日常体验,有效提高了词汇相似度计算结果的精确度和准确性。 展开更多
关键词 知网 语义 词汇相似 义元
下载PDF
词汇相似度研究进展综述 被引量:16
4
作者 刘萍 陈烨 《现代图书情报技术》 CSSCI 北大核心 2012年第7期82-89,共8页
从有背景信息和没有背景信息两个角度对国内外词汇相似度研究现状进行深入分析和比较。没有背景的统计方法不能真正挖掘出词对间的语义关系,语义词典也存在覆盖词汇范围有限等局限性,而维基百科作为含有语义词典功能的大型语料库,成为... 从有背景信息和没有背景信息两个角度对国内外词汇相似度研究现状进行深入分析和比较。没有背景的统计方法不能真正挖掘出词对间的语义关系,语义词典也存在覆盖词汇范围有限等局限性,而维基百科作为含有语义词典功能的大型语料库,成为新的词汇语义信息的重要来源。详细阐述维基游走法、内涵概念图法和时间语义分析法这三种最新的基于维基百科的词汇相似度算法,指出词汇相似度研究今后将有机融合维基百科和其他背景信息,使各种词汇语义信息来源优势互补。此外运用复杂网络的分析方法来挖掘词汇网络中词汇的相关性将是词汇相似度研究的又一发展方向。 展开更多
关键词 词汇相似 语义相关 相似计算
原文传递
中文本体映射研究与实现 被引量:10
5
作者 李佳 祝铭 +1 位作者 刘辰 杨正球 《中文信息学报》 CSCD 北大核心 2007年第4期27-33,共7页
本体间的异构是语义网建设亟待解决的问题,本体映射则是解决本体异构的有效手段。中文资源是信息网络的重要组成部分,实现中文本体间以及中文与其他本体的映射是实现知识共享重用的一个重要组成部分。本文从元素层的角度对中文本体映射... 本体间的异构是语义网建设亟待解决的问题,本体映射则是解决本体异构的有效手段。中文资源是信息网络的重要组成部分,实现中文本体间以及中文与其他本体的映射是实现知识共享重用的一个重要组成部分。本文从元素层的角度对中文本体映射进行了研究,提出利用知网,结合多种技术计算词汇相似度,利用词汇的相似度计算概念匹配的可信度,实现元素层本体映射的算法,并根据此算法实现了ELOMC(Element Level Ontology Matching for Chinese)系统。 展开更多
关键词 计算机应用 中文信息处理 中文本体映射 知网 词汇相似 语义网
下载PDF
情感Ontology构建与文本倾向性分析 被引量:10
6
作者 王晓东 刘倩 陶县俊 《计算机工程与应用》 CSCD 北大核心 2010年第30期117-120,共4页
对文本倾向性分析方法进行了研究,并提出了一种基于情感Ontology的分析方法。首先基于《知网》构建情感Ontology,然后基于情感Ontology抽取文本倾向性分析的特征词汇并判断其情感倾向性,最后根据抽取的特征词汇对整篇文本的倾向性进行... 对文本倾向性分析方法进行了研究,并提出了一种基于情感Ontology的分析方法。首先基于《知网》构建情感Ontology,然后基于情感Ontology抽取文本倾向性分析的特征词汇并判断其情感倾向性,最后根据抽取的特征词汇对整篇文本的倾向性进行分析。实验结果表明,以实验语料中的所有词汇作为特征词汇,在Baseline的基础上,利用情感Ontology抽取特征词汇的文本倾向性分析方法可以使准确率达到86.76%。 展开更多
关键词 ONTOLOGY 文本倾向性分析 《知网》 词汇相似
下载PDF
基于词汇相似度的IPC与CLC映射 被引量:10
7
作者 周林志 齐建东 +1 位作者 王建新 朱礼军 《计算机工程》 CAS CSCD 北大核心 2010年第23期274-276,279,共4页
专利作为一种具有特殊性质的文献,包含先进的技术方案,但存在管理困难、相对孤立、使用率低等弊端。针对该问题,定义分类法类目的概念模型,通过计算类目之间的概念相似度,为国际专利分类法与中国图书分类法建立类目映射。在计算类目相... 专利作为一种具有特殊性质的文献,包含先进的技术方案,但存在管理困难、相对孤立、使用率低等弊端。针对该问题,定义分类法类目的概念模型,通过计算类目之间的概念相似度,为国际专利分类法与中国图书分类法建立类目映射。在计算类目相似度中引入与类目相关的词汇语义相似度计算,综合考虑类目的上下文环境对类目间关系的影响,降低专利数据的孤立性,实现专利数据与其他期刊数据的交互操作。实验表明,该方法能有效提高类目间相似度计算的准确率。 展开更多
关键词 分类法映射 国际专利分类法 中国图书分类法 词汇相似
下载PDF
基于复杂网络的汉语相似词挖掘和相似度计算研究 被引量:5
8
作者 韩普 王东波 朱恒民 《情报学报》 CSSCI 北大核心 2015年第8期885-896,共12页
相似词是自然语言中普遍存在的现象,词汇相似度计算是情报学、自然语言处理和信息处理等领域的一项中间步骤。首先,基于大规模语料库构建了汉语词汇共现网络,进而利用复杂网络结构中节点相似的思想来计算词汇的相似度。其次,基于分... 相似词是自然语言中普遍存在的现象,词汇相似度计算是情报学、自然语言处理和信息处理等领域的一项中间步骤。首先,基于大规模语料库构建了汉语词汇共现网络,进而利用复杂网络结构中节点相似的思想来计算词汇的相似度。其次,基于分布假设、上下文语境理论和词汇网络结构的特点,本文提出了基于贡献度折扣的词汇相似度计算方法,该方法不仅考虑了网络边的权重信息,还将节点的全局度特征融合进来。通过节点相似度实验发现,本文提出的基于贡献度折扣的相似度算法要明显好于共同邻居法、Jaccard方法和Sahon方法。最后文章就实验结果及其结论做了详细分析。 展开更多
关键词 复杂网络 语料库 词汇相似 语义相关
下载PDF
基于近邻聚类的词汇相似度测量研究
9
作者 汤慧桃 王军 《西安外国语大学学报》 CSSCI 北大核心 2024年第1期32-39,共8页
本研究以一组近义词difference与distinction为例,使用近邻聚类法,以两词的“行为特征”作为聚类标准,探究1990—2019年间两词各自词汇相似度的历时演变与两词词汇相似度比较的历时演变,并对历时变化的原因做出阐释。研究发现,differenc... 本研究以一组近义词difference与distinction为例,使用近邻聚类法,以两词的“行为特征”作为聚类标准,探究1990—2019年间两词各自词汇相似度的历时演变与两词词汇相似度比较的历时演变,并对历时变化的原因做出阐释。研究发现,difference词汇相似度演变经历三个阶段,distinction的词汇相似度演变经历四个阶段,两词的词汇相似度演变经历三个阶段,各年代间两词的“行为特征”不断相互影响,相互渗透,呈现个性与共性的统一。研究结果可历时、动态地探究各类词汇的语义关联性和时间差异性,有助于还原该词义产生、扩展和嬗变的动因,同时也为近义词辨析、词汇相似度计算等相关研究开辟新视角。 展开更多
关键词 近邻聚类 词汇相似 行为特征 历时演变
原文传递
梧州粤语和周边勾漏粤语词汇相似度的计量分析 被引量:4
10
作者 粟春兵 王文胜 《梧州学院学报》 2011年第5期7-13,共7页
以梧州话、倒水话为例,对两种方言的1300多个日常所用词项进行词汇相似度的计量分析,并以粤方言的标准方言广州话与梧州话的相关系数作为参照,进而说明梧州粤语和周边勾漏粤语的相关性及其差异。
关键词 梧州粤语 勾漏粤语 词汇相似 计量分析
下载PDF
基于情感词典方法的情感倾向性分析 被引量:4
11
作者 杨奎 段琼瑾 《计算机时代》 2017年第3期10-13,共4页
针对网络舆情中观点的获取问题,提出了基于情感词典的情感倾向性分析方法。介绍了情感词的基本概念,给出了基于How Net概念词典通过计算词汇相似度构建情感字典的方法,探讨了不同类型情感词对文本情感的影响程度并设计了情感得分策略。... 针对网络舆情中观点的获取问题,提出了基于情感词典的情感倾向性分析方法。介绍了情感词的基本概念,给出了基于How Net概念词典通过计算词汇相似度构建情感字典的方法,探讨了不同类型情感词对文本情感的影响程度并设计了情感得分策略。根据得分挖掘人们对舆情的褒贬态度,从而准确的分析文本的情感走向。 展开更多
关键词 舆情分析 情感词典 情感倾向性分析 词汇相似
下载PDF
基于用户画像与关联规则的图书馆资源组合推荐算法 被引量:1
12
作者 李蒙蒙 《中国科技资源导刊》 2023年第2期104-110,共7页
图书馆资源推荐算法难以与用户的偏好相结合,导致其推荐精度较差。为提高推荐结果的准确性,基于用户画像与关联规则设计图书馆资源组合推荐算法。通过用户画像算法得到图书资源兴趣估计,在特征样本集合的基础上,计算主题权重的标准值,... 图书馆资源推荐算法难以与用户的偏好相结合,导致其推荐精度较差。为提高推荐结果的准确性,基于用户画像与关联规则设计图书馆资源组合推荐算法。通过用户画像算法得到图书资源兴趣估计,在特征样本集合的基础上,计算主题权重的标准值,建立用户情景兴趣度表达式。基于关联规则建立图书馆资源聚合模型,计算文档内相同词汇出现的频率,计算不同书籍的相似度,并在书籍指标权重的基础上,得到关联规则下图书馆资源的聚合函数,以此设计资源组合推荐算法。实验结果表明,其最高精确率、召回率、F1值分别为0.92、0.73和0.69,该推荐算法的推荐精度较高。 展开更多
关键词 用户画像 关联规则 图书馆资源 资源组合推荐算法 词汇相似
下载PDF
基于词汇相似度的医学分类体系映射研究与实现 被引量:2
13
作者 单连慧 赵迎光 钱庆 《医学信息学杂志》 CAS 2016年第11期46-50,共5页
采用编辑距离法计算《学科分类与代码》(医学类目)与《医学专业分类表》分类体系类目词汇相似度,通过计算机辅助映射结合人工判断类目间的映射关系,建立《学科分类与代码》(医学类目)与《医学专业分类表》类目之间的映射关系表,以期满... 采用编辑距离法计算《学科分类与代码》(医学类目)与《医学专业分类表》分类体系类目词汇相似度,通过计算机辅助映射结合人工判断类目间的映射关系,建立《学科分类与代码》(医学类目)与《医学专业分类表》类目之间的映射关系表,以期满足不同类型、不同层次的用户需求。 展开更多
关键词 学科分类与代码 医学专业分类表 知识组织系统 词汇相似 编辑距离
下载PDF
词汇相似度约束的短语抽取 被引量:2
14
作者 梁华参 赵铁军 +1 位作者 薛永增 孙加东 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2010年第5期775-778,共4页
为克服传统的短语抽取方法对词对齐信息的依赖性强,抗噪声能力差这一缺陷,提出基于词汇相似度约束的短语抽取策略;在此框架下,提出了3种基于词汇相似度的约束方法:Dice系数、Phi平方系数和对数似然比.在IWSLT2004语料上进行的实验表明,... 为克服传统的短语抽取方法对词对齐信息的依赖性强,抗噪声能力差这一缺陷,提出基于词汇相似度约束的短语抽取策略;在此框架下,提出了3种基于词汇相似度的约束方法:Dice系数、Phi平方系数和对数似然比.在IWSLT2004语料上进行的实验表明,3种基于词汇相似度的约束方法的翻译系统的BLEU评分均优于传统的翻译系统;其中基于对数似然比方法得到的翻译模型比基线系统Pharaoh的BLEU-4评分提高了15.14%. 展开更多
关键词 机器翻译 统计机器翻译 短语抽取 词汇相似
下载PDF
基于情感Ontology的资源分析模型 被引量:2
15
作者 刘倩 陶县俊 王晓东 《计算机与数字工程》 2009年第9期115-119,共5页
对资源分析方法进行了研究,并提出了一种基于情感Ontology的分析方法。首先基于"知网"构建情感On-tology,然后基于情感Ontology抽取资源分析的特征词汇并判断其情感倾向性,最后根据抽取的特征词汇对整篇文本的情感倾向进行分... 对资源分析方法进行了研究,并提出了一种基于情感Ontology的分析方法。首先基于"知网"构建情感On-tology,然后基于情感Ontology抽取资源分析的特征词汇并判断其情感倾向性,最后根据抽取的特征词汇对整篇文本的情感倾向进行分析。实验结果表明,在以人工标注做Baseline的基础上,利用情感Ontology抽取特征词汇的资源分析方法可以使情感识别的准确率达到78.87%。 展开更多
关键词 ONTOLOGY 文本倾向性分析 “知网” 词汇相似
下载PDF
文件信息增强的方法级软件缺陷定位
16
作者 薄莉莉 朱程 +1 位作者 李斌 孙小兵 《电子学报》 EI CAS CSCD 北大核心 2023年第3期613-621,共9页
软件开发与维护中会产生大量缺陷报告,根据缺陷报告准确定位到缺陷代码的位置是极具挑战性的.目前大多数工作在文件粒度定位缺陷,虽然少量工作定位在方法粒度,但定位准确度较低.本文提出一个文件信息增强的方法级软件缺陷定位技术FMBL(a... 软件开发与维护中会产生大量缺陷报告,根据缺陷报告准确定位到缺陷代码的位置是极具挑战性的.目前大多数工作在文件粒度定位缺陷,虽然少量工作定位在方法粒度,但定位准确度较低.本文提出一个文件信息增强的方法级软件缺陷定位技术FMBL(a File information enhanced Method-level Bug Localization technology),考虑方法与文件之间的从属关系以增强缺陷定位准确性.通过综合考虑代码与缺陷报告的词汇相似度、语义相似度和代码长度度量它们之间的相关性.在六个开源软件项目上开展实验以评估FMBL的有效性.结果表明,本文方法在六个项目上的平均Accuracy@10、MAP(Mean Average Precision)和MRR(Mean Reciprocal Rank)值分别达到0.436、0.223、0.296.与现有方法BugLocator、BLIA(Bug Localization using Integrated Analysis)、BugPecker相比,本文方法在MAP指标上分别提升153.1%、209.1%、22.8%. 展开更多
关键词 软件维护 缺陷定位 词汇相似 语义相似 文件信息 方法粒
下载PDF
基于百度百科多特征信息的词汇相似度计算 被引量:1
17
作者 仲远 王芳 黄树成 《计算机与数字工程》 2020年第7期1580-1584,1736,共6页
作为自然语言理解的一项基础工作,词汇语义相似度度量一直是研究的重点。语义相似度度量本身是一个中间任务,它是大多数自然语言处理任务中一个必不可少的中间层次,在自然语言处理中有着广泛的应用,如词义消歧、信息检索以及机器翻译等... 作为自然语言理解的一项基础工作,词汇语义相似度度量一直是研究的重点。语义相似度度量本身是一个中间任务,它是大多数自然语言处理任务中一个必不可少的中间层次,在自然语言处理中有着广泛的应用,如词义消歧、信息检索以及机器翻译等。论文提出了一种新的基于百度百科词条信息的词汇相似度计算方法。该方法经由百科名片、词条正文,开放分类和相关词条四个部分的内容,分别计算出它们之间的相似性值,以此来获得一对词汇间的整体相似性。经试验证明,在Words-240数据集上,论文方法在词汇相似度计算上,准确率更高。 展开更多
关键词 自然语言处理 词汇相似 百科词条 Words-240
下载PDF
具有孤立项过滤的信息检索查询词的分析方法
18
作者 乔亚男 齐勇 侯迪 《西安交通大学学报》 EI CAS CSCD 北大核心 2009年第8期6-10,63,共6页
针对传统查询词临近性(QTP)分析方法无法有效提高查准率的问题,提出了一种孤立项过滤的信息检索查询词分析方法.该方法根据词汇相似度较高的查询词对之间具有强可替代性这一事实,从查询词及其实例中分解出查询内的孤立项和文档内的孤立... 针对传统查询词临近性(QTP)分析方法无法有效提高查准率的问题,提出了一种孤立项过滤的信息检索查询词分析方法.该方法根据词汇相似度较高的查询词对之间具有强可替代性这一事实,从查询词及其实例中分解出查询内的孤立项和文档内的孤立项,在分析查询词临近性之前预先进行孤立项过滤,使之不参与QTP统计量的计算,由此减小了过分强调临近性对查准率的影响.实验结果表明,对于词汇相似度差异比较显著的查询,进行孤立项过滤的查询词临近性分析方法的平均检索精确度比传统分析方法提高14%. 展开更多
关键词 信息检索 查询词临近性 孤立项 词汇相似
下载PDF
自动获取不同义项的相似词算法
19
作者 王永生 《计算机应用与软件》 CSCD 2015年第3期258-260,288,共4页
词汇相似度广泛应用于自然语言处理的多个领域。然而词汇相似度的计算一般都是基于词而不是基于词的义项来进行的。针对这种情况,提出一种相似词的分类算法。算法首先采用PMImax工具来计算目标词的相似词,然后以Word Net的义项为参照,... 词汇相似度广泛应用于自然语言处理的多个领域。然而词汇相似度的计算一般都是基于词而不是基于词的义项来进行的。针对这种情况,提出一种相似词的分类算法。算法首先采用PMImax工具来计算目标词的相似词,然后以Word Net的义项为参照,采用一种改进后的Lesk算法自动将这些相似词按照不同的义项进行分类,每一类相似词只跟对应的义项相似。实验结果表示,该算法的分类正确率可达到84.27%。 展开更多
关键词 词汇相似 点互信息 Lesk算法 WORDNET
下载PDF
针对虚拟人的文本情感语义分析
20
作者 徐芳 侯进 +1 位作者 吴玲 向宇 《西南科技大学学报》 CAS 2012年第1期40-43,共4页
为了使个性化虚拟人更加形象生动,能根据用户输入的文本做出表情动作,运用自然语言处理技术对中文和英文文本进行语义和分类处理,分析出动作和情感信息。采用潜在语义方法从文本中提取出动作语义信息,利用hownet计算词汇相似度,使用K最... 为了使个性化虚拟人更加形象生动,能根据用户输入的文本做出表情动作,运用自然语言处理技术对中文和英文文本进行语义和分类处理,分析出动作和情感信息。采用潜在语义方法从文本中提取出动作语义信息,利用hownet计算词汇相似度,使用K最近邻方法将文本情感信息分为6类:愤怒、厌恶、恐惧、喜悦、悲伤和惊讶。实验结果为:语料文本分类准确率为87.5%,系统能从用户输入的文本中提取出情感、动作信息,使虚拟人做出相应表情变化。 展开更多
关键词 潜在语义分析 词汇相似 K最近邻方法 情感分类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部