期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
基于同义词词林的词语相似度计算方法 被引量:178
1
作者 田久乐 赵蔚 《吉林大学学报(信息科学版)》 CAS 2010年第6期602-608,共7页
为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。... 为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。进行人工测试,替换测试以及与当前流行的基于"知网"的词语相似度算法对比测试的结果表明,该算法与人们思维中的相似度值基本一致,有较高的准确性。 展开更多
关键词 语相似度 同义词 自适应学习系统
下载PDF
基于知网与词林的词语语义相似度计算 被引量:64
2
作者 朱新华 马润聪 +1 位作者 孙柳 陈宏朝 《中文信息学报》 CSCD 北大核心 2016年第4期29-36,共8页
该文提出了一种综合知网与同义词词林的词语语义相似度计算方法。知网部分根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有的义原相似度算法;词林部分采用以词语距离为主要因素、分支节点数和... 该文提出了一种综合知网与同义词词林的词语语义相似度计算方法。知网部分根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有的义原相似度算法;词林部分采用以词语距离为主要因素、分支节点数和分支间隔为微调节参数的方法,改进了现有的词林词语相似度算法。然后再根据词语的分布情况,采用综合考虑知网与同义词林的动态加权策略计算出最终的词语语义相似度。该方法充分利用了词语在知网与词林中的语义信息,极大地扩充了可计算词语的范围,同时也提高了词语相似度计算的准确率。 展开更多
关键词 语义相似度 知网 同义词 语义距离
下载PDF
知网与同义词词林的信息融合研究 被引量:28
3
作者 梅立军 周强 +1 位作者 臧路 陈祖舜 《中文信息学报》 CSCD 北大核心 2005年第1期63-70,共8页
本文主要探讨了将知网 (HowNet)和同义词词林进行信息融合的方法。我们针对知网对词的概念描述和同义词词林对词的语义分类的特点 ,提出了一种词典信息融合的方法 :首先为词林的每个词集确定一个与知网中DEF类似的概念描述 ,在此基础上... 本文主要探讨了将知网 (HowNet)和同义词词林进行信息融合的方法。我们针对知网对词的概念描述和同义词词林对词的语义分类的特点 ,提出了一种词典信息融合的方法 :首先为词林的每个词集确定一个与知网中DEF类似的概念描述 ,在此基础上对两部词典中同时收录且均只有一个义项的词语进行双向意义联结 ,最后根据分类算法对两部词典中同时收录非单一义项的词语进行双向意义联结。实验表明 ,本文提出的处理策略达到了 93%的信息融合正确率 ,融合后形成的新词典兼有词林的分类学信息和知网的概念描述信息。 展开更多
关键词 计算机应用 中文信息处理 典信息融合 知网 同义词 分类
下载PDF
基于路径与深度的同义词词林词语相似度计算 被引量:29
4
作者 陈宏朝 李飞 +1 位作者 朱新华 马润聪 《中文信息学报》 CSCD 北大核心 2016年第5期80-88,共9页
该文提出了一种基于路径与深度的同义词词林词语语义相似度计算方法。该方法通过两个词语义项之间的最短路径以及它们的最近公共父结点在层次树中的深度计算出两个词语义项的相似度。在处理两个词语义项的最短路径与其最近公共父结点的... 该文提出了一种基于路径与深度的同义词词林词语语义相似度计算方法。该方法通过两个词语义项之间的最短路径以及它们的最近公共父结点在层次树中的深度计算出两个词语义项的相似度。在处理两个词语义项的最短路径与其最近公共父结点的深度时,为提高路径与深度计算的合理性,为分类树中不同层之间的边赋予不同的权值,同时通过两个义项在其最近公共父结点中的分支间距动态调节词语义项间的最短路径,从而平衡两个词语的相似度。该方法修正了目前相关算法只能得出几个固定的相似度值,所有最近公共父结点处于同一层次的义项对之间的相似度都相同的不合理现象,使词语语义相似度的计算结果更为合理。实验表明,该方法对MC30词对的相似度计算值与人工判定值相比,取得了0.856的皮尔逊相关系数,该结果高于目前大多数词语相似度算法与MC30的相关度。 展开更多
关键词 同义词 路径 深度 分支间距 最近公共父结点
下载PDF
《同义词词林》在中文实体关系抽取中的作用 被引量:26
5
作者 刘丹丹 彭成 +1 位作者 钱龙华 周国栋 《中文信息学报》 CSCD 北大核心 2014年第2期91-99,共9页
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了... 语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。 展开更多
关键词 中文实体关系抽取 树核函数 同义词 语义信息
下载PDF
结合语义扩展度和词汇链的关键词提取算法 被引量:19
6
作者 刘端阳 王良芳 《计算机科学》 CSCD 北大核心 2013年第12期264-269,291,共7页
针对影响关键词提取质量的一词多义现象、同义词现象以及文章主题准确全面表达的难点,提出了一种基于语义的关键词提取算法KESELC,利用《同义词词林》语义词典和统计信息计算语义相似度和相关度,进而得出语义扩展度及其计算方法,将语义... 针对影响关键词提取质量的一词多义现象、同义词现象以及文章主题准确全面表达的难点,提出了一种基于语义的关键词提取算法KESELC,利用《同义词词林》语义词典和统计信息计算语义相似度和相关度,进而得出语义扩展度及其计算方法,将语义扩展度和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题。通过实验对比分析,验证了基于KESELC的方法比基于TFIDF的方法以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值。 展开更多
关键词 同义词 语义扩展度 汇链 关键提取 语义分析
下载PDF
一种基于词义向量模型的词语语义相似度算法 被引量:18
7
作者 李小涛 游树娟 陈维 《自动化学报》 EI CSCD 北大核心 2020年第8期1654-1669,共16页
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题,提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同,在词义向量模型中多义词按不同词义被分成多个单义词,每个向量... 针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题,提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同,在词义向量模型中多义词按不同词义被分成多个单义词,每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息,对语料库中不同上下文的多义词进行词义消歧;然后基于词义消歧后的文本训练词义向量模型,实现了现有词向量模型无法完成的精确词义表达;最后对两个比较词进行词义分解和同义词扩展,并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度. 展开更多
关键词 语语义相似度 Word2vec 同义词 义消歧 义向量
下载PDF
基于同义词词林的中文文本主题词提取 被引量:11
8
作者 程涛 施水才 +1 位作者 王霞 吕学强 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期145-148,共4页
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下... 中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明。 展开更多
关键词 主题提取 同义词 权值 同义词
下载PDF
基于词林的词语相似度的度量 被引量:15
9
作者 吕立辉 梁维薇 冉蜀阳 《现代计算机》 2013年第1期3-6,9,共5页
词语相似度的计算是人工智能领域的一个基础性的研究课题,它在自然语言处理,QA平台的搭建、语义消歧、文本的聚类和分类这些问题有着很广泛的应用。提出一种基于同义词词林的中文单词相似度计算方法,通过两个单词在词林树中相距的路径长... 词语相似度的计算是人工智能领域的一个基础性的研究课题,它在自然语言处理,QA平台的搭建、语义消歧、文本的聚类和分类这些问题有着很广泛的应用。提出一种基于同义词词林的中文单词相似度计算方法,通过两个单词在词林树中相距的路径长,以及所在分支词义密度来计算两个中文单词间的相似度,并通过观察计算相似性的结果和人主观感觉的相似性的结果的皮尔逊线性相关系数来评价该方法。 展开更多
关键词 相似度计算 同义词 皮尔逊线性相关系数
下载PDF
基于语义词典和词汇链的关键词提取算法 被引量:14
10
作者 刘端阳 王良芳 《浙江工业大学学报》 CAS 2013年第5期545-551,共7页
关键词提取是文本挖掘领域中研究的核心技术之一.针对影响关键词提取质量的一词多义现象、同义词现象、文章主题准确全面表达的难点,提出了一种基于语义的关键词提取方法 KETCLC,将《同义词词林》语义词典和词汇链方法相结合,对文本分... 关键词提取是文本挖掘领域中研究的核心技术之一.针对影响关键词提取质量的一词多义现象、同义词现象、文章主题准确全面表达的难点,提出了一种基于语义的关键词提取方法 KETCLC,将《同义词词林》语义词典和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算改进的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题.实验结果表明:基于KETCLC方法比基于TFIDF以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值. 展开更多
关键词 同义词 汇链 关键提取 语义分析 共现率
下载PDF
基于《同义词词林》深度的词义相似度计算研究 被引量:13
11
作者 杨泉 孙玉泉 《计算机工程与应用》 CSCD 北大核心 2020年第17期48-54,共7页
针对词义相似度计算问题,在《同义词词林》的基础上,从语言学角度分析了《词林》中词语间的组织关系,阐述了父结点深度对词义相似度的决定性作用。统计了各层结点及原子词群大小的分布情况。提出了仅使用父结点深度的计算模型和父结点... 针对词义相似度计算问题,在《同义词词林》的基础上,从语言学角度分析了《词林》中词语间的组织关系,阐述了父结点深度对词义相似度的决定性作用。统计了各层结点及原子词群大小的分布情况。提出了仅使用父结点深度的计算模型和父结点深度与其分支信息相结合的计算模型。运用上述两种方法的词义相似度计算结果与Miller的人工标注值之间的皮尔逊相关系数达到0.854和0.857,根方误差达到1.003和0.991。 展开更多
关键词 义相似度 同义词 深度 鱼群算法
下载PDF
网络评论倾向性分析 被引量:13
12
作者 丁建立 慈祥 黄剑雄 《计算机应用》 CSCD 北大核心 2010年第11期2937-2940,共4页
Web2.0的兴起使得包括新闻评论、产品评论在内的各种网络评论大量涌现,针对评论信息的监管和利用中的问题多种多样,重点研究其中的网络评论倾向性分析。以知网为基本的语义字典,提出一种改进的词汇相似度计算方法,在此基础上融合同义词... Web2.0的兴起使得包括新闻评论、产品评论在内的各种网络评论大量涌现,针对评论信息的监管和利用中的问题多种多样,重点研究其中的网络评论倾向性分析。以知网为基本的语义字典,提出一种改进的词汇相似度计算方法,在此基础上融合同义词词林对词汇的倾向性计算做出改进,进而利用相关语言学知识实现了从细粒度的词汇到粗粒度的评论的倾向性判断。实验表明,该方法对于真实网络环境下的网络评论倾向性分析具有较高的准确率。 展开更多
关键词 知网 同义词 网络评论 倾向性分析
下载PDF
基于同义词词林的句子语义相似度方法及其在问答系统中的应用 被引量:12
13
作者 周艳平 李金鹏 蔡素 《计算机应用与软件》 北大核心 2019年第8期65-68,81,共5页
提出一种基于同义词词林的句子语义相似度方法,借助同义词词林来计算句子的词形相似度,使用向量距离法得到句子间的词序相似度。同时,对句子进行语义依存句法分析。通过对词形、词序、语义依存相似度加权结合获得句子之间的最终相似度... 提出一种基于同义词词林的句子语义相似度方法,借助同义词词林来计算句子的词形相似度,使用向量距离法得到句子间的词序相似度。同时,对句子进行语义依存句法分析。通过对词形、词序、语义依存相似度加权结合获得句子之间的最终相似度。将该方法应用于常问问题问答系统(Frequency Asked Questions,FAQ)的问句匹配。实验结果表明,该方法在问句匹配上相比传统方法具有更高的准确率。 展开更多
关键词 问答系统 句子相似度 同义词 语义依存
下载PDF
基于同义词词林的文本特征选择与加权研究 被引量:9
14
作者 吕震宇 林永民 +1 位作者 赵爽 朱卫东 《情报杂志》 CSSCI 北大核心 2008年第5期130-132,共3页
特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法。该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到... 特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法。该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征。实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度。 展开更多
关键词 文本分类 特征选择 特征加权 同义词
下载PDF
用基本层次范畴透视现代汉语动词类基本词汇 被引量:12
15
作者 苏新春 宋贝贝 《江苏大学学报(社会科学版)》 2013年第1期15-21,共7页
传统的基本词汇理论主要将历时态与共时态的基本词混起来论述,而现代汉语的基本词汇必须是从共时的角度去认识。运用认知语言学的基本范畴理论考察《同义词词林》的动词语义类的构成,可以发现位于中间的1 428个小类所含有的3 925个标题... 传统的基本词汇理论主要将历时态与共时态的基本词混起来论述,而现代汉语的基本词汇必须是从共时的角度去认识。运用认知语言学的基本范畴理论考察《同义词词林》的动词语义类的构成,可以发现位于中间的1 428个小类所含有的3 925个标题词具有基本范畴词的性质。基本层次范畴动词的性质与特点可以从它与下义层次范畴动词对比角度加以考量。 展开更多
关键词 基本 基本层次范畴 同义词 义类
下载PDF
词汇语义信息对中文实体关系抽取影响的比较 被引量:11
16
作者 刘丹丹 彭成 +1 位作者 钱龙华 周国栋 《计算机应用》 CSCD 北大核心 2012年第8期2238-2244,共7页
提出一种将《同义词词林》和《知网》的语义信息融合到基于树核函数的中文关系抽取方法,并比较和分析了两种语义信息对中文实体关系抽取的影响,同时探讨了这两种语义信息与实体类型信息之间的相互关系。实验结果表明,该方法能在一定程... 提出一种将《同义词词林》和《知网》的语义信息融合到基于树核函数的中文关系抽取方法,并比较和分析了两种语义信息对中文实体关系抽取的影响,同时探讨了这两种语义信息与实体类型信息之间的相互关系。实验结果表明,该方法能在一定程度上提高中文关系抽取的性能;同时,《同义词词林》能补充实体类型信息的不足,因而无论是否加入实体类型信息,其语义信息都能大幅度地提高大部分关系类型的抽取性能;而《知网》则和实体类型信息存在冲突,因此在已知实体类型信息的前提下,仅能提高个别关系类型的抽取性能。 展开更多
关键词 中文实体关系抽取 树核 同义词 《知网》 语义信息
下载PDF
基于同义词词林扩展的短文本分类 被引量:9
17
作者 王东 熊世桓 《兰州理工大学学报》 CAS 北大核心 2015年第4期104-108,共5页
针对短文本特征稀疏导致的信息表示能力不足,提出基于同义词词林扩展的短文本分类方法.该方法首先利用同义词词林确定短文本中主干词的同义关系,引入大规模词语搭配资源实现无指导多义词义项判别,从而确定候选扩展特征,最后计算候选扩... 针对短文本特征稀疏导致的信息表示能力不足,提出基于同义词词林扩展的短文本分类方法.该方法首先利用同义词词林确定短文本中主干词的同义关系,引入大规模词语搭配资源实现无指导多义词义项判别,从而确定候选扩展特征,最后计算候选扩展特征与给定上下文的语义关联性,将满足条件的候选特征扩展到特征向量中.实验结果表明,该方法综合考虑的因素较全面,能够有效改善短文本的分类性能. 展开更多
关键词 短文本分类 特征扩展 同义词 搭配
下载PDF
基于同义词词林和《知网》的短语主题提取 被引量:8
18
作者 曾聪 张东站 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第2期263-269,共7页
提出了利用主题词存在与否的基于主题词的短语抽取算法,并在其基础上利用社会知识词簇集合作为分类信息,词的相似度作为距离权重,利用改进K最近邻分类算法(KNN)的分类思想,提出基于《知网》词相似度的短语主题抽取算法.并在其基础上提... 提出了利用主题词存在与否的基于主题词的短语抽取算法,并在其基础上利用社会知识词簇集合作为分类信息,词的相似度作为距离权重,利用改进K最近邻分类算法(KNN)的分类思想,提出基于《知网》词相似度的短语主题抽取算法.并在其基础上提出一种根据中文表达习惯的基于加权主题词的短语主题抽取算法.实验结果表明,后两种算法对短语主题抽取效果良好,平均查全率分别达到78.88%和83.39%,平均查准率达99.06%和99.70%. 展开更多
关键词 短语主题 主题抽取 同义词 知网
下载PDF
改进TF-IDF结合余弦定理计算中文语句相似度 被引量:8
19
作者 张俊飞 《现代计算机(中旬刊)》 2017年第11期20-23,27,共5页
提出一种改进TF-IDF结合余弦定理计算中文语句相似度方法。首先采用IKAnalyzer分词器对中文语句分词处理,提取核心关键词,然后通过计算句子关键词词频和权重形成的TF-IDF向量组,结合余弦定理实现中文句子相似度计算。改进后的TF-IDF计... 提出一种改进TF-IDF结合余弦定理计算中文语句相似度方法。首先采用IKAnalyzer分词器对中文语句分词处理,提取核心关键词,然后通过计算句子关键词词频和权重形成的TF-IDF向量组,结合余弦定理实现中文句子相似度计算。改进后的TF-IDF计算方法采用《同义词词林》词典实现对关键词及其同义词词频统计,并通过Lucene技术实现关键词权重快速计算。改进后的中文句子相似度算法不仅考虑句子中关键词的物理特征,还对关键词的语义特征进行相似度计算,提高中文句子相似度计算的准确性。 展开更多
关键词 TF-IDF 余弦定理 同义词 LUCENE
下载PDF
基于改进k-means算法的中文词义归纳 被引量:8
20
作者 张宜浩 金澎 孙锐 《计算机应用》 CSCD 北大核心 2012年第5期1332-1334,共3页
汉语中一词多义现象普遍存在,词义归纳就是对在不同语境中具有相同语义的词进行归类,本质上是一聚类问题。目前广泛采用无指导的聚类方法对词义归纳进行研究,提出一种改进的k-means算法,该算法主要从初始簇中心的选取以及簇均值的计算... 汉语中一词多义现象普遍存在,词义归纳就是对在不同语境中具有相同语义的词进行归类,本质上是一聚类问题。目前广泛采用无指导的聚类方法对词义归纳进行研究,提出一种改进的k-means算法,该算法主要从初始簇中心的选取以及簇均值的计算两个方面进行改进,在一定程度上克服了其对"噪声"和孤立点数据的敏感。在特征表示上用同义词词林中词的分类编号来降低特征维度。实验表明改进k-means算法在性能上有较大的提升,F-Score达到了75.8%。 展开更多
关键词 义归纳 K-MEANS算法 聚类 同义词
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部