题名 基于语义理解的文本倾向性识别机制
被引量:120
1
作者
徐琳宏
林鸿飞
杨志豪
机构
大连理工大学计算机科学与工程系
出处
《中文信息学报》
CSCD
北大核心
2007年第1期96-100,共5页
基金
国家自然科学基金资助项目(60373095
60673039)
文摘
文本倾向性识别在垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。本文提出了基于语义理解的文本倾向性识别机制。其主要思想是首先计算词汇与知网中已标注褒贬性的词汇间的相似度,获取词汇的倾向性;再选择倾向性明显的词汇作为特征值,用SVM分类器分析文本的褒贬性;最后采用否定规则匹配文本中的语义否定的策略提高分类效果,同时处理程度副词附近的褒义词和贬义词,以加强对文本褒贬义强度的识别。
关键词
计算机应用
中文信息处理
倾向性识别
知网
语义相似度
否定句
程度副词
Keywords
computer application
Chinese information processing
orientation identification
HowNet
semantic similarity
negative sentence
degree adverb
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文词语语义相似度计算——基于《知网》2000
被引量:106
2
作者
李峰
李芳
机构
上海交通大学计算机科学与工程系
出处
《中文信息学报》
CSCD
北大核心
2007年第3期99-105,共7页
文摘
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点:认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。
关键词
计算机应用
中文信息处理
词语语义相似度
知网
“义原”
语义信息量
Keywords
computer application
Chinese information processing
semantic similarity
Hownet
"sememe"
semantic information
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于本体的语义相似度和相关度计算研究综述
被引量:99
3
作者
刘宏哲
须德
机构
北京联合大学信息学院
北京交通大学计算机研究所
出处
《计算机科学》
CSCD
北大核心
2012年第2期8-13,共6页
基金
国家自然科学基金项目(60972145)
北京市教委科技面上项目(KM201111417002)
+1 种基金
北京市属高等学校人才强教计划资助项目(PHR201108419
PHR200907120)资助
文摘
语义相似度和相关度计算广泛应用于自然语言处理中,已有大量语义相似度和相关度算法被提出。分析总结了树和图结构中影响概念相似度或相关度的因素,综述了基于本体的英文语义相似度和相关度计算方法,明确了语义相似度和相关度的区别与联系,系统地对算法进行了分类,最后对每类算法进行了详细的比较。
关键词
语义相似度
语义相关度
本体
Keywords
semantic similarity
semantic relatedness
Ontology
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
题名 基于领域本体的概念语义相似度计算研究
被引量:67
4
作者
黄果
周竹荣
机构
西南大学计算机与信息科学学院
出处
《计算机工程与设计》
CSCD
北大核心
2007年第10期2460-2463,共4页
文摘
通过对领域本体参照下传统概念的3种语义相似度的计算模型研究,针对这3种计算模型的优缺点和领域本体所特有的性质,提出了一种改进的基于领域本体的概念语义相似度计算模型。实验结果表明,该计算模型通过定量的分析利用本体构词所描述的概念、特性之间的相似度,可以指导基于领域知识本体的语义查询中概念集扩充和查询结果排序,为概念之间的语义关系提供一种有效的量化。
关键词
本体
领域本体
语义相似度
决策因子
计算模型
Keywords
ontology
domain ontology
semantic similarity
decision factor
computation model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 文本相似度计算方法研究综述
被引量:78
5
作者
王春柳
杨永辉
邓霏
赖辉源
机构
中国工程物理研究院计算机应用研究所
出处
《情报科学》
CSSCI
北大核心
2019年第3期158-168,共11页
基金
国防基础科研计划重点项目(JCKY2016212B004)
文摘
【目的/意义】文本相似度计算是自然语言处理中的一项基础性研究,通过总结和分析文本相似度计算的经典方法和当前最新的研究成果,完善对文本相似度计算方法的系统化研究,以便于快速学习和掌握文本相似度计算方法。【方法/内容】对过去20年的文本相似度计算领域的经典文献进行整理,分析不同计算方法的基本思想、优缺点,总结每种计算方法的侧重点和不同方向上最新的研究进展。【结果/结论】从表面文本相似度计算方法和语义相似度计算方法两方面进行阐述,形成较为全面的分类体系,其中语义相似度计算方法中的基于语料库的方法是该领域最为主要的研究方向。
关键词
文本相似度
语义相似度
语料库
Keywords
text similarity
semantic similarity
sorpus-based
review
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于SUMO的概念语义相似度研究
被引量:56
6
作者
徐德智
郑春卉
K. Passi
机构
中南大学信息科学与工程学院
罗伦蒂安大学数学与计算机学院
出处
《计算机应用》
CSCD
北大核心
2006年第1期180-183,共4页
基金
国家863计划资助项目项目(2002AA135160)
文摘
SUMO(建议上层共享知识本体)是由IEEE标准上层知识本体工作小组所建置的,其目的是发展标准的上层知识本体,这将促进数据互通性、信息搜寻和检索、自动推理和自然语言处理。基于该共享知识本体,提出了一种计算两概念语义相似度的方法。根据该方法实现了一个计算程序模块,并将计算结果同人类的主观判断进行了比较,验证了该方法的有效性。该研究工作可以在面向W eb的知识检索领域中得到应用,还可以为本体的相关研究提供一定的理论基础。
关键词
SUMO
语义距离
语义相似度
主观判断
Keywords
SUMO
semantic distance
semantic similarity
subjective judgment
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 文本相似度计算方法研究综述
被引量:73
7
作者
陈二静
姜恩波
机构
中国科学院成都文献情报中心
中国科学院大学
出处
《数据分析与知识发现》
CSSCI
CSCD
2017年第6期1-11,共11页
文摘
【目的】分析文本相似度计算方法,了解该领域的发展态势。【文献范围】在CNKI和Web of Science中分别以检索式"篇名:文本相似度OR篇名:词汇相似度OR篇名:语义相似度"和"TI:‘text similarity’or‘semantic similarity’or‘lexical similarity’"并限定文献类型进行检索,最终得到69篇重点文献。【方法】对文本相似度计算方法进行系统梳理,分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系,文本相似度计算方法可分为4类:基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中,基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心,未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。
关键词
文本相似度
语义相似度
本体
词袋模型
神经网络
Keywords
Text similarity
semantic similarity
Ontology
Bag of Words Model
Neural Network
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于知网的词汇语义相似度计算方法研究
被引量:66
8
作者
葛斌
李芳芳
郭丝路
汤大权
机构
国防科学技术大学C
湖南省电力勘测设计院
出处
《计算机应用研究》
CSCD
北大核心
2010年第9期3329-3333,共5页
基金
国家自然科学基金资助项目(60903225,60172012)
湖南省自然科学基金资(03JJY3110)
文摘
利用知网的义原层次树,考虑树的深度、密度等因素对义原节点权重的影响,得到义原相似度。通过分析义项的描述语言结构,将关系义原和关系符号描述结构进行加权合并,综合考虑主要特征、次要特征、关系特征计算义项相似度,减少补充义原作为次要特征中的基本义原所带来的误差,在此基础上提出一种改进的词汇相似度计算方法。实验证明,该方法呈现向两端扩散的现象,能够更精确地区分词汇间的细微语义差别,计算结果更趋于合理。
关键词
知网
描述语言结构
词汇相似度
补充义原
Keywords
Hownet
description language structure
semantic similarity
supplement sememe
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于知网与词林的词语语义相似度计算
被引量:64
9
作者
朱新华
马润聪
孙柳
陈宏朝
机构
广西师范大学计算机科学与信息工程学院
出处
《中文信息学报》
CSCD
北大核心
2016年第4期29-36,共8页
基金
国家自然科学基金(61363036)
文摘
该文提出了一种综合知网与同义词词林的词语语义相似度计算方法。知网部分根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有的义原相似度算法;词林部分采用以词语距离为主要因素、分支节点数和分支间隔为微调节参数的方法,改进了现有的词林词语相似度算法。然后再根据词语的分布情况,采用综合考虑知网与同义词林的动态加权策略计算出最终的词语语义相似度。该方法充分利用了词语在知网与词林中的语义信息,极大地扩充了可计算词语的范围,同时也提高了词语相似度计算的准确率。
关键词
语义相似度
知网
同义词词林
语义距离
Keywords
semantic similarity
HowNet
CiLin
semantic distance
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 改进的基于《知网》的词汇语义相似度计算
被引量:58
10
作者
朱征宇
孙俊华
机构
重庆大学计算机学院
软件工程重庆市重点实验室
出处
《计算机应用》
CSCD
北大核心
2013年第8期2276-2279,2288,共5页
基金
国家科技支撑计划项目(2011BAH25B04)
文摘
针对当前基于《知网》的词汇语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征的情况,提出一种改进的词汇语义相似度计算方法。首先,充分考虑概念描述式中各义原之间的线性关系,提出一种位置相关的权重分配策略;然后,将所提出的策略结合二部图最大权匹配进行概念相似度计算。实验结果表明,采用改进方法得到的聚类结果 F值较对比方法平均提高了5%,从而验证了改进方法的合理性和有效性。
关键词
知网
义原
概念
权重
语义相似度
Keywords
HowNet
sememe
concept
weight
semantic similarity
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 SemreX:一种基于语义相似度的P2P覆盖网络
被引量:41
11
作者
陈汉华
金海
宁小敏
袁平鹏
武浩
郭志鑫
机构
集群与网格计算湖北省重点实验室(华中科技大学)
出处
《软件学报》
EI
CSCD
北大核心
2006年第5期1170-1181,共12页
基金
国家重点基础研究发展规划(973)~~
文摘
对等(peer-to-peer)网络的非集中结构、良好的自治性及容错性等特征,使其可能成为Internet上有效的信息共享模型.然而,内容定位问题仍然是大规模P2P网络中信息共享所面临的挑战.SemreX系统是一种P2P网络环境下的文献检索系统.针对SemreX系统,提出一种基于语义相似度的P2P拓扑管理和查询路由算法.仿真实验结果表明,语义拓扑能够有效地提高系统的搜索效率.
关键词
SemreX
P2P
语义相似度
ACM
TOPIC
语义覆盖网
Keywords
SemreX
P2P
semantic similarity
ACM topic
semantic overlay networks
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于本体的概念间语义相似度计算方法研究
被引量:34
12
作者
徐德智
王怀民
机构
国防科技大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2007年第8期154-156,共3页
文摘
基于SUMO(Suggested Upper Merged Ontology)[1],提出了一种计算两概念语义相似度的语义距离方法。根据该方法实现了一个计算平台,将计算结果同人类的主观判断进行了比较,验证了概念语义相似度计算方法的有效性。该研究成果拟在正研发的语义数据库本体集成部分得到应用,也可以为本体的其它相关研究提供一定的技术基础。
关键词
SUMO
语义距离
语义相似度
主观判断
Keywords
Suggested Upper Merged Ontology (SUMO)
semantic distance
semantic similarity
human' s judgment
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于语义的中文文本关键词提取算法
被引量:48
13
作者
王立霞
淮晓永
机构
中国科学院软件研究所基础软件国家工程研究中心
中国科学院研究生院
出处
《计算机工程》
CAS
CSCD
2012年第1期1-4,共4页
基金
国家自然科学基金资助项目(90920010)
国家“863”计划基金资助项目(2008AA01Z145)
文摘
为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能体现文档的主题,更符合人们的感知逻辑,且算法性能较优。
关键词
提取算法相比
SKE算法提取的关键词能体现文档的主题
更符合人们的感知逻辑
且算法性能较优.关键词:关键词提取
语义相似度
词语语义相似度网络
居间度
中文文本
Keywords
keyword extraction
semantic similarity
word semantic similarity network
betweenness centrality
Chinese text
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于多层特征的字符串相似度计算模型
被引量:39
14
作者
章成志
机构
南京大学信息管理系
出处
《情报学报》
CSSCI
北大核心
2005年第6期696-701,共6页
文摘
针对计算字符串相似度传统方法的不足之处,提出以相似元作为字符串的基本处理单元,综合考虑相似元的字面、语义及统计关联等多层特征的字符串相似度计算方法.对常规计算方法中存在的,由相似元排序引起的相似元位置信息丢失问题进行了修正.实验结果表明该算法的有效性,并且对句子间、段落间的相似度计算有启发意义.
关键词
字符串相似度
相似元
字面相似度
语相似度
多特征度量
Keywords
Chinese string similarity , similarity unit, multiple-features measuring, literal similarity , semantic similarity .
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP311.1
[自动化与计算机技术—控制科学与工程]
题名 一种本体概念的语义相似度计算方法
被引量:44
15
作者
李文清
孙新
张常有
冯烨
机构
北京理工大学计算机学院
石家庄铁道大学信息科学技术学院
北京控制工程研究所
出处
《自动化学报》
EI
CSCD
北大核心
2012年第2期229-235,共7页
基金
国家自然科学基金(60873208)
河北省自然科学基金(F2009000929)资助~~
文摘
概念语义相似度已广泛应用于Web服务发现、本体映射等领域,但现有的概念语义相似度计算方法对概念间语义相似程度的区分不够细致.本文从本体结构出发,首先提出了自底向上的本体概念出现概率计算方法,并在此基础上改进了基于节点信息量的概念语义相似性度量方法;然后又设计了基于边计算的本体概念语义相似度计算方法;最后对上述两种方法线性加权,提出了一种加权的本体概念语义相似度计算方法.实验结果表明该方法能进一步正确区分本体中父子概念及兄弟概念间的相似程度.
关键词
本体
语义相似度
概念出现概率
信息量
Keywords
Ontology
semantic similarity
probability of concept occurrence
information content
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于知识图谱表示学习的协同过滤推荐算法
被引量:43
16
作者
吴玺煜
陈启买
刘海
贺超波
机构
华南师范大学计算机学院
仲恺农业工程学院信息科学与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第2期226-232,263,共8页
基金
广东省自然科学基金(2016A030313441)
广东省科技计划项目(2015B010129009
+3 种基金
2016A030303058
2016A090922008
2015A020209178)
广东省高性能计算重点实验室开放课题(T191527)
文摘
针对协同过滤算法仅使用物品-用户评分矩阵而未考虑语义的问题,提出一种协同过滤推荐算法。使用知识图谱表示学习方法,将业界已有的语义数据嵌入一个低维的语义空间中。通过计算物品之间的语义相似性,将物品自身的语义信息融入协同过滤推荐。算法弥补了协同过滤算法没有考虑物品本身内涵知识的缺陷,在语义层面上增强了协同过滤推荐的效果。实验结果表明,该算法能够有效地提升协同过滤推荐的准确率、召回率和F值。
关键词
协同过滤
知识图谱
表示学习
语义相似性
推荐系统
Keywords
collaborative filtering
knowledge graph
representation learning
semantic similarity
recommendation system
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种基于本体的概念语义相似度方法的研究
被引量:28
17
作者
王家琴
李仁发
李仲生
唐剑波
机构
湖南大学计算机与通信学院
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第11期201-203,共3页
基金
湖南省自然科学基金资助项目(05FJ3018
03JJY3100)
文摘
提出了一种计算不同本体中概念间语义相似度的方法,该方法通过比较实例间的相似度获得初始概念间语义相似度,结合影响概念间语义相似度的两个系数,计算出最终的概念间语义相似度。与概率统计方法进行比较,验证了该方法的有效性。该研究工作可以应用于面向Web的知识检索领域。
关键词
语义网
本体
语义相似度
主观判断
Keywords
semantic Web
Ontology
semantic similarity
Subjective judgment
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于本体的概念语义相似度计算及其应用
被引量:31
18
作者
陈沈焰
吴军华
机构
南京工业大学信息科学与工程学院
出处
《微电子学与计算机》
CSCD
北大核心
2008年第12期96-99,共4页
文摘
概念的语义相似度计算是自然语言处理研究的重要组成部分,也是人工智能应用中亟待解决的问题.本体作为共享概念模型的明确的形式化的规范说明,给概念语义相似度的计算带来了新的生机,从而提出了一种基于本体的计算概念间语义相似度的方法,综合考虑了语义距离、节点深度和节点密度的影响,并加入了一个可调节的参数,以适应不同场景下的灵活应用,最后简单介绍了语义相似度在搜索引擎领域的应用.
关键词
本体
语义相似度
搜索引擎
概念扩充
Keywords
ontology
semantic similarity
search engine
concept expansion
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 使用倒排索引优化面向组合的语义服务发现
被引量:24
19
作者
邝砾
邓水光
李莹
吴健
吴朝晖
机构
浙江大学计算机科学与技术系
出处
《软件学报》
EI
CSCD
北大核心
2007年第8期1911-1921,共11页
基金
the National Natural Science Foundation of China under Grant Nos.60603025
60503018 (国家自然科学基金)
+2 种基金
the National High-Tech Research and Development Plan of China under Grant No.2006AA01Z171 (国家高技术研究发展计划(863))
the National Key Technology R&D Program of China under Grant No.2006BAH02A01 (国家科技支撑计划)
the Natural Science Foundation of Zhejiang Province of China under Grant No.Y105463 (浙江省自然科学基金)
文摘
提出为服务库中所有注册服务的输出建立倒排索引,以快速、准确、高效地发现目标服务.即为每个输出维护一个服务列表,用于记录在该服务库中所有能够产生该输出的服务.基于倒排索引机制,提出面向组合的服务发现算法.该方法利用倒排索引的优势,极大地减少了搜索空间,并通过挖掘服务组合提高服务发现的查全率.仿真实验表明,该方法能够在大规模服务库中快速、全面地响应用户请求.
关键词
WEB服务
服务发现
服务组合
倒排索引
语义相似度
Keywords
Web service
service discovery
service composition
inverted indexing
semantic similarity
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于HowNet的句子褒贬倾向性研究
被引量:31
20
作者
熊德兰
程菊明
田胜利
机构
许昌学院计算机科学与技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2008年第22期143-145,共3页
基金
河南省教育厅自然科学基金项目(No2008B520031)
许昌市科技局科技发展计划项目(No07020062)
文摘
文本倾向性识别在信息过滤、自动文摘、文本分类等领域有广泛的应用前景。句子倾向性研究是文本倾向性识别的基础,结合句法分析结果和词语语义倾向性可以衡量句子褒贬倾向性。以HowNet的词汇语义相似度计算为基础,提出了基于的语义距离和语法距离的句子褒贬倾向性计算方法。大量语句实验表明,该方法的计算结果与人工判别结果更接近。
关键词
语义相似度
语法分析树
语义距离
语法距离
倾向性识别
Keywords
semantic similarity
syntactic tree
semantic distance
grammar distance
tendentious recognition
分类号
TP391
[自动化与计算机技术—计算机应用技术]