期刊文献+
共找到17,445篇文章
< 1 2 250 >
每页显示 20 50 100
基于HowNet的词汇语义倾向计算 被引量:326
1
作者 朱嫣岚 闵锦 +2 位作者 周雅倩 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2006年第1期14-20,共7页
在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过... 在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过滤等自然语言处理的研究提供了新的思路和手段。篇章语义倾向研究的基础工作是对词汇的褒贬倾向判别。本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。 展开更多
关键词 计算机应用 中文信息处理 态度分类 语义倾向
下载PDF
基于语义理解的文本倾向性识别机制 被引量:120
2
作者 徐琳宏 林鸿飞 杨志豪 《中文信息学报》 CSCD 北大核心 2007年第1期96-100,共5页
文本倾向性识别在垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。本文提出了基于语义理解的文本倾向性识别机制。其主要思想是首先计算词汇与知网中已标注褒贬性的词汇间的相似度,获取词汇的倾向性;再选择倾向性明显的词汇作... 文本倾向性识别在垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。本文提出了基于语义理解的文本倾向性识别机制。其主要思想是首先计算词汇与知网中已标注褒贬性的词汇间的相似度,获取词汇的倾向性;再选择倾向性明显的词汇作为特征值,用SVM分类器分析文本的褒贬性;最后采用否定规则匹配文本中的语义否定的策略提高分类效果,同时处理程度副词附近的褒义词和贬义词,以加强对文本褒贬义强度的识别。 展开更多
关键词 计算机应用 中文信息处理 倾向性识别 语义相似度 否定句 程度副词
下载PDF
一种改进的基于《知网》的词语语义相似度计算 被引量:107
3
作者 江敏 肖诗斌 +1 位作者 王弘蔚 施水才 《中文信息学报》 CSCD 北大核心 2008年第5期84-89,共6页
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与&... 中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。 展开更多
关键词 计算机应用 中文信息处理 词语相似度 义原 词语极性识别
下载PDF
中文词语语义相似度计算——基于《知网》2000 被引量:106
4
作者 李峰 李芳 《中文信息学报》 CSCD 北大核心 2007年第3期99-105,共7页
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思... 词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点:认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。 展开更多
关键词 计算机应用 中文信息处理 词语语义相似度 “义原” 语义信息量
下载PDF
基于语义理解的文本相似度算法 被引量:79
5
作者 金博 史彦军 滕弘飞 《大连理工大学学报》 EI CAS CSCD 北大核心 2005年第2期291-297,共7页
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包... 相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高. 展开更多
关键词 语义理解 相似度算法 相似度计算 计算方法 文本相似度 语义相似度 信息检索 实例验证 计算公式 准确性 文档
下载PDF
一种基于词汇链的关键词抽取方法 被引量:88
6
作者 索红光 刘玉树 曹淑英 《中文信息学报》 CSCD 北大核心 2006年第6期25-30,共6页
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇... 关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。 展开更多
关键词 计算机应用 中文信息处理 关键词标引 关键词抽取 词汇链 词义相似度
下载PDF
汉语词语语义相似度计算研究 被引量:63
7
作者 夏天 《计算机工程》 CAS CSCD 北大核心 2007年第6期191-194,共4页
汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解... 汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解决了未登录词无法参与语义计算的难题,实现了任意词语在语义层面上的相似度计算。针对同义词词林的实验结果表明,该方法的准确率比现有方法高出近15个百分点。 展开更多
关键词 词语相似度 概念 义原
下载PDF
基于知网的语义相关度计算 被引量:53
8
作者 许云 樊孝忠 张锋 《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第5期411-414,共4页
为解决句法分析中的结构性歧义,引入了语义相关度计算.基于语义相似度计算及知网的语义信息,提出了语义相关度计算方法;利用知网的义原纵向与横向关系及实例信息计算不同词性的相关度.在计算义原距离时,考虑了义原之间的解释关系,对义... 为解决句法分析中的结构性歧义,引入了语义相关度计算.基于语义相似度计算及知网的语义信息,提出了语义相关度计算方法;利用知网的义原纵向与横向关系及实例信息计算不同词性的相关度.在计算义原距离时,考虑了义原之间的解释关系,对义原的距离进行修正.根据相似度的对称性,计算实例的影响因素提高了相关度的准确率.实验结果表明,使用该计算方法得出的语义相关度结果更加合理. 展开更多
关键词 语义相关度 自然语言处理
下载PDF
基于知网的词汇语义相似度计算方法研究 被引量:66
9
作者 葛斌 李芳芳 +1 位作者 郭丝路 汤大权 《计算机应用研究》 CSCD 北大核心 2010年第9期3329-3333,共5页
利用知网的义原层次树,考虑树的深度、密度等因素对义原节点权重的影响,得到义原相似度。通过分析义项的描述语言结构,将关系义原和关系符号描述结构进行加权合并,综合考虑主要特征、次要特征、关系特征计算义项相似度,减少补充义原作... 利用知网的义原层次树,考虑树的深度、密度等因素对义原节点权重的影响,得到义原相似度。通过分析义项的描述语言结构,将关系义原和关系符号描述结构进行加权合并,综合考虑主要特征、次要特征、关系特征计算义项相似度,减少补充义原作为次要特征中的基本义原所带来的误差,在此基础上提出一种改进的词汇相似度计算方法。实验证明,该方法呈现向两端扩散的现象,能够更精确地区分词汇间的细微语义差别,计算结果更趋于合理。 展开更多
关键词 描述语言结构 词汇相似度 补充义原
下载PDF
基于知网与词林的词语语义相似度计算 被引量:64
10
作者 朱新华 马润聪 +1 位作者 孙柳 陈宏朝 《中文信息学报》 CSCD 北大核心 2016年第4期29-36,共8页
该文提出了一种综合知网与同义词词林的词语语义相似度计算方法。知网部分根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有的义原相似度算法;词林部分采用以词语距离为主要因素、分支节点数和... 该文提出了一种综合知网与同义词词林的词语语义相似度计算方法。知网部分根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有的义原相似度算法;词林部分采用以词语距离为主要因素、分支节点数和分支间隔为微调节参数的方法,改进了现有的词林词语相似度算法。然后再根据词语的分布情况,采用综合考虑知网与同义词林的动态加权策略计算出最终的词语语义相似度。该方法充分利用了词语在知网与词林中的语义信息,极大地扩充了可计算词语的范围,同时也提高了词语相似度计算的准确率。 展开更多
关键词 语义相似度 同义词词林 语义距离
下载PDF
改进的基于《知网》的词汇语义相似度计算 被引量:58
11
作者 朱征宇 孙俊华 《计算机应用》 CSCD 北大核心 2013年第8期2276-2279,2288,共5页
针对当前基于《知网》的词汇语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征的情况,提出一种改进的词汇语义相似度计算方法。首先,充分考虑概念描述式中各义原之间的线性关系,提出一种位置相关的权重分配策略;然后... 针对当前基于《知网》的词汇语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征的情况,提出一种改进的词汇语义相似度计算方法。首先,充分考虑概念描述式中各义原之间的线性关系,提出一种位置相关的权重分配策略;然后,将所提出的策略结合二部图最大权匹配进行概念相似度计算。实验结果表明,采用改进方法得到的聚类结果 F值较对比方法平均提高了5%,从而验证了改进方法的合理性和有效性。 展开更多
关键词 义原 概念 权重 语义相似度
下载PDF
基于知网的中文问题自动分类 被引量:41
12
作者 孙景广 蔡东风 +1 位作者 吕德新 董燕举 《中文信息学报》 CSCD 北大核心 2007年第1期90-95,共6页
问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。... 问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。该方法以问题的疑问词、句法结构、疑问意向词、疑问意向词在知网中的首义原作为分类特征。实验结果表明,在知网中选取的首义原能很好的表达问题焦点词的语义信息,可作为问题分类的一个主要特征。该方法能显著地提高问题分类的精度,大类和小类的分类精度分别达到了92.18%和83.86%。 展开更多
关键词 计算机应用 中文信息处理 问答系统 问题分类 最大熵模型 分类特征
下载PDF
基于领域词语本体的短文本分类 被引量:41
13
作者 宁亚辉 樊兴华 吴渝 《计算机科学》 CSCD 北大核心 2009年第3期142-145,共4页
短文本自身长度较短,描述概念能力弱,常用文本分类方法都不太适用于短文本分类。提出了基于领域词语本体的短文本分类方法。首先抽取领域高频词作为特征词,借助知网从语义方面将特征词扩展为概念和义元,通过计算不同概念所包含相同义元... 短文本自身长度较短,描述概念能力弱,常用文本分类方法都不太适用于短文本分类。提出了基于领域词语本体的短文本分类方法。首先抽取领域高频词作为特征词,借助知网从语义方面将特征词扩展为概念和义元,通过计算不同概念所包含相同义元的信息量来衡量词的相似度,从而进行分类。对比实验表明,该方法在一定程度上弥补了短文本特征不足的缺点,且提高了准确率和召回率。 展开更多
关键词 短文本 本体 文本分类 语义 义元
下载PDF
基于义原同现频率的汉语词义排歧方法 被引量:26
14
作者 杨尔弘 张国清 张永奎 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期833-838,共6页
词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个... 词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个知识源的特性 ,提出了一种基于义原同现频率的词义排岐方法 ,在很大程度上克服了数据稀疏问题 .此外 ,该方法还避免了繁重的人工标注语料的过程 ,通过在一个约 10万字的语料库上获得义原同现频率矩阵 ,并以此作为词义排岐的依据 .实验表明 。 展开更多
关键词 自然语言处理 义原同现频率 汉语词义排歧 语料库
下载PDF
基于短语模式的文本情感分类研究 被引量:35
15
作者 李钝 曹付元 +1 位作者 曹元大 万月亮 《计算机科学》 CSCD 北大核心 2008年第4期132-134,共3页
文本倾向识别的研究在诸多领域有着广阔的发展前景,短语模式的文本情感分类是问答系统、信息安全、网上调查等研究的基础。本文从语言学角度出发,首先,分析词典中对词语义定义的特点,采用"情感倾向定义"权重优先的计算方法获... 文本倾向识别的研究在诸多领域有着广阔的发展前景,短语模式的文本情感分类是问答系统、信息安全、网上调查等研究的基础。本文从语言学角度出发,首先,分析词典中对词语义定义的特点,采用"情感倾向定义"权重优先的计算方法获得短语中各词的语义倾向度,然后分析短语中各词组合方式的特点,提出中心词概念来对各词的倾向性进行计算来识别短语的倾向性和倾向强度。实验表明,本文的方法对短语的倾向分类识别效果较好,可为更大粒度的文本倾向识别打好基础,具有一定的实用价值。 展开更多
关键词 文本分类 情感倾向 语义倾向度 短语结构 中心词
下载PDF
有效的中文微博短文本倾向性分类算法 被引量:39
16
作者 韩忠明 张玉沙 +2 位作者 张慧 万月亮 黄今慧 《计算机应用与软件》 CSCD 北大核心 2012年第10期89-93,共5页
对具有长度短、结构复杂以及变形词多等特点的短文本倾向性分类进行深入研究,目的是提高倾向性分类的准确性和效率。以HowNet的情感词典为基础,提出一个微博新词发现算法,构建微博情感词典。在对文本进行分句、分词、标注、情感处理等后... 对具有长度短、结构复杂以及变形词多等特点的短文本倾向性分类进行深入研究,目的是提高倾向性分类的准确性和效率。以HowNet的情感词典为基础,提出一个微博新词发现算法,构建微博情感词典。在对文本进行分句、分词、标注、情感处理等后,构建一个自动机来计算短文本情感倾向性。为了客观评价该方法,选择基于HowNet的分类方法、基于SVM的分类方法进行比较性实验。实验结果表明提出的方法在一般文本分类上与SVM效果类似,在短文本上则具有明显的优势。同时该方法在效率上也具有突出优势。 展开更多
关键词 倾向性 情感 词典 自动机 支持向量机
下载PDF
改进的基于知网的词语相似度算法 被引量:38
17
作者 王小林 王义 《计算机应用》 CSCD 北大核心 2011年第11期3075-3077,3090,共4页
词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种... 词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种新的改进的词语相似度算法,首先根据义项中各类义原的个数不同,提出了一种新的变系数义项相似度计算方法;其次从词性的角度,认为词语义项中的不同词性对词语相似度的贡献度不同,剔除不同词性义项之间的组合。实验结果证明,改进的算法结果在原有基础上得到较好的提升,大幅度降低了相似度计算的复杂度,提高了运算效率。 展开更多
关键词 词语相似度 义原 义项 词性
下载PDF
利用上下位关系的中文短文本分类 被引量:38
18
作者 王盛 樊兴华 陈现麟 《计算机应用》 CSCD 北大核心 2010年第3期603-606,611,共5页
针对短文本长度短、描述信号弱的特点,提出了一种利用上下位关系的中文短文本分类框架。该框架首先利用"知网"确定训练文本中概念对的上下位关系,进而确定词语对的上下位关系,再将其用于扩展测试文本的特征向量,从而实现对测... 针对短文本长度短、描述信号弱的特点,提出了一种利用上下位关系的中文短文本分类框架。该框架首先利用"知网"确定训练文本中概念对的上下位关系,进而确定词语对的上下位关系,再将其用于扩展测试文本的特征向量,从而实现对测试文本的分类。实验表明:利用上下位关系能够改善短文本的分类性能。 展开更多
关键词 短文本 上下位关系 特征扩展
下载PDF
基于知网的概念特征抽取方法 被引量:17
19
作者 赵林 胡恬 +1 位作者 黄萱菁 吴立德 《通信学报》 EI CSCD 北大核心 2004年第7期46-54,共9页
文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法。该方法比单纯的词汇信... 文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法。该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率。我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性。 展开更多
关键词 文本过滤 特征抽取 向量窄间模型
下载PDF
知网与同义词词林的信息融合研究 被引量:28
20
作者 梅立军 周强 +1 位作者 臧路 陈祖舜 《中文信息学报》 CSCD 北大核心 2005年第1期63-70,共8页
本文主要探讨了将知网 (HowNet)和同义词词林进行信息融合的方法。我们针对知网对词的概念描述和同义词词林对词的语义分类的特点 ,提出了一种词典信息融合的方法 :首先为词林的每个词集确定一个与知网中DEF类似的概念描述 ,在此基础上... 本文主要探讨了将知网 (HowNet)和同义词词林进行信息融合的方法。我们针对知网对词的概念描述和同义词词林对词的语义分类的特点 ,提出了一种词典信息融合的方法 :首先为词林的每个词集确定一个与知网中DEF类似的概念描述 ,在此基础上对两部词典中同时收录且均只有一个义项的词语进行双向意义联结 ,最后根据分类算法对两部词典中同时收录非单一义项的词语进行双向意义联结。实验表明 ,本文提出的处理策略达到了 93%的信息融合正确率 ,融合后形成的新词典兼有词林的分类学信息和知网的概念描述信息。 展开更多
关键词 计算机应用 中文信息处理 词典信息融合 同义词词林 分类
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部