期刊文献+
共找到209篇文章
< 1 2 11 >
每页显示 20 50 100
基于向量空间模型中义项词语的无导词义消歧 被引量:37
1
作者 鲁松 白硕 黄雄 《软件学报》 EI CSCD 北大核心 2002年第6期1082-1089,共8页
有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下... 有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果. 展开更多
关键词 向量空间模型 义项词语 无导词义消歧 义项词语 自然语言处理
下载PDF
基于语义的关键词提取算法 被引量:39
2
作者 方俊 郭雷 王晓东 《计算机科学》 CSCD 北大核心 2008年第6期148-151,共4页
关键词1提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中。在目前的关键词提取算法中,我们发现词汇层面(代表意思的词)和概念层面(意思本身)的差别导致了关键字提取的不准确,比如不同语法的词可能有着相同的意思,而相同语... 关键词1提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中。在目前的关键词提取算法中,我们发现词汇层面(代表意思的词)和概念层面(意思本身)的差别导致了关键字提取的不准确,比如不同语法的词可能有着相同的意思,而相同语法的词在不同的上下文有着不同的意思。为了解决这个问题,这篇文章提出使用词义代替词并且通过考虑关键候选词的语义信息来提高关键词提取算法性能的方法。与现有的关键词提取方法不同,该方法首先通过使用消歧算法,通过上下文得到候选词的词义;然后在后面的词合并、特征提取和评估的步骤中,候选词义之间的语义相关度被用来提高算法的性能。在评估算法时,我们采用一种更为有效的基于语义的评估方法与著名的Kea系统作比较。在不同领域间的实验中可以发现,当考虑语义信息后,关键词提取算法的性能能够得到很大的提高。在同领域的实验中,我们的算法的性能与Kea++算法的相近。我们的算法没有领域的限制性,因此具有更好的应用前景。 展开更多
关键词 关键词提取 语义相关度 消歧
下载PDF
基于义原同现频率的汉语词义排歧方法 被引量:26
3
作者 杨尔弘 张国清 张永奎 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期833-838,共6页
词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个... 词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个知识源的特性 ,提出了一种基于义原同现频率的词义排岐方法 ,在很大程度上克服了数据稀疏问题 .此外 ,该方法还避免了繁重的人工标注语料的过程 ,通过在一个约 10万字的语料库上获得义原同现频率矩阵 ,并以此作为词义排岐的依据 .实验表明 。 展开更多
关键词 自然语言处理 知网 义原同现频率 汉语词义排歧 语料库
下载PDF
信息处理用词语义项区分的原则和方法 被引量:30
4
作者 吴云芳 俞士汶 《语言文字应用》 CSSCI 北大核心 2006年第2期126-133,共8页
本文探讨了面向汉语信息处理的词语义项区分应该遵守的原则和方法。先界定了作为计算机自动词义消歧对象的多义词的范围;然后指出面对大规模真实文本,词语义项区分应具有可操作性,即应具有完备性和离散性;最后论证了上下文语境是计算机... 本文探讨了面向汉语信息处理的词语义项区分应该遵守的原则和方法。先界定了作为计算机自动词义消歧对象的多义词的范围;然后指出面对大规模真实文本,词语义项区分应具有可操作性,即应具有完备性和离散性;最后论证了上下文语境是计算机区分词语意义的最终凭借,信息处理用词语义项区分的依据应主要来自词语的句法行为。 展开更多
关键词 义项 多义词 词义标注 词义消歧 语料库
下载PDF
基于论文和专利的钙钛矿太阳能电池的技术机会分析 被引量:32
5
作者 黄鲁成 王静静 +1 位作者 李欣 王立章 《情报学报》 CSSCI 北大核心 2016年第7期686-695,共10页
针对目前在技术机会识别中存在以下不足,即使用直接引用的时间滞后性和使用向量空间模型存在主观性的问题,本文以科技论文和专利数据为基础,采用文本挖掘方法并在完善SAO结构基础上,分析识别了钙钛矿太阳能电池的技术机会:首先运用文本... 针对目前在技术机会识别中存在以下不足,即使用直接引用的时间滞后性和使用向量空间模型存在主观性的问题,本文以科技论文和专利数据为基础,采用文本挖掘方法并在完善SAO结构基础上,分析识别了钙钛矿太阳能电池的技术机会:首先运用文本挖掘的方式抽取出标题和摘要的Subject-Action—Object(SAO)结构,并对SAO结构进行词义消歧,以便提高SAO结构相似度的计算精度;其次,将SAO结构的相似度转换为论文相似度及专利相似度,通过多维尺度分析总结聚类主题,识别确定技术机会;最后,用钙钛矿太阳能电池作为实例进行了实证研究,发现了四个潜在的技术机会,为该领域的研发工作提供了决策参考,同时也证实了该方法的有效性和科学性。 展开更多
关键词 SAO结构 技术机会 钙钛矿 太阳能电池 词义消歧
下载PDF
动词对宾语的语义选择限制 被引量:18
6
作者 吴云芳 段慧明 俞士汶 《语言文字应用》 CSSCI 北大核心 2005年第2期121-128,共8页
动词对论元的语义选择限制一直是自然语言处理研究领域一个备受关注的问题。本文选取现代汉语中4 6个高频的、可以带体词性宾语的动词,借助知网的名词语义分类体系,基于《人民日报》语料,考察了动词对宾语的语义选择限制,归纳成5种类型... 动词对论元的语义选择限制一直是自然语言处理研究领域一个备受关注的问题。本文选取现代汉语中4 6个高频的、可以带体词性宾语的动词,借助知网的名词语义分类体系,基于《人民日报》语料,考察了动词对宾语的语义选择限制,归纳成5种类型,在此基础上讨论了语义选择限制在汉语信息处理中的应用和局限,并进而讨论了上下位语义关系、部分整体语义关系在动词语义选择限制中的作用。 展开更多
关键词 选择限制 名词语义分类 语义关系 词义消歧
下载PDF
从搭配知识获取最优种子的词义消歧方法 被引量:13
7
作者 全昌勤 何婷婷 +1 位作者 姬东鸿 刘辉 《中文信息学报》 CSCD 北大核心 2005年第1期30-35,共6页
基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词 ,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识 ,但人工获取质量较好的初始搭配是比较困难的 ,并且无法保证有效的扩大搭配知识。针对该问题 ,提出... 基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词 ,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识 ,但人工获取质量较好的初始搭配是比较困难的 ,并且无法保证有效的扩大搭配知识。针对该问题 ,提出了通过机器学习初始搭配实例获取最优种子 ,再由最优种子扩增更多指示词 ,最后利用这些指示词实现具有多个义项的多义词消歧。采用该方法对 8个多义词进行消歧的测试实验中取得了 87 7%的平均正确率。 展开更多
关键词 人工智能 自然语言处理 自然语言处理 词义消歧 搭配 种子优选
下载PDF
基于k-means聚类的无导词义消歧 被引量:16
8
作者 陈浩 何婷婷 姬东鸿 《中文信息学报》 CSCD 北大核心 2005年第4期10-16,共7页
无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景。这篇文章提出了一种无导词义消歧的方法,该方法采用二阶context构造上下文向量,使用k-means算法进行聚类,最后通过计算相似度来进行... 无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景。这篇文章提出了一种无导词义消歧的方法,该方法采用二阶context构造上下文向量,使用k-means算法进行聚类,最后通过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在多个汉语高频多义词的两组测试中取得了平均准确率82·67%和80·87%的较好的效果。 展开更多
关键词 计算机应用 中文信息处理 词义消歧 HOWNET 二阶context K-MEANS聚类
下载PDF
词义排歧的一种语言模型 被引量:16
9
作者 黄昌宁 李涓子 《语言文字应用》 CSSCI 北大核心 2000年第3期85-90,共6页
《同义词词林》(下简称《词林》)中每个同义词集对应于一个唯一的义类代码。本文的基本假设是 :当这些词在文本中出现时 ,与它们前后同现的那些实词在统计意义上是相似的。初步实验表明 ,尽管根据分布的聚类过程与《词林》编者划分同义... 《同义词词林》(下简称《词林》)中每个同义词集对应于一个唯一的义类代码。本文的基本假设是 :当这些词在文本中出现时 ,与它们前后同现的那些实词在统计意义上是相似的。初步实验表明 ,尽管根据分布的聚类过程与《词林》编者划分同义词集的机理完全不同 ,对词语进行聚类的结果却和《词林》语义类的平均一致率高达 80 %以上。本研究的意义在于 ,提出一种对语言学家凭语感对词的分类进行定量分析的方法 ,并且为计算机自动词义标注时使用语言学知识奠定了基础。 展开更多
关键词 词义排歧 语言模型
全文增补中
无监督词义消歧研究 被引量:17
10
作者 王瑞琴 孔繁胜 《软件学报》 EI CSCD 北大核心 2009年第8期2138-2152,共15页
研究的目的是对现有的无监督词义消歧技术进行总结,以期为进一步的研究指明方向.首先,介绍了无监督词义消歧研究的意义.然后,重点总结分析了国内外各类无监督词义消歧研究中的各项关键技术,包括使用的数据源、采用的消歧方法、评价体系... 研究的目的是对现有的无监督词义消歧技术进行总结,以期为进一步的研究指明方向.首先,介绍了无监督词义消歧研究的意义.然后,重点总结分析了国内外各类无监督词义消歧研究中的各项关键技术,包括使用的数据源、采用的消歧方法、评价体系以及达到的消歧效果等方面.最后,对14个较有特色的无监督词义消歧方法进行了总结,并指出无监督词义消歧的现有研究成果和可能的发展方向. 展开更多
关键词 词义消歧 无监督词义消歧 自然语言处理 语义理解
下载PDF
一种基于词矢量的汉语语义量化模型 被引量:7
11
作者 陈清才 王晓龙 《计算机研究与发展》 EI CSCD 北大核心 2001年第2期207-212,共6页
通过建立基于词矢量的汉语语义量化模型来解决语义信息的自动获取及量化问题 ,描述了模型的建立方法及其在汉语词义排歧中的应用 ,最后通过构造伪词的方法对模型的语义辨识能力进行了评测 .实验表明该语义量化模型具有很好的语义表示能... 通过建立基于词矢量的汉语语义量化模型来解决语义信息的自动获取及量化问题 ,描述了模型的建立方法及其在汉语词义排歧中的应用 ,最后通过构造伪词的方法对模型的语义辨识能力进行了评测 .实验表明该语义量化模型具有很好的语义表示能力 ,并且由于模型的建立是通过对大规模生语料库的统计来完成的 ,避免了人工对词语语义进行量化时所需的庞大工作量 。 展开更多
关键词 自然语言处理 词矢量 汉语语义量化模型 语料库 人工智能
下载PDF
基于对数模型的词义自动消歧 被引量:13
12
作者 朱靖波 李珩 +1 位作者 张跃 姚天顺 《软件学报》 EI CSCD 北大核心 2001年第9期1405-1412,共8页
提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,... 提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响 .目前 ,该词义自动消歧系统 L M-WSD已经应用于基于词层的英汉机器翻译系统 (汽车配件专业领域 )中 ,有效地提高了翻译性能 . 展开更多
关键词 词义自动消歧 机器翻译 对数模型 自然语言处理 计算机
下载PDF
词义标注语料库建设综述 被引量:17
13
作者 金澎 吴云芳 俞士汶 《中文信息学报》 CSCD 北大核心 2008年第3期16-23,共8页
词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略... 词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。 展开更多
关键词 计算机应用 中文信息处理 词义消歧 词义标注语料库 平行语料库 BOOTSTRAPPING
下载PDF
一种基于语义与句法结构的短文本相似度计算方法 被引量:19
14
作者 赵谦 荆琪 +1 位作者 李爱萍 段利国 《计算机工程与科学》 CSCD 北大核心 2018年第7期1287-1294,共8页
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合... 为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。 展开更多
关键词 词义消歧 情感特征 句法依存分析 短文本语义相似度
下载PDF
基于依存分析改进贝叶斯模型的词义消歧 被引量:12
15
作者 卢志茂 刘挺 +1 位作者 张刚 李生 《高技术通讯》 EI CAS CSCD 2003年第5期1-7,共7页
词义消歧一直是自然语言处理领域的关键问题和难点之一。目前进行的很多词义消歧研究多采用几个多义词作为实验测试对象,在实际应用方面存在着局限性。本文对大规模真实文本进行了词义消歧研究,采用了基于依存分析改进贝叶斯分类模型的... 词义消歧一直是自然语言处理领域的关键问题和难点之一。目前进行的很多词义消歧研究多采用几个多义词作为实验测试对象,在实际应用方面存在着局限性。本文对大规模真实文本进行了词义消歧研究,采用了基于依存分析改进贝叶斯分类模型的有指导词义消歧方法。该模型充分利用依存句法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的上下文,有效地克服了单纯贝叶斯分类器中无关上下文造成的噪声影响。本实验的开放测试正确率可以达到91.89%,封闭实验正确率可达99.4%,验证了改进模型的有效性。 展开更多
关键词 依存分析 贝叶斯模型 词义消歧 自然语言处理 语料库 统计分析 信息检索 贝叶斯分类器
下载PDF
基于词典属性特征的粗粒度词义消歧 被引量:10
16
作者 吴云芳 金澎 郭涛 《中文信息学报》 CSCD 北大核心 2007年第2期3-8,共6页
本文依据《现代汉语语法信息词典》中对词语多义的属性特征描述,对《人民日报》语料中155个词语共4996个同形实例进行了粗粒度词义自动消歧实验,同时用贝叶斯算法进行了比较测试。基于词典属性特征的消歧方法在同形层面上准确率达到90%... 本文依据《现代汉语语法信息词典》中对词语多义的属性特征描述,对《人民日报》语料中155个词语共4996个同形实例进行了粗粒度词义自动消歧实验,同时用贝叶斯算法进行了比较测试。基于词典属性特征的消歧方法在同形层面上准确率达到90%,但召回率偏低。其优点在于两个方面:1)不受词义标注语料库规模的影响;2)对特定词语意义的消歧准确率可达到100%。本文也讨论了适用于不同词类的消歧特征。 展开更多
关键词 人工智能 自然语言处理 特征 词义 词义消歧 贝叶斯分类法
下载PDF
多分类器集成的汉语词义消歧研究 被引量:14
17
作者 吴云芳 王淼 +1 位作者 金澎 俞士汶 《计算机研究与发展》 EI CSCD 北大核心 2008年第8期1354-1361,共8页
词义消歧长期以来一直是自然语言处理中的热点和难题,集成方法被认为是机器学习研究的四大趋势之一.系统研究了9种集成学习方法在汉语词义消歧中的应用.9种集成方法分别是乘法规则、均值、最大值、最小值、多数投票、序列投票、加权投... 词义消歧长期以来一直是自然语言处理中的热点和难题,集成方法被认为是机器学习研究的四大趋势之一.系统研究了9种集成学习方法在汉语词义消歧中的应用.9种集成方法分别是乘法规则、均值、最大值、最小值、多数投票、序列投票、加权投票、概率加权和单分类器融合,其中乘法规则、均值、最大值3种集成方法还未曾应用于词义消歧.选取支持向量机模型、朴素贝叶斯和决策树作为3个单分类器.在两个不同的数据集上进行了实验,其一是选自现代汉语语义标注语料库的18个多义词,其二是国际语义评测SemEval-2007的中英文对译选择词消歧任务.实验结果显示,首次在词义消歧中引入应用的3种集成方法乘法、均值、最大值有良好的性能表现,3种方法的消歧准确率均高于最佳单分类器SVM,而且优于其他6种集成方法. 展开更多
关键词 词义消歧 多分类器集成 均值 最大值
下载PDF
融合耦合距离区分度和强类别特征的短文本相似度计算方法 被引量:13
18
作者 马慧芳 刘文 +1 位作者 李志欣 蔺想红 《电子学报》 EI CAS CSCD 北大核心 2019年第6期1331-1336,共6页
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法... 短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率. 展开更多
关键词 文本挖掘 自然语言处理 文本聚类 社会网络 耦合关系 特征提取 语义消歧 相似度计算
下载PDF
重新审视跨语言信息检索 被引量:10
19
作者 闵金明 孙乐 张俊林 《中文信息学报》 CSCD 北大核心 2006年第4期33-40,共8页
阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题,而跨语言信息检索是解决这个问题的有效方法之一。本文从定义跨语言信息检索系统开始,给出了一个标准的跨语言信息检索系统框架和评价方法,对主流研究方法进行了重新审视... 阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题,而跨语言信息检索是解决这个问题的有效方法之一。本文从定义跨语言信息检索系统开始,给出了一个标准的跨语言信息检索系统框架和评价方法,对主流研究方法进行了重新审视,进一步明确指出了跨语言信息检索中必须解决的核心问题,最后通过分析研究现状给出了未来可能的重点研究方向。 展开更多
关键词 计算机应用 中文信息处理 跨语言信息检索 未登录词 词义消歧 多语言信息检索
下载PDF
一种基于Hownet的词向量表示方法 被引量:11
20
作者 陈洋 罗智勇 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期22-28,共7页
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后... 针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后,根据Hownet中词语与义原之间的定义关系,将词语向量表示视为相关义原所张成的子空间中的投影,并提出学习词向量表示的深度神经网络模型。实验表明,基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。 展开更多
关键词 词向量表示 HOWNET 词语相似性计算 词义消岐
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部