期刊文献+
共找到55篇文章
< 1 2 3 >
每页显示 20 50 100
潜在语义分析理论及其应用 被引量:35
1
作者 盖杰 王怡 武港山 《计算机应用研究》 CSCD 北大核心 2004年第3期9-12,20,共5页
潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过... 潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。将着重介绍LSA方法的基本思想、特点、实现方法,以及基于LSA思想的具体应用。 展开更多
关键词 潜在语义分析 上下文 语义 向量空间模型
下载PDF
关于信息过滤模型的探讨 被引量:18
2
作者 张晓冬 张书杰 +1 位作者 邢俊丽 李俊玉 《计算机工程与应用》 CSCD 北大核心 2002年第5期99-100,236,共3页
信息过滤技术已是当今信息技术研究的热点。该文主要是针对信息过滤模型的研究,介绍了布尔模型、向量空间模型和潜在语义索引三种信息过滤模型。并就其概念、方法和意义进行了分析和讨论。
关键词 信息过滤模型 布尔模型 向量空间模型 潜在语义索引模型 奇异值分解 信息处理 计算机
下载PDF
基于潜在语义索引的文本摘要方法 被引量:17
3
作者 林鸿飞 高仁璟 《大连理工大学学报》 CAS CSCD 北大核心 2001年第6期744-748,共5页
因特网上的在线文本自动编制摘要可以帮助用户有选择地阅读 .给出了基于潜在语义索引的文本摘要方法 .它采用向量空间模型作为文本表示方法 ,利用潜在语义索引来减少词汇间的“斜交”现象 ,在语义空间上进行项、句子、段落与文本之间的... 因特网上的在线文本自动编制摘要可以帮助用户有选择地阅读 .给出了基于潜在语义索引的文本摘要方法 .它采用向量空间模型作为文本表示方法 ,利用潜在语义索引来减少词汇间的“斜交”现象 ,在语义空间上进行项、句子、段落与文本之间的相似度计算 ,而不是单纯地依赖于特征项的频率信息 .依据对于文本主题的表现能力来确定摘要的各个组成部分及其组成方式 .此外 ,给出了文本摘要的评估方法 . 展开更多
关键词 人工智能 语义信息 文本摘要 潜在语义索引 微量空间模型 特征抽取 摘要评价 因特网
下载PDF
基于示例的文本标题分类机制 被引量:17
4
作者 林鸿飞 《计算机研究与发展》 EI CSCD 北大核心 2001年第9期1132-1136,共5页
文本分类有助于用户有选择地阅读和处理海量文本 ,给出了基于示例的文本标题分类机制 .它以具有确定分类标准的标题分类为应用背景 ,在计算标题与分类主题词表直接匹配的基础上 ,利用基于分类树的上位概念匹配机制和基于潜在语义空间的... 文本分类有助于用户有选择地阅读和处理海量文本 ,给出了基于示例的文本标题分类机制 .它以具有确定分类标准的标题分类为应用背景 ,在计算标题与分类主题词表直接匹配的基础上 ,利用基于分类树的上位概念匹配机制和基于潜在语义空间的相似度判定 ,综合评价文本标题与类别的相关关系 .其特点是充分利用上下文环境来确定标题与类别相关程度 ,而不是单纯地依赖于其共现信息 . 展开更多
关键词 潜在语义索引 文本标题分类 示例 信息处理 计算机
下载PDF
基于潜在语义分析的中文文本层次分类技术 被引量:15
5
作者 王怡 盖杰 +1 位作者 武港山 王继成 《计算机应用研究》 CSCD 北大核心 2004年第8期151-154,165,共5页
从网络文本自动分类的需求出发 ,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题 ,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量 ,并在此基础上进行分类处理 ,在不损害分类... 从网络文本自动分类的需求出发 ,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题 ,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量 ,并在此基础上进行分类处理 ,在不损害分类精度的同时提高了分类及其后处理速度 ,并设计实现了一个原型系统。 展开更多
关键词 潜在语义分析 类重心分类 向量空间模型 文本分类 特征向量
下载PDF
基于语义相似度的论坛话题追踪方法 被引量:22
6
作者 席耀一 林琛 +2 位作者 李弼程 周杰 许旭阳 《计算机应用》 CSCD 北大核心 2011年第1期93-96,共4页
现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相... 现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相似度并以此作为帖子与话题的相关程度,最后根据相关程度实现论坛话题追踪。该方法较好地避免了向量空间模型的缺陷。实验表明,该方法能比较有效地解决面向论坛的话题追踪问题。 展开更多
关键词 话题追踪 论坛 关键词 语义相似度 向量空间模型
下载PDF
基于问句相似度的中文FAQ问答系统 被引量:14
7
作者 叶正 林鸿飞 杨志豪 《计算机工程与应用》 CSCD 北大核心 2007年第9期161-163,248,共4页
常见问题(FAQ)问答系统是一种在已有的“问题—答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索系统。其关键问题是用户提出问句与FAQ库中问句进行相似度计算,找出FAQ库中最相近的问句,并返回事先存... 常见问题(FAQ)问答系统是一种在已有的“问题—答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索系统。其关键问题是用户提出问句与FAQ库中问句进行相似度计算,找出FAQ库中最相近的问句,并返回事先存储好的问题答案。通过对常见问句特点的研究,给出一种基于分解的向量空间模型和语义概念的问句相似度计算方法,其主要思想是对一个问句向量进行分解,提取其三个关键部分:问点、主题词和疑问词,表示成三个分向量,然后对每个分向量计算基于《HIT-IRLab同义词词林(扩展版)》的语义相似度,通过线性加权就可以得出两个问句的语义相似度。试验表明,与传统的基于向量空间模型的TF-DF问句相似度计算方法相比,可以提高问句匹配的精度。 展开更多
关键词 问句相似度 语义相似度 常见问题集 向量空间模型
下载PDF
潜在语义标引在中文信息检索中的研究与实现 被引量:16
8
作者 居斌 《计算机工程》 CAS CSCD 北大核心 2007年第5期193-196,共4页
随着网络信息的迅猛发展,信息检索已经成为人们获取信息不可缺少的工具。基于向量空间模型的检索方法是语义检索的重要研究方向,潜在语义标引模型是向量检索方法的一个有力扩展。对LSI中所涉及的关键技术,包括传统的向量空间模型的原理... 随着网络信息的迅猛发展,信息检索已经成为人们获取信息不可缺少的工具。基于向量空间模型的检索方法是语义检索的重要研究方向,潜在语义标引模型是向量检索方法的一个有力扩展。对LSI中所涉及的关键技术,包括传统的向量空间模型的原理,以及潜在语义索引模型的原理、设计、实现,进行了研究和探讨,同时开发了一个适合中文信息检索的系统原型。对系统进行了测试,取得了较好的实验效果。 展开更多
关键词 潜在语义标引 向量空间模型 信息检索 中文
下载PDF
TCBLSA:一种中文文本聚类新方法 被引量:15
9
作者 王国勇 徐建锁 《计算机工程》 CAS CSCD 北大核心 2004年第5期21-22,37,共3页
根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异... 根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度。 展开更多
关键词 文本聚类 隐含语义分析 奇异值分解 向量空间模型
下载PDF
基于语义理解的智能搜索引擎研究 被引量:13
10
作者 陈林 杨丹 赵俊芹 《计算机科学》 CSCD 北大核心 2008年第6期152-154,共3页
本文提出了一种基于自然语言理解的搜索引擎模型。它的核心技术是基于自然语言理解的相关技术,包括从关键词、提问方式、提问重点三个层次对用户查询进行语义分析、特征向量提取及基于该思想建立了面向Web网页内容的特征库,提出返回文... 本文提出了一种基于自然语言理解的搜索引擎模型。它的核心技术是基于自然语言理解的相关技术,包括从关键词、提问方式、提问重点三个层次对用户查询进行语义分析、特征向量提取及基于该思想建立了面向Web网页内容的特征库,提出返回文档排序的算法,基于Lucene全文索引工具包建立了搜索引擎,对库中已收入的特征词进行了查询测试,查准率为86.7%。实验表明,该模型基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果。 展开更多
关键词 自然语言处理 分词 语义分析 向量空间模型
下载PDF
基于领域本体的语义向量空间模型 被引量:15
11
作者 唐明伟 卞艺杰 陶飞飞 《情报学报》 CSSCI 北大核心 2011年第9期951-955,共5页
经典向量空间模型中关键词相互独立的基本假设,造成了检索性能的限制。针对这一问题,本文介绍并分析了国内外学者对经典向量空间模型提出的改进研究。针对其研究的不足,通过分析经典向量空间模型的特点,构建领域本体以建立向量空间模型... 经典向量空间模型中关键词相互独立的基本假设,造成了检索性能的限制。针对这一问题,本文介绍并分析了国内外学者对经典向量空间模型提出的改进研究。针对其研究的不足,通过分析经典向量空间模型的特点,构建领域本体以建立向量空间模型中关键词之间的语义联系,通过计算关键词之间的语义相似度,提出语义增量的概念,对关键词之间的语义联系进行量化分析。结合语义增量,对TF-IDF算法进行了改进,提出了STF-IDF算法,据此建立了语义向量空间模型,以期待提高经典向量空间模型在语义检索方面的性能。最后用实例验证了该模型在查全率和查准率方面均要优于原模型。 展开更多
关键词 领域本体 语义相似度 向量空间模型 TF-IDF 语义增量
下载PDF
微博突发话题检测方法研究 被引量:13
12
作者 邱云飞 程亮 《计算机工程》 CAS CSCD 2012年第9期288-290,共3页
话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义... 话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义的空间向量模型,使用Single-Pass聚类算法思想对其加以改进,生成最终聚类。实验结果表明,该算法能获得较准确的突发话题检测结果。 展开更多
关键词 微博 突发话题 滑动窗口 语义相似度 空间向量模型 话题检测与跟踪
下载PDF
基于LSI和自组织神经网络的高效文本聚类方法 被引量:7
13
作者 徐建锁 王正欧 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2004年第11期1026-1030,共5页
根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的... 根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的文本特征向量来说,聚类速度很低;该方法应用LSI理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,克服了自组织神经网络的聚类缺陷,提高了文本聚类的精度和速度. 展开更多
关键词 文本聚类 隐含语义索引 奇异值分解 自组织神经网络 向量空间模型
下载PDF
中英文双语交叉过滤的逻辑模型 被引量:9
14
作者 林鸿飞 李业丽 姚天顺 《计算机工程与应用》 CSCD 北大核心 2000年第8期48-50,共3页
文章简要地描述了文本过滤的背景,提出了基于潜在语义索引的中英文双语交叉过滤的逻辑模型。其基本思想是改进双语交叉过滤中基于词汇对译的方法,而是利用双语文本中潜在的语义结构,作为用户模板与文本匹配的基础。将出现的双语词汇... 文章简要地描述了文本过滤的背景,提出了基于潜在语义索引的中英文双语交叉过滤的逻辑模型。其基本思想是改进双语交叉过滤中基于词汇对译的方法,而是利用双语文本中潜在的语义结构,作为用户模板与文本匹配的基础。将出现的双语词汇和文本映射为语义空间的向量,不必翻译对译词,甚至不需要出现相应的对译词,也能匹配成功,极大地改善了交叉过滤的精度,效果良好。 展开更多
关键词 中英文双语交叉过滤 用户模板 逻辑模型
下载PDF
基于问句语料库的受限领域自动应答系统 被引量:5
15
作者 余正涛 樊孝忠 宋丽哲 《计算机工程与应用》 CSCD 北大核心 2003年第36期28-30,86,共4页
自动应答系统中对用户所提问句的理解是系统实现的关键,同样也是一个难点,通过在受限领域内建立问句语料库来协助理解用户问句是一种非常有效的实现方法。文章分析了建行领域业务咨询系统的问句收集、分词和词性标注、语义标注、问句语... 自动应答系统中对用户所提问句的理解是系统实现的关键,同样也是一个难点,通过在受限领域内建立问句语料库来协助理解用户问句是一种非常有效的实现方法。文章分析了建行领域业务咨询系统的问句收集、分词和词性标注、语义标注、问句语料统计等问句语料库的建设过程,并详细介绍了采用词向量空间法和语义向量空间法从问句语料库中寻找和目标问句相似问句的计算方法及提取答案的实现过程。 展开更多
关键词 自然语言处理 问句语料库 自动应答系统 问句语义标注
下载PDF
支持语义的P2P搜索研究 被引量:7
16
作者 王志晓 张大陆 +1 位作者 刘雷 姚传茂 《计算机工程与应用》 CSCD 北大核心 2007年第3期8-11,共4页
传统的P2P系统基于单特征词搜索,且不支持语义,有一定的局限性。向量空间模型VSM技术的应用解决了P2P系统中多特征词搜索的问题;标识符空间的分割,使相似文档在邻近的节点范围内聚集,提高了搜索的速度;语义思想的应用,使P2P系统能够理... 传统的P2P系统基于单特征词搜索,且不支持语义,有一定的局限性。向量空间模型VSM技术的应用解决了P2P系统中多特征词搜索的问题;标识符空间的分割,使相似文档在邻近的节点范围内聚集,提高了搜索的速度;语义思想的应用,使P2P系统能够理解搜索请求,有利于检索性能,特别是查全率的提高。仿真实验的结果表明:实现了多特征词的搜索;搜索收敛的速度较快;支持语义,检索性能得到了提高;节点达到了较好的负载平衡。 展开更多
关键词 对等网 语义 多特征词搜索 向量空间模型 负载平衡
下载PDF
基于潜在语义索引的中文文本聚类的研究 被引量:4
17
作者 马国俊 贠卫国 《现代电子技术》 2005年第10期58-59,共2页
讨论了中文文本聚类的现状以及存在的问题,介绍了向量空间模型,详细阐述了潜在语义索引理论以及采用该模型进行中文文本聚类的主要步骤,最后采用两种模型进行了实验对比,实验表明采用潜在语义索引模型可以取得更好的聚类效果。
关键词 文本聚类 潜在语义索引 向量空间模型 信息检索
下载PDF
自动文摘系统中的段落自适应聚类研究 被引量:6
18
作者 刘海涛 老松杨 韩智广 《微计算机信息》 北大核心 2006年第06X期288-291,共4页
提出一种使用段落自动聚类思想的自动文摘方法,首先利用词频统计和词的位置特征得到文档的关键词向量、每个段落的关键词向量,并建立以段落为基础的向量空间模型;然后计算各段落间的相似度,采用K-medoids聚类算法实现文档语义段的划分,... 提出一种使用段落自动聚类思想的自动文摘方法,首先利用词频统计和词的位置特征得到文档的关键词向量、每个段落的关键词向量,并建立以段落为基础的向量空间模型;然后计算各段落间的相似度,采用K-medoids聚类算法实现文档语义段的划分,并通过一个自定义的目标函数来自适应的确定聚类数目K;最后根据在初始文档中的位置顺序从各语义段中选出与主题最相关的句子构成文摘。 展开更多
关键词 自动文摘 语义段划分 向量空间模型 聚类 K-medoids
下载PDF
RDAQAS中问句相似度计算方法研究 被引量:4
19
作者 余正涛 高盛祥 纪鹏程 《昆明理工大学学报(理工版)》 2004年第2期40-44,71,共6页
在受限领域自动应答系统 (RDAQAS)中 ,以“知网”和领域本体库为基础 ,计算目标问句和问句语料库中问句的相似度 ,从中寻找最相近问句 ,最终提取答案的方式 ,是一种很实用的自动应答实现模式 .文中介绍了金融领域本体库、问句语料库等... 在受限领域自动应答系统 (RDAQAS)中 ,以“知网”和领域本体库为基础 ,计算目标问句和问句语料库中问句的相似度 ,从中寻找最相近问句 ,最终提取答案的方式 ,是一种很实用的自动应答实现模式 .文中介绍了金融领域本体库、问句语料库等语义资源的构建方法 ,提出了基于关键词空间向量模型和基于语义概念空间向量模型的问句相似度计算方法 ,并对其实现过程进行了详细描述 。 展开更多
关键词 RDAQAS 计算方法 受限领域自动应答系统 问句相似度 语义相似度 领域本体库 空间向量模型 “知网”
下载PDF
基于SVSM的装备故障案例相似度匹配算法 被引量:7
20
作者 邓兴宇 胡双演 +2 位作者 李钊 隋中山 孙登会 《无线电工程》 2016年第2期31-35,共5页
分析和总结了电子防护装备故障案例的特点,设计了电子防护装备故障诊断的领域本体。利用本体在表示案例时所体现的语义关联信息,提出了基于领域本体的语义特征向量空间模型(Semantic Vector Space Model,SVSM),弥补了传统的向量空间模... 分析和总结了电子防护装备故障案例的特点,设计了电子防护装备故障诊断的领域本体。利用本体在表示案例时所体现的语义关联信息,提出了基于领域本体的语义特征向量空间模型(Semantic Vector Space Model,SVSM),弥补了传统的向量空间模型在描述故障特征项语义关联度时忽略了文档词条的位置和结构因素的缺陷。引入自定义权值的语义特征项标志位,提出了一种改进的基于案例推理的电子防护装备故障诊断算法,提高了SVSM各维度值的准确性和相似度匹配算法的自由度。通过实验,验证了算法的有效性和可靠性。 展开更多
关键词 案例推理 故障诊断 领域本体 语义向量空间模型 相似度匹配 电子防护系统
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部