期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于潜在语义的多类文本分类模型研究 被引量:18
1
作者 叶浩 王明文 曾雪强 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1818-1822,共5页
在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型。因此,提出一种基于潜在语义的多类分类模型。该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保... 在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型。因此,提出一种基于潜在语义的多类分类模型。该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保留下来。其结果是既能较好地解决文档中同义词和多义词的问题,又能解决多类属分类问题,并且能够探测到新类。在R eu ters文档集上的实验表明,在维数较低的情况下,分类效果比较好,性能比较稳定。 展开更多
关键词 多类分类 潜在语义 潜在语义分类 偏最小二乘
原文传递
基于文本的内容过滤算法的比较 被引量:11
2
作者 何静 刘海燕 张惠民 《计算机工程》 CAS CSCD 北大核心 2002年第11期9-10,113,共3页
内容过滤技术在信息检索技术的基础上发展起来,并逐渐形成了自身的理论体系。文章总结了目前常用的几种内容过滤算法,并对它们的优缺点进行了分析和比较,为不同领域采用适当的内容过滤算法提供了思路。
关键词 文本 内容过滤算法 潜在语义索引 神经网络 用户模板 信息查询 网络安全 计算机网络
下载PDF
基于潜在语义索引和遗传算法的文本特征提取方法 被引量:16
3
作者 郝占刚 王正欧 《情报科学》 CSSCI 北大核心 2006年第1期104-107,共4页
本文采用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取。在采用潜在语义索引将语义关系体现在VSM(Vector Space Model)中,通过奇异值分解(SVD,Singular Value De-composition)可以有效地降低向量空间的维数,但通过维数约简后的文... 本文采用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取。在采用潜在语义索引将语义关系体现在VSM(Vector Space Model)中,通过奇异值分解(SVD,Singular Value De-composition)可以有效地降低向量空间的维数,但通过维数约简后的文本特征仍要保持在数百维左右,因此本文采用遗传算法在此基础上继续降维。实验结果表明,这两种方法结合可以极大的降低文本向量空间的维数,并能提高分类准确率。 展开更多
关键词 特征提取 潜在语义索引 遗传算法 KOHONEN网络
下载PDF
中文文本的可视化表示 被引量:7
4
作者 林鸿飞 高天 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2000年第5期501-504,共4页
由于辅助阅读的需求 ,给出了中文文本的可视化表示 ,以直观的方式逐级显示文本内容·其基本思想是 :利用潜在语义索引的方法 ,改进文本分类的效果·利用文本层次分析方法 ,进行文本结构分解 ,给出了文本结构中各单元的标记信息 ... 由于辅助阅读的需求 ,给出了中文文本的可视化表示 ,以直观的方式逐级显示文本内容·其基本思想是 :利用潜在语义索引的方法 ,改进文本分类的效果·利用文本层次分析方法 ,进行文本结构分解 ,给出了文本结构中各单元的标记信息 ,由此形成了文本的可视化表示·利用文本类别、文本主题、层次、段落的超文本连接和特征项的导航功能 ,帮助用户有目的、有选择地浏览文本 。 展开更多
关键词 文本层次分析 文本可视化表示 向量空间模型 文本分类 潜在语义索引
下载PDF
一种文本挖掘和文献计量的科技论文评估方法 被引量:13
5
作者 王莉军 姚长青 刘志辉 《情报科学》 CSSCI 北大核心 2019年第5期66-70,共5页
【目的/意义】随着我国科技水平的不断提升,越来越多的科研人员致力于研究如何客观有效地评估科技论文的质量。【方法/过程】本文提出了基于文本挖掘和文献计量的科技论文评估方法,该方法首先利用论文的引用频率计算得到训练论文的质量... 【目的/意义】随着我国科技水平的不断提升,越来越多的科研人员致力于研究如何客观有效地评估科技论文的质量。【方法/过程】本文提出了基于文本挖掘和文献计量的科技论文评估方法,该方法首先利用论文的引用频率计算得到训练论文的质量,其次分别使用LSI和LDA方法来计算新论文和训练论文之间的相似度,设计论文质量评估算法,根据训练论文的质量和论文间的相似度加权计算得到新论文的质量评价值。【结果/结论】在涉及多主题和单一主题的数据集上的实验结果表明,本文提出的方法能够适用于包含多个主题的论文集,其计算出来的论文质量值真实有效。 展开更多
关键词 科技论文 潜在语义索引 主题模型
原文传递
基于LSI和自组织神经网络的高效文本聚类方法 被引量:7
6
作者 徐建锁 王正欧 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2004年第11期1026-1030,共5页
根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的... 根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的文本特征向量来说,聚类速度很低;该方法应用LSI理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,克服了自组织神经网络的聚类缺陷,提高了文本聚类的精度和速度. 展开更多
关键词 文本聚类 隐含语义索引 奇异值分解 自组织神经网络 向量空间模型
下载PDF
基于潜在语义索引的中文文本聚类的研究 被引量:4
7
作者 马国俊 贠卫国 《现代电子技术》 2005年第10期58-59,共2页
讨论了中文文本聚类的现状以及存在的问题,介绍了向量空间模型,详细阐述了潜在语义索引理论以及采用该模型进行中文文本聚类的主要步骤,最后采用两种模型进行了实验对比,实验表明采用潜在语义索引模型可以取得更好的聚类效果。
关键词 文本聚类 潜在语义索引 向量空间模型 信息检索
下载PDF
基于核方法的潜在语义文本分类模型 被引量:4
8
作者 罗远胜 王明文 曾雪强 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1853-1856,共4页
在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳。而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高。为了提高分类性能,通过引入核函数,给出... 在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳。而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高。为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型。该模型比LSC模型能更好地表示文档空间的潜在语义结构信息。在R eu ter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能。 展开更多
关键词 文本分类 核方法 潜在语义索引 偏最小二乘分析 核偏最小二乘分析
原文传递
基于隐性语义索引的多标签文本分类集成方法 被引量:6
9
作者 龚静 黄欣阳 《计算机工程与设计》 北大核心 2017年第9期2556-2561,共6页
针对多标签文本分类的概念歧义和底层语意结构问题,提出一种集成分类方法,将随机森林(RF)算法和隐性语义索引(LSI)有机结合在一起。通过词汇的随机分割增加集成的多样性,获得低维隐性语义空间的不同正交投影,在低维空间的正交投影基础... 针对多标签文本分类的概念歧义和底层语意结构问题,提出一种集成分类方法,将随机森林(RF)算法和隐性语义索引(LSI)有机结合在一起。通过词汇的随机分割增加集成的多样性,获得低维隐性语义空间的不同正交投影,在低维空间的正交投影基础上执行LSI。随机森林可以有效解决二进制分类问题,隐性语义揭示了文本的底层语义结构,两者结合可代表群体的多样性和个体准确性。Yahoo数据集上的实验结果验证了该方法的有效性,其在汉明损失、覆盖度、首位误差和平均精度方面优于其它方法。 展开更多
关键词 文本分类 随机森林 多标签 正交投影 隐性语义索引
下载PDF
潜在语义索引在FAQ构建中的应用研究 被引量:3
10
作者 李霞 张太红 李莉 《石河子大学学报(自然科学版)》 CAS 2005年第6期778-781,共4页
研究了潜在语义索引在中文自动问答系统FAQ库构建中的应用,并着重阐述了句子相似度的计算方法以及使用LSI对FAQ库去重的实验选取方法,结果显示LSI方法在一定程度上优于TF×IDF方法。
关键词 自动问答 FAQ 潜在语义索引 句子相似度
下载PDF
一种改进的基于潜在语义索引的文本聚类算法 被引量:3
11
作者 侯泽民 巨筱 《计算机与现代化》 2014年第7期24-27,共4页
提出一种改进的基于潜在语义索引的文本聚类算法。算法引入潜在语义索引理论,改进传统的SOM算法。用潜在语义索引理论表示文本特征向量,挖掘文本中词与词之间隐藏的语义结构关系,从而消除词语之间的相关性,实现特征向量的降维。改进传统... 提出一种改进的基于潜在语义索引的文本聚类算法。算法引入潜在语义索引理论,改进传统的SOM算法。用潜在语义索引理论表示文本特征向量,挖掘文本中词与词之间隐藏的语义结构关系,从而消除词语之间的相关性,实现特征向量的降维。改进传统的SOM算法的局限性,准确给出聚类类别数目的值。实验结果表明,本算法的聚类效果更好,聚类时间更少。 展开更多
关键词 文本聚类 潜在语义索引 自组织映射
下载PDF
P2P信息检索技术浅析 被引量:3
12
作者 张彬 蒋涛 《重庆工学院学报》 2007年第11期117-121,共5页
目前P2P网络中的资源发现已经成为一个重要的研究课题.对P2P网络常见的几种搜索方法进行了介绍,包括非结构性的搜索方法和结构性的搜索方法,对这些方法的负载平衡、路由策略等进行了讨论,分析了P2P网络的体系结构及其搜索策略,以及P2P... 目前P2P网络中的资源发现已经成为一个重要的研究课题.对P2P网络常见的几种搜索方法进行了介绍,包括非结构性的搜索方法和结构性的搜索方法,对这些方法的负载平衡、路由策略等进行了讨论,分析了P2P网络的体系结构及其搜索策略,以及P2P网络信息搜索的关键技术. 展开更多
关键词 对等网络 分布式哈希表 向量空间模型 潜在语义索引
下载PDF
基于潜在语义差异的医学网页聚类 被引量:2
13
作者 米晓芳 秦洋 +1 位作者 王立宏 宋宜斌 《计算机工程》 CAS CSCD 北大核心 2008年第19期64-66,共3页
采用潜在语义索引的全局模型和局部模型表示医学网页时,模糊聚类结果的类间包含度很大。该文提出一种新的潜在语义差异模型,将医学网页中的文本抽取出来并分别采用全局模型、局部模型和差异模型进行表示,利用FCM算法进行聚类并计算类间... 采用潜在语义索引的全局模型和局部模型表示医学网页时,模糊聚类结果的类间包含度很大。该文提出一种新的潜在语义差异模型,将医学网页中的文本抽取出来并分别采用全局模型、局部模型和差异模型进行表示,利用FCM算法进行聚类并计算类间包含度。实验发现,对给定的5类医学网页进行聚类时,采用差异模型时的类间包含度平均约为全局模型的85%、局部模型的80%。 展开更多
关键词 潜在语义索引 差异模型 文本挖掘 FCM聚类 包含度
下载PDF
泛娱乐情报主题的感知研究 被引量:2
14
作者 于汝意 刘秀磊 +2 位作者 刘旭红 张良 王延飞 《北京信息科技大学学报(自然科学版)》 2020年第2期58-61,共4页
针对泛娱乐情报存在繁杂、异构、信息量较少的特点以及传统主题发现方法感知结果准确率低等问题,提出了一种基于潜在语义索引结合常识知识库的泛娱乐情报主题感知方法。根据泛娱乐情报的语料特征,首先在预处理阶段采用HowNet知识库进行... 针对泛娱乐情报存在繁杂、异构、信息量较少的特点以及传统主题发现方法感知结果准确率低等问题,提出了一种基于潜在语义索引结合常识知识库的泛娱乐情报主题感知方法。根据泛娱乐情报的语料特征,首先在预处理阶段采用HowNet知识库进行语义去重、同义词合并,形成文本向量作为潜在语义索引模型的输入;然后通过潜在语义索引模型,对泛娱乐情报进行主题感知。该方法是主题模型在泛娱乐领域情报分析中的一次尝试,具有一定的实践意义。 展开更多
关键词 情报感知 潜在语义索引 HOWNET 文本挖掘
下载PDF
集成概念空间与潜在语义索引的文本聚类检索研究 被引量:2
15
作者 韩毅 张克菊 金碧辉 《情报理论与实践》 CSSCI 北大核心 2009年第6期102-105,共4页
信息环境的异构性、动态性与海量性使传统基于自然文本的信息检索方法与技术面临极大挑战,集成概念空间理论与潜在语义索引技术能为这种困境提供一些解决方案。在分析概念空间内涵与特征的基础上,利用潜在语义索引原理讨论了概念提取方... 信息环境的异构性、动态性与海量性使传统基于自然文本的信息检索方法与技术面临极大挑战,集成概念空间理论与潜在语义索引技术能为这种困境提供一些解决方案。在分析概念空间内涵与特征的基础上,利用潜在语义索引原理讨论了概念提取方法、同义词近义词处理方法及基准向量的生成方法,分析了网络条件下基于概念空间的文本分类、聚类检索基本机制,最后给出了完善概念空间的自学习机制。 展开更多
关键词 概念空间 潜在语义索引 文本检索 聚类检索
原文传递
基于文档实例的中文信息检索 被引量:2
16
作者 周水庚 关佶红 胡运发 《计算机工程与应用》 CSCD 北大核心 2000年第10期14-16,29,共4页
传统的信息检索系统基于关键词建立索引并进行信息检索.这些系统存在查询返回文档集大、准确率低和普通用户不便于构造查询等不足.为此,该文提出基于文档实例的信息检索,即以已有文档作为样本,在文档库中检索与样本文档相似的所有文档.... 传统的信息检索系统基于关键词建立索引并进行信息检索.这些系统存在查询返回文档集大、准确率低和普通用户不便于构造查询等不足.为此,该文提出基于文档实例的信息检索,即以已有文档作为样本,在文档库中检索与样本文档相似的所有文档.文中给出了基于文档实例的中文信息检索的解决方法和实现技术.初步实验结果表明该方法是行之有效的. 展开更多
关键词 中文信息检索 文本分类 隐含语义索引 文档实例
下载PDF
基于潜在语义索引的Wikidata机构实体聚类研究 被引量:2
17
作者 贾君枝 叶壮壮 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第10期56-65,共10页
【目的】Wikidata机构类目范畴树中,存在实例数目过多而使类目的外延过大、不能明确指示及类分资源的问题。为系统化机构名称层级体系,需将这些实例进行划分,使其均衡分布在机构范畴树的各层。【方法】将无监督的层次聚类算法用于解决... 【目的】Wikidata机构类目范畴树中,存在实例数目过多而使类目的外延过大、不能明确指示及类分资源的问题。为系统化机构名称层级体系,需将这些实例进行划分,使其均衡分布在机构范畴树的各层。【方法】将无监督的层次聚类算法用于解决无类别标签的机构实例的自动聚簇问题。为消除机构实体名称中特征词共现对聚类算法的影响,引入Wikidata中机构实体的相关属性作为其上下文环境。同时聚类算法对数据的维度十分敏感,因此采用潜在语义索引作为文本表示模型,通过奇异值分解将高维数据映射到潜在的低维语义空间。【结果】本文方法在实验数据集上的聚类准确率达到87.3%,取得了较好的聚类效果。【局限】仅在小样本数据集上进行验证。【结论】为机构名称提供上下文环境有利于同类机构的聚集,基于潜在语义索引模型的层次聚类算法对于高维度的文本聚类问题是有效的。 展开更多
关键词 机构实体聚类 潜在语义索引 层次聚类 Wikidata
原文传递
隐含语义索引在农业技术问答系统中的应用 被引量:1
18
作者 魏保子 王儒敬 《微电子学与计算机》 CSCD 北大核心 2008年第7期48-51,共4页
利用隐含语义索引技术设计了一个问答系统,在系统中利用隐含语义索引理论进行查询问题和数据库中的候选问题的相似度计算.主要是通过构造一个语义矩阵,进行奇异值分解消除"噪音"进行实现的.这样更清晰地表示出了词之间的语义... 利用隐含语义索引技术设计了一个问答系统,在系统中利用隐含语义索引理论进行查询问题和数据库中的候选问题的相似度计算.主要是通过构造一个语义矩阵,进行奇异值分解消除"噪音"进行实现的.这样更清晰地表示出了词之间的语义相关性,使本系统可以接受被自然语言描述的问题.最后,对整个系统进行实验测试并对测试结果进行了分析,发现本系统比一般的基于VSM等方法实现的系统表现出了明显的优势. 展开更多
关键词 隐含语义索引 问答系统 语义计算 向量空间模型 相似度
下载PDF
一种扩展的向量空间模型-隐含语义索引模型研究
19
作者 张玉连 张敏 张波 《燕山大学学报》 CAS 2006年第1期87-90,共4页
在深入分析向量空间模型基础上,对其进行扩展,设计了一种隐含语义索引模型LSI。LSI通过奇异值分解,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度。理论分析证明,隐含语义索引模型具有更准确的文档语义内容的... 在深入分析向量空间模型基础上,对其进行扩展,设计了一种隐含语义索引模型LSI。LSI通过奇异值分解,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度。理论分析证明,隐含语义索引模型具有更准确的文档语义内容的表达能力,能够取得更好的检索效果。 展开更多
关键词 向量空间模型 隐含语义索引 信息检索
下载PDF
隐含语义索引在吉林省农业知识问答系统中的应用
20
作者 肖艳华 王青蓝 +1 位作者 毕业莉 万发仁 《湖北农业科学》 北大核心 2011年第13期2740-2742,共3页
为了解决现有农业知识问答系统功能及业务流程中存在的一些问题,将隐含语义索引技术应用于吉林省农业知识问答系统中。该技术可以增强或消减词语在文档中语义的影响力,使文档之间的语义关系更为明晰,在一定程度上实现了自然语言检索,消... 为了解决现有农业知识问答系统功能及业务流程中存在的一些问题,将隐含语义索引技术应用于吉林省农业知识问答系统中。该技术可以增强或消减词语在文档中语义的影响力,使文档之间的语义关系更为明晰,在一定程度上实现了自然语言检索,消除了词语同义性和多义性所造成的影响,从而取得更好的检索效果。 展开更多
关键词 隐含语义索引 吉林省 农业知识 问答系统
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部