期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
A Two-Stage Feature Selection Method for Text Categorization by Using Category Correlation Degree and Latent Semantic Indexing 被引量:2
1
作者 王飞 李彩虹 +2 位作者 王景山 徐娇 李廉 《Journal of Shanghai Jiaotong university(Science)》 EI 2015年第1期44-50,共7页
With the purpose of improving the accuracy of text categorization and reducing the dimension of the feature space,this paper proposes a two-stage feature selection method based on a novel category correlation degree(C... With the purpose of improving the accuracy of text categorization and reducing the dimension of the feature space,this paper proposes a two-stage feature selection method based on a novel category correlation degree(CCD)method and latent semantic indexing(LSI).In the first stage,a novel CCD method is proposed to select the most effective features for text classification,which is more effective than the traditional feature selection method.In the second stage,document representation requires a high dimensionality of the feature space and does not take into account the semantic relation between features,which leads to a poor categorization accuracy.So LSI method is proposed to solve these problems by using statistically derived conceptual indices to replace the individual terms which can discover the important correlative relationship between features and reduce the feature space dimension.Firstly,each feature in our algorithm is ranked depending on their importance of classification using CCD method.Secondly,we construct a new semantic space based on LSI method among features.The experimental results have proved that our method can reduce effectively the dimension of text vector and improve the performance of text categorization. 展开更多
关键词 text categorization feature selection latent semantic indexing(lsi) category correlation degree(CCD)
原文传递
基于潜在语义索引的文本特征词权重计算方法 被引量:17
2
作者 李媛媛 马永强 《计算机应用》 CSCD 北大核心 2008年第6期1460-1462,1466,共4页
潜在语义索引具有可计算性强,需要人参与少等优点。对其中重要的优化过程——权重计算,进行了深入分析。针对目前应用最广泛的TF-IDF方法中,采用线性处理的不合理性以及难以突出对文本内容起关键性作用的特征的缺点,提出了一种基于"... 潜在语义索引具有可计算性强,需要人参与少等优点。对其中重要的优化过程——权重计算,进行了深入分析。针对目前应用最广泛的TF-IDF方法中,采用线性处理的不合理性以及难以突出对文本内容起关键性作用的特征的缺点,提出了一种基于"Sigmiod函数"和"位置因子"的新权重方案。突出了文本中不同特征词的重要程度,更有利于潜在语义空间的构造。通过实验平台"中文潜在语义索引分析系统"的测试结果表明,该权重方法更利于基于潜在语义的检索性能的提高。 展开更多
关键词 潜在语义索引 Sigmiod函数 位置因子 权重算法
下载PDF
潜在语义标引在中文信息检索中的研究与实现 被引量:16
3
作者 居斌 《计算机工程》 CAS CSCD 北大核心 2007年第5期193-196,共4页
随着网络信息的迅猛发展,信息检索已经成为人们获取信息不可缺少的工具。基于向量空间模型的检索方法是语义检索的重要研究方向,潜在语义标引模型是向量检索方法的一个有力扩展。对LSI中所涉及的关键技术,包括传统的向量空间模型的原理... 随着网络信息的迅猛发展,信息检索已经成为人们获取信息不可缺少的工具。基于向量空间模型的检索方法是语义检索的重要研究方向,潜在语义标引模型是向量检索方法的一个有力扩展。对LSI中所涉及的关键技术,包括传统的向量空间模型的原理,以及潜在语义索引模型的原理、设计、实现,进行了研究和探讨,同时开发了一个适合中文信息检索的系统原型。对系统进行了测试,取得了较好的实验效果。 展开更多
关键词 潜在语义标引 向量空间模型 信息检索 中文
下载PDF
基于非负矩阵分解的隐含语义图像检索 被引量:7
4
作者 梁栋 杨杰 +1 位作者 卢进军 常宇畴 《上海交通大学学报》 EI CAS CSCD 北大核心 2006年第5期787-790,共4页
提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的隐含语义索引(Latent Semantic Indexing,LSI)模型用于图像检索.应用NMF训练算法构造了一个语义空间,将查询图像和原型图像都投影到该空间以获得语义特征,在此空... 提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的隐含语义索引(Latent Semantic Indexing,LSI)模型用于图像检索.应用NMF训练算法构造了一个语义空间,将查询图像和原型图像都投影到该空间以获得语义特征,在此空间中进行相似性的度量并将距离最近的图像返回给用户.与已有两种检索模型的实验结果对比表明,所提出模型是有效的. 展开更多
关键词 图像检索 隐含语义索引 非负矩阵分解 奇异值分解 语义空间
下载PDF
ChIN化学化工资源导航系统的新进展 被引量:10
5
作者 李晓霞 郭力 +4 位作者 杨宏伟 陈越 李新宇 王华彦 杨章远 《计算机与应用化学》 CAS CSCD 北大核心 2002年第1期139-143,共5页
Internet化学化工资源导航系统ChIN已经被公认为国内最有影响的Internet化学化工资源导航站点,也受到国际同行的肯定和关注。本文从ChIN的最新版本及其专门管理工具ChIN-Manager,基于概念的自然语言检索方法一隐含语义检索ISI应用于ChI... Internet化学化工资源导航系统ChIN已经被公认为国内最有影响的Internet化学化工资源导航站点,也受到国际同行的肯定和关注。本文从ChIN的最新版本及其专门管理工具ChIN-Manager,基于概念的自然语言检索方法一隐含语义检索ISI应用于ChIN的研究、将ChIN无缝集成到化学化工虚拟社区平台的尝试3个方面来介绍ChIN在最近两年内的新进展。 展开更多
关键词 CHIN INTERNET 化学化工资源导航系统 隐含语义检索lsi 虚拟社区 数据库
原文传递
一种大规模数据的快速潜在语义索引 被引量:10
6
作者 卫威 王建民 《计算机工程》 CAS CSCD 北大核心 2009年第15期35-37,40,共4页
潜在语义索引(LSI)已应用到现代信息检索的多个领域,但矩阵奇异值分解的高复杂度阻碍了该技术在大规模数据上的应用。提出一种大规模数据的快速LSI方法。给出一个降维问题的统一框架,LSI作为一种特征提取算法,可以在这个框架下转化为一... 潜在语义索引(LSI)已应用到现代信息检索的多个领域,但矩阵奇异值分解的高复杂度阻碍了该技术在大规模数据上的应用。提出一种大规模数据的快速LSI方法。给出一个降维问题的统一框架,LSI作为一种特征提取算法,可以在这个框架下转化为一个特征选择问题。利用该技术在最大程度保持LSI降维效果的同时,简化LSI的计算,使其能够应用于大规模数据。 展开更多
关键词 潜在语义索引 降维 特征选择 特征提取
下载PDF
基于概念空间的文本分类研究 被引量:3
7
作者 黄海英 林士敏 严小卫 《计算机科学》 CSCD 北大核心 2003年第3期46-49,共4页
Following the expanding of VSM and LSI, a text classification based on Concept Space is proposed in thispaper. Information gaining is applied to acquire concepts based on large training set. Concept Space is built by ... Following the expanding of VSM and LSI, a text classification based on Concept Space is proposed in thispaper. Information gaining is applied to acquire concepts based on large training set. Concept Space is built by acquir-ing latent semantic indexing data, building a latent semantic space by LSI, and then adding the class-basis vector. Thecalculating method of the word-similarity, the text-similarity, the similarity of the text vector and the class-basis vec-tor in Concept Space are presented. Experiment results show the Concept Space method is superior to Vector SpaceModel. This paper also discusses the future work the problem of concept space learning. 展开更多
关键词 概念空间 文本分类 INTERNET 知识库 信息增益
下载PDF
适用于P2P的系统查询扩展优化方法 被引量:5
8
作者 曹华梁 朱星 俞勇 《上海交通大学学报》 EI CAS CSCD 北大核心 2005年第10期1706-1710,共5页
P2P系统中,各种文本文档是很重要的共享资源,而传统的信息检索技术无法在此复杂系统中获得良好的效果.通过对隐含语义索引的分析,提出了语义双重查询扩展(SDQE)的方法,它利用各个peer上文档集提供的隐式反馈,通过比较查询的上下文信息,... P2P系统中,各种文本文档是很重要的共享资源,而传统的信息检索技术无法在此复杂系统中获得良好的效果.通过对隐含语义索引的分析,提出了语义双重查询扩展(SDQE)的方法,它利用各个peer上文档集提供的隐式反馈,通过比较查询的上下文信息,发现用户的隐含偏好,从而找出最符合用户查询需求的文档.实验证明,SDQE是可行的,并能有效地提高P2P系统中文本检索性能. 展开更多
关键词 查询优化 语义双重查询扩展 隐含语义索引 P2P系统
下载PDF
使用基于SVM的局部潜在语义索引进行文本分类 被引量:4
9
作者 张秋余 刘洋 《计算机应用》 CSCD 北大核心 2007年第6期1382-1384,共3页
潜在语义索引(LSI)通过奇异值分解(SVD)获得原始词—文档矩阵的潜在语义结构,在一定程度上解决了一词多义和多词一义问题。但目前文本分类中使用LSI方法的效果并不理想,这是因为没有充分考虑分类信息。为解决该问题,提出一种改进的局部... 潜在语义索引(LSI)通过奇异值分解(SVD)获得原始词—文档矩阵的潜在语义结构,在一定程度上解决了一词多义和多词一义问题。但目前文本分类中使用LSI方法的效果并不理想,这是因为没有充分考虑分类信息。为解决该问题,提出一种改进的局部潜在语义索引(LLSI)方法,使用支持向量机(SVM)来产生局部区域。实验结果表明,该方法是有效的。 展开更多
关键词 文本分类 潜在语义索引 支持向量机 局部区域
下载PDF
基于非负矩阵分解的中文文本主题分类 被引量:3
10
作者 张磊 冯晓森 项学智 《计算机工程》 CAS CSCD 北大核心 2009年第13期26-27,54,共3页
提出基于非负矩阵分解(NMF)的中文文本主题分类方法,应用NMF算法分解词-文本矩阵获取词之间的相关性,有效地解决同义词、多义词的影响。实验结果表明,与基于奇异值分解的潜在语义索引方法相比,该方法计算速度快、占用存储空间较少。在... 提出基于非负矩阵分解(NMF)的中文文本主题分类方法,应用NMF算法分解词-文本矩阵获取词之间的相关性,有效地解决同义词、多义词的影响。实验结果表明,与基于奇异值分解的潜在语义索引方法相比,该方法计算速度快、占用存储空间较少。在潜在语义数据降低较大的情况下,NMF方法具有更好的分类精度。 展开更多
关键词 主题分类 非负矩阵分解 潜在语义索引
下载PDF
基于语义的中文信息检索技术分析与研究
11
作者 王春红 《现代计算机》 2008年第10期54-56,共3页
对隐含语义索引模型在中文文本检索中的应用进行分析,证明了隐含语义索引模型通过挖掘文本和词汇之间的隐含关系较好地实现了语义检索,指出所存在的问题和进一步研究的方向。
关键词 隐含语义索引(lsi) 信息检索 SVD 时间效率
下载PDF
面向儿科医学试题的答案解析自动推荐方法研究
12
作者 王娟 侯丽 +4 位作者 孙月萍 李佳明 杨丽 董良广 李云汉 《医学信息学杂志》 CAS 2024年第10期11-17,共7页
目的/意义探索并实现儿科医学试题答案的自动化解析,提高试题答案解析编撰效率与质量。方法/过程提出一种隐性语义索引、MC-BERT和CoSENT模型相结合的方法。首先使用基于隐性语义索引的方法和MC-BERT模型从参考文档中抽取多个候选答案解... 目的/意义探索并实现儿科医学试题答案的自动化解析,提高试题答案解析编撰效率与质量。方法/过程提出一种隐性语义索引、MC-BERT和CoSENT模型相结合的方法。首先使用基于隐性语义索引的方法和MC-BERT模型从参考文档中抽取多个候选答案解析,然后利用CoSENT模型计算候选解析、试题题干和答案选项之间的相似度,选取相似度最高的候选解析作为最终答案解析。结果/结论该方法答案解析精确率达到72.6%,相较单一方法或模型明显提高查全率和精确率,有效提高了编撰试题答案解析的效率,减轻教育工作者负担,并可为教育研究提供重要的数据支持。 展开更多
关键词 医学试题 答案解析 隐性语义索引 MC-BERT CoSENT 自然语言处理
下载PDF
潜在语义索引在文本分类中的应用 被引量:3
13
作者 伍建军 康耀红 《电脑与信息技术》 2006年第5期32-34,38,共4页
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对... 传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。 展开更多
关键词 潜在语义索引 文本分类 奇异值分解
下载PDF
基于LSI和SVM分类法的定题邮件过滤研究 被引量:1
14
作者 杨清 李方敏 《计算机工程与应用》 CSCD 北大核心 2006年第35期168-171,共4页
潜在语义索引(LSI)是一种有效的信息查询方法,同时也被成功地应用到了文本分类中。LSI能解决同义和多义的问题,通过降低原始文档-术语矩阵的噪声来凸现出词条和文档之间的语义关系。为了识别和过滤有害的、不期望的定题的信息或Email,... 潜在语义索引(LSI)是一种有效的信息查询方法,同时也被成功地应用到了文本分类中。LSI能解决同义和多义的问题,通过降低原始文档-术语矩阵的噪声来凸现出词条和文档之间的语义关系。为了识别和过滤有害的、不期望的定题的信息或Email,在双语言环境下(包括中文和英文),提出了一个基于改进的LSI方法的定题邮件类信息过滤系统,该系统采用潜在语义模型来表示被过滤的信息类,通过奇异值分解和正例监护学习方法,选择支持向量机(SVM)来识别和分类预定义的定题信息。实验结果表明:基于LSI的特征选择的SVM分类算法是一种更有效的信息识别和文本分类方法,不但具有较好的分类性能,同时也能大大减小计算的复杂性。 展开更多
关键词 支持向量机 潜在语义索引 信息查询 监护学习 文本分类
下载PDF
一种优化的基于LPI的文档索引算法FLPI
15
作者 陶剑文 赵杰煜 《计算机应用》 CSCD 北大核心 2008年第6期1566-1569,1574,共5页
LPI对于局部流形结构是优化的,但在时空上运行效率较低,使其很难应用于大型数据集。基于LPI算法,提出了一种优化的LPI算法FLPI,它将LPI问题分解为一个图嵌入问题和一个正则最小二乘问题,避免了稠密矩阵的特征值分解,显著减少了计算复杂... LPI对于局部流形结构是优化的,但在时空上运行效率较低,使其很难应用于大型数据集。基于LPI算法,提出了一种优化的LPI算法FLPI,它将LPI问题分解为一个图嵌入问题和一个正则最小二乘问题,避免了稠密矩阵的特征值分解,显著减少了计算复杂度。此外,在监督环境下,利用一个特别设计的图,使FLPI只需要解决正则最小二乘问题,进一步减少了时空开销。实时数据集实验结果显示,FLPI获得了相似或优于LPI的结果,且运行速度明显提升。 展开更多
关键词 局部保留索引 潜在语意索引 文档索引 维度归约
下载PDF
文本分类中基于K-Sprinkling的特征提取方法 被引量:2
16
作者 李惠富 陆光 景维鹏 《计算机工程》 CAS CSCD 北大核心 2017年第12期141-146,共6页
传统的特征提取方法大多注重类别对特征词的作用,不能很好地表达样本对类别的影响。为此,对样本的类别贡献问题进行研究。针对Sprinkling特征提取方法中未考虑样本对类别的贡献度问题,提出一种基于K-Sprinkling的特征提取方法。综合考... 传统的特征提取方法大多注重类别对特征词的作用,不能很好地表达样本对类别的影响。为此,对样本的类别贡献问题进行研究。针对Sprinkling特征提取方法中未考虑样本对类别的贡献度问题,提出一种基于K-Sprinkling的特征提取方法。综合考虑样本紧密度和样本隶属度信息,利用Sprinkling方法的特点,将样本权值映射到语义空间中,实现对文本的分类。实验结果表明,K-Sprinkling方法比传统的Sprinkling方法在平衡样本分类上F1值提高了1.89%,在不平衡样本分类上F1值提高了3.30%,取得了较好的分类效果。 展开更多
关键词 特征提取 样本隶属度 样本紧密度 潜在语义索引 贡献度
下载PDF
基于支持向量机的隐含语意特征选择方法 被引量:2
17
作者 李旻松 段琢华 《计算机应用》 CSCD 北大核心 2011年第9期2429-2431,2435,共4页
隐含语意索引(LSI)是一个能有效捕获文档中词的隐含语意特征的方法。然而,用该方法选择的特征空间对文本分类来说可能不是最适合的,因为这种方法按照词的变化排序特征,而没有考虑到分类能力。支持向量机(SVM)高度的泛化能力使它特别适... 隐含语意索引(LSI)是一个能有效捕获文档中词的隐含语意特征的方法。然而,用该方法选择的特征空间对文本分类来说可能不是最适合的,因为这种方法按照词的变化排序特征,而没有考虑到分类能力。支持向量机(SVM)高度的泛化能力使它特别适用于高维数据例如文档的分类。为此提出基于支持向量机的特征提取方法用于选择适于分类的LSI特征。该方法利用SVM高度泛化的分类能力,通过使用在每一个规则下训练的分类器的参数对第k个特征对反向平方分解面的贡献w2k的值进行估计。实验表明当需要比LSI更少的训练和测试时间时,该方法能够以更为紧凑的表示方式提高分类性能。 展开更多
关键词 隐含语意索引 向量空间模型 奇异值分解 文档矩阵 支持向量机
下载PDF
融合LSI和支持向量聚类的网页文本分类算法 被引量:1
18
作者 史长琼 黄辉 +2 位作者 王大卫 姜腊林 扶宗文 《计算机应用研究》 CSCD 北大核心 2009年第12期4523-4525,共3页
特征选择和分类算法是网页文本聚类中最关键的技术。提出对网页文本提取特征值后,利用潜在语义索引对网页文本降维,采用支持向量聚类(SVC)算法对降维后的特征向量进行聚类,以此进行文本分类。实验结果显示具有较好的效果。
关键词 特征提取 潜在语义索引 网页文本 语义聚类 支持向量聚类
下载PDF
文本处理中基于随机映射的加速LSI方法 被引量:1
19
作者 钱晓东 王正欧 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2005年第4期372-376,共5页
首先针对在文本处理的高维矢量环境中Kohonen自组织映射神经网络的计算瓶颈问题和输入矢量空间中存在的问题进行分析,然后对随机映射(RM)和隐含语义索引(LSI)方法分别进行理论分析,提出用于文本处理的基于随机映射的加速LSI方法.试验结... 首先针对在文本处理的高维矢量环境中Kohonen自组织映射神经网络的计算瓶颈问题和输入矢量空间中存在的问题进行分析,然后对随机映射(RM)和隐含语义索引(LSI)方法分别进行理论分析,提出用于文本处理的基于随机映射的加速LSI方法.试验结果表明,加速LSI方法可以在凸现原有语义联系的基础上,低代价、有效、可控地解决上述问题,极大地降低文本处理环境中Kohonen自组织神经网络的规模和计算代价. 展开更多
关键词 文本处理 隐含语义索引 自组织神经网络 随机映射
下载PDF
结合情节挖掘的软件实体演化耦合分析方法
20
作者 张鑫雨 晋武侠 +2 位作者 刘靖雯 范铭 刘烃 《软件学报》 EI CSCD 北大核心 2023年第6期2562-2585,共24页
软件系统的实体演化耦合分析有助于共同变更预测、软件供应链风险识别、代码漏洞溯源、缺陷预测、架构问题定位等分析活动.两个代码实体之间存在演化耦合(evolutionary coupling)是指在软件修订历史中,这对实体倾向于共同变更(共变).已... 软件系统的实体演化耦合分析有助于共同变更预测、软件供应链风险识别、代码漏洞溯源、缺陷预测、架构问题定位等分析活动.两个代码实体之间存在演化耦合(evolutionary coupling)是指在软件修订历史中,这对实体倾向于共同变更(共变).已有的演化耦合分析方法难以准确检测软件维护历史中频繁发生的、有“距离”的共变.为了解决这一问题,提出了基于关联规则挖掘、情节挖掘、潜在语义索引模型相结合的演化耦合分析方法(association rule,MINEPI and LSI based method,AR-MIM),以挖掘有“距离”的共同变更关系.实验收集了58个Python项目、242074条训练数据、330660条ground truth的数据集,与已有的4种baseline方法进行了比较,验证了AR-MIM的效果.结果表明:在预测共同变更候选项场景上,AR-MIM的准确性、召回率、F1分数均优于已有方法. 展开更多
关键词 提交历史 演化耦合 情节挖掘 潜在语义索引 关联规则挖掘
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部