期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于LDA特征扩展的短文本分类 被引量:49
1
作者 吕超镇 姬东鸿 吴飞飞 《计算机工程与应用》 CSCD 北大核心 2015年第4期123-127,共5页
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩... 针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。 展开更多
关键词 隐含狄利克雷分布 文本分类 支持向量机 特征扩展
下载PDF
基于LDA-wSVM模型的文本分类研究 被引量:29
2
作者 李锋刚 梁钰 +1 位作者 GAO Xiao-zhi ZENGER Kai 《计算机应用研究》 CSCD 北大核心 2015年第1期21-25,共5页
SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-w SVM高效分类算法模... SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-w SVM高效分类算法模型。利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的w SVM分类器进行分类。实验基于R软件平台对搜狗实验室的新闻文本集进行分类,得到了宏平均值为0.943的高精确度分类结果。实验结果表明,提出的LDA-w SVM模型在文本自动分类中具有很好的优越性能。 展开更多
关键词 文本分类 潜在狄利克雷分布 支持向量机 权重计算 吉普斯抽样
下载PDF
情报学论文创新性评价研究——LDA和SVM融合方法的应用 被引量:11
3
作者 曹树金 曹茹烨 《图书情报知识》 CSSCI 北大核心 2022年第4期56-67,共12页
[目的/意义]主题创新是学术论文创新最本质的特征之一。基于主题演化视角对情报学论文的创新性进行分析,以期提供动态评价的新思路。[研究设计/方法]选取情报学领域11种CSSCI期刊近20年的论文作为样本,结合LDA主题模型与SVM分类算法,对... [目的/意义]主题创新是学术论文创新最本质的特征之一。基于主题演化视角对情报学论文的创新性进行分析,以期提供动态评价的新思路。[研究设计/方法]选取情报学领域11种CSSCI期刊近20年的论文作为样本,结合LDA主题模型与SVM分类算法,对摘要进行潜在主题识别,并判断论文创新性。最后,采用统计方法验证评价结果的准确性。[结论/发现]应用的学术论文创新性评价方法能够有效识别情报学领域不同时期具有创新价值的论文,可以为学者的科研选题、论文主题创新性评价以及期刊的论文评审提供参考。[创新/价值]拓展融合LDA与SVM的创新性评价方法的应用领域,丰富基于内容的科研论文创新性评价体系。 展开更多
关键词 论文创新性 研究主题 情报学 隐含狄利克雷分布(LDA) 支持向量机(svm)
下载PDF
基于LDA主题模型的安全漏洞分类 被引量:11
4
作者 廖晓锋 王永吉 +1 位作者 范修斌 吴敬征 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第10期1351-1355,共5页
采用隐含Dirichlet分布主题模型(latent Dirichletallocation,LDA)和支持向量机(support vector machine,SVM)相结合的方法,在主题向量空间构建一个自动漏洞分类器。以中国国家信息安全漏洞库(CNNVD)中漏洞记录为实验数据。实验表明:基... 采用隐含Dirichlet分布主题模型(latent Dirichletallocation,LDA)和支持向量机(support vector machine,SVM)相结合的方法,在主题向量空间构建一个自动漏洞分类器。以中国国家信息安全漏洞库(CNNVD)中漏洞记录为实验数据。实验表明:基于主题向量构建的分类器的分类准确度比直接使用词汇向量构建的分类器有8%的提高。 展开更多
关键词 漏洞分类 隐含Dirichlet分布(LDA) 支持向量机(svm) 中国国家信息安全漏洞库(CNNVD)
原文传递
基于LSI和SVM的文本分类研究 被引量:8
5
作者 刘美茹 《计算机工程》 CAS CSCD 北大核心 2007年第15期217-219,共3页
文本分类技术是文本数据挖掘的基础和核心,是基于自然语言处理技术和机器学习算法的一个具体应用。特征选择和分类算法是文本分类中两个最关键的技术,该文提出了利用潜在语义索引进行特征提取和降维,并结合支持向量机(SVM)算法进行多类... 文本分类技术是文本数据挖掘的基础和核心,是基于自然语言处理技术和机器学习算法的一个具体应用。特征选择和分类算法是文本分类中两个最关键的技术,该文提出了利用潜在语义索引进行特征提取和降维,并结合支持向量机(SVM)算法进行多类分类,实验结果显示与向量空间模型(VSM)结合SVM方法和LSI结合K近邻(KNN)方法相比,取得了更好的效果,在文本类别数较少、类别划分比较清晰的情况下可以达到实用效果。 展开更多
关键词 特征提取 潜在语义索引 支持向量机
下载PDF
使用基于SVM的局部潜在语义索引进行文本分类 被引量:4
6
作者 张秋余 刘洋 《计算机应用》 CSCD 北大核心 2007年第6期1382-1384,共3页
潜在语义索引(LSI)通过奇异值分解(SVD)获得原始词—文档矩阵的潜在语义结构,在一定程度上解决了一词多义和多词一义问题。但目前文本分类中使用LSI方法的效果并不理想,这是因为没有充分考虑分类信息。为解决该问题,提出一种改进的局部... 潜在语义索引(LSI)通过奇异值分解(SVD)获得原始词—文档矩阵的潜在语义结构,在一定程度上解决了一词多义和多词一义问题。但目前文本分类中使用LSI方法的效果并不理想,这是因为没有充分考虑分类信息。为解决该问题,提出一种改进的局部潜在语义索引(LLSI)方法,使用支持向量机(SVM)来产生局部区域。实验结果表明,该方法是有效的。 展开更多
关键词 文本分类 潜在语义索引 支持向量机 局部区域
下载PDF
基于概率主题和文本互扩展的短文本分类技术 被引量:5
7
作者 周国剑 陈庆春 类先富 《计算机与数字工程》 2020年第10期2430-2435,共6页
短文本一般具有篇幅较短、特征稀疏、信息量不明显等特性,直接使用传统的文本分类方法进行分类的效果一般不理想。潜在狄利克雷分布(LDA)主题模型生成的概率主题有助于使文本以语义为中心并减少稀疏性,进而使用概率主题信息对短文本进... 短文本一般具有篇幅较短、特征稀疏、信息量不明显等特性,直接使用传统的文本分类方法进行分类的效果一般不理想。潜在狄利克雷分布(LDA)主题模型生成的概率主题有助于使文本以语义为中心并减少稀疏性,进而使用概率主题信息对短文本进行特征扩展成为了可能。为了充分利用LDA主题模型的优势,论文提出了一种基于概率主题模型和文本互扩展的短文本分类方法,首先基于短文本自身语义信息的互扩展,然后依据LDA主题模型预测后得到的“文档—主题”和“主题—词”分布信息以及短文本的相异词关系实现短文本的特征扩展,最后使用支持向量机(SVM)分类方法进行短文本的分类处理。论文的分析验证结果表明,相较于单纯使用向量空间模型(VSM)来表征短文本,论文所提方法能有效改善对不同类别的短文本分类性能。 展开更多
关键词 短文本 概率主题 特征扩展 潜在狄利克雷分布 支持向量机
下载PDF
基于隐含狄列克雷分配分类特征扩展的微博广告过滤方法 被引量:4
8
作者 邢金彪 崔超远 +1 位作者 孙丙宇 宋良图 《计算机应用》 CSCD 北大核心 2016年第8期2257-2261,共5页
传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配(LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常微博和广告型微博,并分别构建LD... 传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配(LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常微博和广告型微博,并分别构建LDA主题模型预测短文本对应的主题分布,将主题中的词作为特征扩展的基础;其次,在特征扩展时结合文本类别信息提取背景领域特征,以降低其对文本分类的影响;最后,将扩展后的特征向量作为分类器的输入,根据支持向量机(SVM)的分类结果过滤广告。实验结果表明,与现有的仅基于短文本分类的过滤方法相比,其准确率平均提升4个百分点。因此,该方法能有效扩展文本特征,并降低背景领域特征的影响,更适用于数据量较大的微博广告过滤。 展开更多
关键词 广告过滤 隐含狄列克雷分配 短文本分类 支持向量机 特征扩展
下载PDF
共享隐空间迁移SVM 被引量:3
9
作者 董爱美 王士同 《自动化学报》 EI CSCD 北大核心 2014年第10期2276-2287,共12页
在机器学习中,迁移学习被证明能有效使用一个领域信息提高另一个领域中受训模型的分类精度.迁移学习总是假设相关领域间共享某些隐含因素,但在当前的迁移学习方法中,该部分隐含因素依然未得到充分探讨.本研究引入低维共享隐空间的迁移... 在机器学习中,迁移学习被证明能有效使用一个领域信息提高另一个领域中受训模型的分类精度.迁移学习总是假设相关领域间共享某些隐含因素,但在当前的迁移学习方法中,该部分隐含因素依然未得到充分探讨.本研究引入低维共享隐空间的迁移学习方法,基于经典支持向量机(Support vector machine,SVM)分类模型得到融入共享隐空间的迁移支持向量机,该模型较以往相关方法能更好地利用隐空间这一有效信息,从而提高所得分类器的泛化性能.相关实验结果亦验证了所提方法的有效性. 展开更多
关键词 迁移学习 大间隔分类器 隐空间 支持向量机
下载PDF
基于混合主题模型的文本蕴涵识别 被引量:2
10
作者 盛雅琦 张晗 +1 位作者 吕晨 姬东鸿 《计算机工程》 CAS CSCD 北大核心 2015年第5期180-184,共5页
分析识别文本蕴涵的主流方法,并基于文本T和假设H可以从潜在混合主题中生成的猜想,提出一个混合主题模型来识别文本蕴涵,描述一个在混合主题模型上生成文本的概率模型。该模型把文本T和假设H看成是同一语义的不同表达,表示为多模式的数... 分析识别文本蕴涵的主流方法,并基于文本T和假设H可以从潜在混合主题中生成的猜想,提出一个混合主题模型来识别文本蕴涵,描述一个在混合主题模型上生成文本的概率模型。该模型把文本T和假设H看成是同一语义的不同表达,表示为多模式的数据,若文本T和假设H有蕴涵关系,则它们有相似的主题分布,共享混合词汇表和主题。设计mix LDA和LDA模型的对比实验,并对RTE-8任务进行测试,通过支持向量机对得到的句子相似度和其他词法句法特征进行分类。实验结果表明,基于混合主题模型的文本蕴涵识别具有较高的准确率。 展开更多
关键词 文本蕴涵 主题模型 多模式 混合主题 隐藏语义 支持向量机
下载PDF
基于支持向量机的隐含语意特征选择方法 被引量:2
11
作者 李旻松 段琢华 《计算机应用》 CSCD 北大核心 2011年第9期2429-2431,2435,共4页
隐含语意索引(LSI)是一个能有效捕获文档中词的隐含语意特征的方法。然而,用该方法选择的特征空间对文本分类来说可能不是最适合的,因为这种方法按照词的变化排序特征,而没有考虑到分类能力。支持向量机(SVM)高度的泛化能力使它特别适... 隐含语意索引(LSI)是一个能有效捕获文档中词的隐含语意特征的方法。然而,用该方法选择的特征空间对文本分类来说可能不是最适合的,因为这种方法按照词的变化排序特征,而没有考虑到分类能力。支持向量机(SVM)高度的泛化能力使它特别适用于高维数据例如文档的分类。为此提出基于支持向量机的特征提取方法用于选择适于分类的LSI特征。该方法利用SVM高度泛化的分类能力,通过使用在每一个规则下训练的分类器的参数对第k个特征对反向平方分解面的贡献w2k的值进行估计。实验表明当需要比LSI更少的训练和测试时间时,该方法能够以更为紧凑的表示方式提高分类性能。 展开更多
关键词 隐含语意索引 向量空间模型 奇异值分解 文档矩阵 支持向量机
下载PDF
一种基于多类别信息的局部潜在语义分析算法研究 被引量:2
12
作者 陈珂 柯文德 +1 位作者 刘美 张良均 《南京邮电大学学报(自然科学版)》 北大核心 2016年第1期119-124,共6页
为了有效解决现有Web文本分类方法普遍存在的分类效果不佳、性能低下等问题,文中基于局部潜在语义分析的理论原理,利用支持向量机分类优势,设计出一种基于文档与类别之间相关度的生成局部区域的算法,即S-LLSA。该算法在奇异值分解过程... 为了有效解决现有Web文本分类方法普遍存在的分类效果不佳、性能低下等问题,文中基于局部潜在语义分析的理论原理,利用支持向量机分类优势,设计出一种基于文档与类别之间相关度的生成局部区域的算法,即S-LLSA。该算法在奇异值分解过程中引入不同类别信息,分析特征词的局部特征,使用支持向量机分类器计算文本对类别的相关度参数,并应用于局部区域生成过程。通过实验表明,S-LLSA算法有效解决了局部区域如何进行局部奇异值分解问题,有效地提高并优化了Web文本分类效果,更好地表示了Web文本潜在语义空间。 展开更多
关键词 文本分类 局部潜在语义分析 支持向量机 奇异值分解 S-LLSA
下载PDF
基于Latent SVM的多视角行为识别方法 被引量:1
13
作者 王丹 臧雪柏 陈奋君 《吉林大学学报(信息科学版)》 CAS 2016年第6期747-752,共6页
为了在静态图像中获取有效信息,构建行为模型,提出了行为覆盖区ACA(Action Coverage Area)和行为核心AC(Action Core)的概念,基于Latent SVM(Support Vector Machine)目标识别方法,设计了一种多视角行为模型MVAM(Multiple Viewpoint Act... 为了在静态图像中获取有效信息,构建行为模型,提出了行为覆盖区ACA(Action Coverage Area)和行为核心AC(Action Core)的概念,基于Latent SVM(Support Vector Machine)目标识别方法,设计了一种多视角行为模型MVAM(Multiple Viewpoint Action Model)。建立了独立的用于行为模型训练和测试的行为数据库。实验表明,该表示法对静态图像中的人体行为能有效地进行分类和检测。 展开更多
关键词 行为识别 隐变量支持向量机 行为覆盖区 行为核心 多视角行为模型
下载PDF
文本褒贬倾向判别研究
14
作者 李银花 王素格 《计算机工程与应用》 CSCD 北大核心 2011年第18期160-162,230,共4页
在文本的向量空间表示模型下,针对文本褒贬倾向判别问题,提出了一种基于潜在语义分析的特征权重计算方法。除词频信息外,该方法考虑了潜在语义分析所提供的同义词、近义词信息对特征权重的影响。采用基于Fisher判别准则的特征选择方法,... 在文本的向量空间表示模型下,针对文本褒贬倾向判别问题,提出了一种基于潜在语义分析的特征权重计算方法。除词频信息外,该方法考虑了潜在语义分析所提供的同义词、近义词信息对特征权重的影响。采用基于Fisher判别准则的特征选择方法,以支持向量机作为分类器,在2739篇语料(2008年中文倾向性分析评测)上进行了实验。实验结果表明,提出的特征权重计算方法对文本褒贬倾向判别是有效的。 展开更多
关键词 文本褒贬倾向判别 概率潜在语义分析 FISHER判别准则 支持向量机
下载PDF
基于加速鲁棒特征和多示例学习的目标跟踪算法
15
作者 白晓红 温静 +1 位作者 赵雪 陈金广 《计算机应用》 CSCD 北大核心 2016年第11期2974-2978,共5页
针对照明变化、形状变化、外观变化和遮挡对目标跟踪的影响,提出一种基于加速鲁棒特征(SURF)和多示例学习(MIL)的目标跟踪算法。首先,提取目标及其周围图像的SURF特征;然后,将SURF描述子引入到MIL中作为正负包中的示例;其次,将提取到的... 针对照明变化、形状变化、外观变化和遮挡对目标跟踪的影响,提出一种基于加速鲁棒特征(SURF)和多示例学习(MIL)的目标跟踪算法。首先,提取目标及其周围图像的SURF特征;然后,将SURF描述子引入到MIL中作为正负包中的示例;其次,将提取到的所有SURF特征采用聚类算法实现聚类,建立视觉词汇表;再次,通过计算视觉字在多示例包的重要程度,建立"词-文档"矩阵,并且求出包的潜在语义特征通过潜在语义分析(LSA);最后,通过包的潜在语义特征训练支持向量机(SVM),使得MIL问题可以依照有监督学习问题进行解决,进而判断是否为感兴趣目标,最终实现视觉跟踪的目的。通过实验,明确了所提算法对于目标的尺度缩放以及短时局部遮挡的情况都有一定的鲁棒性。 展开更多
关键词 加速鲁棒特征 多示例学习 潜在语义分析 目标跟踪 支持向量机
下载PDF
改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警 被引量:7
16
作者 田世海 吕德丽 《数据分析与知识发现》 CSSCI CSCD 2017年第2期11-18,共8页
【目的】针对现有预警体系多以企业自身和监管部门为主体、忽视网络舆情,导致预警力度不强、缺乏透明度及敏感性、使突发性安全问题时有发生且无法得到及时处理的现状,提出一种新的舆情预警模型。【方法】通过元搜索技术挖掘舆情信息,... 【目的】针对现有预警体系多以企业自身和监管部门为主体、忽视网络舆情,导致预警力度不强、缺乏透明度及敏感性、使突发性安全问题时有发生且无法得到及时处理的现状,提出一种新的舆情预警模型。【方法】通过元搜索技术挖掘舆情信息,增加基准偏移值优化情感特征项倾向性权重,添加修正因子以改进潜在语义分析和支持向量机(LSA+SVM)算法,构建舆情分类预警模型。【结果】以多组突发性安全事件为例,应用Matlab进行仿真实验。结果证明该舆情预警模型切实可行,反应迅速,在语义维度为10时准确率可达85.75%。【局限】此方法对于能引起关注和讨论的安全事件更加有效。【结论】改进算法适用于舆情预警,可为企业和监管部门根据分类结果及时采取有效的预警措施提供合理化建议。 展开更多
关键词 潜在语义分析 支持向量机 舆情预警 情感倾向性分析
原文传递
分割位置提示的可变形部件模型快速目标检测 被引量:11
17
作者 杨扬 李善平 《自动化学报》 EI CSCD 北大核心 2012年第4期540-548,共9页
针对滑动窗口目标检测方法需要穷举搜索目标、检测速度较慢的问题,提出一种可变形部件模型候选点检测算法.图像先经过两种不同原理的分割方法预处理,尽量使至少一个分割接近目标真实位置,分割的左上角附近称为候选点.然后,将可变形部件... 针对滑动窗口目标检测方法需要穷举搜索目标、检测速度较慢的问题,提出一种可变形部件模型候选点检测算法.图像先经过两种不同原理的分割方法预处理,尽量使至少一个分割接近目标真实位置,分割的左上角附近称为候选点.然后,将可变形部件模型作为底层检测器,模型的训练和测试都只在候选点上进行,这大大提高了检测速度.在PASCAL2007数据集上的实验结果表明,候选点检测在一半类别上的正确率超过了穷举搜索方法. 展开更多
关键词 目标检测 可变形部件模型 图像分割 隐支持向量机 滑动窗口方法
下载PDF
基于LS-SVM紫外可见光谱检测水产养殖水体COD研究 被引量:6
18
作者 刘雪梅 章海亮 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2014年第10期2804-2807,共4页
采用紫外可见(ultraviolet/visible,UV/Vis)光谱技术对水体中有机物浓度的指标化学需氧量(chemical oxygen demand,COD)进行快速检测,将收集到的135份水样进行UV/VIS波段全光谱扫描,应用Savitzky-Golay(SG)平滑算法,经验模态分解算法(em... 采用紫外可见(ultraviolet/visible,UV/Vis)光谱技术对水体中有机物浓度的指标化学需氧量(chemical oxygen demand,COD)进行快速检测,将收集到的135份水样进行UV/VIS波段全光谱扫描,应用Savitzky-Golay(SG)平滑算法,经验模态分解算法(empirical modedecomposition,EMD)和小波分析(wavelet transform,WT)对提取出的光谱数据进行去除噪声处理,为了简化模型,PLSR建模得到的6个潜在变量(LVs)作为偏最小二乘支持向量机(LS-SVM)的输入建立COD预测模型,LS-SVM模型的预测集决定系数r2为0.82,预测均方根误差RMSEP为14.82mg·L-1。说明使用LVs作为LS-SVM建模输入,可以准确快速检测水产养殖水体中的COD含量,为将来实现水产养殖水质COD含量的在线检测以及其他水质参数的快速测定奠定了基础。 展开更多
关键词 紫外可见光谱 化学需氧量 潜在变量 偏最小二乘支持向量机
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部