期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
一种融合主题模型的短文本情感分类方法 被引量:19
1
作者 吴彦文 黄凯 +1 位作者 王馨悦 林娴 《小型微型计算机系统》 CSCD 北大核心 2019年第10期2082-2086,共5页
构建基于LDA主题模型和LSTM模型构建分类模型,以解决短文本情感分类问题.通过词嵌入法并融合LDA主题模型来扩展评论信息的特征表示方法以解决短文本数据稀疏,特征不明显等问题;引入LSTM构建分类模型,该模型可以记忆长程信息,通过不断学... 构建基于LDA主题模型和LSTM模型构建分类模型,以解决短文本情感分类问题.通过词嵌入法并融合LDA主题模型来扩展评论信息的特征表示方法以解决短文本数据稀疏,特征不明显等问题;引入LSTM构建分类模型,该模型可以记忆长程信息,通过不断学习文本上下文信息来更好地学习文本的特征信息.在评价文本数据集上作对比实验,相较于已有的模型,本文提出的情感分类模型在准确率、召回率、F1值等多个指标上具有更好的表现. 展开更多
关键词 模型融合 短文本分类 长短时记忆网络 狄利克雷模型
下载PDF
基于主题模型的改进随机森林算法在文本分类中的应用 被引量:7
2
作者 姚立 张曦煌 《计算机应用与软件》 2017年第8期173-178,212,共7页
针对传统随机森林算法在维度高、噪声大的文本分类上出现计算复杂度高和分类效果较差的问题,提出一种基于隐狄利克雷分配(LDA)主题模型的改进随机森林算法。该算法利用LDA主题模型对原始文本建立模型,将原始文本映射到主题空间上,保证... 针对传统随机森林算法在维度高、噪声大的文本分类上出现计算复杂度高和分类效果较差的问题,提出一种基于隐狄利克雷分配(LDA)主题模型的改进随机森林算法。该算法利用LDA主题模型对原始文本建立模型,将原始文本映射到主题空间上,保证了文本主旨与原始文本的一致性,同时也大大降低了文本噪声对分类的影响;并且针对随机森林中决策树特征的随机选择方法,提出在决策树生成过程中,利用对称不确定计算各个特征之间的相关性,从而可以降低不同决策树之间的关联度。最终在主题空间上利用改进的随机森林算法对文本进行分类。经过实验证明,该算法在文本分类上具有良好的优越性。 展开更多
关键词 狄利克雷模型 主题模型 随机森林 特征评估 文本分类
下载PDF
融合主题模型与自注意力机制的短文本情感分析方法 被引量:4
3
作者 陈莉媛 毋涛 《国外电子测量技术》 北大核心 2021年第11期18-23,共6页
短文本信息被越来越多的商业分析所重视,企业能够从文本数据中挖掘出用户情感信息从而做出更有价值的商业决策。现有的文本分析模型对于特征模糊、数据稀疏的短文本数据难以准确挖掘上下文语境信息。针对该问题,提出了一种融合主题模型... 短文本信息被越来越多的商业分析所重视,企业能够从文本数据中挖掘出用户情感信息从而做出更有价值的商业决策。现有的文本分析模型对于特征模糊、数据稀疏的短文本数据难以准确挖掘上下文语境信息。针对该问题,提出了一种融合主题模型与自注意力机制的短文本情感分析方法。采用主题模型对稀疏文本进行特征扩展,输入Word2vec训练主题词向量,由双向长短期记忆网络(Bi-LSTM)挖掘短文本上下文特征,经过自注意力机制进行权重重分配,最后由Softmax得到情感极性的分类概率。通过该算法与多种常见模型进行对比实验,在情感判断准确率上优于其他模型。 展开更多
关键词 短文本情感分析 自注意力机制 狄利克雷模型 Bi-LSTM
下载PDF
考虑商品组合效应的多任务需求预测模型
4
作者 黄至言 《现代计算机》 2021年第24期81-88,共8页
多任务需求预测模型(MT-LR)通过商品组合效应解决短期需求预测数据不足的问题。商品组合效应指的是在订单中高频出现且具有代表性的商品组合有着相似的需求趋势。MT-LR首先通过隐狄利克雷模型(latent dirichlet allocation,LDA)学习商... 多任务需求预测模型(MT-LR)通过商品组合效应解决短期需求预测数据不足的问题。商品组合效应指的是在订单中高频出现且具有代表性的商品组合有着相似的需求趋势。MT-LR首先通过隐狄利克雷模型(latent dirichlet allocation,LDA)学习商品的特征表达,然后通过多任务学习(multi-task learning,MTL)框架共享商品之间的销售数据。与目前主流的需求预测模型相比,MT-LR在两个真实销售数据的短期预测中有更好的表现。 展开更多
关键词 商品组合效应 狄利克雷模型(LDA) 多任务学习(MTL) 短期需求预测
下载PDF
中文软件问答社区主题分析研究 被引量:4
5
作者 蒋竞 吕江枫 张莉 《软件学报》 EI CSCD 北大核心 2020年第4期1143-1161,共19页
软件问答社区是软件开发者通过问答方式进行技术交流的网络平台.近年来,软件问答社区积累了大量用户讨论的技术问答内容.一些研究者对Stack Overflow等英文问答社区进行主题分析研究,但是缺少对于中文软件问答社区的分析.通过对中文软... 软件问答社区是软件开发者通过问答方式进行技术交流的网络平台.近年来,软件问答社区积累了大量用户讨论的技术问答内容.一些研究者对Stack Overflow等英文问答社区进行主题分析研究,但是缺少对于中文软件问答社区的分析.通过对中文软件回答社区开展主题分析研究,不仅可以指导开发者更好地了解技术动向,而且可以帮助管理者改进社区、吸引更多用户参与.“开源中国”是中国最大的技术社区之一.对“开源中国”开展了开发者问题主题分析研究.收集“开源中国”的92383个开发者问题,采用隐狄利克雷分配模型的主题分析方法,分析开发者问题的主题分布、热度趋势、回答情况和关键技术热度等.发现:(1)开发者讨论的技术主题分为前端开发、后端开发、数据库、操作系统、通用技术和其他6个类别.其中,前端开发讨论占比最大.(2)后端开发下的主题中用户的关注重点从传统的项目部署、服务器配置转移到较新的分布式系统等主题.(3)数据展示主题的零回答问题比例最高,数据类型主题下的零回答问题比例最低.(4)在技术学习主题下,用户对于Java的讨论明显多于对Python的讨论. 展开更多
关键词 软件问答社区 主题模型 经验研究 狄利克雷分配模型 开源中国
下载PDF
一种融合标签语义的微博热点话题挖掘方法 被引量:3
6
作者 周福星 陈秀真 +1 位作者 马进 李生红 《计算机工程》 CAS CSCD 北大核心 2019年第10期283-287,共5页
由于微博文本的长度较短,直接使用隐狄利克雷分布(LDA)模型会导致特征向量高维稀疏。为此,提出一种融合标签语义的热点话题挖掘方法。利用公共块算法计算微博标签的相似度,合并标签相似度较高的微博文本。采用LDA模型对合并后的文本建模... 由于微博文本的长度较短,直接使用隐狄利克雷分布(LDA)模型会导致特征向量高维稀疏。为此,提出一种融合标签语义的热点话题挖掘方法。利用公共块算法计算微博标签的相似度,合并标签相似度较高的微博文本。采用LDA模型对合并后的文本建模,并通过K-means聚类算法挖掘微博热点话题。实验结果表明,与针对单一微博文本建模的方法以及直接合并相同标签的方法相比,该方法的困惑度较低,挖掘热点话题的准确性较高。 展开更多
关键词 微博文本 狄利克雷分布模型 标签语义 公共块 K-MEANS聚类
下载PDF
MTRF:融合空间信息的主题模型 被引量:2
7
作者 潘智勇 刘扬 +2 位作者 刘国军 郭茂祖 李盼 《计算机应用》 CSCD 北大核心 2015年第10期2715-2720,2732,共7页
针对主题模型中词汇独立性和主题独立性假设忽略了视觉词汇间空间关系的问题,提出了一种融合了视觉词汇空间信息的主题模型,称为马尔可夫主题随机场(MTRF),并且提出了主题在图像处理中的表现形式为对象的组成部件。根据相邻视觉词汇以... 针对主题模型中词汇独立性和主题独立性假设忽略了视觉词汇间空间关系的问题,提出了一种融合了视觉词汇空间信息的主题模型,称为马尔可夫主题随机场(MTRF),并且提出了主题在图像处理中的表现形式为对象的组成部件。根据相邻视觉词汇以很大概率产生于同一主题的特点,该算法在产生主题的过程中,通过视觉词汇间是否产生于同一主题,来判断主题产生于马尔可夫随机场(MRF),还是产生于多项式分布。同时,从理论和实验两方面论证了主题并非对象的实例,而是以中层特征的形式表达对象的各个组成部件。与隐狄利克雷分配(LDA)相比,MTRF在Caltech101上的平均准确率提高了3.91%;在VOC2007数据集上的平均精度均值(m AP)提高了2.03%;此外,MTRF更准确地为视觉词汇分配了主题,能产生更有效表达对象的组成部件的中层特征。实验结果表明,MTRF有效地利用了空间信息,提高了模型的准确率。 展开更多
关键词 主题模型 狄利克雷分配模型 马尔可夫随机场 空间关系 中层特征 图像分类
下载PDF
基于SGC-LDA的微博用户兴趣主题演化研究 被引量:1
8
作者 傅魁 丁健 覃桂双 《北京邮电大学学报(社会科学版)》 2021年第4期28-41,共14页
针对传统的用户兴趣主题模型存在非动态、噪声性、计算复杂度高和兴趣演化分析维度单一等问题,基于滑动窗口技术,引入兴趣主题遗传因子保持主题连续性,并定义用于捕获通用语义和噪声干扰词的兴趣通用主题。提出了SGC-LDA(sliding-window... 针对传统的用户兴趣主题模型存在非动态、噪声性、计算复杂度高和兴趣演化分析维度单一等问题,基于滑动窗口技术,引入兴趣主题遗传因子保持主题连续性,并定义用于捕获通用语义和噪声干扰词的兴趣通用主题。提出了SGC-LDA(sliding-window,genetic factor and common topic-latent dirichlet allocation)用户兴趣主题模型,并根据该模型对数据集进行主题演化分析,从兴趣主题强度、兴趣主题状态和兴趣主题路径三个维度分析用户的兴趣偏好及演化规律。运用新浪微博语料文本进行实证分析,结果表明,SGC-LDA用户兴趣主题模型优于传统的LDA主题模型,可以准确描述用户兴趣演化规律,漏报率、误报率以及归一化开销均低于未进行主题关联过滤的基准(Baseline)方法,从而证明了模型的有效性。 展开更多
关键词 用户兴趣 主题演化 狄利克雷分配模型 演化关系 微博
下载PDF
基于内容与效率二维视角的创新主体识别研究 被引量:1
9
作者 周磊 方芳 《创新科技》 2021年第10期18-27,共10页
精准匹配产业创新供需端有助于优化创新要素配置,提升产业创新效率。基于内容匹配、效率筛选二维视角建立产业创新主体识别机制:首先,利用隐狄利克雷分配模型(LDA)挖掘需求主题;其次,利用文献计量法分析潜在创新供给主体的专长,并与需... 精准匹配产业创新供需端有助于优化创新要素配置,提升产业创新效率。基于内容匹配、效率筛选二维视角建立产业创新主体识别机制:首先,利用隐狄利克雷分配模型(LDA)挖掘需求主题;其次,利用文献计量法分析潜在创新供给主体的专长,并与需求内容进行匹配;最后,基于数据包络分析(DEA)筛选出创新资源配置有效的最终供给者。以国防科工产业预研环节为例进行实证研究,发现材料学、信息通信与智能分析、飞行器与船舶、电子元件、软科学五大类创新需求。作为潜在创新主体的61家上市企业中,有33家满足前四类创新内容要求;但仅有6家企业同时满足创新效率要求。通过分析这6家创新主体的创新供给机制,总结出聚焦化、多元化两类创新供给模式;并发现企业间可以通过社会网络建立创新供给的合作渠道。 展开更多
关键词 需求挖掘 创新主体识别 狄利克雷分配模型 数据包络分析 国防科技工业
下载PDF
基于视觉字典容量自动获取的LDA场景分类研究
10
作者 张艺 钟映春 陈俊彬 《广东工业大学学报》 CAS 2015年第4期150-154,共5页
提出了一种高效获取词包模型中视觉字典容量的方法,并研究了该方法与隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA)相结合情况下的场景分类性能.在用SIFT特征构建场景图像数据集特征矩阵的基础上,首先采用吸引子传播方法获取场... 提出了一种高效获取词包模型中视觉字典容量的方法,并研究了该方法与隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA)相结合情况下的场景分类性能.在用SIFT特征构建场景图像数据集特征矩阵的基础上,首先采用吸引子传播方法获取场景图像集特征矩阵的合理聚类数目族,并将其中的最小聚类数目作为视觉字典容量,进而生成视觉字典;然后利用所构建视觉字典中的单词描述场景图像训练集和测试集;最后采用LDA模型对场景图像测试集进行场景分类实验.实验结果表明,提出的方法不仅保持了较高场景分类准确率,同时显著提高了场景分类的效率. 展开更多
关键词 词包模型 视觉单词 视觉字典 狄利克雷分配模型
下载PDF
一种基于像素视觉共生的图像分割方法
11
作者 郭乔进 胡杰 +1 位作者 高承志 周鹏飞 《信息化研究》 2015年第1期15-18,共4页
图像分割是图像处理、识别和标注等领域中的重要研究方向。文章提出了一种基于像素视觉共生的图像分割方法,通过对图像中的每个像素提取视觉特征,利用隐层狄利克雷模型进行建模,最后利用像素之间的共生关系获得主题概率并进行分割。与... 图像分割是图像处理、识别和标注等领域中的重要研究方向。文章提出了一种基于像素视觉共生的图像分割方法,通过对图像中的每个像素提取视觉特征,利用隐层狄利克雷模型进行建模,最后利用像素之间的共生关系获得主题概率并进行分割。与传统的图像分割方法相比,文中所提出的方法能够将图像中不相邻的像素分割为同一类别。实验结果表明,该方法在不同的数据集上能够获得较好的分割效果。 展开更多
关键词 图像分割 共生 狄利克雷模型
下载PDF
融合Bag-of-Words的室内场景分类研究
12
作者 邱少霞 陈晓松 +2 位作者 林惺 万力衡 钟映春 《电子世界》 2015年第17期158-159,共2页
场景分类是图像理解研究领域的热点之一。不同类型的室内场景由于具有比较高的相似性,因而成为场景分类领域的难点之一。本文采用吸引子传播方法自动获取快速获取码字数目,采用LDA主题模型构建室内场景与语义之间关联关系,最终实现室内... 场景分类是图像理解研究领域的热点之一。不同类型的室内场景由于具有比较高的相似性,因而成为场景分类领域的难点之一。本文采用吸引子传播方法自动获取快速获取码字数目,采用LDA主题模型构建室内场景与语义之间关联关系,最终实现室内场景的分类。实验结果表明,本文方法的室内场景分类平均正确率优于文献中报道的其他方法,说明采用主题模型方法可以更好地表达室内场景的语义含义。 展开更多
关键词 室内场景分类 码字 狄利克雷分配模型 吸引子传播
下载PDF
基于药物疗效日志的临床路径挖掘方法 被引量:2
13
作者 李睿易 鲁法明 +2 位作者 包云霞 曾庆田 朱冠烨 《计算机集成制造系统》 EI CSCD 北大核心 2019年第4期1017-1025,共9页
标准临床路径对于规范治疗流程、提高治疗效果具有重要作用,但当前的临床路径是面向同一病种的所有患者制定的,无法体现患者或者医疗部门的个性化信息。为了实现符合患者和医疗部门特点的个性化临床路径,从医疗信息化系统中记录的患者... 标准临床路径对于规范治疗流程、提高治疗效果具有重要作用,但当前的临床路径是面向同一病种的所有患者制定的,无法体现患者或者医疗部门的个性化信息。为了实现符合患者和医疗部门特点的个性化临床路径,从医疗信息化系统中记录的患者处方数据出发,进行药物治疗临床路径的挖掘。首先由处方数据结合DrugBank数据库生成患者的每日用药疗效文档;然后使用词对隐狄利克雷分布模型对这些药物疗效文档进行主题聚类,得到患者每日所用药物对应的疗效主题;最后以各个患者的药物疗效主题序列为输入,训练概率后缀树模型作为药物治疗的临床路径模型,该模型既可以辅助专家进行个性化临床路径的制定,也可以用于患者后续服用药物的推荐。以MIMIC-Ⅲ数据库中肺炎患者的处方数据为实例,对所提方法的可行性和有效性进行了验证。 展开更多
关键词 过程挖掘 词对狄利克雷分布模型 概率后缀树 临床路径
下载PDF
国家高新技术产业开发区生物医药产业政策主题挖掘及量化评价研究 被引量:8
14
作者 乔晗 徐俐颖 +2 位作者 李旭 李树祥 褚淑贞 《中国药房》 CAS 北大核心 2020年第22期2689-2694,共6页
目的:为我国生物医药产业发展提供参考。方法:收集2010年1月-2019年12月我国全部169家国家高新技术产业开发区(以下简称"国家高新区")官方网站上发布的政策文件,从中筛选出专门针对生物医药产业方面的政策以及全部产业政策中... 目的:为我国生物医药产业发展提供参考。方法:收集2010年1月-2019年12月我国全部169家国家高新技术产业开发区(以下简称"国家高新区")官方网站上发布的政策文件,从中筛选出专门针对生物医药产业方面的政策以及全部产业政策中提及生物医药产业发展的政策,采用Excel 2019软件进行政策信息的汇总分析;使用Gensim包完成政策文本的预处理并构建隐合狄利克雷分布(LDA)主题模型,实现对政策文本中潜在语义信息的提取与分析。结果:共收集到相关政策文本518件,其中有效词汇共58617个,高频词汇包括项目、人才、支持、补贴、创新等;提取出8个主题,按主题强度排序依次为技术创新、人才建设、融资支持、项目金融支持、税收优惠、资源引领、出口贸易、中小企业建设,强度分别为0.299、0.168、0.134、0.116、0.113、0.063、0.058、0.049。结论:国家高新区生物医药产业政策以技术创新、人才建设和融资支持为主,缺乏对中小企业建设、资源引领、出口贸易的关注。今后国家高新区对生物医药产业的政策支持及体系建设应重点完善政策激励措施,平衡各领域政策运用比例;鼓励企业扩大海外市场,学习海外先进技术,加强科研等领域的多边合作;配套相应的政策以增进企业间的交流合作,发挥龙头企业和名牌产品的带动作用,促进中小企业发展。 展开更多
关键词 狄利克雷分布主题模型 国家高新技术产业开发区 生物医药产业 政策 主题挖掘 量化评价
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部