-
题名基于机器学习的数据库小数据集并行集成方法
被引量:7
- 1
-
-
作者
王俊
程显生
王寿东
-
机构
内蒙古农业大学计算机技术与信息管理系
内蒙古农业大学食品工程技术系
-
出处
《科学技术与工程》
北大核心
2019年第16期239-244,共6页
-
文摘
为了解决传统方法不能按照训练样本量设计最优网络模型,集成效率低的弊端,通过机器学习方法研究数据库小数据集并行集成方法。机器学习选用朴素贝叶斯算法,依据条件独立性假设,通过计算目标先验概率,采用贝叶斯定理求出其后验概率,对后验概率进行比较,完成决策分类,对基分类器进行训练,把不同朴素贝叶斯基分类器当成集成分类器,在原始数据库上对基分类器进行训练,依据分类结果对数据库中小数据集样本分布进行调整,将其当成新数据集对基分类器进行训练,按照基分类器的表现,通过加权将其组合在一起,产生强分类器,实现对数据库小数据集的集成处理。通过MapReduce并行处理完成并行数据集成,输出并行集成结果。通过仿真实验与实例分析验证所提方法的有效性,结果表明:所提方法在训练样本规模相同的情况下有最高的分类精度和最小的波动,在不同集成规模下的分类精度一直最高,波动最小;所提方法可达到数据的最优集成,数据失效比降低,合成比提高。可见所提方法集成精度高,计算稳定性强,集成效果好,效率优。
-
关键词
机器学习
数据库
小数据集
并行集成
-
Keywords
machine learning
database
small data set
parallel integration
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题映射元数据的异构数据库集成仿真
被引量:6
- 2
-
-
作者
程显生
王俊
-
机构
内蒙古农业大学计算机技术与信息管理系
-
出处
《计算机仿真》
北大核心
2020年第3期198-201,332,共5页
-
文摘
传统异构数据库集成过程存在数据映射主题不明确问题,导致数据集成资源利用率偏低,切耗时较长。为此提出基于主题映射元数据的异构数据库集成方法。将待查询领域本体与元仓库组建映射,形成主体映射元数据,通过主体映射元数据解决数据库异构问题,并对用户查询进行推理扩展,实现对不同数据库集成。实验结果表明,所提方法能够有效提升数据库集成后的资源利用率,减少数据库集成时间。
-
关键词
主题映射元数据
异构数据库
集成
-
Keywords
Subject-mapping metadata
Heterogeneous database
Integration
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名云计算网络入侵跳频数据关联规则挖掘方法
被引量:2
- 3
-
-
作者
程显生
杨珍
王俊
-
机构
内蒙古农业大学计算机技术与信息学院
-
出处
《计算机仿真》
北大核心
2021年第3期259-263,共5页
-
文摘
针对传统方法不能有效挖掘出入侵跳频数据中的频繁项集,挖掘结果准确性不高,易受干扰,易产生信息泄漏风险的问题,提出基于主成分分析与Apriori算法的云计算网络入侵跳频数据关联规则挖掘方法。采用分组统计监测方法构建入侵跳频数据统计特征监测模型,提取统计特征量。运用Apriori算法构建入侵跳频数据的大数据分布模型,检索入侵跳频数据库中的所有频繁项集,并采用主成分分析算法对频繁项集中的最小信任度进行构建,实现对云计算网络入侵跳频数据关联规则的挖掘。仿真结果表明,采用提出的方法进行关联规则挖掘的准确率较高,抗干扰能力较强,提高了网络入侵检测能力。
-
关键词
云计算网络
入侵跳频数据
关联规则挖掘
主成分分析
-
Keywords
Cloud computing network
Intrusion frequency hopping data
Association rule mining
Principal component analysis(PCA)
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于知识获取的网络增量数据自动分片仿真
- 4
-
-
作者
程显生
王俊
王寿东
-
机构
内蒙古农业大学计算机技术与信息管理系
内蒙古农业大学食品工程技术系
-
出处
《计算机仿真》
北大核心
2020年第5期322-325,424,共5页
-
文摘
在大数据时代中,网络增量数据自动分片是统计理论与数据库结合的产物,针对当前方法网络增量数据自动分片准确率和效率低的问题,提出基于知识获取的网络增量数据自动分片方法。为了完成对网络增量数据自动分片,需要先对数据做降维处理,利用数据样本中心计算数据样本点类内的平均距离,得到数据样本点重构误差的重构系数,利用该系数完成对网络增量数据的降维处理。在此基础上,分析数据观察变量和潜在变量的概率分布情况,并计算其后验概率,网络是根据数据节点之间的边所组成的,可以通过数据节点间的边数等条件衡量数据分片参数的估计量,利用参数的估计量来描述网络增量数据自动分片的过程,得到邻节点数据分片在传播中的分量加权乘积,并对其迭代计算,最终实现了网络增量数据的自动分片。实验结果表明,提出方法在对网络增量数据自动分片时,具有较高的准确率,并且数据自动分片耗时短,效率高,均验证了提出方法的有效性。
-
关键词
知识获取
网络增量
数据
自动分片
-
Keywords
Knowledge acquisition
Network increment
Data
Automatic sharding
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于机器学习的云存储数据分段聚类方法仿真
被引量:1
- 5
-
-
作者
王俊
杨茹
程显生
-
机构
内蒙古农业大学计算机技术与信息管理系
-
出处
《计算机仿真》
北大核心
2020年第6期475-478,共4页
-
文摘
针对传统的云存储数据分段聚类方法存在运行效率较低、聚类结果不够平滑等问题,提出一种基于机器学习的云存储数据分段聚类方法。从云存储数据库中合理抽取多个小数据集,小数据集包含云存储数据库中的所有自然簇,根据相似度定义构建相似度矩阵。采用非线性核主成分算法实现对相似度矩阵中数据相似度的测度,通过相似度测度将具有相同特征的数据归为一类,采用混合高斯分布概率密度模型计算不同类别数据的后验概率,通过对概率大小的比较实现云存储数据分段聚类。实验结果证明,所提方法能够缩短聚类运行时间,将聚类变化度降低到29%,有效提高了聚类结果的平滑度。
-
关键词
自然簇
相似度矩阵
非线性核主成分算法
混合高斯分布概率密度模型
-
Keywords
Natural cluster
Similarity matrix
Nonlinear kernel principal component analysis
Mixed Gaussian distribution probability density model
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-