-
题名基于数据模糊化处理的数据脱敏研究
被引量:4
- 1
-
-
作者
罗长银
陈学斌
-
机构
华北理工大学河北省数据科学与应用重点实验室唐山市数据科学重点实验室
-
出处
《软件》
2019年第10期6-10,共5页
-
基金
国家自然基金项目(61572170)
-
文摘
随着大数据产业的飞速发展,数据泄露和信息泄露事件也越来越多,基于这种情况下,如何对数据有力的保护成为我们研究的重点内容,本文利用简单替换加密和维吉尼亚两种传统的算法对数据进行加密,利用模糊集里面的隶属函数的方法,对数据进行简单的模糊化处理,并且运用匹配度公式和模糊量词的方法,对数据信息进行进一步的泛化处理,对单数据源的信息的保护起到了预期的效果。
-
关键词
数据泄露
简单替换算法
维吉尼亚算法
模糊量词
-
Keywords
Data leakage
Simple replacement
Virginia
Fuzzy quantifiers
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于时间序列ARIMA模型的能源数据分析与预测
被引量:2
- 2
-
-
作者
倪沈侠
阎少宏
罗长银
吴宇航
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室
唐山市数据科学重点实验室
华北理工大学数学建模创新实验室
-
出处
《新一代信息技术》
2019年第12期36-42,共7页
-
文摘
随着科技进步,能源的生产和消耗是任何经济体的重要组成部分。进而引发了能源合理使用和可持续发展的问题。根据美国过去50年(1960–2009)四个州(亚利桑那州(AZ),加利福尼亚州(CA),新墨西哥州(NM)和得克萨斯州(TX))的能源数据,通过主成分分析(PCA)方法得到了六种主要能源类型,分别是煤、石油、天然气、木材、乙醇和电力。首先,利用Matlab绘制了过去50年美国四个州的六种能源使用情况图。之后使用时间序列ARIMA模型预测未来50年(2025-2050)美国的能源消耗和生产的大体趋势(不改变能源政策的情况下)。最后,以节约并合理利用能源为目标给出了可行性建议。
-
关键词
时间序列ARIMA模型
单位根检验
白噪声
能源
-
Keywords
Time Series ARIMA Model
Unit Root Test
White Noise
Energy
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名采用经济断面 提高经济效益
被引量:1
- 3
-
-
作者
罗长银
-
机构
水城矿业(集团)公司大河边煤矿
-
出处
《矿业安全与环保》
北大核心
2005年第B06期16-16,18,共2页
-
文摘
提出经济断面的概念并推导其计算公式。通过对大河边煤矿二采区总回风井采用经济断面前后的通风费用比较,证明采用经济断面有巨大的经济效益。
-
关键词
经济断面
通风
经济效益
-
分类号
TD724
[矿业工程—矿井通风与安全]
-
-
题名调节风门的位置对局部通风机工况的影响
- 4
-
-
作者
罗长银
冉启平
-
机构
水城矿业集团公司大河边矿
水城矿业集团公司
-
出处
《矿业安全与环保》
2004年第5期62-63,共2页
-
文摘
通过对局部通风机通风中是否修建调节风门及风门不同的位置对局部通风机工况的改变进行分析,认为调节风门的建筑及其位置对局部通风机工况的影响不同,当调节风门建在恰当位置时能显著增加局部通风机的工作风量。
-
关键词
调节风门
全风压
局部通风机工况
影响
-
分类号
TD726
[矿业工程—矿井通风与安全]
-
-
题名面向区块链的在线联邦增量学习算法
被引量:6
- 5
-
-
作者
罗长银
陈学斌
马春地
王君宇
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室(华北理工大学)
唐山市数据科学重点实验室(华北理工大学)
-
出处
《计算机应用》
CSCD
北大核心
2021年第2期363-371,共9页
-
基金
国家自然科学基金资助项目(61572170,61170254)
唐山市科技项目(18120203A)。
-
文摘
针对传统数据处理技术存在模型过时、泛化能力减弱以及并未考虑多源数据安全性的问题,提出一种面向区块链的在线联邦增量学习算法。该算法将集成学习与增量学习应用到联邦学习的框架下,使用stacking集成算法来整合多方本地模型,且将模型训练阶段的模型参数上传至区块链并快速同步,使得在建立的全局模型准确率仅下降1%的情况下,模型在训练阶段与存储阶段的安全性均得到了提升,降低了数据存储与模型参数传输的成本,同时也降低了因模型梯度更新造成数据泄漏的风险。实验结果表明,在公开的数据集上进行训练,各时间段内模型的准确度均在91.5%以上,且方差均低于10^-5;与传统整合数据训练模型相比,该模型在准确率上略有下降,但能够在保证模型准确率的同时提高数据与模型的安全性。
-
关键词
区块链
集成学习
联邦学习
增量学习
-
Keywords
blockchain
ensemble learning
federated learning
incremental learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于联邦集成算法对不同脱敏数据的研究
- 6
-
-
作者
罗长银
陈学斌
张淑芬
尹志强
石义
李风军
-
机构
宁夏大学数学统计学院
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2024年第1期94-102,共9页
-
基金
国家自然科学基金(No.U20A20179)
唐山市科技项目(No.18120203A)资助。
-
文摘
针对联邦学习中存在梯度更新导致本地数据可能泄露的问题,提出基于本地脱敏数据上的联邦集成算法。该算法用变异率与适应度阈值的不同取值对原始数据进行脱敏,且使用不同类型的模型在经不同程度脱敏的数据上进行本地模型训练,以确定适合的联邦集成算法参数。实验结果表明,与联邦平均算法和传统集中式训练相比,stacking联邦集成算法与voting联邦集成算法的准确率要优于基线准确率。在实际应用中,可根据不同的需求设置不同的脱敏参数来保护数据,以此提升数据的安全性。
-
关键词
联邦学习
梯度更新
联邦集成算法
集成算法
-
Keywords
federated learning
gradient update
federated ensemble algorithm
ensemble algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于层析分析改进的联邦平均算法
被引量:6
- 7
-
-
作者
罗长银
陈学斌
马春地
张淑芬
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2021年第8期32-40,共9页
-
基金
国家自然科学基金项目(61572170,61170254)
唐山市科技项目(18120203A)。
-
文摘
联邦平均(Fedavg)算法采用权重更新来更新全局模型,该算法在权重更新时仅考虑每个客户端数据量的大小,未考虑数据质量对模型的影响。针对该问题,文中提出了基于层次分析改进的联邦平均算法,首次从数据质量的角度来处理多源数据。首先采用熵权法计算数据中各属性的重要度,并将其作为层次分析中准则层的数值,计算每个客户端数据的质量,然后结合客户端数据量的大小,重新计算全局模型中的权重。仿真实验的结果表明,对于中小型数据集而言,使用支持向量机训练的模型准确度最高,达到了85.7152%;对于大型数据集而言,采用随机森林训练的模型准确率最高,达到了91.9321%。与传统联邦平均方法相比,所提方法在中小数据集上准确率提升了3.5%,在大数据集上提升了1.3%,能够在提升模型准确率的同时提高数据与模型的安全性。
-
关键词
联邦平均(Fedavg)
熵权法
层析分析
权重更新
-
Keywords
Federated average(Fedavg)
Entropy weight method
Tomographic analysis
Weight update
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名数据预处理技术在异构数据中的应用
被引量:5
- 8
-
-
作者
罗长银
陈学斌
宋尚文
刘洋
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室
唐山市数据科学实验室
-
出处
《软件》
2020年第5期6-13,共8页
-
基金
国家自然科学基金项目(61572170,61170254,61379116)。
-
文摘
数据预处理成为数据挖掘与分析最重要的一环,针对多源数据中数据冗余和数据缺失以及浪费算力的问题,本文采用系数对重复性的数值型数据进行检测和基于传统的字段匹配算法,提出了系数能够解决相同的字段在不同的字符串中的相似程度的问题,对缺失值数据采用频率分布和牛顿插值法来填充缺失值,使数据也具有基本的安全性和有效性,采用马氏距离可以有效的去除异常值,最后通过数据约简的方法来减少数据规模。经实验验证,经过预处理后的数据建立的模型的准确度没有太大影响,但处理时间以及安全性得到了大幅度的提升。
-
关键词
数据预处理
频率分布
马氏距离
-
Keywords
Data preprocessing
Jaccard coefficient
Laplace distribution
Mahalanobis distance
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的联邦加权平均算法
被引量:4
- 9
-
-
作者
罗长银
王君宇
陈学斌
马春地
张淑芬
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室(华北理工大学)
唐山市数据科学重点实验室(华北理工大学)
-
出处
《计算机应用》
CSCD
北大核心
2022年第4期1131-1136,共6页
-
基金
国家自然科学基金资助项目(U20A20179)
唐山市科技厅项目(18120203A)。
-
文摘
针对基于层次分析改进的联邦平均算法在计算其数据质量时存在主观因素的影响,提出改进的联邦加权平均算法,从数据质量的角度来处理多源数据。首先,将训练样本划分为预训练样本与预测试样本;然后,使用初始全局模型在预训练数据上的精度作为该数据源的质量权重;最后,将质量权重引入到联邦平均算法中,重新进行全局模型中权重更新。仿真结果表明,在均等分割的数据集与非均等分割的数据集上,改进的联邦加权平均算法训练的模型与传统联邦平均算法训练的模型相比,准确率最高分别提升了1.59%和1.24%;改进的联邦加权平均算法训练的模型与传统整合多方数据再训练的模型相比,虽然准确率略有下降,但数据与模型的安全性有所提升。
-
关键词
联邦学习
联邦平均
联邦加权平均算法
多源数据
数据质量
-
Keywords
federated learning
Federated Average(FedAvg)
federated weighted average algorithm
multi-source data
data quality
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于图像梯度的数据增广方法
被引量:3
- 10
-
-
作者
刘之瑜
张淑芬
刘洋
罗长银
李敏
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室
唐山市数据科学重点实验室
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2021年第2期302-311,共10页
-
基金
唐山市重点研发计划项目(No.18120203A)资助。
-
文摘
卷积神经网络用于图像识别的分类任务,需要大规模的图像数据集进行训练。因需要采集目标图像数量和设备条件的限制,采用常规方法难以获取足够多的图像样本,且耗时耗力耗财。目前已提出了多种多样的样本增广方法来解决图像样本不足的问题,本文介绍了数据增广的研究背景和意义。以提高卷积神经网络的图像识别的准确率为目的,针对图像数据增广提出了基于图像梯度的数据增广方法。选取最大图像梯度值,通过精准裁剪方法增加图像样本,扩增图像数据集,使用增广后的数据集对卷积神经网络进行训练。应用Tensorflow深度学习框架和VGG16网络模型,选取PlantVillage的部分数据集,将训练集数据增广至原来的6倍,对扩增前后的训练集进行训练和对比。实验结果表明:使用数据增广后训练集训练的模型的准确率提升4.18%。
-
关键词
数据增广
图像梯度
卷积神经网络
Tensorflow深度学习框架
PlantVillage数据集
-
Keywords
data augmentation
image gradient
convolutional neural network
TensorFlow deep learning framework
PlantVillage dataset
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于联邦集成算法对多源数据安全性的研究
被引量:3
- 11
-
-
作者
罗长银
陈学斌
刘洋
张淑芬
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室
唐山市数据科学重点实验室
-
出处
《计算机工程与科学》
CSCD
北大核心
2021年第8期1387-1397,共11页
-
基金
国家自然科学基金(61572170,61170254)
唐山市科技项目(18120203A)。
-
文摘
联邦学习是隐私保护领域关注的热点内容,存在难以集中本地模型参数与因梯度更新造成数据泄露的问题。提出了一种联邦集成算法,使用256 B的密钥将不同类型的初始化模型传输至各数据源并训练,使用不同的集成算法来整合本地模型参数,使数据与模型的安全性得到很大提升。仿真结果表明,对于中小数据集而言,使用Adaboost集成算法得到的模型准确率达到92.505%,标准差约为8.6×10-8,对于大数据集而言,采用stacking集成算法得到的模型的准确率达到92.495%,标准差约为8.85×10-8,与传统整合多方数据集中训练模型的方法相比,在保证准确率的同时兼顾了数据与模型的安全性。
-
关键词
联邦学习
集成算法
隐私保护
联邦集成算法
-
Keywords
federated learning
ensemble algorithm
privacy protection
federated ensemble algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名迁移学习在设施蔬菜病虫害识别中的应用
被引量:1
- 12
-
-
作者
刘之瑜
张淑芬
李铂初
罗长银
董燕灵
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室
唐山市数据科学重点实验室
-
出处
《华北理工大学学报(自然科学版)》
CAS
2021年第3期133-142,共10页
-
基金
唐山市重点研发计划项目(No.18120203A)。
-
文摘
随着人们生活水平的日益提高,消费者对新鲜蔬菜的需求日益增大,近40年来设施蔬菜产业快速发展,随着技术水平的提高和物联网设备的更新,设施蔬菜的技术含量显著提高。针对通过图像采集设备在短时间内获取的蔬菜病害图像有限,需要通过迁移学习技术来帮助训练卷积神经网络,该项目对不同类型的卷积神经网络的参数迁移进行了研究,采用Plant Village的部分数据集,将Alex Net的第1层卷积核参数通过区域插值方法计算处理后迁移到VGG16的第1层卷积核参数,再对VGG16进行训练。研究结果证明:该方法可行,迁移参数后的网络比随机初始化的网络准确率提升了4.98%。
-
关键词
设施蔬菜
迁移学习
VGG16
Alex
Net
-
Keywords
facility vegetable
transfer learning
VGG16
Alex Net
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习的联邦集成算法
- 13
-
-
作者
罗长银
陈学斌
宋尚文
张淑芬
刘之瑜
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2022年第3期493-510,共18页
-
基金
国家自然科学基金(No.61572170,No.61170254,No.61379116)资助
-
文摘
联邦学习是多源隐私数据保护领域研究的热点,其框架在满足数据不出本地的情况下,可以训练出多方均满意的共同模型,但存在本地模型参数难以整合且无法在安全的情况下将多源数据充分使用的问题,因此提出基于深度学习的联邦集成算法,将深度学习与集成学习应用到联邦学习的框架下,通过优化本地模型的参数,提高了本地模型准确率;使用不同的集成算法来整合本地模型参数,在提升模型准确率的同时兼顾了多源数据的安全性。实验结果表明:与传统多源数据处理技术相比,该算法在mnist、digits、letter、wine数据集训练模型的准确率依次提升1%、8%、-1%、1%,在保证准确率的同时也提升多源数据与模型的安全性,具有很重要的应用价值。
-
关键词
联邦学习
联邦集成算法
深度神经网络模型
集成算法
深度学习
-
Keywords
federated learning
federated ensemble algorithm
deep neural network(DNN)model
ensemble algorithm
deep learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名Padding 权重化的卷积神经网络
- 14
-
-
作者
刘之瑜
徐精诚
罗长银
王豪石
张淑芬
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室
唐山市数据科学重点实验室
-
出处
《新一代信息技术》
2020年第21期7-13,共7页
-
基金
唐山市重点研发计划项目(项目编号:18120203A)。
-
文摘
图像经过卷积神经网络中的卷积操作会使图像的尺寸缩小,经过几次卷积后图像大小会不足以支持继续训练网络模型,采用边界填充(Padding)操作,在图像外围填充数值0,再进行卷积操作,经过一次卷积后输出的特征图矩阵与输入的图像矩阵有相同的大小,解决训练深度受限的问题,使网络拥有更好的性能。但Padding操作在图像外围填充数值0,会使图像边缘信息模糊。本文提出参数化的Padding操作,将填充的数值0替换为带权重的数值,保持训练深度,保留图像的边缘信息。使用包含3个卷积层和2个全连接层的简单卷积神经网络,在Fashion-MNIST数据集上进行训练,准确率有1.52%的提升。
-
关键词
卷积神经网络
Fashion-MNIST数据集
PADDING
-
Keywords
Applied mathematics
Convolutional neural network
Fashion MNIST dataset
Padding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名设施蔬菜病害识别中的CNN池化选择
- 15
-
-
作者
刘之瑜
张淑芬
张振斌
董燕灵
罗长银
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《新一代信息技术》
2021年第22期11-19,共9页
-
基金
唐山市重点研发计划项目(项目编号:18120203A)。
-
文摘
设施蔬菜的病虫害是影响设施蔬菜产量和质量的主要因素之一,对设施蔬菜病虫害的实时监控和快速识别至关重要。近年来设施蔬菜产业发展迅速,对设施蔬菜病虫害的精准识别要求越来越高,卷积神经网络因其较高的分类精度在图像识别领域应用广泛,是一种高精度的设施蔬菜病虫害检测工具。本文对卷积神经网络在植物病害识别和分类过程中的应用进行了介绍,针对在训练过程中最大池化和平均池化的选择进行了研究,通过计算图像梯度的变异系数来衡量图像适合最大池化还是平均池化,进而将数据集划分为最大池化部分和平均池化部分进行训练,经实验在VGG16模型中划分后再训练比单独使用最大池化和平均池化10次平均准确率分别提高了0.94%和1.21%。
-
关键词
卷积神经网络
图像梯度
池化
设施蔬菜
图像识别
变异系数
-
Keywords
convolution neural network
image gradient
pooling
facility vegetables
image recognition
coefficient of variation
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于Padding权重化的卷积神经网络研究
- 16
-
-
作者
刘之瑜
徐精诚
罗长银
王豪石
张淑芬
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室
唐山市数据科学重点实验室
-
出处
《新一代信息技术》
2021年第3期14-20,共7页
-
基金
唐山市重点研发计划项目(项目编号:18120203A)。
-
文摘
图像经过卷积神经网络中的卷积操作会使图像的尺寸缩小,经过几次卷积后图像大小会不足以支持继续训练网络模型,采用边界填充(Padding)操作,在图像外围填充数值0,再进行卷积操作,经过一次卷积后输出的特征图矩阵与输入的图像矩阵有相同的大小,解决训练深度受限的问题,使网络拥有更好的性能。但Padding操作在图像外围填充数值0,会使图像边缘信息模糊。本文提出参数化的Padding操作,将填充的数值0替换为带权重的数值,保持训练深度,保留图像的边缘信息。使用包含3个卷积层和2个全连接层的简单卷积神经网络,在Fashion-MNIST数据集上进行训练,准确率有1.52%的提升。
-
关键词
卷积神经网络
Fashion-MNIST数据集
PADDING
-
Keywords
Applied mathematics
Convolutional neural network
Fashion MNIST dataset
Padding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-