期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
数据库中数值型数据的加密存储与查询方法 被引量:24
1
作者 黄保华 王添晶 贾丰玮 《计算机工程》 CAS CSCD 北大核心 2016年第7期123-128,共6页
为提高数据库中数值型数据的密文查询效率,提出一种为数据库中数值型数据建立索引的新方法。对敏感数据应用单调递增函数计算得出比较值,应用非单调函数对敏感数据计算求得混淆值,将比较值和混淆值组成索引值并随密文数据一起存入数据... 为提高数据库中数值型数据的密文查询效率,提出一种为数据库中数值型数据建立索引的新方法。对敏感数据应用单调递增函数计算得出比较值,应用非单调函数对敏感数据计算求得混淆值,将比较值和混淆值组成索引值并随密文数据一起存入数据库中。密文数据的查询采用两阶段方法,第一阶段查询时先根据查询条件计算得出比较值,将数据库中的索引值去混淆后与其进行比较,筛选出符合条件的密文结果集,第二阶段对一阶段得到的密文结果集解密后查询得到最终所需的结果集。实验结果表明,该方法能够提高数值型数据的密文查询效率。 展开更多
关键词 加密处理 两阶段查询 数值型数据 比较值 混淆值
下载PDF
智能电网中隐私保护状态估计的数据混淆算法 被引量:10
2
作者 陈倩 高钰莹 易松 《电子科技》 2018年第10期22-28,共7页
在智能电网中,通过收集和使用细粒度电表数据,可以有效推断用户的活动和行为模式。针对存在敏感数据泄露的严重问题,通过数据隐藏,虽可以实现对用户隐私的保护,却降低了分布状态估计能力。由此,文中提出一种仪表数据混淆算法来保护具有... 在智能电网中,通过收集和使用细粒度电表数据,可以有效推断用户的活动和行为模式。针对存在敏感数据泄露的严重问题,通过数据隐藏,虽可以实现对用户隐私的保护,却降低了分布状态估计能力。由此,文中提出一种仪表数据混淆算法来保护具有执行分布状态估计能力的消费者隐私。首先在基于802. 11s的无线网状网络中,由网关创建混淆向量;然后通过引入多个网关的方式将混淆值进行分配;最后对混淆测量值进行计算和传输,所得混淆值使仪表读数模糊化。此方法既有效保护了消费者隐私免受窃听者和公用事业公司的影响,又保持了公用事业公司使用数据进行状态估计的能力。对比基线、基准符号、基准秒和反应性混淆,仿真结果表明,数据混淆法在数据包传输率,数据吞吐量和延迟方面都有性能提升。 展开更多
关键词 高级计量基础设施 数据混淆分布状态估计 隐私保护 智能电网
下载PDF
基于熵值度量数据混淆加密度的智能电力计量系统设计与开发
3
作者 谢辉 杜卫华 +3 位作者 唐胜飞 周菁菁 陈津 孟智刚 《电力电容器与无功补偿》 2024年第3期114-122,共9页
满足数据加密传输要求的智能电力计量系统的设计与开发是能量互联网优化运行以及大规模可再生能源消纳的关键。分析现有电力计量系统特征及能量互联网运行需求,提出能源互联网环境下智能电力计量系统的基本架构;建立熵值度量数据混淆加... 满足数据加密传输要求的智能电力计量系统的设计与开发是能量互联网优化运行以及大规模可再生能源消纳的关键。分析现有电力计量系统特征及能量互联网运行需求,提出能源互联网环境下智能电力计量系统的基本架构;建立熵值度量数据混淆加密度模型,确立智能电力计量系统中数据混淆加密方法;分析STM32与BC28等主要元器件以及典型云服务经济技术指标,给出智能电力计量系统中各部分子系统实现方法;以新疆南部某城市区域部分用户为算例,实验验证了所提出的智能电力计量系统设计与开发方法的可行性。 展开更多
关键词 电力计量 熵值度量 数据混淆 加密
下载PDF
基于Rep-VGG的滚动轴承故障诊断 被引量:3
4
作者 鲍泽富 王晨阳 +1 位作者 张伟 郭永飞 《现代电子技术》 2023年第14期152-156,共5页
为解决传统的轴承故障诊断过于依赖人为经验且耗时耗力的问题,文中提出一种基于Rep-VGG模型的故障诊断方法。首先,通过希尔伯特和小波变换对原始振动信号数据进行预处理,将其转化为可供Rep-VGG网络识别的时频图形式;然后,利用Rep-VGG模... 为解决传统的轴承故障诊断过于依赖人为经验且耗时耗力的问题,文中提出一种基于Rep-VGG模型的故障诊断方法。首先,通过希尔伯特和小波变换对原始振动信号数据进行预处理,将其转化为可供Rep-VGG网络识别的时频图形式;然后,利用Rep-VGG模型进行训练和测试,实验数据来源于凯斯西储大学公开的轴承数据集,并与其他模型进行对比。实验结果表明,所提方法对于轴承故障的诊断准确率达到99.9499%,损失仅为0.0221%;通过混淆矩阵得到Rep-VGG模型将不同类型的故障进行分类的准确率达到99.3%,与VGG-16相比,准确率提升5.3499%,说明该模型具有广泛的应用前景。 展开更多
关键词 Rep-VGG模型 滚动轴承 故障诊断 数据预处理 轴承数据集 混淆矩阵
下载PDF
无线传感网络中基于数据混淆的保护隐私数据聚集协议 被引量:4
5
作者 李玉海 田苗苗 +1 位作者 黄刘生 杨威 《小型微型计算机系统》 CSCD 北大核心 2013年第7期1603-1606,共4页
在无线传感网络的研究中,保护隐私数据聚集算法是一个关键问题.设计高效的具有隐私保护功能的数据聚集算法,降低通信带宽,提高网络的寿命和安全性是保护私隐数据聚集研究中的热点问题.国内外现有的保护隐私数据聚集算法,除PEQ(Privacy-p... 在无线传感网络的研究中,保护隐私数据聚集算法是一个关键问题.设计高效的具有隐私保护功能的数据聚集算法,降低通信带宽,提高网络的寿命和安全性是保护私隐数据聚集研究中的热点问题.国内外现有的保护隐私数据聚集算法,除PEQ(Privacy-preserving Scheme for Exact Query Evaluation)算法外,其它算法大多是根据不同的统计数据类型来设计相应的保护隐私的数据聚集算法,这些算法只能聚集某一种数据,功能单一,应用起来具有一定的局限性.同时,PEQ算法的通信带宽和计算量都比较大.针对上述问题,设计了一种基于数据混淆的数据汇集算法.该算法通过在数据聚集前加入混淆数据,聚集结束后删除混淆数据,来达到保护隐私的目的.与现有的其它方案相比,该方案计算和通信开销较少,并且一次可以聚集多种统计数据. 展开更多
关键词 无线传感网 数据聚集 隐私保护 秘密混淆
下载PDF
多特征信息融合的多目标数据关联算法 被引量:1
6
作者 徐军 李强 《空军雷达学院学报》 2002年第4期14-15,21,共3页
分析了对关联性能有重要影响的目标特征信息,其中包括目标的位置、多普勒频移、雷达截面积和目标的运动方向,并且针对多个目标交叉飞行时容易出现的关联错误问题,提出了一种基于多特征信息融合进行模糊逻辑推理的数据关联方法.仿真结果... 分析了对关联性能有重要影响的目标特征信息,其中包括目标的位置、多普勒频移、雷达截面积和目标的运动方向,并且针对多个目标交叉飞行时容易出现的关联错误问题,提出了一种基于多特征信息融合进行模糊逻辑推理的数据关联方法.仿真结果表明,基于多特征融合的数据关联算法具有较高的综合性能. 展开更多
关键词 数据关联 算法 多特征融合 仿真结果 特征信息 目标特征 多目标 雷达截面积 多普勒频移 性能
下载PDF
多接收基元合成孔径声呐频域数据融合算法 被引量:3
7
作者 张友文 张殿伦 +1 位作者 田坦 孙大军 《声学技术》 CSCD 北大核心 2007年第6期1094-1097,共4页
单接收基元合成孔径声呐基阵的速度是严格受到限制的,这主要是由于为了保证方位向不出现栅瓣,方位的采样间隔必须小于换能器的半径。通过使用Vernier阵技术可以增加声呐平台的速度,同时在相同的时间内获得比单个接收基元合成孔径声呐更... 单接收基元合成孔径声呐基阵的速度是严格受到限制的,这主要是由于为了保证方位向不出现栅瓣,方位的采样间隔必须小于换能器的半径。通过使用Vernier阵技术可以增加声呐平台的速度,同时在相同的时间内获得比单个接收基元合成孔径声呐更大的测绘面积。虽然我们可以通过预处理把多接收基元的回波数据转换成单接收基元的回波数据,但是这种处理需要耗费大量的时间,因此最终影响整个合成孔径处理算法的效能。文章提供了一个高效的多接收基元合成孔径声呐数据融合方法,该方法主要是利用了快速的傅里叶变换算法把数据变换到频域,然后再进行数据预处理,因此提高了数据融合的有效性,水池试验结果表明该算法是有效的和精确的。 展开更多
关键词 合成孔径声呐 多接收基元 数据融合
下载PDF
Innovative data mining approaches for outcome prediction of trauma patients
8
作者 Eleni-Maria Theodoraki Stylianos Katsaragakis +1 位作者 Christos Koukouvinos Christina Parpoula 《Journal of Biomedical Science and Engineering》 2010年第8期791-798,共8页
Trauma is the most common cause of death to young people and many of these deaths are preventable [1]. The prediction of trauma patients outcome was a difficult problem to investigate till present times. In this study... Trauma is the most common cause of death to young people and many of these deaths are preventable [1]. The prediction of trauma patients outcome was a difficult problem to investigate till present times. In this study, prediction models are built and their capabilities to accurately predict the mortality are assessed. The analysis includes a comparison of data mining techniques using classification, clustering and association algorithms. Data were collected by Hellenic Trauma and Emergency Surgery Society from 30 Greek hospitals. Dataset contains records of 8544 patients suffering from severe injuries collected from the year 2005 to 2006. Factors include patients' demographic elements and several other variables registered from the time and place of accident until the hospital treatment and final outcome. Using this analysis the obtained results are compared in terms of sensitivity, specificity, positive predictive value and negative predictive value and the ROC curve depicts these methods performance. 展开更多
关键词 data Mining Medical data DECISION Trees Classification RULES Association RULES CLUSTERS confusion Matrix ROC
下载PDF
两类数据挖掘工具评估分析的定量化 被引量:2
9
作者 李玲 赵向东 赵红霞 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2007年第2期281-284,共4页
针对企业是否采用数据挖掘工具以及采用何种数据挖掘工具的问题,提出了评估数据挖掘工具价值的定量化分析方法;利用马尔可夫转移概率矩阵与数学规划模型对分类型数据挖掘工具进行价值评估,确定分类型数据挖掘工具带来的价值;利用分布密... 针对企业是否采用数据挖掘工具以及采用何种数据挖掘工具的问题,提出了评估数据挖掘工具价值的定量化分析方法;利用马尔可夫转移概率矩阵与数学规划模型对分类型数据挖掘工具进行价值评估,确定分类型数据挖掘工具带来的价值;利用分布密度函数和信息熵对预测型数据挖掘工具进行价值评估,确定预测型数据挖掘带来的价值;再通过采用数据挖掘工具需要的成本,最终建立了评估两类数据挖掘工具(分类与预测)的效益模型,为企业成功实施数据挖掘提供保证。 展开更多
关键词 数据挖掘 分类 预测 价值 转移矩阵 信息熵
下载PDF
一种基于数据融合的WSN节点部署策略 被引量:2
10
作者 石婷婷 杨云 +2 位作者 陈拥军 陈洁 张赟 《微电子学与计算机》 CSCD 北大核心 2009年第10期37-40,共4页
采用非均匀的方法部署节点,提出了一种基于数据融合的节点部署策略.针对节点数据采集率恒定的圆形网络场景,根据避免能量空洞以及降低数据冗余度的思想部署传感器节点,通过该策略使得网络达到次级能耗均衡.仿真结果表明该方法能够缓解... 采用非均匀的方法部署节点,提出了一种基于数据融合的节点部署策略.针对节点数据采集率恒定的圆形网络场景,根据避免能量空洞以及降低数据冗余度的思想部署传感器节点,通过该策略使得网络达到次级能耗均衡.仿真结果表明该方法能够缓解能量空洞问题,延长网络生命周期. 展开更多
关键词 无线传感器网络 数据融合 节点部署 能量空洞
下载PDF
基于线程同步与妥协处理机制的多线程技术 被引量:2
11
作者 张雷 王悦 雷玉常 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2012年第5期654-658,共5页
为了充分利用CPU,节省系统开支,优化程序结构,多线程技术是许多程序开发中主要采用的技术。但是由于多线程这种技术的并发执行的特性导致许多资源利用、数据维护等方面的问题出现,死锁、数据混乱也随之产生。线程同步与妥协处理机制可... 为了充分利用CPU,节省系统开支,优化程序结构,多线程技术是许多程序开发中主要采用的技术。但是由于多线程这种技术的并发执行的特性导致许多资源利用、数据维护等方面的问题出现,死锁、数据混乱也随之产生。线程同步与妥协处理机制可以较好的解决多线程使用过程中产生的问题。实验中采用了这两种方法后数据混乱、死锁等问题的出现几率大大降低。实验结论表明上面两种方法的使用可以很好的控制死锁、数据混乱的出现,具有良好的使用价值。 展开更多
关键词 死锁 数据混乱 线程同步 妥协处理机制 死锁状态 解锁 死锁线程 多线程
下载PDF
增强隐私保护度的数据混淆机制研究 被引量:1
12
作者 邵必林 蔡婷 +1 位作者 边根庆 王小飞 《西安建筑科技大学学报(自然科学版)》 CSCD 北大核心 2016年第1期36-40,46,共6页
针对数据隐私保护的安全问题,提出了一种基于数据混淆的隐私数据保护机制.首先介绍了相关背景及理论基础,然后论述了所采取的隐私保护二次数据混淆方法,即先基于非固定位置置换的数据混淆进行第一次简易混淆,再基于随机正交矩阵思想进... 针对数据隐私保护的安全问题,提出了一种基于数据混淆的隐私数据保护机制.首先介绍了相关背景及理论基础,然后论述了所采取的隐私保护二次数据混淆方法,即先基于非固定位置置换的数据混淆进行第一次简易混淆,再基于随机正交矩阵思想进行第二次数据混淆,并通过混淆可逆变换,准确地把原始数据提供给使用者.通过实验表明,该机制在有效保护隐私数据的同时,能明显提高其安全保护系数和等级. 展开更多
关键词 隐私保护 数据混淆 非固定位置置换 随机正交矩阵
下载PDF
基于网络编码的节点隐私保护协议研究 被引量:1
13
作者 田文利 《电子设计工程》 2015年第23期49-50,53,共3页
针对网络安全隐私保护中,因网内中间节点或多个中间节点合谋对源节点隐私数据保护存在的威胁,提出一种数据混淆技术,在现有的基础之上,源节点只需要对现有的数据包进行污染,而不需要额外增加污染包的方式。通过这种方法,其不仅有效的提... 针对网络安全隐私保护中,因网内中间节点或多个中间节点合谋对源节点隐私数据保护存在的威胁,提出一种数据混淆技术,在现有的基础之上,源节点只需要对现有的数据包进行污染,而不需要额外增加污染包的方式。通过这种方法,其不仅有效的提供了网络保护的安全性,同时在计算和通信方面也得到很大的提升,更好为无线网络的安全保护提供了参考。 展开更多
关键词 隐私保护 无线网络 网络编码 数据混淆 污染
下载PDF
网络病毒感染下振荡攻击数据混淆分离算法
14
作者 罗婷婷 《科技通报》 北大核心 2015年第6期37-39,共3页
通过对网络病毒感染下振荡攻击数据混淆分离,实现对网络病毒攻击数据的特征定位和提取,有效检测网络病毒数据。传统方法中对网络病毒感染下的振荡攻击数据的检测和分离方法使用行为特征分析和卡尔曼滤波方法,算法受到数据振荡和线性特... 通过对网络病毒感染下振荡攻击数据混淆分离,实现对网络病毒攻击数据的特征定位和提取,有效检测网络病毒数据。传统方法中对网络病毒感染下的振荡攻击数据的检测和分离方法使用行为特征分析和卡尔曼滤波方法,算法受到数据振荡和线性特征干扰的影响,检测性能不好。提出一种基于双线性本征波匹配的振荡攻击数据混淆分离算法,构建网络病毒感染振动攻击模型,提取攻击数据的信号模型特征,根据调解病毒样本序列的线性化程度,确定双线性本征陷波器频率参数和带宽参数,实现对信号的滤波,进而实现混淆分离算法的改进。仿真结果表明,该算法设计的滤波器进行振荡攻击数据的混淆分离,具有较好的抗噪能力和干扰抑制能力,对网络病毒攻击数据的混淆分离均方根误差较小,对病毒感染下的振荡攻击信号的检测性能较高,展示了其优越性能。 展开更多
关键词 病毒感染 网络安全 攻击数据 混淆分离
下载PDF
位置隐私保护技术的发展研究
15
作者 邱震 贺春林 王洪静 《软件导刊》 2012年第9期150-151,共2页
移动通信和移动定位技术的快速发展给人们带来诸多便利,人们能够快速、精确地获得自己所在的位置,但用户位置隐私遭到侵害的概率也越来越大,关于位置隐私的保护也变得越来越重要。在基于位置的服务中,服务的质量和用户的隐私是一对矛盾... 移动通信和移动定位技术的快速发展给人们带来诸多便利,人们能够快速、精确地获得自己所在的位置,但用户位置隐私遭到侵害的概率也越来越大,关于位置隐私的保护也变得越来越重要。在基于位置的服务中,服务的质量和用户的隐私是一对矛盾体,如何在保护用户位置隐私的前提下更好地为用户提供服务是研究的重点。从身份匿名、数据混淆、轨迹隐私保护3个方面介绍了位置隐私的保护。 展开更多
关键词 位置隐私 身份匿名 数据混淆 轨迹隐私保护
下载PDF
基于BP-PSO的霍尔位移传感器的温度补偿研究
16
作者 白倩倩 卢文科 左锋 《微型机与应用》 2017年第24期25-27,36,共4页
温度对霍尔传感器的灵敏系数有严重影响,因此霍尔传感器测量位移时的电压输出会随着温度的改变而发生变化。为减小测量误差,需要对霍尔传感器进行温度补偿。首先采用粒子群优化的BP神经网络算法(BP-PSO)建立被测位移与霍尔位移传感器输... 温度对霍尔传感器的灵敏系数有严重影响,因此霍尔传感器测量位移时的电压输出会随着温度的改变而发生变化。为减小测量误差,需要对霍尔传感器进行温度补偿。首先采用粒子群优化的BP神经网络算法(BP-PSO)建立被测位移与霍尔位移传感器输出电压和工作环境温度的关系,其次依据该算法求出融合后的数据,最后依据通过BP-PSO算法融合后的数据分析温度灵敏度系数和相对误差。研究结果表明,经过温度补偿算法后温度灵敏度系数提高了一个数量级,相对误差也得到相应改善,成功实现了通过补偿算法减小温度对霍尔传感器的影响。 展开更多
关键词 霍尔位移传感器 温度补偿 粒子群优化神经网络算法 数据融合
下载PDF
多源土地覆被产品在长三角地区的一致性分析与精度评价 被引量:21
17
作者 陈逸聪 邵华 李杨 《农业工程学报》 EI CAS CSCD 北大核心 2021年第6期142-150,共9页
土地覆被数据是全球环境问题,人类活动对生态系统影响评估等相关研究的重要数据源。近年来国内外生产了众多全球尺度或国家尺度上的土地覆被数据集,这些数据集在应用于特定区域研究时精度的可靠性以及多源数据集间的一致性对数据集的选... 土地覆被数据是全球环境问题,人类活动对生态系统影响评估等相关研究的重要数据源。近年来国内外生产了众多全球尺度或国家尺度上的土地覆被数据集,这些数据集在应用于特定区域研究时精度的可靠性以及多源数据集间的一致性对数据集的选择有着重要意义。该研究以长三角为研究区域,采用混淆矩阵、构成相似性分析和空间一致性分析等方法,对CCI_LC、FROM-GLC、GLC_FCS30、GLCNMO、GlobeLand30和CGLS_LC6种土地覆被数据集进行了基本精度验证及一致性分析,并探讨了面向不同用户需求的土地覆被数据产品的适用性。结果表明:CCI_LC、FROM-GLC、GLC_FCS30、GLCNMO、GlobeLand30和CGLS_LC在长三角地区的总体精度分别为76.89%、78.42%、84.67%、74.26%、80.61%和85.43%;产品间土地覆被类型面积估算的相关系数均大于0.9;FROM-GLC、GLC_FCS30和GlobeLand30三套产品对长三角地区65.51%的土地分类有完全一致性,产品间一致性分别为72.23%、77.99%和76.41%。6种产品对于广泛分布且占研究区大部分面积的耕地、林地、水体和建设用地具有较好的分类精度,湿地、裸地、灌丛和草地分类结果较弱,需要辅助其他数据产品使用。结合地形地貌分析来看,长三角地区土地覆被分类精度整体受地形起伏影响较小,但丘陵密布的浙江省的部分区域受地形影响出现了分类不稳定的情况。从城市发展的角度看,长三角地区土地覆被分类精度受到城市经济发展活跃程度影响。面向用户应用需求来看,耕地类型上CGLS_LC数据具有最优表现,林地和建设用地类别上GLC_FCS30和CGLS_LC具有相近的优秀表现,而水体类别则是FROM-GLC数据更具有优势。 展开更多
关键词 土地利用 遥感 土地覆被数据 精度分析 一致性分析 类别混淆
下载PDF
自适应特征权重的K-means聚类算法 被引量:10
18
作者 李四海 满自斌 《计算机技术与发展》 2013年第6期98-101,105,共5页
为提高传统K-means聚类算法在医学数据聚类中的准确率和稳定性,提出了一种自适应特征权重的K-means聚类算法AFW-K-means。该算法首先通过计算属性的均方差选取初始聚类中心,然后根据当前的迭代结果,按照类内紧密、类间远离的原则调整属... 为提高传统K-means聚类算法在医学数据聚类中的准确率和稳定性,提出了一种自适应特征权重的K-means聚类算法AFW-K-means。该算法首先通过计算属性的均方差选取初始聚类中心,然后根据当前的迭代结果,按照类内紧密、类间远离的原则调整属性在距离公式中的特征权重,以便更准确地反映数据点在欧氏空间中的真实距离,最后选取UCI上的BCW乳腺肿瘤等数据集对算法的有效性进行验证。结果表明:算法的准确率和稳定性均明显好于传统K-means算法。 展开更多
关键词 K—means 医学数据聚类 自适应特征权重 聚类评价 混淆矩阵
下载PDF
融合大数据挖掘的用户个性化POI推荐方法 被引量:7
19
作者 秦鹏 贾洪杰 +1 位作者 霍兴瀛 邓朝艳 《计算机仿真》 北大核心 2022年第6期355-358,385,共5页
随着互联网络和信息技术的快速发展,人类获得信息的途径越来越多,然而如何在大量数据中获得符合用户喜好的信息,给用户带来更好的体验成为研究的重点,为此提出融合大数据挖掘的用户个性化POI推荐方法。首先通过对大数据推荐系统的分析,... 随着互联网络和信息技术的快速发展,人类获得信息的途径越来越多,然而如何在大量数据中获得符合用户喜好的信息,给用户带来更好的体验成为研究的重点,为此提出融合大数据挖掘的用户个性化POI推荐方法。首先通过对大数据推荐系统的分析,构建基于大数据用户个性化模型,并对操作平台的数据按照两层关联规则的方法进行数据挖掘,提高用户个性化网络数据的精度。然后生成LDA主题模型,采用分词处理和去停用词处理的方法对用户个性化输入数据进行预处理,利用困惑度Perplexity在拐点处的值作为评价指标衡量语言模型。最后通过JS距离公式作为衡量主题间匹配度的指标,实现POI与用户的匹配。实验结果表明,融合大数据挖掘的用户个性化POI推荐方法不仅具有较高的预测精度,还具有较高的覆盖率,能够为用户提供高质量的个性化推荐结果。 展开更多
关键词 大数据挖掘 个性化模型 困惑度
下载PDF
贝叶斯概率链接模型在出生和死亡数据链接中的应用
20
作者 虞慧婷 蔡任之 +4 位作者 林维晓 倪静怡 钱耐思 夏天 吴凡 《上海预防医学》 CAS 2024年第1期98-103,共6页
【目的】阐述贝叶斯概率链接模型的原理和方法,并应用于出生和死亡数据的链接以展示模型的应用效果。【方法】通过上海市出生和死亡登记系统,收集2017年出生婴儿199025例,2017和2018年死亡婴儿1512例,对清洗后数据按月份分区后进行全链... 【目的】阐述贝叶斯概率链接模型的原理和方法,并应用于出生和死亡数据的链接以展示模型的应用效果。【方法】通过上海市出生和死亡登记系统,收集2017年出生婴儿199025例,2017和2018年死亡婴儿1512例,对清洗后数据按月份分区后进行全链接,以Jaro-Winkler算法和欧式距测量两个数据集用于匹配字段的相似度,以之构建贝叶斯概率链接模型,并用混淆矩阵评估链接效果。【结果】应用贝叶斯概率链接模型,将婴儿出生和死亡数据进行了有效链接,发现上海市死亡婴儿中36.71%生于外地,测算得到婴儿死亡概率为2.60‰。测试集混淆矩阵显示,模型的召回率为0.86,精确率为0.76,F-score为0.81。【结论】贝叶斯概率链接的实例应用显示模型效果良好,用于建立出生死亡队列,能更准确地反映婴儿死亡的真实水平。利用该技术,整合不同部门数据,可有效提升公共卫生领域的研究效率。 展开更多
关键词 多源数据 贝叶斯概率链接模型 Jaro-Winkler算法 混淆矩阵
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部