期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于混淆矩阵的分类器性能评价指标比较 被引量:21
1
作者 赵存秀 《电子技术与软件工程》 2020年第13期146-147,共2页
本文主要研究在模拟实验中,实验数据类别是平衡也即是训练的数据类别比例差别不大,实验结果关注的是正确率与错误率,但是随着实际问题的处理,如信用卡错误交易研究、疾病症断研究^([1]),实验结果更多关注的是数据集中其中少类的分类精度... 本文主要研究在模拟实验中,实验数据类别是平衡也即是训练的数据类别比例差别不大,实验结果关注的是正确率与错误率,但是随着实际问题的处理,如信用卡错误交易研究、疾病症断研究^([1]),实验结果更多关注的是数据集中其中少类的分类精度,而不是整体的分类情况,因此不平衡数据的分类问题^([2])评价成为了实验员的挑战。针对实际分类模型评价时,有以下几种方法:混淆矩阵(Confusion Matrix)、接受者操作特性曲线(ROC Chart)、收益图(Gain Chart)、提升图(Lift Chart)、KS图(KS Chart)。 展开更多
关键词 混淆矩阵 不平衡数据 几种方法 模拟实验 分类模型 实验员 性能评价指标 数据类别
下载PDF
棉纺织品碳足迹的研究 被引量:15
2
作者 董艳红 钱竞芳 薛文良 《上海纺织科技》 北大核心 2012年第4期1-2,50,共3页
在《PAS2050规范》使用指南——如何评价商品和服务的碳足迹的基础上,应用生命周期过程分析法,绘制和分析纯棉纺织品的过程图,分析其碳足迹所需要收集的数据类别和计算方法,为棉纺织品的碳足迹评估提供参考。
关键词 棉纺织碳足迹 生命周期过程分析法 过程图 数据类别 计算方法
下载PDF
基于AUC统计量的随机森林变量重要性评分的研究 被引量:15
3
作者 张晓凤 侯艳 李康 《中国卫生统计》 CSCD 北大核心 2016年第3期537-540,542,共5页
随机森林(random forest,RF)是高维组学数据常用的分析方法,在进行判别分析时,同时能够给出变量重要性评分(variable importance measure,VIM)。RF的变量重要性评分通常有两种,一种方法是通过变量值的置换计算其重要性,第二种方法... 随机森林(random forest,RF)是高维组学数据常用的分析方法,在进行判别分析时,同时能够给出变量重要性评分(variable importance measure,VIM)。RF的变量重要性评分通常有两种,一种方法是通过变量值的置换计算其重要性,第二种方法是通过基尼(Gini)指数计算其重要性,由于置换法比Gini指数法具有更好的非偏倚性能,因此多采用置换法进行变量筛选。 展开更多
关键词 随机森林 AUC 变量值 置换法 统计量 数据类别 判别分析 基尼 分类器 类中
下载PDF
基于零信任的数据安全管理研究
4
作者 徐波 苗春雨 《中国信息安全》 2023年第3期80-82,共3页
随着数据的重要性凸显并成为重要的生产要素,各国已将数据安全治理上升到国家战略层面。近年来,我国相继发布了《网络安全法》《数据安全法》和《个人信息保护法》等法律,对数据安全和个人信息保护提出具体要求。针对当前数据安全管理... 随着数据的重要性凸显并成为重要的生产要素,各国已将数据安全治理上升到国家战略层面。近年来,我国相继发布了《网络安全法》《数据安全法》和《个人信息保护法》等法律,对数据安全和个人信息保护提出具体要求。针对当前数据安全管理能力不足的问题,使用零信任理念和技术作为一种研究解决思路为人关注。本文设计了一种基于零信任技术的数据安全管理系统,可基于数据生命周期和数据类别级别,实现文件、目录、字段级的访问控制,有助于数据安全管理能力的提升。 展开更多
关键词 数据安全 数据生命周期 个人信息保护 访问控制 当前数据 数据类别 解决思路 安全管理能力
下载PDF
交易平台的本质特征与运行机制 被引量:2
5
作者 清华大学互联网产业研究院平台经济课题组 《数据》 2022年第5期17-21,共5页
数字经济的基本要素包括网络、平台和数据。数据通过网络集聚于节点平台,在节点平台进行加工处理,产生价值。根据数据类别的不同,节点平台可分成交易平台、社交平台、协同平台等。交易平台是目前数量最大、活跃度最高的节点平台,在数字... 数字经济的基本要素包括网络、平台和数据。数据通过网络集聚于节点平台,在节点平台进行加工处理,产生价值。根据数据类别的不同,节点平台可分成交易平台、社交平台、协同平台等。交易平台是目前数量最大、活跃度最高的节点平台,在数字经济发展中发挥着重要作用。 展开更多
关键词 交易平台 协同平台 社交平台 数据类别 运行机制 活跃度 节点平台 基本要素
下载PDF
基于判别空间条件熵加权的土地覆盖分类方法研究 被引量:1
6
作者 游炯 张景雄 《地理与地理信息科学》 CSCD 北大核心 2012年第1期59-64,F0002,共7页
针对遥感专题类别信息的机理问题,从土地覆盖参考数据的偏差程度对分类精度的影响角度,提出了一种基于判别空间条件熵加权的土地覆盖分类方法。引入判别空间模型概念,基于此模型生成土地覆盖数据类别,并分析了土地覆盖信息类别与数据类... 针对遥感专题类别信息的机理问题,从土地覆盖参考数据的偏差程度对分类精度的影响角度,提出了一种基于判别空间条件熵加权的土地覆盖分类方法。引入判别空间模型概念,基于此模型生成土地覆盖数据类别,并分析了土地覆盖信息类别与数据类别的语义偏差出现的深层次原因;计算信息类别与数据类别的对应关系矩阵,据此得到二者的条件熵,实现对土地覆盖信息类别与数据类别的语义偏差的量化;根据信息类别与数据类别的条件熵计算修正判别变量的权重因子,实现基于判别空间条件熵加权的土地覆盖分类。采用一景SPOT-5影像进行分类实验,并利用同一地区的Landsat 5TM影像进行方法验证。实验表明,条件熵加权修正方法使土地覆盖分类精度有了显著提高,并对不同分辨率的遥感影像具有适用性。 展开更多
关键词 判别空间 信息类别 数据类别 条件熵 土地覆盖分类
下载PDF
基于数据挖掘技术的非均衡数据分类研究
7
作者 王赫楠 张柯欣 《消费电子》 2022年第5期46-48,共3页
当今时代,分类技术已经发展得较为成熟。在传统意义上,分类方法基本上是以均衡数据集为基础的。所谓均衡数据集就是具有分布基本相同的数据类别,以及基本相同的错误分类的代价的数据集。然而在现实生活中,需要的分类往往是不均衡的问题... 当今时代,分类技术已经发展得较为成熟。在传统意义上,分类方法基本上是以均衡数据集为基础的。所谓均衡数据集就是具有分布基本相同的数据类别,以及基本相同的错误分类的代价的数据集。然而在现实生活中,需要的分类往往是不均衡的问题,如识别信用卡欺诈、查找资料等。但由于非均衡数据集存在极不平衡的问题,使得对非均衡数据集进行科学的分类具有很大的困难。所以,如何对非均衡数据集进行科学的分类已经成为未来必须攻克的难关。本文分析了非均衡数据的研究背景,并重点对非均衡数据分类技术进行了分析,为今后的研究提供支持。 展开更多
关键词 非均衡数据 分类技术 数据类别
下载PDF
第三讲 人为失误数据类别与数据库的建立
8
作者 戴光亚 《遥测遥控》 1992年第3期56-58,64,共4页
人为失误问题面临的首要问题是人为失误数据问题。长期以来,数据缺乏一直困扰着这一问题的研究。为了量化人的可靠性,美国国防部和原子能委员会于1982年首次提出正式收集人为失误数据,研究人为失误的分析方法;其主要对象是常规武器和核... 人为失误问题面临的首要问题是人为失误数据问题。长期以来,数据缺乏一直困扰着这一问题的研究。为了量化人的可靠性,美国国防部和原子能委员会于1982年首次提出正式收集人为失误数据,研究人为失误的分析方法;其主要对象是常规武器和核武器系统。Rook 收集了核构件中的23,000项产品缺陷,发现其中82%的缺陷是人造成的,人们把这项研究称为“人的可靠性数据库历史”上的里程碑;Munger 等针对电子设备可操作性建立了含有时间和人的可靠性估计的重要数据库。虽然它的数据很有限,而且还不是很完备的,但仍然是本领域的一个重要资源。在国外,由于人为失误的研究一般都附属于军事项目。 展开更多
关键词 人的可靠性 美国国防部 数据类别 可靠性估计 产品缺陷 可靠性数据 原子能委员会 数据问题 任务描述 可靠性分析
下载PDF
“医疗与临床科研信息共享系统”中医电子病历系统信息基本要求 被引量:19
9
作者 刘保延 周雪忠 +12 位作者 张润顺 王映辉 谢琪 郭玉峰 张小平 周霞继 何丽云 张磊 宋观礼 张艳虹 张红 李宝顺 赵书君 《中国数字医学》 2012年第10期57-60,共4页
电子病历用于临床研究如转化医学研究已经处于蓬勃的发展阶段,而其关键手段之一是进行结构化数据采集,形成高质量的可分析临床数据集。提出并阐述了适用于中医临床研究的电子病历结构化信息类别,以及相应的基本信息元素构成。该方面的... 电子病历用于临床研究如转化医学研究已经处于蓬勃的发展阶段,而其关键手段之一是进行结构化数据采集,形成高质量的可分析临床数据集。提出并阐述了适用于中医临床研究的电子病历结构化信息类别,以及相应的基本信息元素构成。该方面的工作将为相关研究人员进行电子病历的科研分析利用,实现临床科研信息共享提供数据模型设计参考。 展开更多
关键词 电子病历 结构化数据类别 中医临床研究
下载PDF
自然环境试验元数据体系研究
10
作者 周俊炎 王竟成 +2 位作者 赵方超 舒畅 黄伦 《装备环境工程》 CAS 2024年第4期156-164,共9页
目的形成自然环境试验元数据体系,为数据资源提供完备的描述及合理的规则规范,为数据库设计开发、数据挖掘分析、数据共建共享等提供支持。方法针对自然环境试验专业特点、数据类型以及应用需求,借鉴其他领域的元数据标准规范,梳理分析... 目的形成自然环境试验元数据体系,为数据资源提供完备的描述及合理的规则规范,为数据库设计开发、数据挖掘分析、数据共建共享等提供支持。方法针对自然环境试验专业特点、数据类型以及应用需求,借鉴其他领域的元数据标准规范,梳理分析自然环境试验涉及的数据特征元素集合,划分自然环境试验元数据类别,评估元数据作用,形成自然环境试验元数据体系。结果形成了覆盖数据集描述信息、要素参数信息、数据质量信息、维护信息、限制信息、数据集分发信息、元数据参考信息、数据应用成果信息共8个类别的自然环境试验元数据体系。结论自然环境试验元数据具有资源描述、数据选择、信息检索、管理溯源、解释分析、储存入库等作用,为数据有效管理和共建共享提供了基础。本文提出的元数据体系为自然环境试验元数据标准提供了参考思路。 展开更多
关键词 自然环境试验 数据 数据确认原则 数据类别 数据作用 数据体系
下载PDF
CTGANBoost:基于CTGAN与Boosting的信贷欺诈检测研究
11
作者 卓佩妍 张瑶娜 +2 位作者 刘炜 刘自金 宋友 《计算机科学》 CSCD 北大核心 2024年第S01期607-613,共7页
在金融行业中,信贷欺诈检测是一项重要的工作,能够为银行和消金机构减少大量的经济损失。然而,信贷数据中存在类别不平衡和正负样本特征重叠的问题,导致少数类识别灵敏度低且不同类别数据区分度低。针对这些问题,提出一种面向信贷欺诈... 在金融行业中,信贷欺诈检测是一项重要的工作,能够为银行和消金机构减少大量的经济损失。然而,信贷数据中存在类别不平衡和正负样本特征重叠的问题,导致少数类识别灵敏度低且不同类别数据区分度低。针对这些问题,提出一种面向信贷欺诈检测的CTGANBoost方法。首先,在AdaBoost(Adaptive Boosting)方法的每一轮Boosting迭代中,引入基于类别标签信息约束的CTGAN(Conditional Tabular Generative Adversarial Network)方法学习特征分布,进行少数类数据增强工作;其次,基于CTGAN合成的增强数据集,设计了权重归一化方法,确保在样本加权过程中保持原始数据集的分布特征和相对权重。在3个开源数据集上的实验结果表明,CTGANBoost方法的表现均优于其他主流的信贷欺诈检测方法,AUC值提升了0.5%~2.0%,F1值提升了0.6%~1.8%,验证了CTGANBoost方法的有效性和泛化能力。 展开更多
关键词 信贷欺诈 数据类别不平衡 集成学习 生成对抗网络 自适应增强
下载PDF
一种面向不平衡数据的心脏病风险预测可解释性框架
12
作者 周展 刘彬 +4 位作者 郑立瑞 谭建聪 邹北骥 彭清华 肖晓霞 《湖南中医药大学学报》 CAS 2023年第6期1078-1085,共8页
目的研究疾病预测模型存在的类别不平衡性与不可解释性难题。方法结合极限梯度提升(eXtreme gradient boosting,XGBoost)、混合采样和Shapley加法解释(shapley additive exPlanations,SHAP)分析,提出一种面向不平衡数据的心脏病风险预... 目的研究疾病预测模型存在的类别不平衡性与不可解释性难题。方法结合极限梯度提升(eXtreme gradient boosting,XGBoost)、混合采样和Shapley加法解释(shapley additive exPlanations,SHAP)分析,提出一种面向不平衡数据的心脏病风险预测可解释性框架ICRPI。结果该框架下的风险预测模型平衡准确度为0.94250,AUC为0.98603,模型可视化分析获得高龄、高体质量指数(body mass index,BMI)值、患有糖尿病等9个心脏病危险因素,并得出高龄的糖尿病患者、高BMI值且诊断为糖尿病或临界糖尿病患者、高BMI值且缺乏体力活动群体为患心脏病高危群体,临界糖尿病人群参与体力活动可降低患心脏病风险。结论ICRPI框架适用于真实临床不平衡数据分析,且能明确给出致病风险因素及其相关性,可有效提高临床诊断准确率的同时为医生提供致病因素分析,智能辅助医生临床诊疗。 展开更多
关键词 数据类别不平衡 心脏病风险预测 XGBoost SHAP 可解释性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部