期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于C4.5决策树的流量分类方法 被引量:170
1
作者 徐鹏 林森 《软件学报》 EI CSCD 北大核心 2009年第10期2692-2704,共13页
近年来,利用机器学习方法处理流量分类问题成为网络测量领域一个新兴的研究方向.在现有研究中,朴素贝叶斯方法及其改进算法以其实现简单、分类高效的特点而被广泛应用.但此类方法过分依赖于样本在样本空间的分布,具有潜在的不稳定性.为... 近年来,利用机器学习方法处理流量分类问题成为网络测量领域一个新兴的研究方向.在现有研究中,朴素贝叶斯方法及其改进算法以其实现简单、分类高效的特点而被广泛应用.但此类方法过分依赖于样本在样本空间的分布,具有潜在的不稳定性.为此,引入C4.5决策树方法来处理流量分类问题.该方法利用训练数据集中的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类.理论分析和实验结果都表明,利用C4.5决策树来处理流量分类问题在分类稳定性上均具有明显的优势. 展开更多
关键词 流量分类 网络测量 决策树 网络流 统计属性
下载PDF
基于支持向量机的Internet流量分类研究 被引量:59
2
作者 徐鹏 刘琼 林森 《计算机研究与发展》 EI CSCD 北大核心 2009年第3期407-414,共8页
准确的网络流量分类是众多网络研究工作的基础,也一直是网络测量领域的研究热点.近年来,利用机器学习方法处理流量分类问题成为了该领域一个新兴的研究方向.在目前研究中应用较多的是朴素贝叶斯(nave Bayes,NB)及其改进算法.这些方法具... 准确的网络流量分类是众多网络研究工作的基础,也一直是网络测量领域的研究热点.近年来,利用机器学习方法处理流量分类问题成为了该领域一个新兴的研究方向.在目前研究中应用较多的是朴素贝叶斯(nave Bayes,NB)及其改进算法.这些方法具有实现简单、分类高效的特点.但该方法过分依赖于样本空间的分布,具有内在的不稳定性.因此,提出一种基于支持向量机(support vector machine,SVM)的流量分类方法.该方法利用非线性变换和结构风险最小化(structural risk minimization,SRM)原则将流量分类问题转化为二次寻优问题,具有良好的分类准确率和稳定性.在理论分析的基础上,通过在实际网络流集合上与朴素贝叶斯算法的对比实验,可以看出使用支持向量机方法处理流量分类问题,具有以下3个优势:1)网络流属性不必满足条件独立假设,无须进行属性过滤;2)能够在先验知识相对不足的情况下,仍保持较高的分类准确率;3)不依赖于样本空间的分布,具有较好的分类稳定性. 展开更多
关键词 流量分类 网络测量 网络流 支持向量机 统计属性
下载PDF
基于决策树的流量分类方法 被引量:6
3
作者 徐鹏 林森 刘琼 《计算机应用研究》 CSCD 北大核心 2008年第8期2484-2487,共4页
近年来,利用机器学习方法处理流量分类问题已成为网络测量领域一个新兴的研究方向。在目前研究中应用较多的是朴素贝叶斯方法及其改进算法,但这些基于贝叶斯定理的分类方法过于依赖样本空间的分布,具有潜在的不稳定性。为此,引入C4.5决... 近年来,利用机器学习方法处理流量分类问题已成为网络测量领域一个新兴的研究方向。在目前研究中应用较多的是朴素贝叶斯方法及其改进算法,但这些基于贝叶斯定理的分类方法过于依赖样本空间的分布,具有潜在的不稳定性。为此,引入C4.5决策树方法来处理流量分类问题。C4.5决策树方法利用信息熵来构建分类模型,无须假设先验概率的稳定。实验结果表明C4.5决策树方法可以有效避免网络流分布变化所带来的影响。 展开更多
关键词 流量分类 网络测量 网络流 决策树 统计属性
下载PDF
卫生统计基础数据分类与描述 被引量:3
4
作者 娄苗苗 刘丹红 +5 位作者 王霞 杨鹏 谭志军 梁英 潘峰 徐勇勇 《中国卫生信息管理杂志》 2013年第1期26-30,共5页
卫生统计基础数据的正确性关系到最终统计指标的正确性。我国目前卫生统计的基础数据指各级、各类网上机构直接上报的个案数据和汇总数据,包括卫生服务记录、监测系统阳性结果、抽样调查问卷和汇总后报告数据。根据国家卫生统计调查制... 卫生统计基础数据的正确性关系到最终统计指标的正确性。我国目前卫生统计的基础数据指各级、各类网上机构直接上报的个案数据和汇总数据,包括卫生服务记录、监测系统阳性结果、抽样调查问卷和汇总后报告数据。根据国家卫生统计调查制度89套调查表和数据填报项目,基础数据可分为数据集、条目集和数据条目。每一张报表、每一组数据条目、每一条数据、每一个术语的正确描述,除了采用数据元属性外,还包括对象类属性、特性类属性、分类代码属性、值域属性、数据元概念属性、术语属性。本文依据国内外数据描述标准,介绍了对象类、特性类、分类代码、值域、数据元概念和术语描述的基本属性,为系统开发人员、统计填报人员和数据利用人员正确理解、使用和开发卫生统计数据奠定基础。 展开更多
关键词 基础数据 统计数据 数据属性
下载PDF
基于关键词检查属性指标的方法研究 被引量:3
5
作者 杨宏进 《统计研究》 CSSCI 北大核心 2013年第8期10-16,共7页
统计数据中属性指标的质量控制是一个非常棘手的问题,也鲜有这方面的研究。本文通过总结多年的统计工作经验,并借鉴人工智能领域中语义识别技术,提出了一套基于关键词检查属性指标合理性的方法。该方法不仅有效地控制了属性指标的质量,... 统计数据中属性指标的质量控制是一个非常棘手的问题,也鲜有这方面的研究。本文通过总结多年的统计工作经验,并借鉴人工智能领域中语义识别技术,提出了一套基于关键词检查属性指标合理性的方法。该方法不仅有效地控制了属性指标的质量,也大大提高了数据审核的效率。 展开更多
关键词 统计数据 属性指标 关键词 检查方法
下载PDF
基于统计学的KDD方法 被引量:1
6
作者 雷勇 杨丰 《计算机工程与科学》 CSCD 2004年第1期88-89,98,共3页
本文讨论了属性之间统计关系的建模和提取方法,并针对不同的统计关系给出了不同的统 计模型,还就估计未知属性值和提高数据库正确性两方面讨论了统计关系的应用。
关键词 数据库 知识发现 数据库管理系统 KDD 统计学
下载PDF
农业资源属性数据挖掘研究 被引量:2
7
作者 胡为群 祝利莉 +2 位作者 郑可锋 叶少挺 朱旭斌 《科技情报开发与经济》 2006年第15期207-208,共2页
针对农业资源属性数据挖掘提出了预处理方法,并在此基础上探讨了对应数据挖掘的3个层次(即由原始数据生成新的数据,由数据产生模型,由数据归纳出知识),为农业资源数据处理提供了一种解决途径。
关键词 数据挖掘 农业资源 统计分析 属性归纳
下载PDF
基于对象分布的连续属性离散化方法 被引量:1
8
作者 李国和 《计算机应用研究》 CSCD 北大核心 2006年第9期258-260,共3页
为了利用信息系统对象在数据空间中分布,通过对对象的模糊聚类,计算每一类在坐标轴上的统计值。利用正态概率分布特性,引入重叠度和空隙度选取合适的概率,确定最优的区间端点,实现连续属性离散化。
关键词 信息系统 模糊聚类 概率统计 连续属性 离散化
下载PDF
网络连接记录时间窗和统计属性实验研究
9
作者 彭新光 王星魁 +1 位作者 刘玉树 吴裕树 《计算机工程与应用》 CSCD 北大核心 2004年第23期145-147,共3页
在将给定网络数据包文件解协为网络连接记录基础上,针对训练与测试数据集比例划分、分类属性选择和统计属性时间窗大小对网络异常检测模型的影响进行了全面的实验研究。在网络数据包数量较小的前提下,合理选择训练与测试数据集比例、时... 在将给定网络数据包文件解协为网络连接记录基础上,针对训练与测试数据集比例划分、分类属性选择和统计属性时间窗大小对网络异常检测模型的影响进行了全面的实验研究。在网络数据包数量较小的前提下,合理选择训练与测试数据集比例、时间窗和统计属性,能够有效地提高异常检测模型对未知攻击的检测能力。 展开更多
关键词 网络安全 入侵检测 协议解协 连接记录 统计属性 网络监听软件
下载PDF
Transferability and Scalability of Soil Total Carbon Prediction Models in Florida, USA
10
作者 Sabine GRUNWALD Congrong YU Xiong XIONG 《Pedosphere》 SCIE CAS CSCD 2018年第6期856-872,共17页
The applicability, transferability, and scalability of visible/near-infrared(VNIR)-derived soil total carbon(TC) models are still poorly understood. The objectives of this study were to: i) compare models of three mul... The applicability, transferability, and scalability of visible/near-infrared(VNIR)-derived soil total carbon(TC) models are still poorly understood. The objectives of this study were to: i) compare models of three multivariate statistical methods, partial least squares regression(PLSR), support vector machine(SVM), and random forest methods, to predict soil logarithm-transformed TC(logTC) using five fields(local scale) and a pooled(regional-scale) VNIR spectral dataset(a total of 560 TC spectral datasets), ii)assess the model transferability among fields, and iii) evaluate their up-and downscaling behaviors in Florida, USA. The transferability and up-and downscaling of the models were limited by the following factors: i) the spectral data domain, ii) soil attribute domain,iii) methods that describe the internal model structure of VNIR-TC relationships, and iv) environmental domain space of attributes that control soil carbon dynamics. All soil logTC models showed excellent performance based on all three methods with R^2> 0.86,bias < 0.01%, root mean squared error(RMSE) = 0.09%, residual predication deviation(RPD) > 2.70%, and ratio of prediction error to interquartile range(RPIQ) > 4.54. The PLSR method performed substantially better than the SVM method to scale and transfer the TC models. This could be attributed to the tendency of SVM to overfit models, while the asset of the PLSR method was its robustness when the models were validated with independent datasets, transferred, and/or scaled. The upscaled soil TC models performed somewhat better in terms of model fit(R2), RPD, and RPIQ, whereas the downscaled models showed less bias and smaller RMSE based on PLSR. We found no universal trend indicating which of the four limiting factors mentioned above had the most impact that constrained the transferability and scalability of the models. Given that several factors can impinge on the empirically derived soil spectral prediction models, as demonstrated by this study, more focus on their applicability and scalabili 展开更多
关键词 attribute domain MULTIVARIATE statistical methods partial least SQUARES regression random forest support vector machine SOIL carbon dynamics visible-near infrared spectroscopy
原文传递
基于统计分布的小波分析对时间序列孤立点数据的识别与挖掘 被引量:1
11
作者 王建州 杨勇 《西北师范大学学报(自然科学版)》 CAS 2004年第2期3-6,34,共5页
针对时间序列中孤立点的挖掘,提出了基于统计分布的小波分析对孤立点数据的挖掘.首先对所采集到的数据进行排序得出经验分布函数,并估计出经验分布函数与总体分布函数之间的差异;然后利用再抽样的方法缩小子样分布函数与总体分布函数之... 针对时间序列中孤立点的挖掘,提出了基于统计分布的小波分析对孤立点数据的挖掘.首先对所采集到的数据进行排序得出经验分布函数,并估计出经验分布函数与总体分布函数之间的差异;然后利用再抽样的方法缩小子样分布函数与总体分布函数之间的差值,在允许的差值之下,利用子样分布函数代替母体分布函数;最后用小波分析对孤立点进行识别与挖掘. 展开更多
关键词 统计分布 孤立点 数据挖掘 小波分析
下载PDF
基于特征向量统计图谱的颅脑CT图像中病变检出的初步研究 被引量:1
12
作者 李传富 冯焕清 +2 位作者 刘伟 韩真 孙涛 《中国医疗器械杂志》 CAS 2009年第1期7-10,共4页
该文介绍了一种用于描述图像多种特征的特征向量统计图谱(SAAV),并通过将待检测数据与SAAV的比较分析实现颅脑CT图像中病变的自动化检出。实验表明,该方法能较敏感地检出主要的颅脑CT病变区域。
关键词 病变检出 颅脑CT 统计图谱 特征向量 非刚性配准
下载PDF
基于TAN的网络流量分类方法
13
作者 张立仿 张喜平 +1 位作者 柴旭清 闫娟 《计算机工程与设计》 CSCD 北大核心 2011年第12期3957-3960,共4页
针对传统的基于传输层端口和基于特征码的流量分类技术准确率低、应用范围有限等缺点,提出了使用树扩展的贝叶斯分类器的方法,该方法利用网络流量的统计属性和基于统计理论的贝叶斯方法构建分类模型,并利用该模型对未知流量进行分类。... 针对传统的基于传输层端口和基于特征码的流量分类技术准确率低、应用范围有限等缺点,提出了使用树扩展的贝叶斯分类器的方法,该方法利用网络流量的统计属性和基于统计理论的贝叶斯方法构建分类模型,并利用该模型对未知流量进行分类。实验分析了不同权值、不同规模的数据集对其性能的影响,并与NB、C4.5算法做了比较。实验结果表明,该方法具有较好的分类性能和较高的分类准确率。 展开更多
关键词 流量分类 树扩展的贝叶斯分类器 贝叶斯网络 统计属性 机器学习
下载PDF
关系数据库中统计关系的挖掘和应用 被引量:9
14
作者 李石君 王汉飞 周洞汝 《计算机工程与应用》 CSCD 北大核心 2000年第6期117-118,共2页
文章利用统计方法挖掘关系数据库中属性间的统计关系,并讨论了属性间统计关系的应用。
关键词 数据挖掘 知识发现 属性值 关系数据库
下载PDF
计数型数据控制图:过去和未来趋势
15
作者 王志琼 何桢 《系统工程学报》 CSCD 北大核心 2024年第3期344-359,共16页
计数型数据的应用涉及多种制造或服务过程,已引起学界和业界的高度重视.虽然相对计量型数据控制图而言,针对计数型数据控制图的研究较少,但是近二十年也有大量文献涌现.系统回顾和梳理计数型数据控制图的研究进展,以期能为学界和业界工... 计数型数据的应用涉及多种制造或服务过程,已引起学界和业界的高度重视.虽然相对计量型数据控制图而言,针对计数型数据控制图的研究较少,但是近二十年也有大量文献涌现.系统回顾和梳理计数型数据控制图的研究进展,以期能为学界和业界工作者提供理论全貌和实践指导.首先,回顾总结了一元计数型数据控制图的相关研究.然后,按照数据复杂程度逐步增加,先后梳理了多元计数型数据控制图、响应为计数型数据的轮廓控制图以及关联关系为计数型数据的网络控制图.最后,综合文献梳理结果,给出未来的研究方向. 展开更多
关键词 统计过程控制 计数型数据 多元控制图 轮廓控制图 网络控制图
下载PDF
统计数据库管理系统的设计与实现 被引量:1
16
作者 曾红卫 陈永年 《软件学报》 EI CSCD 北大核心 1995年第2期123-128,共6页
统计与科学数据库与常规商用数据库有很大差异,利用常规的商用数据库管理系统建立统计与科学数据库是不合适的.本文以我们开发的统计数据库管理系统(SSDBMS)为基础,讨论SSDBMS的数据模型数据压缩、安全保密、统计查询... 统计与科学数据库与常规商用数据库有很大差异,利用常规的商用数据库管理系统建立统计与科学数据库是不合适的.本文以我们开发的统计数据库管理系统(SSDBMS)为基础,讨论SSDBMS的数据模型数据压缩、安全保密、统计查询等一系列技术. 展开更多
关键词 统计数据库 数据压缩 管理系统 设计
下载PDF
基于风险监测的药品生产质量监管方法研究 被引量:2
17
作者 陈锋 《中国食品药品监管》 2022年第6期18-25,共8页
本文分析了基于风险监测的药品生产质量监管目标定位,开展药品生产质量监管方法研究,认为基于风险管理原则和质量源于设计的理念,采用统计过程控制技术对药品生产关键工艺参数实施控制图分析,进而分析生产过程的受控状态,是对药品生产... 本文分析了基于风险监测的药品生产质量监管目标定位,开展药品生产质量监管方法研究,认为基于风险管理原则和质量源于设计的理念,采用统计过程控制技术对药品生产关键工艺参数实施控制图分析,进而分析生产过程的受控状态,是对药品生产质量创新监管的有效方法,并分析了该模式下药品生产质量监管的核心业务,进而提出信息化解决方案,为实现药品生产质量精准监管、靶向监管,推动药品生产过程动态监测、持续合规,提供了方法和路径。 展开更多
关键词 风险监测 药品生产质量监管 统计过程控制 关键工艺参数 关键质量属性
下载PDF
美沙拉秦缓释片中羧甲纤维素钠的关键质量属性辨识和控制 被引量:2
18
作者 张孝娜 王珏 +1 位作者 孙考祥 孙会敏 《中国医药工业杂志》 CAS CSCD 北大核心 2020年第12期1549-1557,共9页
本研究检测了4个厂家生产的羧甲纤维素钠(CMC-Na)的各项物理指标,再用其制备美沙拉秦缓释片,评价自制美沙拉秦缓释片与原研制剂体外释放曲线的相似因子(f2)。采用正交偏最小二乘(OPLS)法建立CMC-Na物理指标与f2值的关联模型。通过多变... 本研究检测了4个厂家生产的羧甲纤维素钠(CMC-Na)的各项物理指标,再用其制备美沙拉秦缓释片,评价自制美沙拉秦缓释片与原研制剂体外释放曲线的相似因子(f2)。采用正交偏最小二乘(OPLS)法建立CMC-Na物理指标与f2值的关联模型。通过多变量统计建模方法,以变量投影重要性为指标筛选出CMC-Na潜在的关键质量属性(CQAs),并确定为松密度、重均分子量、振实密度、比表面积。通过绘制上述4个CQAs与f2值的响应面图,求得设计空间。结果表明,CMC-Na的松密度>0.51732 g/cm^3、重均分子量>644710 g/mol、振实密度>0.79387g/cm^3和比表面积>0.659 m^2/g时,自制美沙拉秦缓释片与原研制剂体外释放曲线的f2值可达到50,即体外释放行为相似。这为今后仿制药研发过程中辅料的筛选提供了依据,有助于使药物研发过程更加明确、可控。 展开更多
关键词 羧甲纤维素钠 美沙拉秦 缓释片 多变量统计建模 正交偏最小二乘法 关键质量属性 设计空间
原文传递
基于概率多值中智统计距离的灰色妥协关联双向投影决策法 被引量:1
19
作者 臧誉琪 费晓香 《统计与决策》 CSSCI 北大核心 2021年第7期162-166,共5页
文章针对已有灰色关联投影决策法尚存在适用性差的技术缺陷,提出一种新型灰色妥协关联双向投影决策法。运用描述统计中的集中趋势测量与离散趋势测量,并引入概率多值中智数的表达优势,构造概率多值中智统计距离公式;在此基础上,结合妥... 文章针对已有灰色关联投影决策法尚存在适用性差的技术缺陷,提出一种新型灰色妥协关联双向投影决策法。运用描述统计中的集中趋势测量与离散趋势测量,并引入概率多值中智数的表达优势,构造概率多值中智统计距离公式;在此基础上,结合妥协思想与双向投影技术,提出基于概率多值中智统计距离的灰色妥协双向投影决策法;通过算例分析,直接验证了概率多值中智灰色妥协关联双向投影决策法的实用性,间接验证了概率多值中智统计距离和灰色妥协关联双向投影法的有效性。 展开更多
关键词 概率多值中智集 统计距离 灰色妥协关联 双向投影 多属性决策
下载PDF
基于决策树的网络流量分类方法 被引量:7
20
作者 于孝美 陈贞翔 彭立志 《济南大学学报(自然科学版)》 CAS 北大核心 2012年第3期291-295,共5页
针对传统流量分类方法(基于端口和有效载荷)分类不可靠的问题,提出基于C4.5决策树算法,根据训练集中属性的信息增益比率构建分类模型,按属性对测试数据集进行预测,通过查找分类模型实现对网络流量的分类。在公开数据集和自己采集的数据... 针对传统流量分类方法(基于端口和有效载荷)分类不可靠的问题,提出基于C4.5决策树算法,根据训练集中属性的信息增益比率构建分类模型,按属性对测试数据集进行预测,通过查找分类模型实现对网络流量的分类。在公开数据集和自己采集的数据集上进行实验,结果表明,采用C4.5决策树算法对网络流量分类,平均分类精度为93%,单类别分类精度均在90%以上,能有效地实现对网络流量应用类型的识别。 展开更多
关键词 流量分类 决策树 网络流 统计属性
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部