-
题名基于清洗规则和主数据的数据修复算法实现
被引量:5
- 1
-
-
作者
林印华
张春海
刘洁
-
机构
中国海洋大学信息科学与工程学院
-
出处
《计算机科学》
CSCD
北大核心
2012年第S3期174-176,共3页
-
文摘
为了有效地清洗数据,此前已经提出了很多的完整性约束规则,例如条件函数依赖、条件包含依赖。这些约束规则虽然可以侦测出错误的存在,但是不能有效地指导用户纠正错误。实际上,基于约束规则的数据修复可能最终得不到确定性的修复结果,相反会引入新的错误,因此很大程度上降低了数据修复的效率。针对以上不足,提出了一种有效的数据清洗框架:首先基于Editing Rules和Master Data对数据进行清洗操作,最终得到确定性的修复;然后依据条件函数依赖来修复遗漏的错误,此种修复结果是不确定的,但是相比之下该框架不仅可以有效地保证数据修复的精确性与唯一性,而且提高了数据修复的效率。
-
关键词
条件函数依赖
清洗规则
数据清洗
数据质量
-
Keywords
Conditional functional dependency
cleaning rules
Data cleaning
Data quality
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名网上双边拍卖机制设计及其实现
被引量:13
- 2
-
-
作者
殷红
王先甲
-
机构
武汉大学系统工程研究所
-
出处
《系统工程理论与实践》
EI
CSCD
北大核心
2004年第10期110-116,121,共8页
-
基金
国家自然科学基金(60274048)
-
文摘
针对有多个买方和卖方参与的在线拍卖,设计了一个双边拍卖机制,此机制除了符合网络的特点外,还有如下优点:允许参与人对多单位商品进行报价;在时段末在线拍卖市场出清;所有参与人都按其对商品的真实估价进行报价;卖方不会发生网上共谋.最后给出了此拍卖机制实现的具体数据结构和系统框架.
-
关键词
在线双边拍卖
归一价格
出清规则
激励相容
4堆
-
Keywords
online double auctions
cleaning rule
translate-into-one price
incentive compatible
4-heap
-
分类号
C931
[经济管理—管理学]
F08
-
-
题名基于规则和数据学习的清洗模型研究
- 3
-
-
作者
石少敏
-
机构
陕西教育学院计算机科学与技术系
-
出处
《陕西教育学院学报》
2011年第3期89-93,共5页
-
基金
陕西教育学院科研基金项目(10KJ040)
-
文摘
数据质量在信息管理系统中具有重要意义。然而,由于用户拼写、录入、系统升级等原因导致各种数据质量问题的出现。数据清洗的目的就是检测出脏数据并修复它们。而当前的清洗工具缺乏灵活性和扩展性,基于此,本文提出了一个基于规则和数据学习的通用清洗模型。模型实现了动态规则学习和动态数据学习等关键技术。通过规则匹配和反馈学习过程实现了动态清洗规则最佳选择;通过字段学习和元表学习过程实现了动态数据的初始化。实验证明,应用该模型保证了动态数据的质量,提高了当前清洗工具的灵活性和扩展性。
-
关键词
数据清洗
清洗规则
规则反馈
数据质量
数据学习
规则学习
-
Keywords
data cleaning
cleaning rule
rule feedback
data quality
data learning
rule learning
-
分类号
TP393.01
[自动化与计算机技术—计算机应用技术]
-
-
题名面向网络入侵检测的FHNN重抽样方法
被引量:1
- 4
-
-
作者
赵月爱
陈俊杰
吕伟
-
机构
太原师范学院计算机系
太原理工大学计算机与软件学院
中国人民解放军
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第8期135-136,139,共3页
-
基金
山西省自然科学基金资助项目(2008021025)
山西省高等学校科技计划基金资助项目(20091145)
-
文摘
为提高网络入侵检测系统的检测效率、降低数据的不平衡程度,在分析现有重抽样方法的基础上,根据网络入侵检测数据集的特点,提出快速分层最近邻(FHNN)重抽样方法,并在KDD’99数据集上进行实验验证。结果显示,该方法可以较好地删除噪声数据和冗余信息,减小数据的不平衡度和样本总量,而且运行速度快,适用于海量数据中的各类攻击检测。
-
关键词
重抽样方法
非平衡数据
网络入侵检测
NCL算法
ADABOOST算法
-
Keywords
resampling method; imbalanced data; network intrusion detection; Neighborhood cleaning rule(NCL) algorithm; AdaBoost algorithm;
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-
-
题名重抽样方法FHNN及其在入侵检测中的应用
- 5
-
-
作者
赵月爱
陈俊杰
-
机构
太原师范学院计算机系
太原理工大学计算机与软件学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第22期86-88,109,共4页
-
基金
山西省青年科学基金资助项目(No.2008021025)
山西省高等学校科技研究项目(No.20091145)
-
文摘
重抽样方法是常用的解决数据非平衡问题的一种有效手段,为提高入侵检测系统的检测效率,降低数据的不平衡程度,提出了快速分层最近邻FHNN重抽样方法,采用两阶段的基于负载均衡策略的高速网络入侵检测模型,按协议类型把KDD’99的训练数据集划分并在每类子集上进行了各种实验。实验结果表明该方法不仅可以很好地删除噪声数据和冗余信息,尤其是类区域内样本,减小数据的不平衡度和样本总量,而且由于算法时间复杂度是线性阶的,在样本数量很大的情况下,运行速度非常快,适合从海量的数据中快速而有效地检测各类攻击。
-
关键词
非均衡数据
重抽样方法
网络入侵检测系统
NCL算法
ADABOOST算法
-
Keywords
imbalanced data
resampling methods
Network Intrusion Detection system
Neighborhood cleaning rule
Adaboost algorithm
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-