-
题名学习特征权值对K-均值聚类算法的优化
被引量:48
- 1
-
-
作者
王熙照
王亚东
湛燕
袁方
-
机构
河北大学数学与计算机科学学院机器学习研究中心
哈尔滨工业大学计算机科学与工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2003年第6期869-873,共5页
-
基金
国家自然科学基金 ( 69975 0 0 5
60 2 730 83)
+1 种基金
河北省自然科学基金 ( 698139)
河北省教育厅科研计划项目 ( 2 0 0 12 0 6)
-
文摘
K 均值 (K means)算法聚类的结果依赖于距离度量的选取 传统的K 均值算法选择的相似性度量通常是欧几里德距离的倒数 ,这种距离通常涉及所有的特征 在距离公式中引入一些特征权参数后 ,其聚类结果将依赖于这些权值 ,从而可以通过调整这些权值优化聚类效果 由于K 均值算法是迭代算法 ,很难直接确定其权值以优化聚类结果 ,因此提出了一种间接的学习权值算法以改进聚类结果 从数学意义上讲 ,这种权值学习相当于欧氏空间中对一组点进行了一个线性变换
-
关键词
K-均值聚类
相似度量
特征权值
梯度下降技术
-
Keywords
K-means clustering
similarity metrics
feature weight
gradient-descent technique
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP311
[自动化与计算机技术—控制科学与工程]
-
-
题名模糊决策树算法与清晰决策树算法的比较研究
被引量:21
- 2
-
-
作者
王熙照
孙娟
杨宏伟
赵明华
-
机构
河北大学数学与计算机学院机器学习研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第21期72-75,99,共5页
-
基金
河北省教育厅基金资助项目(编号:2002154
2002156)
-
文摘
ID3算法是一种典型的决策树归纳算法,这种算法在假定示例的属性值和分类值是确定的前提下,使用信息熵作为启发式建立一棵清晰的决策树。针对现实世界中存在的不确定性,人们提出了另一种决策树归纳算法,即模糊决策树算法,它是清晰决策树算法的一种推广。这两种算法在实际应用中各有自己的优劣之处,针对一个具体问题的知识获取过程,选取哪一种算法目前还没有一个较明确的依据。该文从5个方面对这两种算法进行了详细的比较,指出了属性为连续值时这两种算法的异同及优缺点,其目的是在为解决具体问题时怎样选择这两种算法提供一些有用的线索。
-
关键词
机器学习
归纳学习
决策树归纳
模糊决策树算法
清晰决策树算法
-
Keywords
Machine Learning,Inductive Learning,Decision Tree Inductive,Fuzzy Decision Tree Inductive
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名决策树简化(剪切)方法综述
被引量:13
- 3
-
-
作者
王熙照
游自英
-
机构
河北大学数学与计算机学院机器学习研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第27期66-69,共4页
-
基金
教育部科学技术研究重点项目(编号:03017)
河北省自然科学基金项目(编号:603137)
河北省教育厅博士基金项目(编号:B2003117)资助
-
文摘
树的简化是决策树归纳学习中关键的部分。论文是决策树简化方法的一个综述,包括预剪枝、后剪枝和其它方法。文中叙述了多种著名的剪枝方法,各种方法的优缺点及对其的改进和变型。
-
关键词
决策树简化
剪枝
预剪枝
后剪枝
-
Keywords
simplifying decision trees,pruning,pre-pruning,post-pruning
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于层次分解的决策树
被引量:12
- 4
-
-
作者
杨宏伟
赵明华
孙娟
王熙照
-
机构
河北大学数学与计算机学院机器学习研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第23期108-110,175,共4页
-
基金
河北省自然科学基金资助项目"基于模糊信息的示例学习理论及算法"(编号:698139)
-
文摘
目前人们经常使用决策树推理技术进行知识挖掘。以Quinlan1986年提出的ID3为代表的传统的决策树能较好地解决分类问题,但当类的个数增多时,所产生的单一决策树就会变得复杂,同时概括能力降低。该文采用基于层次分解的方法通过产生多层决策树来处理多类问题。与传统的单一决策树比较,基于层次分解的决策树在处理多类问题时有许多的优势。
-
关键词
归纳学习
决策树
ID3
层次分解
知识挖掘
分类问题
-
Keywords
Induction learning,Decision tree,ID3,Hiberarchy decomposition
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名传递闭包聚类中的模糊性分析
被引量:12
- 5
-
-
作者
王熙照
王丽娟
王利伟
-
机构
河北大学数学与计算机学院机器学习研究中心
空军第一航空学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第18期92-94,129,共4页
-
基金
河北省教育厅科研计划项目(编号:2001206)
-
文摘
传递闭包聚类是根据其相似矩阵的传递闭包生成一个聚类图(模式空间的若干个精确划分),聚类过程的模糊性主要体现在相似矩阵上,并可以通过模糊信息熵函数度量。聚类过程中模糊性的大小是衡量聚类效果好坏的一个重要指标。降低聚类的模糊性,有利于最终的决策(指定一个精确的划分)。论文引入了交叉熵的概念,通过学习权重,极小化交叉熵,可以有效地降低聚类的模糊性。
-
关键词
聚类
传递闭包聚类
模糊信息熵
-
Keywords
Clustering,transitive closure clustering,fuzziness entropy
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于遗传算法学习聚类算法的中心个数
被引量:4
- 6
-
-
作者
湛燕
杨芳
王熙照
-
机构
河北大学数学与计算机科学学院机器学习研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第16期86-87,99,共3页
-
基金
河北省自然科学基金(编号:698139)
-
文摘
无导师聚类算法的目标是将一个数据集划分为若干个类,使得类内相似性尽可能大且类间相似性尽可能小。聚类过程中对数据集合分割成多少个类是一个很难确定的问题,目前还没有较好的解决方法。文章使用遗传算法对无导师聚类K-均值(K-means)算法中中心个数K值进行学习,实现了使用遗传算法进行聚类中心个数的确定,旨在提供一种选择中心参数个数的方法。通过对UCI机器学习数据库中的7个数据库进行实验,证实此方法是比较有效的。
-
关键词
遗传算法
K—均值聚类
分割
-
Keywords
Genetic algorithms ,K-means clustering,Partition
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
TP181
[自动化与计算机技术—计算机科学与技术]
-
-
题名两种模糊决策树算法的对比研究
被引量:3
- 7
-
-
作者
王金凤
王熙照
-
机构
河北大学数学与计算机科学学院机器学习研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第29期92-95,共4页
-
基金
河北省自然科学基金(编号:698139)
-
文摘
模糊决策树归纳是从具有模糊表示的示例中学习规则的一种重要方法,从符号值属性类分明的数据中提取规则可视为模糊决策树归纳的一种特殊情况。由于构建最优的模糊决策树是NP-hard,因此,针对启发式算法的研究是非常必要的。该文主要对两种启发式算法即FuzzyID3和Min-Ambiguity算法应用于符号值属性并且类分明情况所作的分析比较。通过实验与理论分析,发现FuzzyID3算法应用于符号值属性类分明的数据库时从训练准确度、测试准确度和树的规模等方面都要优于Min-Ambiguity算法。
-
关键词
模糊决策树
启发式算法
示例学习
-
Keywords
fuzzy decision tree,heuristic algorithm,learning from examples
-
分类号
O159
[理学—数学]
-
-
题名模糊决策树的等效剪枝研究
- 8
-
-
作者
王熙照
董彦军
-
机构
河北大学数学与计算机学院机器学习研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第7期152-155,共4页
-
文摘
基于Min-Ambiguity启发式算法的模糊决策树整个建立过程均是在给定的一个显著性水平参数基础上进行,该参数值的选择对于模糊决策树性能将产生重要影响。文章通过实验研究表明,在某一特定取值区间内,随着该参数值的逐步增大,可以使得模糊决策树在保持提高测试精度的前提下,使树的规模逐步减小,直至到达该参数的最优值,使树成为测试精度达到最优而树规模达到最小的一棵。而再度增大的此参数值(已超出该区间)却会导致树的过度剪枝,使树的测试精度降低。最后,通过相同数据在清晰决策树系统(C4.5系统)后剪枝前后的比较试验进一步证实,在该区间内,逐步增大的此参数值对模糊决策树性能的影响等效于清晰决策树的后剪枝。
-
关键词
模糊决策树
清晰决策树
后剪枝
模糊熵
分类不确定性
-
Keywords
fuzzy decision tree,crisp decision tree,post pruning,fuzzy entropy,classification ambiguity
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于遗传算法的模糊决策树的参数优化
被引量:4
- 9
-
-
作者
赵明华
杨宏伟
孙娟
王金凤
王熙照
-
机构
河北大学数学与计算机学院机器学习研究中心
河北师范大学数学与信息科学学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第25期88-91,97,共5页
-
基金
河北省自然科学基金资助项目"基于模糊信息的示例学习理论及算法"(编号:698139)
-
文摘
模糊决策树归纳学习是从示例中产生规则知识的一个重要方法,决策树的产生过程涉及到两个重要的参数α、β。一般说来,这两个参数的选取依赖于所讨论的领域知识和用户的需要,若选取不当,会对分类结果产生很大影响,从而导致不正确的分类。如何选取这两个参数的值目前尚无较好的方法,仅凭人们的经验而定,该文提出了一种应用遗传算法来优化模糊决策树中参数的方法,旨在为选取参数提供实验方法,同时也为直接选取经验参数提供了一定的实验支撑。
-
关键词
归纳学习
模糊决策树归纳
模糊ID3算法
遗传算法
-
Keywords
inductive learning,fuzzy decision tree,fuzzy-ID3algorithm,genetic algorithm
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
G433
[自动化与计算机技术—计算机科学与技术]
-
-
题名模糊决策树中参数对模糊熵的敏感性分析
被引量:2
- 10
-
-
作者
赵明华
孙娟
杨宏伟
王熙照
-
机构
河北大学数学与计算机学院机器学习研究中心
河北师范大学数学与信息科学学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第11期90-92,共3页
-
基金
河北省自然科学基金资助项目(698139)
-
文摘
模糊决策树的ID3算法是Quinlan提出的传统ID3算法的一个模糊版本?树的整个 产生过程在给定的显著性水平α的基础上进行,的值在很大程度上影响模糊熵的计算,从而 影响模糊决策树最终的分类结果?对参数α关于模糊熵的敏感性进行了分析,试图定性地找 出二者之间的解析关系,从而为选取参数α的值以达到最优的分类结果提供理论依据?
-
关键词
归纳学习
模糊决策树
模糊熵
-
Keywords
Inductive learning
Fuzzy decision tree
Fuzzy entropy
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名Lazy和Eager分类算法的比较研究
被引量:1
- 11
-
-
作者
陈昊
王熙照
袁方
湛燕
-
机构
河北大学数学与计算机科学学院机器学习研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第4期72-73,106,共3页
-
基金
河北省自然科学基金资助(编号:698139)
河北省教育厅科研计划项目资助(编号:2001206)
-
文摘
数据挖掘的两个高层目标是预测和描述,这个过程中分类算法的应用是非常广泛的。分类算法在机器学习领域中可以分为Lazy和Eager两种类型,分别具有不同的算法特点。文章基于实验对这两种类型的分类算法进行了分析,概括出适宜两种类型的环境条件,旨在提出实际应用中进行算法选择的经验性结论。
-
关键词
分类
数据挖掘
K-近邻
决策树
-
Keywords
Classification,Data mining,K-NN,Decision tree
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名模糊决策树中四种匹配算法的对比研究
- 12
-
-
作者
薛林雁
王熙照
-
机构
河北大学数学与计算机学院机器学习研究中心
-
出处
《内蒙古科技与经济》
2006年第04X期126-127,共2页
-
文摘
模糊决策树推理是基于模糊表示的示例学习的一种重要方法,模糊推理方法的选择在很大程度上影响推理的性能和效果。本文介绍了四种基于不同模糊算子的模糊推理方法,并通过实验对这些方法的训练精度和测试精度进行了评判和排序。
-
关键词
模糊决策树
模糊算子
训练精度
测试精度
-
分类号
O159
[理学—数学]
-
-
题名基于模糊熵的BP算法改进
- 13
-
-
作者
花强
赵伯夷
高月
-
机构
河北大学数学与计算机学院机器学习研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第20期138-141,共4页
-
基金
河北省自然科学基金No.F2008000635
No.F2009000227~~
-
文摘
由于BP网络简单的拓扑结构和优秀的逼近能力,它已经被广泛地应用于预测和非线性系统的建模中。但是由于算法自身的不足,在实际应用中会产生很多问题。因此,BP网络的优化已经成为了一个重要的课题。为了提高BP网络的泛化能力,将模糊熵加入到BP网络的性能函数中,提出了基于模糊熵的BP算法。在实验中,将两种算法进行了对比,结果表明改进算法可以有效地提高测试精度,避免了过度拟合。
-
关键词
BP网络
过拟合
模糊熵
-
Keywords
backpropagation neural networks
over-fitting
fuzzy entropy
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名用于社区电能监测系统的无线传感器网络
- 14
-
-
作者
王健健
王硕
-
机构
华北电力大学电子与通信工程系
河北大学数学与计算机学院机器学习研究中心
-
出处
《黑龙江科技信息》
2010年第31期42-42,共1页
-
文摘
无线传感器网络技术的飞速发展,使其得到了广泛应用。介绍用于社区电能监测系统的无线传感器网络,目的是为了设计出实时、可靠和低功耗的系统,使社区电能监测更易于实现,同时方便根据需要做必要的电力调度。
-
关键词
电能监测
无线传感器网络
应用
-
分类号
TP212
[自动化与计算机技术—检测技术与自动化装置]
-