频繁模式挖掘(FPM)是图数据研究领域的一个经典问题,单一大图上的FPM问题近年来受到了更加广泛的关注。该问题被定义为根据用户给定的频率阈值查找在大图(Graph)中频繁出现的所有模式图(Pattern)。近年来,人们见证了FPM在多个领域的广...频繁模式挖掘(FPM)是图数据研究领域的一个经典问题,单一大图上的FPM问题近年来受到了更加广泛的关注。该问题被定义为根据用户给定的频率阈值查找在大图(Graph)中频繁出现的所有模式图(Pattern)。近年来,人们见证了FPM在多个领域的广泛应用,例如社交网络分析、欺诈检测等。然而,面对新兴的应用需求,人们需要更具语义表达力的模式图及其挖掘技术。为此,在传统模式图的基础上,首先提出了量化模式图(Quantified Graph Patterns,QGPs)——一类具有计数量词约束的模式图,实现了模式图语义的扩展;其次设计了一种在分布式场景下挖掘QGPs的算法,提出了量化图模式关联规则(Quantified Graph Pattern Association Rules,QGPARs)及其挖掘技术,用于预测(社交)网络中实体之间的潜在联系,然后利用真实图和合成图数据,通过翔实的实验验证了QGPs挖掘算法的计算效率,通过与经典链接预测方法进行对比,发现QGPARs可以取得更高的链接预测准确性;最后通过与传统图模式关联规则(Graph Pattern Association Rules,GPARs)的链接预测结果进行对比,验证了QGPARs与GPARs之间在链接预测结果方面存在显著差异,也进一步验证了QGPARs在链接预测中的有效性。展开更多
数据挖掘技术能有效解决孤岛检测中检测阈值的整定问题,已成为重要的孤岛检测方法。文中提出由关键特征识别、基学习器和元学习器等3个环节构成的孤岛检测数据挖掘系统。首先,分析了孤岛检测样本中的弱相关特征对分类的不利影响,提出利...数据挖掘技术能有效解决孤岛检测中检测阈值的整定问题,已成为重要的孤岛检测方法。文中提出由关键特征识别、基学习器和元学习器等3个环节构成的孤岛检测数据挖掘系统。首先,分析了孤岛检测样本中的弱相关特征对分类的不利影响,提出利用RELIEF(recursive elimination of features)算法首先识别孤岛检测的关键特征。然后,分析了单一分类器的归纳偏置现象,提出利用多个分类器的互补性提高孤岛检测的精度;最后,提出了基于元学习的新的孤岛检测方法。为验证上述方法的有效性,仿真算例中充分考虑了功率不平衡度、电压扰动等因素。仿真结果表明,上述3个环节对提高孤岛检测的精度和泛化能力具有重要作用。展开更多
文摘频繁模式挖掘(FPM)是图数据研究领域的一个经典问题,单一大图上的FPM问题近年来受到了更加广泛的关注。该问题被定义为根据用户给定的频率阈值查找在大图(Graph)中频繁出现的所有模式图(Pattern)。近年来,人们见证了FPM在多个领域的广泛应用,例如社交网络分析、欺诈检测等。然而,面对新兴的应用需求,人们需要更具语义表达力的模式图及其挖掘技术。为此,在传统模式图的基础上,首先提出了量化模式图(Quantified Graph Patterns,QGPs)——一类具有计数量词约束的模式图,实现了模式图语义的扩展;其次设计了一种在分布式场景下挖掘QGPs的算法,提出了量化图模式关联规则(Quantified Graph Pattern Association Rules,QGPARs)及其挖掘技术,用于预测(社交)网络中实体之间的潜在联系,然后利用真实图和合成图数据,通过翔实的实验验证了QGPs挖掘算法的计算效率,通过与经典链接预测方法进行对比,发现QGPARs可以取得更高的链接预测准确性;最后通过与传统图模式关联规则(Graph Pattern Association Rules,GPARs)的链接预测结果进行对比,验证了QGPARs与GPARs之间在链接预测结果方面存在显著差异,也进一步验证了QGPARs在链接预测中的有效性。
文摘数据挖掘技术能有效解决孤岛检测中检测阈值的整定问题,已成为重要的孤岛检测方法。文中提出由关键特征识别、基学习器和元学习器等3个环节构成的孤岛检测数据挖掘系统。首先,分析了孤岛检测样本中的弱相关特征对分类的不利影响,提出利用RELIEF(recursive elimination of features)算法首先识别孤岛检测的关键特征。然后,分析了单一分类器的归纳偏置现象,提出利用多个分类器的互补性提高孤岛检测的精度;最后,提出了基于元学习的新的孤岛检测方法。为验证上述方法的有效性,仿真算例中充分考虑了功率不平衡度、电压扰动等因素。仿真结果表明,上述3个环节对提高孤岛检测的精度和泛化能力具有重要作用。