期刊文献+
共找到1,659篇文章
< 1 2 83 >
每页显示 20 50 100
White Matter Abnormalities in Major Depression Biotypes Identified by Diffusion Tensor Imaging 被引量:10
1
作者 Sugai Liang Qiang Wang +11 位作者 Xiangzhen Kong Wei Deng Xiao Yang Xiaojing Li Zhong Zhang Jian Zhang Chengcheng Zhang Xin-min Li Xiaohong Ma Junming Shao Andrew J. Greenshaw Tao Li 《Neuroscience Bulletin》 SCIE CAS CSCD 2019年第5期867-876,共10页
Identifying data-driven biotypes of major depressive disorder(MDD) has promise for the clarification of diagnostic heterogeneity. However, few studies have focused on white-matter abnormalities for MDD subtyping. This... Identifying data-driven biotypes of major depressive disorder(MDD) has promise for the clarification of diagnostic heterogeneity. However, few studies have focused on white-matter abnormalities for MDD subtyping. This study included 116 patients with MDD and118 demographically-matched healthy controls assessed by diffusion tensor imaging and neurocognitive evaluation.Hierarchical clustering was applied to the major fiber tracts, in conjunction with tract-based spatial statistics, to reveal white-matter alterations associated with MDD.Clinical and neurocognitive differences were compared between identified subgroups and healthy controls. With fractional anisotropy extracted from 20 fiber tracts, cluster analysis revealed 3 subgroups based on the patterns of abnormalities. Patients in each subgroup versus healthy controls showed a stepwise pattern of white-matter alterations as follows: subgroup 1(25.9% of patient sample),widespread white-matter disruption;subgroup 2(43.1% of patient sample), intermediate and more localized abnormalities in aspects of the corpus callosum and left cingulate;and subgroup 3(31.0% of patient sample),possible mild alterations, but no statistically significant tract disruption after controlling for family-wise error. The neurocognitive impairment in each subgroup accompanied the white-matter alterations: subgroup 1, deficits in sustained attention and delayed memory;subgroup 2, dysfunction in delayed memory;and subgroup 3, no significant deficits. Three subtypes of white-matter abnormality exist in individuals with major depression, those having widespread abnormalities suffering more neurocognitive impairments, which may provide evidence for parsing the heterogeneity of the disorder and help optimize typespecific treatment approaches. 展开更多
关键词 Major DEPRESSIVE DISORDER hierarchal clustering Diffusion TENSOR imaging BIOTYPE HETEROGENEITY
原文传递
基于波形聚类分析的微地震监测事件类型判别及应用 被引量:6
2
作者 翟尚 喻志超 +4 位作者 谭玉阳 黄芳飞 刘玲 胡天跃 何川 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第3期406-416,共11页
以不同类型微地震监测事件在波形相似性上的差异为基础,结合发生位置、走时规律和偏振方向等方面的特征,提出一种基于波形聚类分析的微地震监测事件类型判别方法。首先使用常规的微地震事件识别算法,快速地得到待分类的疑似事件;然后进... 以不同类型微地震监测事件在波形相似性上的差异为基础,结合发生位置、走时规律和偏振方向等方面的特征,提出一种基于波形聚类分析的微地震监测事件类型判别方法。首先使用常规的微地震事件识别算法,快速地得到待分类的疑似事件;然后进行波形聚类分析,结合事件的属性特征,实现对不同类型微地震事件及噪声事件的分类和判别。分类结果可用于波形模板匹配,识别同类的低信噪比微地震事件;还可将所有同类事件作为一个整体,采用全局优化手段提高初至拾取的精度。 展开更多
关键词 波形互相关 微地震事件 层次聚类 属性提取
下载PDF
AHP中群决策权重的确定与判断矩阵的合并 被引量:71
3
作者 吴云燕 华中生 查勇 《运筹与管理》 CSCD 2003年第4期16-21,共6页
本文首先运用系统聚类分析法,对群决策中的专家进行了分类,并为每位专家赋予了不同的权重。然后在专家自身权重的作用下,根据各个判断矩阵之间的一致性,算出每个判断矩阵的可信度权值,对经过一致性调整的多专家判断矩阵进行加权平均,得... 本文首先运用系统聚类分析法,对群决策中的专家进行了分类,并为每位专家赋予了不同的权重。然后在专家自身权重的作用下,根据各个判断矩阵之间的一致性,算出每个判断矩阵的可信度权值,对经过一致性调整的多专家判断矩阵进行加权平均,得出多专家对各判定方案的判定结果。文章的最后用一个算例来说明本文中方法的实施过程。 展开更多
关键词 层次分析法 AHP 群决策 权重 判断矩阵 系统聚类分析法 加权平均 决策学
下载PDF
用于数据挖掘的聚类算法 被引量:67
4
作者 姜园 张朝阳 +1 位作者 仇佩亮 周东方 《电子与信息学报》 EI CSCD 北大核心 2005年第4期655-662,共8页
数据挖掘用于从超大规模数据库中提取感兴趣的信息。聚类是数据挖掘的重要工具,根据数据间的相似性 将数据库分成多个类,每类中数据应尽可能相似。从机器学习的观点来看,类相当于隐藏模式,寻找类是无监督学 习过程。目前已有应用于统计... 数据挖掘用于从超大规模数据库中提取感兴趣的信息。聚类是数据挖掘的重要工具,根据数据间的相似性 将数据库分成多个类,每类中数据应尽可能相似。从机器学习的观点来看,类相当于隐藏模式,寻找类是无监督学 习过程。目前已有应用于统计、模式识别、机器学习等不同领域的几十种聚类算法。该文对数据挖掘中的聚类算法 进行了归纳和分类,总结了7类算法并分析了其性能特点。 展开更多
关键词 数据挖掘 聚类 分层聚类 分割聚类 K-MEANS
下载PDF
基于层次划分的最佳聚类数确定方法 被引量:82
5
作者 陈黎飞 姜青山 王声瑞 《软件学报》 EI CSCD 北大核心 2008年第1期62-72,共11页
确定数据集的聚类数目是聚类分析中一项基础性的难题.常用的trail-and-error方法通常依赖于特定的聚类算法,且在大型数据集上计算效率欠佳.提出一种基于层次思想的计算方法,不需要对数据集进行反复聚类,它首先扫描数据集获得CF(clusteri... 确定数据集的聚类数目是聚类分析中一项基础性的难题.常用的trail-and-error方法通常依赖于特定的聚类算法,且在大型数据集上计算效率欠佳.提出一种基于层次思想的计算方法,不需要对数据集进行反复聚类,它首先扫描数据集获得CF(clusteringfeature,聚类特征)统计值,然后自底向上地生成不同层次的数据集划分,增量地构建一条关于不同层次划分的聚类质量曲线;曲线极值点所对应的划分用于估计最佳的聚类数目.另外,还提出一种新的聚类有效性指标用于衡量不同划分的聚类质量.该指标着重于簇的几何结构且独立于具体的聚类算法,能够识别噪声和复杂形状的簇.在实际数据和合成数据上的实验结果表明,新方法的性能优于新近提出的其他指标,同时大幅度提高了计算效率. 展开更多
关键词 聚类 聚类有效性指标 统计指标 聚类数 层次聚类
下载PDF
一种基于数据场的层次聚类方法 被引量:82
6
作者 淦文燕 李德毅 王建民 《电子学报》 EI CAS CSCD 北大核心 2006年第2期258-262,共5页
聚类分析是统计、模式识别和数据挖掘等领域中一个非常重要的研究课题,具有广泛的应用前景.受物理学中场论思想的启发,提出一种基于数据场的层次聚类方法.该方法将物质粒子间的相互作用及其场描述方法引入抽象的数域空间,通过模拟对象... 聚类分析是统计、模式识别和数据挖掘等领域中一个非常重要的研究课题,具有广泛的应用前景.受物理学中场论思想的启发,提出一种基于数据场的层次聚类方法.该方法将物质粒子间的相互作用及其场描述方法引入抽象的数域空间,通过模拟对象在虚拟数据场中的相互作用和运动实现数据对象的自组织层次聚集.实验显示,该方法不依赖于用户输入参数的仔细选择,能够发现任意大小和密度的非球形聚类,对噪声数据不敏感,且具有近似线性的收敛速度. 展开更多
关键词 聚类分析 层次聚类 数据场
下载PDF
基于LDA模型的文本聚类研究 被引量:66
7
作者 王鹏 高铖 陈晓美 《情报科学》 CSSCI 北大核心 2015年第1期63-68,共6页
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的... 在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。 展开更多
关键词 文本聚类 LDA模型 文本相似度 层次聚类
原文传递
不同品种马铃薯的氨基酸营养价值评价 被引量:59
8
作者 赵凤敏 李树君 +4 位作者 张小燕 杨炳南 刘威 苏丹 杨延辰 《中国粮油学报》 EI CAS CSCD 北大核心 2014年第9期13-18,共6页
试验收集了国内广泛种植且产量较高的29个马铃薯品种,应用模糊识别法和氨基酸比值系数氨基酸比值系数分等指标全面评价了不同品种马铃薯氨基酸的营养价值,并利用系统聚类法对29个品种氨基酸营养价值进行分类,筛选出氨基酸营养价值最高的... 试验收集了国内广泛种植且产量较高的29个马铃薯品种,应用模糊识别法和氨基酸比值系数氨基酸比值系数分等指标全面评价了不同品种马铃薯氨基酸的营养价值,并利用系统聚类法对29个品种氨基酸营养价值进行分类,筛选出氨基酸营养价值最高的6个马铃薯品种,分别为LBr-25、青薯168、高原号、俄8、渝马铃薯1号和Shepody。显著性分析结果显示系统聚类结果可靠,对保证马铃薯营养价值全面发及品种的合理利用具有一定的指导意义。 展开更多
关键词 马铃薯 氨基酸 营养评价 系统聚类
下载PDF
基于随机森林算法的台区合理线损率估计方法 被引量:55
9
作者 王守相 周凯 苏运 《电力自动化设备》 EI CSCD 北大核心 2017年第11期39-45,共7页
线损管理是电力公司的重点管理内容之一,低压电网普遍采用分台区的管理手段。供电侧数据缺失和营销抄表日期冲突导致的线损率缺失是电力公司线损系统中台区线损数据存在的主要问题。为此,提出了一种涉及多源数据的基于随机森林算法的台... 线损管理是电力公司的重点管理内容之一,低压电网普遍采用分台区的管理手段。供电侧数据缺失和营销抄表日期冲突导致的线损率缺失是电力公司线损系统中台区线损数据存在的主要问题。为此,提出了一种涉及多源数据的基于随机森林算法的台区合理线损率估计方法。从线损系统、生产管理系统和营销系统中提取台区、变压器和用户相关数据,建立台区特征数据库;对台区进行聚类分析,并在此基础上建立决策树分类模型和随机森林估计模型;利用上述模型估计台区线损率。以上海电力公司实际数据为例,计算结果验证了所提方法的可行性;并将所得结果与线性回归模型和回归树模型的估计结果进行比较,表明所提方法性能优越。 展开更多
关键词 台区线损率 线损管理 多源异构数据 层次聚类 决策树 随机森林算法
下载PDF
基于多策略优化的分治多层聚类算法的话题发现研究 被引量:38
10
作者 骆卫华 于满泉 +2 位作者 许洪波 王斌 程学旗 《中文信息学报》 CSCD 北大核心 2006年第1期29-36,共8页
话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分... 话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类),然后对所有的微类再进行聚类,得到最终的话题,在聚类的过程中采用多种策略进行优化,以保证聚类的效果。基于该算法的系统在TDT4中文语料上进行了测试,结果表明该算法属于目前结果最好的算法之一。 展开更多
关键词 计算机应用 中文信息处理 话题发现与跟踪 分治多层聚类 系统聚类
下载PDF
基于特征选择的模糊聚类异常入侵行为检测 被引量:47
11
作者 唐成华 刘鹏程 +1 位作者 汤申生 谢逸 《计算机研究与发展》 EI CSCD 北大核心 2015年第3期718-728,共11页
网络攻击连接具有行为的多变性和复杂性等特征,利用基于传统聚类的行为挖掘技术来构建异常入侵检测模型是不可行的.针对网络攻击行为的特点,提出了基于特征选择的模糊聚类异常入侵模型.首先通过层次聚类算法改善了FCM聚类算法结果对初... 网络攻击连接具有行为的多变性和复杂性等特征,利用基于传统聚类的行为挖掘技术来构建异常入侵检测模型是不可行的.针对网络攻击行为的特点,提出了基于特征选择的模糊聚类异常入侵模型.首先通过层次聚类算法改善了FCM聚类算法结果对初始聚类中心的敏感性,再利用遗传算法的全局搜索能力克服了其在迭代时易陷入局部最优的缺点,并将它们结合构成一种AGFCM算法;然后采用信息增益算法对网络攻击连接数据集的特征属性进行排序,同时利用约登指数来删减数据集的特征属性以确定特征属性容量;最后利用低维特征属性集和改进的FCM聚类算法构建了异常入侵检测模型.实验结果表明该模型对绝大多数的网络攻击类型具有很好的检测能力,为解决异常入侵检测模型的误警率和检测率等问题提供了一种可行的解决途径. 展开更多
关键词 模糊聚类 层次聚类 特征选择 模糊C均值 异常检测
下载PDF
深圳湾潮间带底栖动物群落结构的等级聚类与非度量多维标度排序 被引量:42
12
作者 厉红梅 蔡立哲 +1 位作者 林丽珠 姚建彬 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第3期735-740,共6页
应用等级聚类与非线性多维标度排序两种多变量统计分析方法研究了深圳湾潮间带底栖动物群落结构的时空变化 .结果表明 :1)底栖动物群落在深圳福田 A断面上与香港米埔 RB和 ET断面上有较明显的差异 ,在 A断面高潮区与中、低潮区也有较明... 应用等级聚类与非线性多维标度排序两种多变量统计分析方法研究了深圳湾潮间带底栖动物群落结构的时空变化 .结果表明 :1)底栖动物群落在深圳福田 A断面上与香港米埔 RB和 ET断面上有较明显的差异 ,在 A断面高潮区与中、低潮区也有较明显的空间差异 .2 ) RB和 ET断面底栖动物群落有明显的季节变化 .温度。 展开更多
关键词 群落结构 等级聚类 非线性多维标度 深圳湾 底栖动物群落
下载PDF
基于尺度空间的分层聚类方法及其在遥感影像分类中的应用 被引量:33
13
作者 骆剑承 梁怡 周成虎 《测绘学报》 EI CSCD 北大核心 1999年第4期319-324,共6页
基于尺度空间的分层聚类方法(SSHC)是一种以热力学非线性动力机制为理论基础的新型聚类算法,是视觉松弛化过程的模拟。与传统基于统计方法的聚类算法相比较,SSHC具有样本空间可服从自由分布、通过规则可获取最优聚类中心点... 基于尺度空间的分层聚类方法(SSHC)是一种以热力学非线性动力机制为理论基础的新型聚类算法,是视觉松弛化过程的模拟。与传统基于统计方法的聚类算法相比较,SSHC具有样本空间可服从自由分布、通过规则可获取最优聚类中心点及类别、可在聚类过程中融合后验知识等优点。本文从聚类系统的热力学运动机制和视觉模拟过程出发,对SSHC聚类算法进行综合分析,并对如何生成聚类树的过程进行详细描述,提出了通过融合点的部分自由能(FFE)和所属聚类子树所包含叶结点最小点集等规则来获取对最优聚类中心点决策;最后对SSHC算法在多波段遥感影像分类中的应用模型进行详细探讨,结论认为相对于传统的统计聚类方法,SSHC聚类算法具有更多的灵活性和实用性。 展开更多
关键词 遥感 影像分类 尺度空间 分层聚类
下载PDF
面向规划建设的村庄分类指标体系研究 被引量:43
14
作者 史秋洁 刘涛 曹广忠 《人文地理》 CSSCI 北大核心 2017年第6期121-128,共8页
我国村庄类型多样,规划建设需要分类指导,但全国层面上综合、简便、易推广的村庄分类指标和方法仍有待探索。在目标导向、有机综合、简明可操作及适度弹性原则的指导下,从总体和结构两方面建立包括自然禀赋、区位条件、村庄规模、形态... 我国村庄类型多样,规划建设需要分类指导,但全国层面上综合、简便、易推广的村庄分类指标和方法仍有待探索。在目标导向、有机综合、简明可操作及适度弹性原则的指导下,从总体和结构两方面建立包括自然禀赋、区位条件、村庄规模、形态结构、人口结构、经济结构和用地结构的村庄类型基础指标体系;并基于全国7省48个行政村样本数据,采用聚类分析、KW检验和主成分分析提取8个简便易行的正交特征指标;据此识别了平原传统农业村、山区传统农林村、养殖专业村、远山特色农业村、城郊非农产业村和平原非农产业村等典型村庄类型,总结了各类型特征及规划建设重点,证实了指标和方法的科学性和适用性,为我国村庄规划建设的分类指导提供了方法论基础。 展开更多
关键词 村庄规划与建设 村庄分类 指标体系 聚类分析 全国层面
原文传递
森林树种高光谱波段的选择 被引量:37
15
作者 刘秀英 林辉 +3 位作者 熊建利 熊育久 孙华 莫登奎 《遥感信息》 CSCD 2005年第4期41-44,64,共5页
高光谱是遥感技术发展的一个重要方向,也是地物识别的重要手段。本研究利用地物光谱仪对杉木、雪松、小叶樟树和桂花树4个树种进行高光谱数据测量,探索不同树种在不同波段上的识别能力。研究采用了逐步判别分析法和分层聚类法对实验数... 高光谱是遥感技术发展的一个重要方向,也是地物识别的重要手段。本研究利用地物光谱仪对杉木、雪松、小叶樟树和桂花树4个树种进行高光谱数据测量,探索不同树种在不同波段上的识别能力。研究采用了逐步判别分析法和分层聚类法对实验数据进行数据分析。结果表明:逐步判别分析法选择的波段主要位于红、绿、蓝、和近红外区;分层聚类法选择的波段除了红、绿、蓝、和近红外波段外,还增加了蓝-绿边缘、绿-红边缘和红边区的波段。所选择的波段比原始波段在树种识别时具有更高的精度,最高识别精度达96.77%;边缘区波段对树种的识别有重要作用;用对数-微分变换处理较其他方法处理对树种识别有更好的效果。 展开更多
关键词 高光谱遥感 逐步判别分析 分层聚类 波段选择 识别精度
下载PDF
基于局部相似性的复杂网络社区发现方法 被引量:40
16
作者 刘旭 易东云 《自动化学报》 EI CSCD 北大核心 2011年第12期1520-1529,共10页
复杂网络是复杂系统的典型表现形式,社区结构是复杂网络最重要的结构特征之一.针对复杂网络的社区结构发现问题,本文提出一种新的局部相似性度量,并结合层次聚类算法用于社区结构发现.相对全局的相似性度量,本文提出的相似性度量具有较... 复杂网络是复杂系统的典型表现形式,社区结构是复杂网络最重要的结构特征之一.针对复杂网络的社区结构发现问题,本文提出一种新的局部相似性度量,并结合层次聚类算法用于社区结构发现.相对全局的相似性度量,本文提出的相似性度量具有较低的计算开销;同时又能很好地刻画网络的结构特征,克服了传统局部相似性度量在某些情形下对节点相似性的低估倾向.为了将局部相似性度量用于社区结构发现,推广了传统的Ward层次聚类算法,使之适用于具有相似性度量的任意对象,并将其用于复杂网络社区结构发现.在合成和真实世界的网络上进行了实验,并与典型算法进行了比较,实验结果表明所提算法的可行性和有效性. 展开更多
关键词 复杂网络 社区结构发现 相似性度量 层次聚类
下载PDF
基于航迹聚类的终端区进场程序管制适用性分析 被引量:40
17
作者 王超 徐肖豪 王飞 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2013年第1期130-139,共10页
为了定量评估终端空域的空中交通管制服务水平,提出了描述进场飞行程序管制适用性的新概念。在对实际运行航迹数据特征分析的基础上,建立了基于对应雷达轨迹点逆向比对方法的航迹间相似性测度模型。应用层次聚类法对航迹数据集进行了聚... 为了定量评估终端空域的空中交通管制服务水平,提出了描述进场飞行程序管制适用性的新概念。在对实际运行航迹数据特征分析的基础上,建立了基于对应雷达轨迹点逆向比对方法的航迹间相似性测度模型。应用层次聚类法对航迹数据集进行了聚类分析,提出了根据航迹聚类集构造平均航迹的方法。通过比较平均航迹和标准进场程序,建立了描述管制适用性的3个量化指标及其算法,包括:纵向偏离度、侧向偏离度和非常规航迹比例等。实例分析表明:以上指标能准确表示进场飞行程序提供空中交通管制服务的水平,并可以根据聚类结果来改进现有进场飞行程序结构。 展开更多
关键词 空中交通管理 进场程序 管制适应性 层次聚类
下载PDF
基于单目视觉的田间菠萝果实识别 被引量:40
18
作者 李斌 Ning Wang +1 位作者 汪懋华 李莉 《农业工程学报》 EI CAS CSCD 北大核心 2010年第10期345-349,共5页
菠萝果实的准确识别是菠萝采摘机器人视觉系统的关键。针对田间复杂环境中的青色菠萝,采用图像处理技术、数学形态学方法,识别菠萝果眼,并获取果眼的中心点信息;引入层次聚类分类方法,对多个中心点进行聚类分析;求取最多点集的中心坐标... 菠萝果实的准确识别是菠萝采摘机器人视觉系统的关键。针对田间复杂环境中的青色菠萝,采用图像处理技术、数学形态学方法,识别菠萝果眼,并获取果眼的中心点信息;引入层次聚类分类方法,对多个中心点进行聚类分析;求取最多点集的中心坐标,作为菠萝区域的近似形心。选用在广东湛江菠萝田间拍摄的35幅图像作为评价样本,经过运算,迎光条件下形心识别正确率达到85%。本研究为菠萝采摘机器人的田间果实识别提供了有效的技术方案。 展开更多
关键词 图像处理 视觉 形态学 菠萝 识别 层次聚类
下载PDF
四种聚类方法之比较 被引量:36
19
作者 冯晓蒲 张铁峰 《微型机与应用》 2010年第16期1-3,共3页
介绍了较为常见的k-means、层次聚类、SOM、FCM等四种聚类算法,阐述了各自的原理和使用步骤,利用国际通用测试数据集IRIS对这些算法进行了验证和比较。结果显示对该测试类型数据,FCM和k-means都具有较高的准确度,层次聚类准确度最差,而... 介绍了较为常见的k-means、层次聚类、SOM、FCM等四种聚类算法,阐述了各自的原理和使用步骤,利用国际通用测试数据集IRIS对这些算法进行了验证和比较。结果显示对该测试类型数据,FCM和k-means都具有较高的准确度,层次聚类准确度最差,而SOM则耗时最长。 展开更多
关键词 聚类算法 K-MEANS 层次聚类 SOM FCM
下载PDF
一种大数据量的相似记录检测方法 被引量:32
20
作者 韩京宇 徐立臻 董逸生 《计算机研究与发展》 EI CSCD 北大核心 2005年第12期2206-2212,共7页
大数据量的相似重复记录检测是数据清洗中的一个重要问题,提出一种基于q-gram层次空间的聚类检测方法:它首先将数据映射成q-gram空间中的点,并根据q-gram空间中的相似性度量采用层次聚类方法将相似的重复记录检测出来·它克服了传... 大数据量的相似重复记录检测是数据清洗中的一个重要问题,提出一种基于q-gram层次空间的聚类检测方法:它首先将数据映射成q-gram空间中的点,并根据q-gram空间中的相似性度量采用层次聚类方法将相似的重复记录检测出来·它克服了传统的“排序&合并”方法由于字符位置敏感不能将相似记录字符串排在邻近位置的不足和大数量外排序引起I/O代价过大的问题·理论分析和实验表明,方法不仅具有好的检测精度,且有好的伸缩性,能够有效地解决大数据量的相似重复记录检测· 展开更多
关键词 数据清洗 q-gram 相似重复记录 层次聚类
下载PDF
上一页 1 2 83 下一页 到第
使用帮助 返回顶部