期刊文献+
共找到599篇文章
< 1 2 30 >
每页显示 20 50 100
煤矿无人化智能开采系统理论与技术研发进展 被引量:62
1
作者 王国法 张良 +10 位作者 李首滨 李森 冯银辉 孟令宇 南柄飞 杜明 付振 李然 王峰 刘清 王丹丹 《煤炭学报》 EI CAS CSCD 北大核心 2023年第1期34-53,共20页
提出以矿井物联网和先进传感等通信方式为支撑环境,构建“感知、传输、决策、执行、运维、监管”六维度智能开采控制系统;基于此系统架构,提出无人化智能开采控制技术路线和系统方案;最后,对煤矿无人化智能开采系统的理论和技术研发最... 提出以矿井物联网和先进传感等通信方式为支撑环境,构建“感知、传输、决策、执行、运维、监管”六维度智能开采控制系统;基于此系统架构,提出无人化智能开采控制技术路线和系统方案;最后,对煤矿无人化智能开采系统的理论和技术研发最新进展进行了详细论述。利用双光谱热红外摄像及图像增强技术,解决综采工作面生产工况条件下的视觉监控透尘问题;提出多目视频帧图像融合和全景视频拼接技术,解决工作面大视角覆盖以及实时无死角视频监控问题;利用三维颜色查找法,解决增强算法在质量和实时性难以满足井下视觉测量任务的问题。工作面设备自适应控制进一步发展:构建精准三维地质模型,进行开采预测和模型动态修正,为智能开采提供精准地质保障;结合采煤机截割模板修正技术、工作面多源信息融合智能控制技术,规划采煤机割煤路线;利用新一代信息技术,实现高质量的视频传输,满足智能控制及感知设备的无线接入;利用远距离液压保障技术,在有限开采空间内减轻检修强度、增加安全性。在行业当前普遍采用的“工作面内自动控制+远程干预模式”的智能化开采技术基础上,提出了新一代无人化智能采煤控制技术方法,设计了“井上智能决策、井下自动执行、面内无人作业”的智能无人开采模式;提出聚焦“一网到底”的网络型控制系统、基于透明地质的采煤机自主规划割煤技术、云台摄像机自动跟机视频技术以及基于一体化操作座椅的地面远控平台等关键技术的研发,并应用于黄陵一矿627智能化工作面,实现工作面1人巡视,采煤机自主规划截割,地面2人远程辅助控制的常态化生产。 展开更多
关键词 无人化智能开采 机器视觉 设备自适应控制 开采工艺 技术路线 无人化智能开采实践
下载PDF
基于机器学习的软件漏洞挖掘方法综述 被引量:45
2
作者 李韵 黄辰林 +2 位作者 王中锋 袁露 王晓川 《软件学报》 EI CSCD 北大核心 2020年第7期2040-2061,共22页
软件复杂性的增加,给软件安全性带来极大的挑战.随着软件规模的不断增大以及漏洞形态多样化,传统漏洞挖掘方法由于存在高误报率和高漏报率的问题,已无法满足复杂软件的安全性分析需求.近年来,随着人工智能产业的兴起,大量机器学习方法... 软件复杂性的增加,给软件安全性带来极大的挑战.随着软件规模的不断增大以及漏洞形态多样化,传统漏洞挖掘方法由于存在高误报率和高漏报率的问题,已无法满足复杂软件的安全性分析需求.近年来,随着人工智能产业的兴起,大量机器学习方法被尝试用于解决软件漏洞挖掘问题.首先,通过梳理基于机器学习的软件漏洞挖掘的现有研究工作,归纳了其技术特征与工作流程;接着,从其中核心的原始数据特征提取切入,以代码表征形式作为分类依据,对现有研究工作进行分类阐述,并系统地进行了对比分析;最后,依据对现有研究工作的整理总结,探讨了基于机器学习的软件漏洞挖掘领域面临的挑战,并展望了该领域的发展趋势. 展开更多
关键词 机器学习 漏洞挖掘 代码表征 软件质量 深度学习
下载PDF
金融学文本大数据挖掘方法与研究进展 被引量:39
3
作者 姚加权 张锟澎 罗平 《经济学动态》 CSSCI 北大核心 2020年第4期143-158,共16页
在金融学领域的传统实证研究中,所用数据多局限于财务报表和股票市场数据等结构化数据。而在大数据时代,计算机技术的进步使得数据类型不断丰富,研究者开始将非结构化的文本大数据引入到金融学领域的研究中,其主要包括上市公司披露文本... 在金融学领域的传统实证研究中,所用数据多局限于财务报表和股票市场数据等结构化数据。而在大数据时代,计算机技术的进步使得数据类型不断丰富,研究者开始将非结构化的文本大数据引入到金融学领域的研究中,其主要包括上市公司披露文本、财经媒体报道、社交网络文本、网络搜索指数以及P2P网络借贷文本等,并对文本的可读性、语气语调、相似性以及语义特征展开研究。本文首先介绍了金融学领域文本大数据挖掘步骤和方法,描述了语料获取、预处理过程、文档表示以及文档的特征抽取;然后根据不同的文本信息来源,梳理了金融学文本大数据的研究进展;最后对未来金融学文本大数据的研究方法和研究内容进行了展望。 展开更多
关键词 文本大数据 文本分析 机器学习 深度学习 数据挖掘
原文传递
基于Web挖掘的领域本体自动学习 被引量:31
4
作者 方卫东 袁华 刘卫红 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1729-1733,共5页
为获取领域本体并量化概念关系的可信度,提出了一种基于W eb挖掘的学习模型。通过可扩展的模式集和分布语义模型获取本体主干,使用关联规则发现概念间的一般关系,对候选本体进行修剪和合并。模式可信度、概念语义距离与关联特征决定了... 为获取领域本体并量化概念关系的可信度,提出了一种基于W eb挖掘的学习模型。通过可扩展的模式集和分布语义模型获取本体主干,使用关联规则发现概念间的一般关系,对候选本体进行修剪和合并。模式可信度、概念语义距离与关联特征决定了概念间关系的可信度。通过“文本分析本体获取文本扩充”的迭代过程,优化模型参数和阈值。该模型解决了现有本体学习方法对词典或核心本体的依赖性、以及不能对关系进行可信度量化的问题。实验证明了所提出模型的有效性。 展开更多
关键词 机器学习 WEB挖掘 自然语言处理 本体 分布语义 主题签名 上下文签名
原文传递
网页分类技术 被引量:18
5
作者 孙建涛 沈抖 +1 位作者 陆玉昌 石纯一 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第1期65-68,共4页
网页分类是使用机器学习的方法实现网页类别的自动标注。回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法。使用纯文本分类技术处理网页是不合理的。基于概率模型的方法和... 网页分类是使用机器学习的方法实现网页类别的自动标注。回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法。使用纯文本分类技术处理网页是不合理的。基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题。应该采用多种指标对网页分类算法进行评价。 展开更多
关键词 网页分类 机器学习 文本分类 网络挖掘
原文传递
基于Matlab的贝叶斯分类器实验平台MBNC 被引量:27
6
作者 程泽凯 林士敏 +2 位作者 陆玉昌 蒋望东 陆小艺 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2004年第5期729-732,共4页
为了测试评估贝叶斯分类器的性能,用不同数据集进行对比实验是必不可少的.现有的贝叶斯网络实验软件包都是针对特定目的设计的,不能满足不同研究的需要.介绍了用Matlab在BNT软件包基础上建构的贝叶斯分类器实验平台MBNC,阐述了MBNC的系... 为了测试评估贝叶斯分类器的性能,用不同数据集进行对比实验是必不可少的.现有的贝叶斯网络实验软件包都是针对特定目的设计的,不能满足不同研究的需要.介绍了用Matlab在BNT软件包基础上建构的贝叶斯分类器实验平台MBNC,阐述了MBNC的系统结构和主要功能,以及在MBNC上建立的朴素贝叶斯分类器NBC,基于互信息和条件互信息测度的树扩展的贝叶斯分类器TANC,基于K2算法和GS算法的贝叶斯网络分类器BNC.用来自UCI的标准数据集对MBNC进行测试,实验结果表明基于MBNC所建构的贝叶斯分类器的性能优于国外同类工作的结果,编程量大大小于使用同类的实验软件包,所建立的MBNC实验平台工作正确、有效、稳定.在MBNC上已经进行贝叶斯分类器的优化和改进实验,以及处理缺失数据等研究工作. 展开更多
关键词 朴素贝叶斯分类器 实验平台 软件包 贝叶斯网络 数据集 编程 标准数据 同类 建构 测试评估
原文传递
神经网络规则抽取 被引量:19
7
作者 周志华 陈世福 《计算机研究与发展》 EI CSCD 北大核心 2002年第4期398-405,共8页
神经网络是一种黑箱模型,其学习到的知识蕴涵在大量连接权中,不仅影响了用户对利用神经计算技术构建智能系统的信心,还阻碍了神经网络技术在数据挖掘领域的应用.由于对神经网络规则抽取进行研究有助于解决上述问题,因此该领域已成... 神经网络是一种黑箱模型,其学习到的知识蕴涵在大量连接权中,不仅影响了用户对利用神经计算技术构建智能系统的信心,还阻碍了神经网络技术在数据挖掘领域的应用.由于对神经网络规则抽取进行研究有助于解决上述问题,因此该领域已成为机器学习和神经计算界的研究热点.介绍了神经网络规则抽取研究的历史,综述了国际研究现状,对关于这方面研究的不同看法进行了讨论,并指出该领域中一些值得进一步研究的内容. 展开更多
关键词 神经网络 机器学习 规则抽取 知识获取 数据挖掘
下载PDF
Infrastructure-based localisation of automated coal mining equipment 被引量:31
8
作者 Chad O. Hargrave Craig A. James Jonathon C. Ralston 《International Journal of Coal Science & Technology》 EI 2017年第3期252-261,共10页
A novel radar-based system for longwall coal mine machine localisation is described. The system, based on a radar-ranging sensor and designed to localise mining equipment with respect to the mine tunnel gate road infr... A novel radar-based system for longwall coal mine machine localisation is described. The system, based on a radar-ranging sensor and designed to localise mining equipment with respect to the mine tunnel gate road infrastructure, is developed and trialled in an underground coal mine. The challenges of reliable sensing in the mine environment are considered, and the use of a radar sensor for localisation is justified. The difficulties of achieving reliable positioning using only the radar sensor are examined. Several probabilistic data processing techniques are explored in order to estimate two key localisation parameters from a single radar signal, namely along-track position and across-track position, with respect to the gate road structures. For the case of across-track position, a conventional Kalman filter approach is sufficient to achieve a reliable estimate. However for along-track position estimation, specific infrastructure elements on the gate road rib-wall must be identified by a tracking algorithm. Due to complexities associated with this data processing problem, a novel visual analytics approach was explored in a 3D interactive display to facilitate identification of significant features for use in a classifier algorithm. Based on the classifier output, identified elements are used as location waypoints to provide a robust and accurate mining equipment localisation estimate. 展开更多
关键词 Localisation · Waypoint navigation · machine learning · Radar ·Underground · Longwall mining· Automation
下载PDF
美国ZestFinance公司大数据征信实践 被引量:31
9
作者 刘新海 丁伟 《征信》 2015年第8期27-32,共6页
美国金融科技公司Zest Finance利用大数据进行信用风险评估引起国内互联网金融和征信领域的关注。对Zest Finance的商业模式和大数据挖掘技术进行进一步解读,概述信用风险管理的发展历程和背景知识,深入分析Zest Finance的商业理念,详... 美国金融科技公司Zest Finance利用大数据进行信用风险评估引起国内互联网金融和征信领域的关注。对Zest Finance的商业模式和大数据挖掘技术进行进一步解读,概述信用风险管理的发展历程和背景知识,深入分析Zest Finance的商业理念,详细介绍Zest Finance的技术路线;总结对刚刚起步的中国征信业的一些借鉴意义,希望能够对中国未来的大数据征信有一些启示。 展开更多
关键词 征信 大数据 信用评分 机器学习 数据挖掘
下载PDF
一种聚类学习的新方法 被引量:23
10
作者 朱明 王俊普 《模式识别与人工智能》 EI CSCD 北大核心 2000年第3期262-265,共4页
基于人进行聚类判断所遵循的基本原则,即聚类中对象间距离应小于聚类间距离,本文提出了一种聚类学习的新方法。该方法无需用户事先给定聚类个数K,且其算法复杂度基本为O(nm)。此外,该聚类学习新方法,在处理大规模(几十万至几百万个)数... 基于人进行聚类判断所遵循的基本原则,即聚类中对象间距离应小于聚类间距离,本文提出了一种聚类学习的新方法。该方法无需用户事先给定聚类个数K,且其算法复杂度基本为O(nm)。此外,该聚类学习新方法,在处理大规模(几十万至几百万个)数据对象时,也具有良好的工作效能。有关实验测试结果,充分说明了该聚类学习新方法的有效性。 展开更多
关键词 聚类学习 无监督学习 机器学习 数据挖掘
原文传递
基于机器学习的入侵检测技术概述 被引量:15
11
作者 张义荣 肖顺平 +1 位作者 鲜明 王国玉 《计算机工程与应用》 CSCD 北大核心 2006年第2期7-10,86,共5页
基于机器学习的入侵检测方法是大规模、高带宽网络环境下实现对网络攻击智能检测的关键技术之一。该文对目前主流的基于机器学习的各种入侵检测方法进行了简要介绍和评述,并结合网络攻击的发展趋势,阐述了入侵检测机器学习方法的发展方向。
关键词 入侵检测 机器学习 数据挖掘 神经网络 遗传算法 粗糙集 支持向量机 人工免疫
下载PDF
基于GEOROC数据库的全球辉长岩大数据的大地构造环境智能判别研究 被引量:28
12
作者 焦守涛 周永章 +3 位作者 张旗 金维浚 刘艳鹏 王俊 《岩石学报》 SCIE EI CAS CSCD 北大核心 2018年第11期3189-3194,共6页
辉长岩是化学成分与玄武岩类似的侵入岩,前人认为它的形成过程太复杂,对应的岩浆可能经过了分离结晶作用、混染作用等,不能用Pearce判别图来判断岩浆岩形成的构造环境。本文利用GEOROC数据库的资料对辉长岩进行大数据挖掘。首先根据前... 辉长岩是化学成分与玄武岩类似的侵入岩,前人认为它的形成过程太复杂,对应的岩浆可能经过了分离结晶作用、混染作用等,不能用Pearce判别图来判断岩浆岩形成的构造环境。本文利用GEOROC数据库的资料对辉长岩进行大数据挖掘。首先根据前人成果,将GEOROC数据库的辉长岩形成的大地构造环境分为大陆玄武岩环境、汇聚边界环境、板内火山岩环境和大洋岛弧玄武岩环境等4类;然后在数据清洗基础上,利用Python语言,依托sklearn库,实现支持向量机、K近邻和随机森林等3种机器学习算法,获得3种对应的分类器结果输出。对辉长岩的构造环境进行智能判别结果显示,随机森林方法效果最好,判断准确率可达97%,利用辉长岩的地球化学大数据来判断岩浆岩的构造环境是完全可行的。 展开更多
关键词 辉长岩 机器学习 大数据挖掘 支持向量机 随机森林 GEOROC PYTHON
下载PDF
中文问答社区答案质量的评价研究:以知乎为例 被引量:27
13
作者 王伟 冀宇强 +1 位作者 王洪伟 郑丽娟 《图书情报工作》 CSSCI 北大核心 2017年第22期36-44,共9页
[目的/意义]在线问答社区成为互联网用户获取高质量知识的重要途径,探索中文问答社区答案质量对知识传播具有重要意义。[方法/过程]以规模最大的中文问答社区之一"知乎"为研究对象,采用数据挖掘和机器学习方法,选取逻辑回归... [目的/意义]在线问答社区成为互联网用户获取高质量知识的重要途径,探索中文问答社区答案质量对知识传播具有重要意义。[方法/过程]以规模最大的中文问答社区之一"知乎"为研究对象,采用数据挖掘和机器学习方法,选取逻辑回归、支持向量机和随机森林三种分类模型,进行三层递进式训练和检验。从结构化特征、文本特征以及用户社交属性三个维度构建答案质量的特征体系。[结果/结论]实验结果显示,随着特征体系的不断丰富,三种分类模型的性能逐步提升;而随机森林作为一种组合分类模型,在全量特征的情况下,取得出色的分类性能。对特征组合分析发现,包含用户社交属性的随机森林总是比同等级的其它模型更加出色,表明社会化网络在答案质量评价中的地位。研究结论表明从答案本身和答案编写者两个角度能够评价答案质量,构建的特征体系和模型可以较为全面地预测答案质量。 展开更多
关键词 答案质量 质量评价 机器学习 文本挖掘 知乎
原文传递
一种基于级联模型的类别不平衡数据分类方法 被引量:23
14
作者 刘胥影 吴建鑫 周志华 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第2期148-155,共8页
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉... 真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下. 展开更多
关键词 机器学习 数据挖掘 类别不平衡 级联 集成学习
下载PDF
一种基于遗传算法的优化分类器的方法 被引量:6
15
作者 季文赟 周傲英 +1 位作者 张亮 金文 《软件学报》 EI CSCD 北大核心 2002年第2期245-249,共5页
提出了一种通过遗传算法(GA)对单个分类器进行优化以及对多个分类器进行组合优化的方法.该方法使用叠加(stacking)的策略.经典的叠加策略分为两步,该方法将遗传算法作为叠加策略的第2步.实验结果表明,遗传算法可以较好地完成优化任务,... 提出了一种通过遗传算法(GA)对单个分类器进行优化以及对多个分类器进行组合优化的方法.该方法使用叠加(stacking)的策略.经典的叠加策略分为两步,该方法将遗传算法作为叠加策略的第2步.实验结果表明,遗传算法可以较好地完成优化任务,同单个分类器比较,它可以提高分类的精度.在对分类器进行组合优化方面,它得到比单个分类器更高的精度以及使分类结果具有更好的可理解性. 展开更多
关键词 遗传算法 优化 机器学习 数据挖掘 分类规则 分类器 人工智能
下载PDF
计算教育学视域下的ChatGPT:内涵、主题、反思与挑战 被引量:23
16
作者 郑永和 周丹华 +3 位作者 张永和 田雪葳 王晶莹 郑一 《华东师范大学学报(教育科学版)》 CSSCI 北大核心 2023年第7期91-102,共12页
以ChatGPT为代表的生成式人工智能技术进阶推动了计算教育时代数据密集型范式的转型升级,并将计算教育学推向发展关键期。本文首先探讨以ChatGPT为代表的生成式人工智能大模型的价值内涵,从而揭示人工智能进阶推动计算教育学范式升级的... 以ChatGPT为代表的生成式人工智能技术进阶推动了计算教育时代数据密集型范式的转型升级,并将计算教育学推向发展关键期。本文首先探讨以ChatGPT为代表的生成式人工智能大模型的价值内涵,从而揭示人工智能进阶推动计算教育学范式升级的要旨。通过使用社会网络分析和数据挖掘方法探讨“师-生-机”知识生成所涌现的教育研究主题,并根据核心领域关系图谱从技术突破、学生学习、教师教学和学校教育四个方面解析学校场域中“师-生-机”多主体研究共同推进计算教育学研究的纵深发展,由此勾勒出强算法算力驱动计算教育学迭代的人机共融的多元化研究图景。再进一步反思ChatGPT教育应用的工具而非目的性,ChatGPT作为一种协助写作的技术手段而非负责任的主体;作为教学的增强和补充方式而非取代教师角色;配合辅助学生学习而不可产生过度依赖。最后从理论建构与决策赋能方面探讨ChatGPT带来计算教育学发展的关键挑战,即探索基于教育计算的基础理论建构、推进计算教育学的结构规则演进、践行计算教育学的环境构建与应用实践、提升教师能力达成教育计算的育人取向、防范智能应用数据的隐私与偏见风险。 展开更多
关键词 计算教育学 生成式人工智能 ChatGPT 教育大数据 机器学习 数据挖掘 高阶思维
下载PDF
人工智能在水文预报中的应用研究 被引量:23
17
作者 周研来 郭生练 +3 位作者 张斐章 陈华 钟逸轩 巴欢欢 《水资源研究》 2019年第1期1-12,共12页
全面论述了数据驱动水文模型中人工智能的关键技术及其适应范围,分析了机器学习在水文预报中遇到的技术瓶颈。采用Gamma Test对数据驱动模型进行输入优选,降低了模型的白噪声误差影响;提出了长短期记忆神经网络与批量学习、正则化、筛... 全面论述了数据驱动水文模型中人工智能的关键技术及其适应范围,分析了机器学习在水文预报中遇到的技术瓶颈。采用Gamma Test对数据驱动模型进行输入优选,降低了模型的白噪声误差影响;提出了长短期记忆神经网络与批量学习、正则化、筛选神经元技术相结合的深度学习网络,以解决变化环境下降雨–洪水过程统计特征的非线性、随机性和时变性问题。长江上游向家坝~三峡水库区间流域的应用结果表明:在不考虑未来降雨预报的前提下,仅以前期和现时已知的降雨–洪水资料为模型输入,长短期记忆动态神经网络结合三种深度学习辅助算法,防止模型的过参数化和过拟合,有效提高了三峡水库入库洪水的预报精度,1~3 d预报精度均达到了甲等水平。 展开更多
关键词 水文预报 人工智能 机器学习 深度学习 数据挖掘
下载PDF
面向频谱大数据处理的机器学习方法 被引量:21
18
作者 吴启晖 邱俊飞 丁国如 《数据采集与处理》 CSCD 北大核心 2015年第4期703-713,共11页
随着移动互联网与物联网的迅猛发展,个人无线设备的数量呈现指数级增长,随之产生的海量频谱数据与日俱增,频谱大数据的存在已成事实。同时,频谱赤字也日益严峻。为提高频谱利用率,有效的频谱大数据处理显得十分重要。本文从无线通信的角... 随着移动互联网与物联网的迅猛发展,个人无线设备的数量呈现指数级增长,随之产生的海量频谱数据与日俱增,频谱大数据的存在已成事实。同时,频谱赤字也日益严峻。为提高频谱利用率,有效的频谱大数据处理显得十分重要。本文从无线通信的角度,首先给出了频谱大数据的定义并分析了它的基本特征;然后总结了一些对于频谱大数据分析与利用颇具前景的机器学习方法,如分布式和并行式学习、极速学习、核学习、深度学习、强化学习、博弈学习和迁移学习;最后给出了几个开放性话题和研究趋势。 展开更多
关键词 大数据 频谱大数据 机器学习 数据挖掘 无线通信 物联网
下载PDF
高炉炼铁数据缺失处理研究初探 被引量:21
19
作者 陈少飞 刘小杰 +3 位作者 李宏扬 卜象平 吕庆 刘福龙 《中国冶金》 CAS 北大核心 2021年第2期17-23,共7页
针对高炉炼铁过程中的数据缺失问题,提出以单维结合多维的系统化数据填补模式。总结并阐述数据缺失填补办法的发展现状以及优劣势比较。在此基础上,通过对河北某钢铁厂的实际高炉生产数据进行分类比较,并结合填补办法的优缺点,针对高炉... 针对高炉炼铁过程中的数据缺失问题,提出以单维结合多维的系统化数据填补模式。总结并阐述数据缺失填补办法的发展现状以及优劣势比较。在此基础上,通过对河北某钢铁厂的实际高炉生产数据进行分类比较,并结合填补办法的优缺点,针对高炉炼铁数据提出一套以简单统计类办法、线性插值法、机器学习法等多种办法相结合的方案,以实现高炉数据的深度整合及处理,满足数据挖掘工作的供数需求。同时选取了炉顶温度、氧气管道温度作为数据样本,利用临近点中间值法、临近点均值法、线性插值法、Adaboost算法等对样本数据进行了填补且填补效果较为理想,充分验证了方案的可行性。 展开更多
关键词 数据缺失 高炉 炼铁 机器学习 大数据 数据挖掘
原文传递
基于邻域离散度的异常点检测算法 被引量:21
20
作者 沈琰辉 刘华文 +2 位作者 徐晓丹 赵建民 陈中育 《计算机科学与探索》 CSCD 北大核心 2016年第12期1763-1772,共10页
异常点检测在机器学习和数据挖掘领域中有着十分重要的作用。当前异常点检测算法的一大缺陷是正常数据在边缘处异常度较高,导致在某些情况下误判异常点。为了解决该问题,提出了一种新的基于邻域离散度的异常点检测算法。该算法将数据点... 异常点检测在机器学习和数据挖掘领域中有着十分重要的作用。当前异常点检测算法的一大缺陷是正常数据在边缘处异常度较高,导致在某些情况下误判异常点。为了解决该问题,提出了一种新的基于邻域离散度的异常点检测算法。该算法将数据点所在邻域的离散度作为该数据点的异常度,既能有效避免边缘数据点的异常度过高,又能较好地区分正常点与异常点。实验结果表明,该算法能够有效地检测数据中的异常点,并且算法对参数选择不敏感,性能较为稳定。 展开更多
关键词 异常点检测 机器学习 数据挖掘 主成分分析
下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部