一个面向大规模数据库的数据挖掘系统被引量：28

A Data Mining System for Very Large Databases

下载PDF

导出

摘要数据挖掘融合了数据库技术、人工智能和统计学,是目前的研究热点.为了能够集成当前数据挖掘的主要技术并使它们协同工作,在进行数据挖掘基本算法研究的基础上研制开发了一个数据挖掘系统——Golden-Eye.系统实现了在数据挖掘研究中的一些最新成果,集成了泛化、数据清洗这两个数据准备操作以及关联规则发现、例外规则发现、时序模式发现、分类器构造、聚类分析等基本数据挖掘操作,并实现了对挖掘操作的基本管理和结果的图形化显示.整个框架设计充分体现了系统的完整性、协调性和高效性:自底向上将存储控制模块、数据预处理模块、挖掘操作模块、挖掘库管理模块有机地结合在一起,在底层实现了对包括中间结果在内的数据的统一管理,在上层为用户提供了可视化的界面.实验结果表明,该系统能够在大规模数据库上成功地完成用户所指定的数据挖掘操作. Data mining is a hotspot that combines the techniques in databases, artificial intelligence and statistics areas. On the basis of the research on some data mining algorithms and their implementation, a data mining system, Golden-Eye, is developed to incorporate primary data mining techniques and coordinate their operations. As the integration of several existing techniques including some improved algorithms as well as some newly proposed operations in data mining area, the system implements a wide spectrum of data mining functions such as generalization, data cleaning, association rule mining, exception rule mining, sequential pattern mining, classification and clustering. By tightly integrating different functional modules such as storage management, data preprocessing, mining operations and mining base management, the system succeeds in managing all kinds of data including midterm results uniformly and providing a user-friendly, visualized interface, which makes Golden-Eye a complete and efficient system with good performance. Experimental results show that the system can successfully fulfill the mining tasks specified by users on very large databases.

作者钱卫宁魏藜王焱钱海蕾周傲英

机构地区复旦大学计算机科学与工程系复旦大学智能信息处理开放实验室

出处《软件学报》 EI CSCD 北大核心 2002年第8期1540-1545,共6页 Journal of Software

基金 ~~国家自然科学基金资助项目(60003016) 国家重点基础研究发展规划973资助项目(G1998030414)

关键词大规模数据库数据挖掘系统数据预处理存储控制知识发现 data mining system data preprocessing storage control mining base

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1[1]Carter, C.L., Hamilton, H.J. Efficient attribute-oriented algorithms for knowledge discovery from large databases. IEEE Transactions on Knowledge and Data Engineering, 1998,10(2):193～208. 被引量：1
2[2]Kukich, K. Techniques for automatically correcting words in text. ACM Computing Surveys, 1992,24(4):377～439. 被引量：1
3[3]Tian, Zeng-ping, Lu, Hong-jun, Ji, Wen-yun, et al. An n-gram-based pproach for detecting approximately duplicate database records. International Journal on Igital Library, 2001,5(3):325～331. 被引量：1
4[4]Agrawal, R., Srikant, R. Fast algorithms for mining association rules in large databases. In: Proceedings of the VLDB. 1994. 487～499. 被引量：1
5[5]Yu, Fang, Jin, Wen. An effective approach to mining exeption class association rules. In: Proceedings of the Web-Age Information Management 2000. 2000. 145～150. 被引量：1
6[6]Agrawal, R., Srikant, R. Mining sequential patterns. In: Proceedings of the ICDE. 1995. 3～14. 被引量：1
7[7]Agrawal, R., Ghosh, S., Imielinski, T., et al. An interval classifier for database mining applications. In: Proceedings of the VLDB. 1992. 560～573. 被引量：1
8[8]Zhou, Ao-ying, Qian, Wei-ning, Qian, Hai-lei, et al. A hybrid approach to clustering in very large databases. In: Proceedings of the 5th PAKDD. 2001. 519～524. 被引量：1
9[9]Ester, M., Kriegel, H.P., Sander, J., et al. A density-based algorithm for discovering clusters in large spatial databases with noise. In: Proceedings of the KDD. 1996. 226～231. 被引量：1
10[10]Zhou, Ao-ying, Zhou, Shui-geng, Cao, Jing, et al. Approaches for scaling DBSCAN algorithm to large spatial databases. Journal of Computer Science and Technology, 2000,15(6):509～527. 被引量：1

共引文献4

1陈迪,张森,李悛.基于模型的数据挖掘系统在大坝监控中的应用[J].微机发展,2005,15(11):84-86. 被引量：1
2刘敏,李建英.射击运动员技术训练监测系统的研制[J].中国体育科技,2010,46(4):81-85. 被引量：1
3张蒲生,苏运霖.基于政务数据仓库的数据集成及关键技术[J].计算机工程,2003,29(9):179-182. 被引量：8
4于冬,顾培亮,李晨光.基于数据挖掘技术的铁路货运安全数据管理系统[J].中国铁道科学,2004,25(2):114-116. 被引量：10

同被引文献200

1岳嵘.数据挖掘技术在矿业系统工程中的应用[J].中国矿业,2003,12(3):49-52. 被引量：4
2林景亮,董槐林,姜青山,吴书.一种基于新增阈值的频繁模式挖掘算法[J].计算机研究与发展,2006,43(z3):366-370. 被引量：1
3汪加才,江效尧.一个开放数据挖掘系统的分析与设计[J].计算机工程与应用,2004,40(24):166-170. 被引量：3
4李红.基于土工试验的数据挖掘中的数据预处理技术[J].合肥学院学报（自然科学版）,2004,14(1):35-36. 被引量：1
5熊媛,张毅,陈小平,姜侃.跳水训练数据管理与分析系统设计与应用[J].体育科学,2004,24(10):41-45. 被引量：16
6陆化普,周钱,周永华,刘冲.数据挖掘技术在智能交通系统综合信息平台中的应用[J].ITS通讯,2004,6(1):79-84. 被引量：4
7李哲,杨兆中,陈锐.数据挖掘技术在压裂施工中的应用研究[J].天然气工业,2004,24(11):52-54. 被引量：4
8张清浦.政务GIS的现状与展望[J].地理信息世界,2004,2(5):31-35. 被引量：10
9宣云干,李小华,胡明亮,晏俊.数据挖掘技术在基坑设计专家系统中的应用[J].江苏建筑,2004(3):60-62. 被引量：2
10张进,易仁萍,陈伟.计算机审计中电子数据的清理研究[J].审计研究,2004(6):21-25. 被引量：10

引证文献28

1汪恒杰,胡大斌,嵇晓.一个面向大规模数据仓库数据清洗策略的研究和实现[J].工程地质计算机应用,2004(3):10-13.
2李旭军,朱方洲.数据仓库技术在中国移动经营分析系统中的应用研究[J].电脑知识与技术,2005(3):3-5. 被引量：1
3王会金,陈伟.非现场审计的实现方法研究[J].审计与经济研究,2005,20(3):36-39. 被引量：17
4王冠,司建辉,杨昌锋.数据挖掘系统研究[J].北京工业大学学报,2005,31(4):383-387. 被引量：10
5井彦林,仵彦卿.黄土力学数据挖掘系统研究[J].岩土工程学报,2005,27(10):1154-1158. 被引量：5
6张雷,智永锋,张骏,薛静.基于XML可重构的数据挖掘系统研究[J].微电子学与计算机,2006,23(6):103-105. 被引量：2
7陈伟,刘思峰,邱广华.计算机审计中一种基于孤立点检测的数据处理方法[J].商业研究,2006(17):44-47. 被引量：8
8高晓东,汪恒杰,胡大斌.基于CWM的多数据源协同平台设计与实现[J].控制工程,2006,13(5):485-487. 被引量：2
9桂德竹,张成成,李钢.关于实施国土电子政务的思考[J].测绘与空间地理信息,2006,29(5):1-3. 被引量：4
10陈卓,刘相双.A new-style clustering algorithm based on swarm intelligent theory[J].Journal of Harbin Institute of Technology(New Series),2007,14(1):69-73.

二级引证文献105

1薛祥,宋连亮,贾亮,乐园,葛虹.高速公路软土路基工后沉降预测的新方法[J].岩土工程学报,2011,33(S1):132-137. 被引量：32
2宋锦华,马传琦.数据挖掘技术探讨[J].电脑知识与技术（过刊）,2009,0(6):1299-1300. 被引量：2
3于冬,顾培亮,陈钟,高璇.铁路货车装载状态监视和超限检测系统的研究[J].中国铁道科学,2004,25(5):141-144. 被引量：18
4井彦林,仵彦卿,杨丽娜,侯晓涛.组合最小二乘支持向量机与粒子群优化算法研究黄土湿陷性[J].西安理工大学学报,2006,22(1):15-19. 被引量：4
5王豫,谷建华,张海辉.一种新的企业服务总线架构设计方案[J].微电子学与计算机,2007,24(3):105-107. 被引量：16
6黄金凤.基于Web挖掘技术在电子商务中的应用[J].福建教育学院学报,2007,8(1):113-115.
7公丕勇,王丽华,王新.数据挖掘在计算机辅助审计中的应用[J].科技情报开发与经济,2007,17(19):186-187. 被引量：1
8刘元方.基于风险管理的内部审计探讨[J].中国内部审计,2007(8):28-29. 被引量：5
9施蕾,孟凡荣.数据挖掘系统结构的研究[J].微计算机信息,2007(18):167-168. 被引量：6
10薛祥,孙宏伟,沈滨,于玮,张权益.岩土工程中的数据挖掘和知识发现探讨[J].工程勘察,2007,35(10):11-16. 被引量：5

1刘旭,张婷燕,刘政.基于遗传算法的Web数据挖掘[J].中国城市经济,2011(3X):110-111. 被引量：1
2张毅.面向大规模数据库的数据挖掘系统的设计[J].科技传播,2010,2(7):123-123. 被引量：1
3张笃振.局部保持特征变换算法综述[J].计算机工程与科学,2010,32(1):80-82. 被引量：4
4刘艳云.基于SQL Server的交叉销售空间数据挖掘探讨[J].电脑与电信,2007(11):42-43.
5江龙,张效义,魏明.信号检测中存储控制模块的FPGA设计及实现[J].通信技术,2008,41(6):76-77. 被引量：2
6刘素梅,刘惠梅.基于支持向量机算法的网站分类器构造方法[J].太原科技大学学报,2007,28(1):15-18.
7刘旭明,康慕宁,王绪鑫.基于矩阵算法的关联规则挖掘[J].科学技术与工程,2009,9(6):1604-1606.
8李晨.改善的支持向量机图像分割分类器构造[J].计算机与数字工程,2015,43(2):316-319.
9吴川,姜淑娟.基于图和信息熵的入侵检测分类器构造[J].微计算机信息,2008,24(30):62-64. 被引量：1
10爱德曼.进一步提升Oracle数据集成产品线甲骨文推出Oracle数据集成器11g和Oracle GoldenGate 11g[J].机械制造,2010,48(12):8-8.

软件学报

2002年第8期

浏览历史

内容加载中请稍等...

一个面向大规模数据库的数据挖掘系统被引量：28

参考文献16

共引文献4

同被引文献200

引证文献28

二级引证文献105

相关作者

相关机构

相关主题

浏览历史

一个面向大规模数据库的数据挖掘系统 被引量：28

参考文献16

共引文献4

同被引文献200

引证文献28

二级引证文献105

相关作者

相关机构

相关主题

浏览历史

一个面向大规模数据库的数据挖掘系统被引量：28