基于马氏距离的文本聚类算法在自动阅卷系统中的应用被引量：6

APPLYING MAHALANOBIS DISTANCE-BASED TEXT CLUSTERING ALGORITHM IN AUTOMATIC PAPER MARKING SYSTEM

下载PDF

导出

摘要基于欧氏距离的传统模糊划分聚类算法较适用于球型结构的聚类。将其应用于维度较高的文本聚类时,准确率和效率均有所下降。为解决这一问题,提出一种基于马氏距离的文本聚类算法。该算法可发现非球形结构的类簇,在不需要先验知识的情况下,仅通过数学迭代即可得到聚类结果。鉴于当前无纸化考试系统的广泛应用,将该算法应用于主观题的自动阅卷系统中。通过对多种主观题的仿真实验,表明了该算法与C均值和FCM算法相比,不仅能获得较高的准确率,算法收敛速度也较快。 Traditional clustering algorithm with fuzzy partition based on Euclidean distance fits more the clustering of spherical structural clusters.When applying it to the text clustering with higher dimensions,the accuracy and efficiency will all be decreased.Focus on solving this problem,we propose a Mahalanobis distance-based text clustering algorithm.It can detect the class clusters with non-spherical structure, and can obtain the clustering result just through the mathematical iteration without the need of priori knowledge.In view of the wide applica-tion of paperless examination system at present,we apply this algorithm to automatic paper marking system of subjective questions.Through the simulation experiments on a variety of subjective questions,it is demonstrate that the algorithm can achieve higher accuracy rate than the c-means and FCM algorithms,furthermore,its convergence rate is higher as well.

作者李翠霞谭营军孔金生

机构地区郑州大学软件技术学院河南职业技术学院信息工程系

出处《计算机应用与软件》 CSCD 2015年第4期80-82,86,共4页 Computer Applications and Software

基金河南省教育厅自然科学研究计划项目(2011C510002)

关键词聚类文本聚类模糊C均值欧氏距离马氏距离自动阅卷 Clustering Text clustering Fuzzy c-means （FCM） Euclidean distance Mahalanobis distance Automatic paper marking

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Jiawei Han Micheline Kamber.数据挖掘概念与技术[M].机械工业出版社,2005,4. 被引量：2
2TomMMitchell.机器学习[M].北京：机械工业出版社,2003.. 被引量：28
3Deng J, Hu J, Chi H, et al. An Improve Fuzzy Clustering Method for Text Mining [ C ]//Proceeding of the Second International Conference on Networks Security, Wireless Communications and Trusted Compu- ting, 2010:65 - 69. 被引量：1
4Liu H, Yin J, Wu D, et al. Fuzzy C-mean Algorithm Based on "Com- plete" Mahalanobis Distances[ C ]//Proceedings of the Seventh Inter- national Conference on Machine Learning and Cybernetics, 2008:87 -91. 被引量：1
5Li Cong, Georgiopoulos, Michael, et al. Kernel principal subspace Mahalanobis distances for outlier detection 2011 International Joint Conference on Neural Network, UCNN 2011:2528 -2535. 被引量：1
6Liu H, Yih J, Wu D, et al. Fuzzy C-Mean Algorithm Based on Mahal- anobis Distance and New Separable Criterion[ C ]//Proceedings of In- ternational Conference on Machine Learning and Cybernetics, 2007: 1851 - 1855. 被引量：1
7Liu Boqin. Research on question bank constructing and automatic marking design for network open examination system[ J]. Advances in Information Sciences and Service Sciences, 2012, 4 (23):1880 -1883. 被引量：1
8Li NianFeng, Wang LiRong. A kind of Braille paper automatic mark- ing system [ C ]//Proceedings 2011 International Conference on Mecha- tronic Science, Electric Engineering and Computer, MEC 2011:664 - 667. 被引量：1
9Naehya, Beata. Creating knowledge base from automatically extracted information[ C]. 8th International Conference on Hybrid Artificial In- telligent Systems, HAIS 2013:608 -617. 被引量：1
10李娟.形式语言在网页制作操作题自动阅卷中的应用[J].计算机应用,2013,33(3):882-885. 被引量：4

二级参考文献45

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：64
2孟爱国,卜胜贤,李鹰,甘文.一种网络考试系统中主观题自动评分的算法设计与实现[J].计算机与数字工程,2005,33(7):147-150. 被引量：46
3程金宏,刘东升.程序代码相似度自动度量技术研究综述[J].内蒙古师范大学学报（自然科学汉文版）,2006,35(4):457-461. 被引量：13
4李桂英,叶惠文,李丽萍.IT技能测评系统的设计与实现[J].教育信息技术,2007(1):37-39. 被引量：1
5汪彩梅,殷新春.FRONTPAGE自动阅卷系统及实现[J].合肥学院学报（自然科学版）,2007,17(1):63-66. 被引量：4
6佘石泉,周肆清.正则表达式在编程题自动阅卷中的应用[J].计算机技术与发展,2007,17(7):244-246. 被引量：16
7Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algorithms. New York:Plenum Press, 1981. 被引量：1
8Pal N R, Bezdek J C. On cluster validity for the fuzzy c-mean model. IEEE Transactions on Fuzzy Systems, 1995,3 (3): 370-379. 被引量：1
9Fadili M J, Ruan S, Bloyet D, Mayoyer B. On the number of clusters and the fuzziness index for unsupervised FCA application to BOLD fMRI time series. Medical Image Analysis,2001,5(1) :55-67. 被引量：1
10Yu Jian,Cheng Qian-Sheng, Huang Hou-Kuan. On weighting exponent of the fuzzy c-means model. In: Proceedings of ICYCS2001, Hangzhou, 2001, II : 631- 633. 被引量：1

共引文献144

1徐艺萍,邓辉文,徐永刚.一种改进的模糊C—均值聚类算法[J].徐州工程学院学报,2008(4):34-36. 被引量：2
2姜桂艳,郭海锋,吴超腾.基于感应线圈数据的城市道路交通状态判别方法[J].吉林大学学报（工学版）,2008,38(S1):37-42. 被引量：29
3裴志永,李文彬.树木生长量远程遥测数据失真支路识别方法[J].农机化研究,2012,34(2):28-30. 被引量：2
4张强.论FCM在城市社会公共服务设施规划中的应用[J].求索,2014(8):107-111. 被引量：2
5陈欢.基于粗糙集理论的值约简及规则提取[J].福州大学学报（自然科学版）,2004,32(4):472-475. 被引量：4
6张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
7潘无名,潘云鹤.数据挖掘过程的多维视图[J].计算机应用研究,2004,21(8):211-213. 被引量：4
8司光宇,李春阳,王永安.RBF神经网络在水中油含量检测中的应用[J].计算机工程与应用,2004,40(32):221-223. 被引量：2
9张继福,郑链,张素兰.面向数据挖掘的背景知识表示技术研究[J].计算机工程与应用,2005,41(10):156-158.
10李翠霞,于剑.一种模糊聚类算法归类的研究[J].北京交通大学学报,2005,29(2):17-21. 被引量：12

同被引文献56

1高思丹,袁春风.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004,40(14):132-135. 被引量：47
2张晓平.基于贴近度的模糊综合评判结果的集化[J].山东大学学报（理学版）,2004,39(2):25-29. 被引量：63
3张晋军,任杰.汉语测试电子评分员实验研究报告[J].中国考试,2004(10):27-32. 被引量：6
4金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
5孟爱国,卜胜贤,李鹰,甘文.一种网络考试系统中主观题自动评分的算法设计与实现[J].计算机与数字工程,2005,33(7):147-150. 被引量：46
6李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计,2007,28(1):227-229. 被引量：39
7Burstein J, Leacock C, Swartz R, et al. Automated evaluation of essays and short answers [C]//Fifth International Computer Assisted Assessment Conference. Leicester: Loughborough University, 2001. 被引量：1
8Burstein J, Wolff S, Lu C. Using lexical semantic techniques to classify free-responses [C]//Proceedings of SIGLEX 1996 Workshop, Annual Meeting of the Association of Computational Linguistics. Santa Cruz: University of California, 1996: 227- 246. 被引量：1
9Callear D, Jerrams-Smith J, Soh V. CAA of short Non-MCQ answers [C]//Fifth International Computer Assisted Assessment Conference. Leicester: Loughborough University, 2001. 被引量：1
10Landauer T K, Fohz P W, Laham D. Introduction to latent semantic analysis [J]. Discourse Processes, 1998, 25 (3) : 259- 284. 被引量：1

引证文献6

1刘伟,亓子森,王目宣.主观题自动测评研究[J].北京邮电大学学报（社会科学版）,2016,18(4):108-116. 被引量：11
2周松.自动阅卷系统中编程题的解决方法[J].中国信息技术教育,2016(23):71-72. 被引量：1
3周向军.基于相似度的多类别不完整云计算网络的聚类填充算法设计[J].辽宁科技大学学报,2017,40(4):298-304. 被引量：1
4陈贤武,刘道波.基于语句相似度的主观试题自动阅卷模型研究[J].武汉大学学报（工学版）,2018,51(7):654-658. 被引量：11
5李冰.计算机技术在主观题自动阅卷中的应用述评[J].江苏科技信息,2019,36(8):39-43. 被引量：3
6乔亚男,胡名凯,薄钧戈.基于特征融合的主观题智能阅卷算法研究[J].电气电子教学学报,2021,43(6):104-111. 被引量：2

二级引证文献25

1李亭葳,刘新,白王梓松,李梦磊.基于FC-KNN的C语言程序自动评分算法[J].计算机应用与软件,2018,35(9):225-229. 被引量：4
2陈帅帅,付鹏斌,杨慧荣.基于语义相似度的主观题自动阅卷系统设计[J].自动化与仪器仪表,2018,0(9):59-62.
3李纪扣,韩建宇,王嫄.基于相似度融合算法的主观题自动阅卷机制[J].天津科技大学学报,2019,34(1):76-80. 被引量：8
4李卓珂,张晶蕊,王娟.终身教育体系下智慧学习平台的构建研究[J].成人教育,2019,39(4):10-13. 被引量：14
5杨昕.“问卷星”在医学选修课随堂测验中的应用[J].中国医学教育技术,2019,33(4):452-454. 被引量：8
6张巍,席倩.家庭作业智能批阅系统的研究与设计[J].福建电脑,2019,35(7):31-34.
7葛文双,韩锡斌,何聚厚.在线学习测评技术的价值、理论和应用审视[J].现代远程教育研究,2019,31(6):52-60. 被引量：17
8张帅.基于孪生神经网络的主观题自动阅卷评分技术[J].现代计算机,2020,26(5):23-25. 被引量：2
9曹小鹏,邵一萌.ESM:一种增强语义匹配的语句评分模型[J].计算机工程与科学,2020,42(6):1134-1140. 被引量：1
10谭翔纬,程学军.基于信息粒数据重构的多关系数据聚类仿真[J].计算机仿真,2020,37(6):406-409. 被引量：1

1蔡静颖,谢福鼎,张永.基于自适应马氏距离的模糊c均值算法[J].计算机工程与应用,2010,46(34):174-176. 被引量：11
2易倩,滕少华,张巍.基于马氏距离的K均值聚类算法的入侵检测[J].江西师范大学学报（自然科学版）,2012,36(3):284-287. 被引量：7
3于春战,刘晋浩,孙治博.一种并联式六维加速度传感器参数优化研究[J].仪器仪表学报,2014,35(10):2216-2222. 被引量：5
4徐丰田,栾盼盼,贾科松,张爱玲.An optical fiber magnetic field sensor based on fiber spherical structure interferometer coated by magnetic fluid[J].Optoelectronics Letters,2015,11(5):379-381.
5林红军.电磁海流计传感器性能的比较[J].海洋技术,2005,24(2):13-17. 被引量：4
6叶长龙,梁海超,于苏洋,姜春英.变结构可抛掷球形机器人的运动分析[J].机器人,2016,38(2):154-159. 被引量：2
7楼晓俊,李隽颖,刘海涛.距离修正的模糊C均值聚类算法[J].计算机应用,2012,32(3):646-648. 被引量：10
8张兴红,邱磊,何涛,王先全,张天恒.精密高温高压超声波温度计设计[J].仪表技术与传感器,2014(11):24-26.
9董晓凯,鹿建春.基于短CT图像序列的肺癌节结特征提取[J].计算机应用,2010,30(11):2988-2990. 被引量：1
10梁严,赵建,霍余达,任祎铭,曲敏杰,吴立豪.四板式球型分型塑料桶盖模具设计[J].塑料,2016,45(2):106-108. 被引量：17

计算机应用与软件

2015年第4期

浏览历史

内容加载中请稍等...

基于马氏距离的文本聚类算法在自动阅卷系统中的应用被引量：6

参考文献13

二级参考文献45

共引文献144

同被引文献56

引证文献6

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于马氏距离的文本聚类算法在自动阅卷系统中的应用 被引量：6

参考文献13

二级参考文献45

共引文献144

同被引文献56

引证文献6

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于马氏距离的文本聚类算法在自动阅卷系统中的应用被引量：6