基于半监督主动学习的虚假评论检测被引量：2

Detection of Fake Reviews Based on Semi-Supervised Active Learning

导出

摘要基于有监督的虚假评论检测方法受限于标注语料的规模,为了更好地利用未标注评论数据来提高分类器的正确率和泛化能力,本文提出一种基于半监督主动学习的虚假评论检测方法.首先,定义并提取评论内容特征以及评论者行为特征,结合这两类特征来对虚假评论进行检测.然后,采用基于熵的主动学习算法选择对学习最有帮助的评论样本,获得其类别标注,将其合并到基于Tri-training的半监督学习算法的训练集中,利用大量未标注评论数据进行学习,提升分类器性能.最后,在领域评论数据集上进行实验,结果表明,将半监督学习与主动学习相结合,能够更有效的利用未标注评论数据,从而有效地提高虚假评论检测的效果. Detection of fake reviews based on supervision is limited by the size of the annotation corpus. In order to make better use of unlabeled review data to improve the classifier＇s accuracy and generalization ability,a fake review detection method based on semi-supervised active learning is proposed in this paper. Firstly,review content features and reviewers＇ behavioral features are defined,extracted and combined to detect fake reviews. Secondly,entropy-based active learning algorithm is utilized to select the most helpful review samples for learning,and to obtain their labeled categories that will be merged into the semi-supervised learning training set based on Tri-training algorithm,which exploits a large number of unlabeled reviews to learn and improves the performance of the classifier. Finally,a test is carried out on domain review datasets. The experimental results show that the combination of semi-supervised learning and active learning takes effective advantage of the unlabeled reviews to improve the detection.

作者宋海霞严馨余正涛石林宾郭剑毅

机构地区昆明理工大学信息工程与自动化学院云南省计算机技术应用重点实验室

出处《昆明理工大学学报（自然科学版）》 CAS 2015年第5期59-65,共7页 Journal of Kunming University of Science and Technology(Natural Science)

基金国家自然科学基金项目(61175068 61462055) 云南省自然科学基金重点项目(2013FA030) 云南省软件工程重点实验室开放基金(2011SE14) 教育部回国人员基金云南省教育厅基金重大专项资助

关键词虚假评论半监督学习主动学习 TRI-TRAINING fake review semi-supervised learning active learning Tri-training

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献29

1赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：539
2Jindal N, Liu B. Review Spare Detection[ C]//Proceedings of the 16th International Conference on World Wide Web. 2007: 1189 - 1190. 被引量：1
3Feng S, Banerjee R, Choi Y. Syntactic Stylomet~y for Deception Detection[ C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju, Republic of Korea, 2012:8 - 14. 被引量：1
4Li J W, Cardie C, Li S J. TopicSpam : a Topic - Model - Based Approach for Spare Detection [ C ]//Proceedings of the 51 st An- nual Meeting of the Association for Computational Linguistics. 2013:217 -221. 被引量：1
5Jindal N, Liu B, Lim E P. Finding Unusual Review Patterns Using Unexpected Rules[ Cl//Proceedings of the 19th ACM in- ternational conference on Information and knowledge management. 2010:1549 -1552. 被引量：1
6Lira E P, Nguyeu V A, Jindal N, et al. Detecting Product Review Spammers Using Rating Behaviors[ C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Manazement. New York. USA:f s. n. ]. 2010. 被引量：1
7谭文堂,朱洪,葛斌,李芳芳,肖卫东.垃圾评论自动过滤方法[J].国防科技大学学报,2012,34(5):153-157. 被引量：15
8宋海霞,严馨,余正涛,石林宾,苏斐.基于自适应聚类的虚假评论检测[J].南京大学学报（自然科学版）,2013,49(4):433-438. 被引量：33
9Zhu X J. Semi -Supervised Learning Literature Survey[ R]. Technical Report, 1530, Madison, USA:University of Wisconsin at Madison, Department of Computer Sciences, 2006. 被引量：1
10Chapelle O, Scholkopf B, Zien A. Semi- Supervised Learning[ M]. Cambridge, MA: MIT Press, 2006. 被引量：1

二级参考文献77

1朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
2Jindal N, I.iu B. Review spare detection. Proceedings of the 16-th International Conference on World Wide Web,2007:1189-1190. 被引量：1
3谭文堂,朱洪,葛斌等.垃圾评论自动过滤方法.同防科技大学学报,2012,34(5):153-157. 被引量：1
4Feng S,Banerjee R,Chai Y J. Syntactic stylometry for deception detection. Proceedings of the 50^th Annual Meeting of the Association for Oomputational I.inguistics, 2012 : 8- 14. 被引量：1
5Jindal N, Liu B, Lim E P. Finding unusual review patterns using unexpected rules. Proceedings of the 19^th ACM International Conference on Information and Knowledge Management. 2010 : 1549- 1552. 被引量：1
6Lira E P,Nguyen V A,Jindal N,et ag. Detecting product review spammers using rating behaviors. Proceedings of the 19^th ACM International Con{erence on Information and Knowledge Man agement, New York, USA : 2010. 被引量：1
7Wang G, Xie S H, Liu B, et al. Identify online store review spammers via social review graph. ACM Transactions on Intelligent Systems and Technology(TIST) ,2012,3(4). 被引量：1
8Xie S H, Wang G, Lin S Y, et al. Review spam detection via temporal pattern discovery. Proceedings of the 18^th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2012: 823-831. 被引量：1
9Lappas T. Fake reviews:The malicious perspective. Proceedings of the 17^th International conference on Applications of Natural Language Processing to In- formation Systems, 2012 : 23-34. 被引量：1
10Almela A, Rafael V, Cantos P. Seeing through deception: A computational approach to deceit detection in written communication. Proceedings of the 13^th Conference of the EuropeanChapter of the Association for Computational Linguistics: EACL. 2012: 15-22. 被引量：1

共引文献662

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：9
2麻瓯勃,刘雪娇,唐旭栋,周宇轩,胡亦承.基于半监督学习的恶意URL检测方法[J].计算机系统应用,2020(11):11-20. 被引量：4
3柳毅,钱枫,顾虎,陆佳涣.基于融合聚类算法的电子商务产品垃圾评论识别研究[J].智能物联技术,2020,52(6):43-50.
4包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
5王弘睿,刘畅,于东.面向人工智能伦理计算的中文道德词典构建方法研究[J].中文信息学报,2021,35(10):39-47. 被引量：3
6王昭雨,庄惟敏.情感语义视角:街区更新后评估方法应用研究[J].建筑学报,2020(S02):105-109. 被引量：19
7刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
8徐晖,王中卿,李寿山,张民.结合情感信息的个性化对话生成[J].计算机科学,2022,49(S02):99-104. 被引量：2
9张良波,任际范,周晶晶,吴欣宇.电商直播中弹幕互动特征对销售效率的影响[J].管理科学,2023,36(4):17-29.
10安颖,葛格.基于平行语料库的英汉电商评价对比研究[J].汉字文化,2022(23):113-115.

同被引文献22

1吴敏,何珑.融合多特征的产品垃圾评论识别[J].微型机与应用,2012,31(22):85-87. 被引量：4
2李霄,丁晟春.垃圾商品评论信息的识别研究[J].现代图书情报技术,2013(1):63-68. 被引量：33
3宋海霞,严馨,余正涛,石林宾,苏斐.基于自适应聚类的虚假评论检测[J].南京大学学报（自然科学版）,2013,49(4):433-438. 被引量：33
4彭庆喜,钱铁云.基于量化情感的网店垃圾评论检测[J].山东大学学报（理学版）,2013,48(11):66-72. 被引量：6
5任亚峰,尹兰,姬东鸿.基于语言结构和情感极性的虚假评论识别[J].计算机科学与探索,2014,8(3):313-320. 被引量：27
6邓莎莎,张朋柱,张晓燕,李欣苗.基于欺骗语言线索的虚假评论识别[J].系统管理学报,2014,23(2):263-270. 被引量：19
7陈燕方,李志宇.基于评论产品属性情感倾向评估的虚假评论识别研究[J].现代图书情报技术,2014(9):81-90. 被引量：20
8游贵荣,吴为,钱沄涛.电子商务中垃圾评论检测的特征提取方法[J].现代图书情报技术,2014(10):93-100. 被引量：14
9张军.数据挖掘中自我学习算法研究[J].网络安全技术与应用,2014(11):171-171. 被引量：2
10岳伟.建构主义学习理论指导下的自学考试网络助学策略设计[J].考试研究,2015,11(1):9-16. 被引量：4

引证文献2

1潘峰.基于C5.0决策树算法的考试结果预测研究[J].微型机与应用,2016,35(8):68-70. 被引量：2
2吴佳芬,马费成.产品虚假评论文本识别方法研究述评[J].数据分析与知识发现,2019,3(9):1-15. 被引量：16

二级引证文献18

1徐光宪,赵越,赖俊宁.基于网络编码的确定性逐层构造算法[J].计算机应用,2018,38(3):769-775. 被引量：1
2程代娣.Clementine数据挖掘工具在计算机等级考试成绩中的应用[J].齐鲁工业大学学报,2017,31(6):52-56. 被引量：2
3张运良,丁思媛,高雄.突发事件评论集中的情报甄别方法初探[J].情报工程,2020,6(2):21-35. 被引量：3
4王召义,薛晨杰.虚假评论特征研究[J].现代商贸工业,2020,41(27):67-70.
5张帅.社交媒体虚假健康信息特征识别[J].图书情报工作,2021,65(9):70-78. 被引量：27
6张帅,刘运梅,司湘云.信息疫情下网络虚假信息的传播特征及演化规律[J].情报理论与实践,2021,44(8):112-118. 被引量：26
7郭文强,李嫔.基于SVM的新冠疫情虚假新闻检测[J].佛山科学技术学院学报（自然科学版）,2021,39(6):19-26. 被引量：2
8杨川,周维川,牟琪琦.一种双向双限判断的鸡雏性别辨别器设计[J].电脑编程技巧与维护,2021(12):125-126.
9王乐,张紫琼,崔雪莹.虚假评论的识别与过滤:现状与展望[J].电子科技大学学报（社科版）,2022,24(1):31-41. 被引量：2
10孟园,王悦.基于用户-评论-商户关系的虚假用户识别研究:用户偏差分析的视角[J].数据分析与知识发现,2022,6(6):55-70. 被引量：3

1陈璐,赵衍,尚珊珊.基于加权词频的I-Match算法改进及其应用分析--以电商网站为例[J].上海管理科学,2016,38(1):51-54.
2徐娟,张超,黄大卫,吴小培,王营冠.基于运动目标分类的监控视频检索系统[J].工业控制计算机,2015,28(7):115-116.
3宋海霞,严馨,余正涛,石林宾,苏斐.基于自适应聚类的虚假评论检测[J].南京大学学报（自然科学版）,2013,49(4):433-438. 被引量：33
4李真,林琛,李弼程.基于Hash技术的重复性评论检测[J].计算机应用,2009,29(B12):263-266. 被引量：4
5李杰,王小伟.基于作者主题模型的遥感图像自动类别标注方法[J].计算机应用与软件,2013,30(10):263-265. 被引量：3
6屈军.基于增量的贝叶斯算法在网页文本中的应用[J].赤峰学院学报（自然科学版）,2013,29(13):23-24.
7尹木,肖铮.词性标注与动词细分类研究[J].电脑知识与技术,2009,5(8X):6774-6776. 被引量：1
8张春元.基于CRFs的新闻网页主题内容自动抽取方法[J].广西师范大学学报（自然科学版）,2011,29(1):138-142. 被引量：1
9孙磊,朱立富,许晓鹏.基于增量式贝叶斯分类器的故障诊断研究[J].科技创新导报,2012,9(21):104-104.
10杨晔,彭宏,林嘉宜,陈绍坚.一种有效特征词发现的贝叶斯文本分类方法[J].系统工程,2004,22(9):107-110. 被引量：1

昆明理工大学学报（自然科学版）

2015年第5期

浏览历史

内容加载中请稍等...

基于半监督主动学习的虚假评论检测被引量：2

参考文献29

二级参考文献77

共引文献662

同被引文献22

引证文献2

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于半监督主动学习的虚假评论检测 被引量：2

参考文献29

二级参考文献77

共引文献662

同被引文献22

引证文献2

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于半监督主动学习的虚假评论检测被引量：2