垃圾商品评论信息的识别研究被引量：33

Research on Review Spam Recognition

导出

摘要从信息有用性的角度对垃圾商品评论信息进行分析,选择数码领域的相机评论作为研究对象,构建数据集,从评论、评论者和被评论的商品三个方面选择11个特征,使用支持向量机模型中4种常用的核函数进行垃圾商品评论的识别,对识别效果较好的RBF核函数中的参数C和γ进行优化,使得商品评论中的垃圾评论识别的准确率提高到78.16%,召回率提高到72.18%,并选取4种不同特征组合进行对比,证明评论、评论者和被评论的商品三大特征组合的效果最好,最后通过与Logistic回归模型的对比,验证SVM对垃圾评论的识别效果明显优于其他算法。 This paper analyses review spam from the perspective of the usefulness of information, selects digital camera reviews as the research object and builds the data set, then from the three aspects of review, reviewer and product chooses 11 features, uses 4 different kernel functions in SVM model to identify review spam of products, optimizes the parameters C and γ of RBF that has a better identification, which improves accuracy rate of the identification effect of review spain to 78.16% and recall rate to 72.18%. By comparing the selected 4 different combinations of features, the authors find the combination of review, reviewer and product is the best. Finally, it proves that SVM is significantly better than other algo- rithms compared to the Logistic Regression.

作者李霄丁晟春

机构地区南京理工大学信息管理系

出处《现代图书情报技术》 CSSCI 北大核心 2013年第1期63-68,共6页 New Technology of Library and Information Service

基金国家自然科学基金项目"基于文本语义挖掘的商品评论信息可信度分析研究"(项目编号:71103085) 教育部人文社会科学研究规划基金项目"基于语义的电子商务产品主/客观信息提取研究"(项目编号:09YJA870015)的研究成果之一

关键词 SVM 垃圾评论特征选择核函数商品评论信息 SVM Review spare Feature selection Kernel function Product review

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献2

1何海江.一种适应短文本的相关测度及其应用[J].计算机工程,2009,35(6):88-90. 被引量：7
2何海江,凌云.由Logistic回归识别Web社区的垃圾评论[J].计算机工程与应用,2009,45(23):140-143. 被引量：11

二级参考文献13

1Brooks C H, Montanez N. Improved Annotation of the Blogosphere via Autotagging and Hierarchical Clustering[C]//Proc. of the 15th International Conference on World Wide Web. New York, USA: ACM Press, 2006: 625-632. 被引量：1
2Kolari E Detecting Spam Blogs: A Machine Learning Approach[C]//Proc. of the 21st National Conference on Artificial Intelligence. Maryland, USA: [s. n.], 2006: 1351-1356. 被引量：1
3Niu Yuan. A Quantitative Study of Forum Spamming Using Context-based Analysis[C]//Proc. of the 14th Annual Network and Distributed System Security Symposium. San Diego, CA, USA: [s. n.], 2007: 79-92. 被引量：1
4Hoad T, Zobel J. Methods for Identifying Versioned and Plagiarised Documents[J]. Journal of the American Society of Information Science and Technology, 2003, 54(3): 203-215. 被引量：1
5Niu Yuan.A quantitative study of forum spamming using contextbased analysis[C]//Proeeedings of the 14th Annual Network and Distributed System Security Symposium,San Diego,CA,2007:79-92. 被引量：1
6Mishne G,Carmel D.Blocking blog spam with language model disagreement[C]//Proceedings of the 1st AIRWeb.New York:ACM, 2005 : 1-6. 被引量：1
7Kolari P.Detecting spam blogs:A machine learning approach[C]// Proceedings of the 21st National Conference on Artificial Intelligence.Baltimore : University of Maryland, 2006 : 1351-1356. 被引量：1
8Lin Yu-ru.Splog detection using self-similarity analysis on blog temporal dynamics[C]//Proceedings of AIRWeb 2007.New York: ACM, 2007 : 1-8. 被引量：1
9Brooks C H,Montanez N.Improved annotation of the blogosphere via autotagging and hierarchical clustering[C]//Proceedings of the 15th International Conference on World Wide Web.New York: ACM, 2006 : 625-632. 被引量：1
10Lin C J,Weng R C,Keerthi S S.Trust region newton methods for large-scale logistic regression[C]//Proceedings of the 24th International Conference on Machine Learning.New York:ACM,2007: 561-568. 被引量：1

共引文献16

1王莹莹,任贤,龙鹏飞.中文短语文本相似度计算新方法[J].软件导刊,2011,10(1):79-81. 被引量：2
2张建刚,彭勤科,康雪姣.在线电影评论倾向性分类算法研究[J].计算机工程与应用,2011,47(11):91-93. 被引量：2
3时睿,封化民.一种基于名词的微博语义计算方法[J].北京电子科技学院学报,2011,19(4):16-22. 被引量：4
4郭利强.网络博客空间中基于半监督学习的垃圾评论检测[J].图书情报工作,2012,56(4):52-55. 被引量：2
5邱云飞,王建坤,邵良杉,刘大有.基于用户行为的产品垃圾评论者检测研究[J].计算机工程,2012,38(11):254-257. 被引量：16
6黄铃,李学明.基于AdaBoost的微博垃圾评论识别方法[J].计算机应用,2013,33(12):3563-3566. 被引量：6
7赵衍.网络虚假评论研究述评[J].上海管理科学,2014,36(4):85-88. 被引量：4
8王荣波,谌志群,周建政,李治,高飞.基于Wikipedia的短文本语义相关度计算方法[J].计算机应用与软件,2015,32(1):82-85. 被引量：15
9何珑.基于随机森林的产品垃圾评论识别[J].中文信息学报,2015,29(3):150-154. 被引量：12
10赵衍.基于“文本-主题”双层次分析的网络虚假评论检测法研究——以电子商务网站为例[J].数字图书馆论坛,2015(9):53-60. 被引量：2

同被引文献359

1刘枫.我国电子商务发展前景分析[J].法制与社会,2007(3):319-319. 被引量：19
2李宗伟,张艳辉.体验型产品与搜索型产品在线评论的差异性分析[J].现代管理科学,2013,1(8):42-45. 被引量：13
3业宁,李威,梁作鹏,董逸生.一种Web用户行为聚类算法[J].小型微型计算机系统,2004,25(7):1364-1367. 被引量：20
4顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
5郭山清,高丛,姚建,谢立.基于改进的随机森林算法的入侵检测模型(英文)[J].软件学报,2005,16(8):1490-1498. 被引量：18
6栾建安,王纪宪,苏炳华,朱长青.多类别多评估者的kappa分析[J].中国卫生统计,1995,12(6):20-22. 被引量：26
7王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
8林传鼎,无.社会主义心理学中的情绪问题——在中国社会心理学研究会成立大会上的报告(摘要)[J].社会心理科学,2006,21(1):37-37. 被引量：15
9杨丽华,戴齐,郭艳军.KNN文本分类算法研究[J].微计算机信息,2006,22(07X):269-270. 被引量：24
10潘勇,孔栋.电子商务网站可信度评价模型[J].情报杂志,2007,26(7):81-82. 被引量：9

引证文献33

1孟美任,丁晟春.在线中文商品评论可信度研究[J].现代图书情报技术,2013(9):60-66. 被引量：21
2聂卉,王佳佳.产品评论垃圾识别研究综述[J].现代图书情报技术,2014(2):63-71. 被引量：11
3赵衍.网络虚假评论研究述评[J].上海管理科学,2014,36(4):85-88. 被引量：4
4毕达宇,夏晓旭,王婧.用户在线评论数据挖掘的网商信用度分析[J].现代图书情报技术,2014(7):77-83. 被引量：8
5胡秧.一种基于条件随机场的专利功效标注方法[J].计算机光盘软件与应用,2014,17(16):115-117.
6王琢,李准,徐野,宋凯.基于评论图的虚假产品评论人的检测[J].计算机科学,2014,41(10):295-299. 被引量：6
7游贵荣,吴为,钱沄涛.电子商务中垃圾评论检测的特征提取方法[J].现代图书情报技术,2014(10):93-100. 被引量：14
8郑春东,郭伟倩,王寒.负面网络消费者评论及商家回复对潜在消费者的影响[J].北京工商大学学报（社会科学版）,2015,30(1):86-92. 被引量：23
9皇苏斌,修宇,赵森严,汪千松.基于多维特征权重的虚假评论识别方法[J].长江大学学报（自科版）（上旬）,2015,12(6):34-38. 被引量：2
10邓堃.大数据时代背景下基于网购评价的商家信用体系构建探讨[J].互联网天地,2015(9):73-76. 被引量：2

二级引证文献190

1张朝辉,刘佳佳,冉惠.基于贝叶斯与神经网混合算法的电商信用评价方法研究[J].情报科学,2020,0(2):81-87. 被引量：9
2刘凯阳,姜峰,王辉.航天话题公众关注热点和情感分析[J].科技传播,2021,13(19):31-34.
3梅梅,刘颖,唐小利,张玢.微博非结构化数据的情绪挖掘方法及在旅游预测中的应用[J].情报资料工作,2019,40(1):64-72. 被引量：9
4修国义,王俭,过仕明.引入信息传递效率的在线评论效用评价[J].情报科学,2019,37(1):43-50. 被引量：13
5陈燕方,娄策群.在线商品虚假评论形成路径研究[J].现代情报,2015,35(1):49-53. 被引量：20
6郝玫,杨晓媛.中文网络客户评论可信度研究[J].现代图书情报技术,2015(2):55-63. 被引量：6
7赵静娴.基于决策树的网络伪舆情识别研究[J].现代图书情报技术,2015(6):78-84. 被引量：7
8汪俊,赵坤坤,计一凡.垃圾评论识别的数学建模[J].科技创新与应用,2015,5(26):28-29.
9万岩,王雅璐.产品垃圾评论识别研究综述[J].北京邮电大学学报（社会科学版）,2019,0(3):71-79. 被引量：1
10宋恩梅,何帆.基于多网站的商品评论倾向性研究:以手机为例[J].图书馆学研究,2016(2):85-92. 被引量：8

1黄秋义,丁婷婷,杨帆.基于商品评论信息的情感倾向性分析模型[J].电子制作,2016,24(4X):36-37.
2游凤芹,钟芳,周展.中文多类别情感分类模型中特征选择方法[J].计算机应用,2016,36(A02):242-246. 被引量：4
3文能,丁晟春.商品主观评论信息的倾向性分析综述[J].情报杂志,2010,29(12):70-74. 被引量：2
4周民,李蕊.基于商品特征的商品评论信息挖掘方法[J].计算机与现代化,2014(6):98-101. 被引量：1
5杨啸萌.小身材大能耐——16GB Fire Fly萤火虫闪存盘[J].文体用品与科技,2010(6):51-51.
6WHO？谁来挑战iPad2[J].数码精品世界,2011(4):120-125.
7刘成.苹果iP家族大揭秘——走进iPod、iPhone、iPad的世界[J].微电脑世界,2011(7):68-69.
8李涵昱,钱力,周鹏飞.面向商品评论文本的情感分析与挖掘[J].情报科学,2017,35(1):51-55. 被引量：42
9林钦和,刘钢,陈荣华.基于情感计算的商品评论分析系统[J].计算机应用与软件,2014,31(12):39-44. 被引量：10
10唐潇霖.柯尼卡美能达能否造就数码新贵[J].互联网周刊,2003(36):65-65.

现代图书情报技术

2013年第1期

浏览历史

内容加载中请稍等...

垃圾商品评论信息的识别研究被引量：33

参考文献2

二级参考文献13

共引文献16

同被引文献359

引证文献33

二级引证文献190

相关作者

相关机构

相关主题

浏览历史

垃圾商品评论信息的识别研究 被引量：33

参考文献2

二级参考文献13

共引文献16

同被引文献359

引证文献33

二级引证文献190

相关作者

相关机构

相关主题

浏览历史

垃圾商品评论信息的识别研究被引量：33