一种基于用户评论自动分析的APP维护和演化方法被引量：6

An Automatic Analysis of User Reviews Method for APP Evolution and Maintenance

下载PDF

导出

摘要应用程序分发平台(如Google Play Store或Apple App Store)允许用户以评分或者评论等形式向下载的应用程序提交反馈.这些反馈信息可以直接或者间接地反映用户意图,及时准确地挖掘用户意图可以极大地帮助移动开发人员持续维护和改善他们的app,从而更好地满足用户期望.然而,对于很多流行的应用来说,由于其用户评论数据量大、非结构化以及评论质量不一致等,使得识别其中有价值的信息成为一项极具挑战的任务.因此,将用户评论进行自动化分析以减缓人工分析工作量成为app评论挖掘的新思路.本文我们提出了一种自动化用户评论分析方法ARICA(Automatic Review Intention Classification Analysis).首先,ARICA根据用户的评论反馈,自动将评论信息进行意图分类,并使用LDA主题模型对每个分类意图下评论进行主题划分;其次,在每个主题下对表达语义相似的评论进行聚类,进一步,ARICA使用情感分析工具SentiStrength获取用户情感,然后对用户评论的情感分布进行分析来识别用户的重要意图;最后,综合考虑用户意图和用户情感偏好等多维度信息计算用户评论得分并以此划分评论优先级,从而为开发者进行用户评论意见推荐.我们使用Google Play中真实的app评论数据来验证ARICA的评论意图分类和句子聚类的性能.实验结果表明,ARICA在用户评论意图分类过程中准确度达到80%,和现有的基于卷积神经网络的方法TextCNN的相比,ARICA的F-Measure提高了19.1%.同时,评论句子聚类过程中获得86%的准确率.另外,为了验证ARICA推荐用户评论的有效性,我们使用官方的app更新日志来实证分析ARICA推荐的用户评论建议是否可以真实地被开发者采用.结果表明,ARICA可以高效为开发者推荐具有价值信息的评论,这对于开发者进行后续的app维护和演化任务具有重要意义. Application distribution platforms such as Google Play Store or Apple App Store allow users to submit feedbacks to download applications in the form of ratings or reviews.These feedbacks can directly or indirectly reflect users’intention,and it can greatly help mobile developers(or app provider)to continuously maintain and improve their applications,such as fix the existing bugs,add or refining the app features,etc.and so as to better satisfying user expectations continuously.App reviews provide an opportunity to proactively collect user complaints and promptly improve apps’user experience,in terms of bug fixing and feature refinement.However,for many popular applications,since the large amount of user review data,unstructured review data,and inconsistent review quality,identifying the valuable review information becomes a challenging task.Therefore,classification of user reviews into specific topics and automated analysis to reduce the workload of manual analysis has become a new idea for app review mining analysis.In this paper,we propose a method named ARICA(Automatic Review Intention Classification Analysis)to automatically analyze crowd user reviews to efficiently provide developers with software maintenance and evolution suggestions.Firstly,ARICA classifies the reviews into different categories according to the user’s feedbacks,and then uses the LDA topic model to classify the reviews under each user’s intent category.This allows a preliminary screening of user reviews to obtain review information under each intent category.Secondly,ARICA clusters user views with similar semantic expressions under each review topic to further filter the redundant information in reviews,so that can easier and intuitive to understand the user’s original feedback and capture the user’s true intention more accurately.Afterwards,ARICA uses the sentiment analysis tool called SentiStrength to obtain user sentiment,and then analyzes the sentiment distribution of user reviews to identify the user’s significant intentio

作者肖建茂陈世展冯志勇刘朋立薛霄 XIAO Jian-Mao;CHEN Shi-Zhan;FENG Zhi-Yong;LIU Peng-Li;XUE-Xiao(Tianjin Key Laboratory of Cognitive Computing and Application,Tianjin 300350;College of Intelligence and Computing,Tianjin University,Tianjin 300350)

机构地区天津市认知计算与应用重点实验室天津大学智能与计算学部

出处《计算机学报》 EI CSCD 北大核心 2020年第11期2184-2202,共19页 Chinese Journal of Computers

基金国家自然科学基金重点基金(61832014) 国家自然科学基金(61572350) 国家重点研发计划(2017YFB1401201)资助.

关键词用户评论意图分类情感分析维护和演化意见推荐 user reviews intent classification sentiment analysis maintenance and evolution opinion recommendations

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1王仲远,程健鹏,王海勋,文继荣.短文本理解研究[J].计算机研究与发展,2016,53(2):262-269. 被引量：50

二级参考文献34

1Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis [J]. Journal of the Association of Information Sience, 1990, 41(6) : 391-407. 被引量：1
2Song Y, Wang H, Wang Z, et al. Short text conceptualization using a probabilistic knowledgebase [C]// Proc of the 22nd Int Joint Conf on Artificial Intelligence (IJCAI). Palo Alto, CA: AAAI, 2011:2330-2336. 被引量：1
3Wang Z, Zhao K, Wang H, et al. Query understanding through knowledge-based conceptualization [C]//Proc of the 24th Int Joint Conf on Artificial Intelligence (IJCAI). Palo Alto, CA: AAAI, 2015:3264-3270. 被引量：1
4Lund K, Burgess C. Producing high-dimensional semantic spaces from lexical co-occurrence[J]. Behavior Research Methods, Instruments,& Computers, 1996, 28(2): 203- 2O8. 被引量：1
5Turney P D, Pantel P. From frequency to meaning: Vector space models of semantics [J]. Journal of Artificial Intelligence Research, 2010, 37(1): 141-188. 被引量：1
6Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model [J]. The Journal of Machine Learning Research, 2003, 3(2): 1137-1155. 被引量：1
7Mikolov T, Karafiat M, Burget L, et al. Recurrent neural network based language model [C] //Proc of the llth Annual Conf of the Int Speech Communication Association. New York: ACM, 2010: 1045-1048. 被引量：1
8Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space [J]. Computing Research Repository, 2013 [2015-12-30]. http://arxiv, org/ pdf/1301. 3781. pdf. 被引量：1
9Collobert R, Weston J. A unified architecture for natural language processing: Deep neural networks with multitask learning [C]//Proc of the 25th Int Conf on Machine Learning (ICML). New York: ACM, 2008:160-167. 被引量：1
10Ire Q V, Mikolov T. Distributed representations of sentences and documents [C]//Proc of the 31st Int Conf on Machine Learning(ICML). PaloAlto, CA: AAAI, 2014:1188-1196. 被引量：1

共引文献49

1孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
2文莎.基于神经网络的文本分类[J].信息通信,2019,0(12):173-174.
3张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016(12):27-35. 被引量：40
4黄华军,谭骏珊,秦姣华.基于主题模型的微博话题检测算法[J].网络与信息安全学报,2016,2(5):30-38.
5张欣,陆颖隽,李立睿,邓仲华.古典诗词语句的标签模型研究[J].信息资源管理学报,2017,7(2):76-80.
6梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735. 被引量：140
7郑德俊,朱婷婷,沈军威.基于改进K均值算法的移动图书馆用户评论需求聚类研究[J].数字图书馆论坛,2017(10):26-31. 被引量：2
8刘泽锦,王洁.同主题词短文本分类算法中BTM的应用与改进[J].计算机系统应用,2017,26(11):213-219. 被引量：4
9刘德元,魏晶晶,吴运兵,廖祥文.基于文本概念化的观点检索方法[J].山西大学学报（自然科学版）,2018,41(2):295-301.
10梁吉业,乔洁,曹付元,刘晓琳.面向短文本分析的分布式表示模型[J].计算机研究与发展,2018,55(8):1631-1640. 被引量：7

同被引文献44

1李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报（自然科学版）,2005,33(3):53-55. 被引量：19
2李虹,闫德恒.基于项目需求工程理论的软件需求管理浅析[J].中国科技信息,2011(16):92-93. 被引量：5
3王仲远,程健鹏,王海勋,文继荣.短文本理解研究[J].计算机研究与发展,2016,53(2):262-269. 被引量：50
4熊文军,张璇,王旭,李彤,尹春林.面向Issue跟踪系统的变更请求报告关闭可能性预测[J].计算机科学,2017,44(11):146-155. 被引量：2
5马远浩,曾卫明,石玉虎,徐鹏.基于加权词向量和LSTM-CNN的微博文本分类研究[J].现代计算机,2018,24(17):18-22. 被引量：8
6丁连红,孙斌,张宏伟.基于知识图谱扩展的短文本分类方法[J].情报工程,2018,4(5):38-46. 被引量：5
7康卫,邱红哲,焦冬冬,房志奇,于寅虎.基于搜索的短文本分类算法研究[J].电子技术应用,2018,44(11):121-123. 被引量：5
8黄贤英,谢晋,龙姝言.融合词向量及BTM模型的问题分类方法[J].计算机工程与设计,2019,40(2):384-388. 被引量：10
9郑腾,吴雨川.LDA特征扩展的多类SVM短文本分类方法研究[J].武汉纺织大学学报,2019,32(2):72-76. 被引量：5
10陈琪,张莉,蒋竞,黄新越.一种基于支持向量机和主题模型的评论分析方法[J].软件学报,2019,30(5):1547-1560. 被引量：24

引证文献6

1范国栋,陈世展,肖建茂,吴洪越,张璐,薛霄,王忠杰,冯志勇.面向App评论响应的语义检索和生成框架[J].计算机学报,2022,45(12):2528-2543.
2关慧,宗福焱,曲盼.基于BTM和长文本语义增强的用户评论分类[J].计算机技术与发展,2023,33(7):181-187. 被引量：3
3牛菲菲,李传艺,葛季栋,骆斌.用户特征请求分析与处理研究综述[J].软件学报,2023,34(8):3605-3636. 被引量：4
4高慧,荀亚玲,王林青.基于多通道融合特征网络的文本情感分析[J].计算机技术与发展,2023,33(11):175-181.
5刘海毅,姜瑛,赵泽江.面向版本演化的APP软件缺陷跟踪分析方法[J].软件学报,2024,35(7):3180-3203.
6陈瀚,赵春蕾,蒋昊达,王春东.基于融合模型与语义网络的App用户意图识别研究[J].计算机工程,2024,50(8):50-63. 被引量：1

二级引证文献8

1卫红敏.基于有监督双词主题模型的短文本分类方法[J].现代信息科技,2024,8(10):56-59.
2谢雅玲.社交媒介视域下用户原创内容评论区场域建设的路径[J].哈尔滨师范大学社会科学学报,2024,15(4):151-155.
3杨东,毋涛,赵雪青,李猛.基于改进TF-IDF融合二进制灰狼优化的短文本分类[J].计算机技术与发展,2024,34(8):37-41.
4高永闯,邓剑伟,贾凯琳.北京市居民基层首诊意愿影响因素及促进策略研究[J].中国卫生事业管理,2024,41(10):1109-1113.
5张逸涵,洪赓,杨哲慜.基于多模态融合的移动应用细粒度用户意图理解[J].计算机系统应用,2024,33(11):209-223.
6邓翠艳,齐小刚.基于Transformer及多任务学习的电信网络诈骗识别[J].应用科技,2024,51(5):256-262.
7张路萍.需求导向的软件产品定义和设计研究[J].微型计算机,2024(12):205-207.
8郭西雅,张驰,赵柔冰,乔诗雨.用户特征请求在总控端软件中的设计研究[J].Design（汉斯）,2023,8(4):3425-3436.

1王昊天(文/图).“巨星杀手”再进化--VICTAS皮切福德更新日志第二弹[J].乒乓世界,2020(7):88-89.
2周重新.守住专栏评论的根与魂——以《脱贫攻坚大家谈》栏目为例[J].城市党报研究,2020(10):79-80.
3半夏(整理).报告中的数字化发展趋势[J].中国质量,2020(10):33-35.
4吕宏玉,杨建林.基于在线评论的就业行业情报挖掘研究——以图书情报专业求职者为例[J].情报理论与实践,2020,43(9):63-71. 被引量：7
5唐斌,戴育滨,陈慧钦.把握重大危机“窗口期”推进社交网络舆情治理创新——基于新冠肺炎疫情防控重点地区舆情数据的分析[J].今日科苑,2020(9):49-61. 被引量：1
6刘炜.偏好变化与青年择偶匹配--基于上海人民公园“相亲角”的典型案例分析[J].当代青年研究,2020(6):124-128. 被引量：5
7Cheng-Xu Li,Wen-Min Fei,Chang-Bing Shen,Zi-Yi Wang,Yan Jing,Ru-Song Meng,Yong Cui.Diagnostic capacity of skin tumor artificial intelligence-assisted decision-making software in real-world clinical settings[J].Chinese Medical Journal,2020(17):2020-2026. 被引量：7
8李顺勇,余曼,王改变.分类矩阵对象数据的BC-k-modes聚类算法[J].河南科学,2020,38(10):1549-1557. 被引量：1
9顾秋阳,琚春华,吴功兴.融入深度自编码器与网络表示学习的社交网络信息推荐模型[J].计算机科学,2020,47(11):101-112. 被引量：7
10梁烨.云计算下权重社会网络差分隐私保护数据聚类方法[J].自动化与仪器仪表,2020(10):55-58.

计算机学报

2020年第11期

浏览历史

内容加载中请稍等...

一种基于用户评论自动分析的APP维护和演化方法被引量：6

参考文献1

二级参考文献34

共引文献49

同被引文献44

引证文献6

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种基于用户评论自动分析的APP维护和演化方法 被引量：6

参考文献1

二级参考文献34

共引文献49

同被引文献44

引证文献6

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种基于用户评论自动分析的APP维护和演化方法被引量：6