结合词向量和词图算法的用户兴趣建模研究被引量：8

Modeling Users with Word Vector and Term-Graph Algorithm

导出

摘要【目的】提出一个基于评论的用户建模算法,实现评论资讯的个性化推荐。【方法】借助预训练词向量从评论观点句中提取细粒度的产品特征,基于语义关联构建特征词图,并运用TextRank关键词抽取算法计算用户对产品特性的关注度,构建用户兴趣模型。【结果】结果显示,结合词向量和词图算法生成的用户模型与人工归纳的用户模型吻合度较高,语义关联度近90%。模型评测指标F1为0.5505,优于基于词频的传统词袋模型(特征词模型F1为0.5269,词项模型F1为0.3322)。【局限】通过人工标注的评测语料偏少;基于通用语料获得的词向量对解决领域相关问题存有一定局限。【结论】对于形式表达不规范的评论语言,信息凝聚与语义分析技术的有机结合能够有效提升用户建模的质量,为评论质量的评价及评论在推荐系统中的有效利用提供了新思路。 [Objective]This paper proposes a review-based user modeling method,aiming to improve the personalized information pushing services.[Methods]Firstly,we identified product feature-specific terms from reviews with the help of pre-trained word embedding model.Then,we built a term-specific graph based on semantic correlation among feature-specific words.Finally,we used the Text Rank algorithm to compute user’s interest in product features,and model their preferences for products.[Results]User model generated by our new algorithm was consistent with the manually created ones(with nearly 90%semantic correlation).Our F1-score was 0.55,better than those of the classic TF-based word bag models.[Limitations]More manually labeled data and research is needed to improve the domain-specific analysis.[Conclusions]The proposed model helps us better analyze online reviews and develop new application for recommendation system.

作者聂卉 Nie Hui(School of Information Management,Sun Yat-Sen University,Guangzhou 510006,China)

机构地区中山大学资讯管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第12期30-40,共11页 Data Analysis and Knowledge Discovery

基金国家社会科学基金项目“面向用户感知效用的在线评论的质量与控制研究”(项目编号:15BTQ067)的研究成果之一.

关键词用户兴趣建模个性化推荐评论挖掘 User Modeling Personal Recommendation Review Mining

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
2聂卉,杜嘉忠.依存句法模板下的商品特征标签抽取研究[J].现代图书情报技术,2014(12):44-50. 被引量：9
3王伟,王洪伟.面向竞争力的特征比较网络:情感分析方法[J].管理科学学报,2016,19(9):109-126. 被引量：18
4徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
5刘俊,邹东升,邢欣来,李英豪.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224-4227. 被引量：30
6夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60
7谢玮,沈一,马永征.基于图计算的论文审稿自动推荐系统[J].计算机应用研究,2016,33(3):798-801. 被引量：21
8顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
9姜霖,张麒麟.基于评论情感分析的个性化推荐策略研究——以豆瓣影评为例[J].情报理论与实践,2017,40(8):99-104. 被引量：34
10宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27. 被引量：66

二级参考文献108

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
3耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
4娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006,26(11):2622-2625. 被引量：64
5索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
6刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
7ManningCD,RaghavanP,SchlotzeH.信息检索导论[M].王斌,译.北京:人民邮电出版社,2010:241-276. 被引量：12
8Tumey P D. Learning to extract keyphrases from text [ R]. National Research Council, Canada, NRC Technical Report ERB 1057, 1999 被引量：1
9Witten I H , Paynter G W, Frank E, et al. KEA : practical automatic key-phrase extraction [ C ] //Proceedings of the 4th ACM Conference on Digital Libraries, Berkeley, California, US, 1999:254 - 256 被引量：1
10Hulth an improved automatic keyword extraction given more linguistic knowledge [ C] //Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, 2003: 216- 223 被引量：1

共引文献318

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2黄俊又,努尔古丽·阿不都苏力.基于抖音短视频的重庆洪崖洞文旅IP分析[J].新媒体研究,2022,8(23):67-72. 被引量：1
3曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
4黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：20
5彭佳丽,闫凯丽,宗思雨,谢俐萨.数据驱动下面向产品设计的需求识别研究[J].科技经济导刊,2019(35):3-4. 被引量：1
6王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2009(3):74-79. 被引量：62
7施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
8田卉.用数据挖掘技术构建政府智能化网络投诉平台[J].办公自动化（综合月刊）,2009(9):13-14. 被引量：3
9张靖.网络个性化服务资源综合推荐研究[J].计算机仿真,2009,26(11):157-160. 被引量：5
10张瑜,苏晓路,刘世洪,李景,胡海燕.基于本体的农业科技信息用户建模系统设计与实现[J].现代图书情报技术,2009(11):34-39. 被引量：1

同被引文献75

1杨靖,张帆,郭雅鑫.基于文本词性结构和PCA算法的问卷优化[J].中国汽车,2020(9):14-19. 被引量：1
2张小荫.谓词性成分充当远宾语的双宾语构造[J].天津师大学报（社会科学版）,1998,18(6):72-76. 被引量：4
3张建伟,陈琦.从认知主义到建构主义[J].北京师范大学学报（社会科学版）,1996(4):75-82. 被引量：1131
4石向实.论皮亚杰的图式理论[J].内蒙古社会科学,1994,15(3):11-16. 被引量：36
5徐新华.浅谈构建和谐的大学文化[J].湖南师范大学社会科学学报,2006,35(3):128-128. 被引量：9
6施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
7陆伟,刘杰,秦喜艳.基于专长词表的图情领域专家检索与评价[J].中国图书馆学报,2010(2):70-76. 被引量：11
8单斌,李芳.基于LDA话题演化研究方法综述[J].中文信息学报,2010,24(6):43-49. 被引量：85
9胡月红,刘萍.基于本体概念的专长表示研究[J].图书情报工作,2012,56(4):17-21. 被引量：7
10张晓娟,陆伟,程齐凯.PLSA在图情领域专家专长识别中的应用[J].现代图书情报技术,2012(2):76-81. 被引量：9

引证文献8

1威廉斯,A.人像姿势的摆布[J].摄影世界,2000(6):14-15.
2于硕,Hayat Dino Bedru,储新倍,袁宇渊,万良田,夏锋.科学发现偶然性研究综述[J].数据分析与知识发现,2021,5(1):16-35. 被引量：2
3杨靖,张帆,贺畅,张磊.基于NLP文本分析和因子分析模型的调研问卷优化[J].现代商业,2021(8):99-104. 被引量：2
4闫强,张笑妍,周思敏.基于义原相似度的关键词抽取方法[J].数据分析与知识发现,2021,5(4):80-89. 被引量：8
5赵博,黄志良,何文思,王适之.基于任务的用户需求建模[J].信息系统工程,2021,34(9):80-83.
6安璐,陈苗苗,郑雅静.面向认知增强的国潮文化资源推荐策略[J].图书情报知识,2023,40(3):25-37. 被引量：3
7宋培彦,龙晨翔,李怡然,倪雪宁.基于冰山模型的科研人员学术专长识别方法研究[J].数据分析与知识发现,2023,7(6):50-60.
8如何通过互联网工具对电动自行车进行研究[J].中国自行车,2024(3):120-123.

二级引证文献15

1熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
2杨明月(译),雷尚君.中华优秀传统文化与潮流元素融合的现代文化产业发展趋势研究——基于国潮文化产业分析[J].价格理论与实践,2023(10):56-60. 被引量：3
3张宇,郭文忠,林森,文朝武,龙洁花.深度学习与知识推理相结合的研究综述[J].计算机工程与应用,2022,58(1):56-69. 被引量：5
4李旭晖,周怡.基于语义聚类的关键词抽取方法[J].情报科学,2022,40(3):99-108. 被引量：2
5段建勇,徐丽闪,刘杰,李欣,张家铭,王昊.基于义原知识和双向注意力流的问题生成模型[J].数据分析与知识发现,2022,6(5):44-53. 被引量：2
6潘慧萍,李宝安,张乐,吕学强.基于多特征融合的政府工作报告关键词提取研究[J].数据分析与知识发现,2022,6(5):54-63. 被引量：2
7段建勇,鲁朝阳,王昊,李欣,何丽.语义知识驱动的论文摘要关键词抽取方法[J].情报工程,2022,8(3):3-12.
8钟寒,徐艺嘉,鹿浩,孙旌睿.基于模糊贝叶斯决策的核心概念抽取方法[J].计算机工程与科学,2022,44(9):1686-1692.
9游新冬,袁梦龙,张乐,吕学强.CNN-SM:基于义原与多特征融合的消费品领域缺陷词识别模型[J].数据分析与知识发现,2022,6(9):77-85.
10侯文军,白冰,喻炜,杨本植.一种挖掘6G应用场景的方法——基于遗传算法的思想[J].通信技术,2022,55(11):1428-1436.

1尹积栋,谢茶花,陈鸯,彭崧,肖小春.面向评论文本的特征聚类挖掘方法研究[J].信息通信,2019,0(10):33-34. 被引量：4
2孙雨生,祝博,朱礼军.国内基于知识图谱的信息推荐研究进展[J].情报理论与实践,2019,42(12):163-169. 被引量：12
3朱惠平,马思远,李相如,张晓芳,谢智学.体育项目业余锻炼等级标准化网络信息平台建设研究[J].吉林体育学院学报,2019,35(5):22-28. 被引量：2
4吴丽蓉.AI+教育,这个风口该怎么追[J].企业界,2019,0(11):48-49.
5李多.论插画艺术在文创产品设计中的作用及其应用原则[J].文物鉴定与鉴赏,2020(2):136-137. 被引量：9
6李金丽,王立松.材料冶金类论文中常见问题的规范表达[J].材料与冶金学报,2019,18(4):305-309.
7李博诚,张云秋,杨铠西.面向微博商品评论的情感标签抽取研究[J].数据分析与知识发现,2019,3(9):115-123. 被引量：1
8闫兴昌,曹银忠.近五年来高校思想政治教育创新研究的热点追踪与脉络演进——基于CiteSpace知识图谱的可视化分析[J].社会科学前沿,2019,8(11):1854-1862. 被引量：1
9郑良.对“函数与导数的综合应用”的分析与思考[J].数学教学,2019(10):28-30.
10温长吉,赵珊珊,申利未,任虹宾.基于局部时空模式的体育视频行为识别[J].吉林大学学报（理学版）,2020,58(2):379-387. 被引量：3

数据分析与知识发现

2019年第12期

浏览历史

内容加载中请稍等...

结合词向量和词图算法的用户兴趣建模研究被引量：8

参考文献10

二级参考文献108

共引文献318

同被引文献75

引证文献8

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

结合词向量和词图算法的用户兴趣建模研究 被引量：8

参考文献10

二级参考文献108

共引文献318

同被引文献75

引证文献8

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

结合词向量和词图算法的用户兴趣建模研究被引量：8