基于发文内容的微博用户兴趣挖掘方法研究被引量：9

Research of microblog user interest mining based on microblog posts

下载PDF

导出

摘要针对微博用户兴趣属性缺失问题,提出一种基于发文内容分析的微博用户兴趣挖掘方法。利用基于短语的主题模型和自动构建的用户兴趣知识库,能够有效地从发文内容中挖掘出高质量的用户兴趣短语并标志其类别,从而实现对微博用户的兴趣挖掘。在SMP CUP 2016数据集上的实验结果表明,主题短语模型在困惑度和短语质量上取得的效果均优于传统的主题模型,用户兴趣挖掘的准确率和召回率最高可达到78%和82%。 To abstract missing interests of microblog users,this paper proposed an data mining approach based on posting message analysis. Using the phrase-LDA and the user interest knowledge base constructed automatically,it could extract high-quality candidate interest phrases from posting messages and implement the interest classification. The experimental results on SMP CUP 2016 dataset show that the phrase-LDA can achieve better results than traditional topic model on perplexity and phrase quality. The accuracy rate and the recall rate of user interest mining can reach 78% and 82% at best respectively.

作者熊才伟曹亚男 Xiong Caiwei;Cao Yanan(National Key Engineering Laboratory,Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China;School of Computer ＆ Control Engineering,University of Chinese Academy of Sciences,Beijing 100093,China)

机构地区中国科学院信息工程研究所国家重点工程实验室中国科学院大学计算机与控制学院

出处《计算机应用研究》 CSCD 北大核心 2018年第6期1619-1623,共5页 Application Research of Computers

基金国家自然科学基金青年基金资助项目(61403369) 国家科技部重大专项资助项目(2016YFB0801300)

关键词微博发文内容兴趣挖掘主题短语模型知识库 mieroblog mieroblog posts interests mining phrase-LDA knowledge base

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：166
2HE Li,JIA Yan,HAN Weihong,DING Zhaoyun.Mining User Interest in Microblogs with a User-Topic Model[J].China Communications,2014,11(8):131-144. 被引量：17
3陈文涛,张小明,李舟军.构建微博用户兴趣模型的主题模型的分析[J].计算机科学,2013,40(4):127-130. 被引量：30
4王广新..基于微博的用户兴趣分析与个性化信息推荐[D].上海交通大学,2013:
5丁宇新,肖骁,吴美晶,张逸彬,董丽.基于半监督学习的社交网络用户属性预测[J].通信学报,2014,35(8):15-22. 被引量：8

二级参考文献53

1李阳,王晓岩,王昆,沙瀛.基于社交网络的安全关系研究[J].计算机研究与发展,2012,49(S2):124-130. 被引量：10
2Kang J H, Lerman K, Plangprasopchok A. Analyzing Microblogs with affinity propagation [C] //Proc of the 1st KDD Workshop on Social Media Analytic. New York: ACM, 2010:67-70. 被引量：1
3Ramage D, Dumais S, Liebling D. Characterizing microblogs with topic models [C] //Proc of Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010:130-137. 被引量：1
4Xu R, Wunsch D. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks, 2005, 16(3): 645-678. 被引量：1
5Deerwester S, Dumais S, Landauer T, et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990, 41(6): 391-407. 被引量：1
6Landauer T K, Foltz P W, Laham D. Introduction to Latent Semantic Analysis [J]. Discourse Processes, 1998, 25 (2) 259-284. 被引量：1
7Griffiths T, Steyvers M. Probabilistic topic models [G] // Latent Semantic Analysis: A Road to Meaning. Hillsdale, NJ: Laurence Erlbaum, 2006. 被引量：1
8Hofmann T. Probabilistic latent semantic indexing [C] // Proc of the 22nd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1999:50-57. 被引量：1
9Salton G, McGill M. Introduction to Modern Information Retrieval [M]. New York: McGraw-Hill, 1983. 被引量：1
10Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. The Journal of Machine Learning Research, 2003, 3: 993-1022. 被引量：1

共引文献212

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2李玉强,黄瑜,孙念,李琳,刘爱华.基于性格情绪特征的改进主题情感模型[J].中文信息学报,2020(7):96-104. 被引量：1
3刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
4姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
5孙晓莹,李大展,王水.国内微博研究的发展与机遇[J].情报杂志,2012,31(7):25-33. 被引量：11
6汪洋,帅建梅,陈志刚.基于海量信息过滤的微博热词抽取方法[J].计算机系统应用,2012,21(11):131-136. 被引量：4
7莫同,褚伟杰,李伟平,吴中海.采用超图的微博群落感知方法[J].西安交通大学学报,2012,46(11):120-126. 被引量：8
8张培晶,宋蕾.基于LDA的微博文本主题建模方法研究述评[J].图书情报工作,2012,56(24):120-126. 被引量：54
9王君泽,马静,杜洪涛.微博舆情分析平台的框架与支撑技术研究[J].电子政务,2013(1):8-14. 被引量：2
10孙乃利,王玉龙,沈奇威.微博客意见领袖识别的研究[J].电信技术,2012(12):78-80. 被引量：8

同被引文献93

1陈万志,赵宇璇.智慧校园隐式用户行为的数据挖掘方法[J].辽宁工程技术大学学报（自然科学版）,2020(5):434-439. 被引量：13
2王志平,周生宝,郭俊芳,王众托.基于变分不等式的网络广告资源分配的超网络模型[J].大连海事大学学报,2007,33(4):69-72. 被引量：18
3王众托,王志平.超网络初探[J].管理学报,2008,5(1):1-8. 被引量：101
4徐建民,王平.小型中文信息检索测试集的构建与分析[J].情报杂志,2009,28(1):13-16. 被引量：13
5席运江,党延忠,廖开际.组织知识系统的知识超网络模型及应用[J].管理科学学报,2009,12(3):12-21. 被引量：78
6刘永利,欧阳元新,闻佳,熊璋.基于概念聚类的用户兴趣建模方法[J].北京航空航天大学学报,2010,36(2):188-192. 被引量：8
7程启月.评测指标权重确定的结构熵权法[J].系统工程理论与实践,2010,30(7):1225-1228. 被引量：516
8王道平,王煦.基于AHP/熵值法的钢铁企业绿色供应商选择指标权重研究[J].软科学,2010,24(8):117-122. 被引量：75
9易明,邓卫华.基于标签的个性化信息推荐研究综述[J].情报理论与实践,2011,34(3):126-128. 被引量：21
10潘旭伟,汪雅喜,杨祎.知识超网络环境中集成优化过程的知识共享服务研究[J].科研管理,2011,32(5):87-93. 被引量：10

引证文献9

1柯阳,隋杰.基于用户特征属性的微博话题关键用户挖掘[J].计算机应用研究,2019,36(6):1614-1617. 被引量：4
2廖晓,叶广宇,李伟婵,席运江.基于内容与行为数据集成建模的企业微博粉丝兴趣挖掘方法[J].系统工程,2019,37(2):139-149. 被引量：7
3张彬,徐建民,吴树芳.基于多源用户标签的跨域兴趣融合模型研究[J].情报科学,2020,38(4):147-152. 被引量：6
4张舒,莫赞,柳建华,杨培琛,刘洪伟.基于NWD集成算法的多粒度微博用户兴趣画像构建[J].广东工业大学学报,2020,37(4):42-50. 被引量：2
5吴树芳,张雄涛,朱杰.多源信息融合的微博查询似然模型[J].图书情报工作,2020,64(17):114-122. 被引量：3
6Guangyong Yang,Jianqiu Zeng,Mengke Yang,Yifei Wei,Xiangqing Wang,Zulfiqar Hussain Pathan.OTT Messages Modeling and Classification Based on Recurrent Neural Networks[J].Computers, Materials & Continua,2020(5):769-785. 被引量：3
7张思松,陈文.基于LDA模型和语义网络的线上文本挖掘方法[J].安庆师范大学学报（自然科学版）,2022,28(2):41-45. 被引量：2
8李乃文,王胜男.融合用户属性的虚拟学术社区用户画像模型构建研究[J].情报探索,2022(10):85-90. 被引量：3
9张雄涛,甘明鑫,李硕.多粒度关系融合的微博信念网络检索模型[J].管理科学,2022,35(5):67-79.

二级引证文献30

1莫思琪.互联网关键用户的价值分析研究[J].经济研究导刊,2020(22):131-132.
2席运江,杜蝶蝶,廖晓,仉学红.基于超网络的企业微博用户聚类研究及特征分析[J].数据分析与知识发现,2020,4(8):107-118. 被引量：5
3席运江,邓雨珊,廖晓,谢正霞.基于互动行为的企业微博传播效果评价与分析[J].现代情报,2021,41(5):149-158. 被引量：5
4张彬,徐建民,吴姣.大数据环境下基于知识图谱的用户兴趣扩展模型研究[J].现代情报,2021,41(8):36-44. 被引量：12
5罗予东,陆璐.基于人工神经网络和遗传算法的网络攻击检测[J].计算机工程与设计,2021,42(9):2446-2454. 被引量：12
6张劲松.基于用户生成文本的图书标签关联规则识别方法[J].情报杂志,2021,40(11):182-189. 被引量：4
7徐建民,申永平,吴树芳.基于分层社交关系的微博推荐算法[J].计算机应用研究,2021,38(12):3597-3603. 被引量：3
8丁浩,艾文华,胡广伟,李树青,索炜.融合用户兴趣波动时序的个性化推荐模型[J].数据分析与知识发现,2021,5(11):45-58. 被引量：5
9肖敖夏,董嘉慧,刘华玮,邸虹维,杨思洛.基于Session识别的高校图书馆电子资源用户访问行为画像分析[J].图书馆杂志,2022,41(1):98-105. 被引量：6
10张军,李新旺,李鹏.多维属性融合视角下的在线健康社区关键用户识别研究[J].情报科学,2022,40(3):82-90. 被引量：2

1张志娟.以“趣”为媒——浅谈幼儿绘画兴趣的培养[J].读与写（教育教学刊）,2017,14(7):249-249. 被引量：2
2徐靖.幼儿科技教育中兴趣挖掘与探索[J].幸福生活指南,2017(46):27-27.
3柳益君,何胜,熊太纯,冯新翎,武群辉.大数据挖掘视角下的图书馆智慧服务——模型、技术和服务[J].现代情报,2017,37(11):81-86. 被引量：57
4郑帅,赵筱,于子晴,杜皓天.浅析学生干部工作积极性缺失问题[J].时代教育,2018,0(11):125-125.
5沈军彩.无线局域网下数据实时自组织推送系统设计[J].科学技术与工程,2017,17(30):246-251.
6柯秀文.基于Probit回归的图书馆读者图书兴趣挖掘方法[J].武汉职业技术学院学报,2018,17(2):97-100.
7宋鼎新,黄德根.一种融合句法短语的汉英统计机器翻译方法[J].小型微型计算机系统,2017,38(10):2197-2201. 被引量：6
8李江宇,宋添树,张沁哲.基于LDA主题模型的格调挖掘[J].电脑与电信,2018(5):26-29.
9冯新淇,张琨,任奕豪,谢彬,赵静.一种基于RLDA主题模型的特征提取方法[J].计算机与数字工程,2017,45(10):1980-1985. 被引量：2
10马年圣,卞艺杰,唐明伟.基于张量分解的分布式主题分类模型[J].计算机系统应用,2018,27(6):151-157.

计算机应用研究

2018年第6期

浏览历史

内容加载中请稍等...

基于发文内容的微博用户兴趣挖掘方法研究被引量：9

参考文献5

二级参考文献53

共引文献212

同被引文献93

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于发文内容的微博用户兴趣挖掘方法研究 被引量：9

参考文献5

二级参考文献53

共引文献212

同被引文献93

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于发文内容的微博用户兴趣挖掘方法研究被引量：9