基于策略记忆的深度强化学习序列推荐算法研究被引量：2

Research on Deep Reinforcement Learning Sequential Recommendation Algorithm Based on Policy Memory

下载PDF

导出

摘要推荐系统旨在从用户-项目的交互中进行建模,为用户推荐感兴趣的内容,从而提高用户体验.然而大多数用户-项目的序列并不总是顺序相关的,而是有更灵活的顺序甚至存在噪声.为解决这一问题,提出一种基于策略记忆的深度强化学习序列推荐算法,该算法将用户的历史交互存入记忆网络,使用一个策略网络将用户当前的行为模式更细致地划分为短期偏好、长期偏好以及全局偏好,并引入注意力机制,生成相应的用户记忆向量,利用深度强化学习算法识别对未来收益较大的项目.在用户和项目的交互中不断更新、强化学习网络的策略以提高推荐准确性.在两个公共数据集的实验中表明,本文所提出的算法与最先进的基线算法相比,召回率指标在2个数据集上分别提升了8.87%和11.20%. The recommender system aims to build a model from the user-item interaction and recommend the content of interest to users,so as to improve the user experience.However,most user-item sequences are not always sequentially related but have more flexible sequences and even noise.In order to solve this problem,a deep reinforce⁃ment learning sequence recommender algorithm based on strategy memory is proposed.The algorithm stores the user’s historical interaction in the memory network,and then uses a strategy network to divide the user′s current behavior pattern into short-term preference,long-term preference,and global preference,and introduces the attention mecha⁃nism to generate the corresponding user memory vector.The deep reinforcement learning algorithm is used to identify the projects with great benefits in the future.The strategy of the reinforcement learning network is continuously up⁃dated in the interaction between users and items to improve the accuracy of the recommender.Experiments on two public data sets show that the proposed algorithm improves the recall index by 8.87%and 11.20%,respectively,com⁃pared with the most advanced baseline algorithm.

作者陈卓姜伟豪杜军威 CHEN Zhuo;JIANG Weihao;DU Junwei(School of Information Science and Technology,Qingdao University of Science and Technology,Qingdao 266061,China)

机构地区青岛科技大学信息科学技术学院

出处《湖南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2022年第8期208-216,共9页 Journal of Hunan University:Natural Sciences

基金国家自然科学基金资助项目(F030810,61806107) 山东省重点研发计划资助项目(2018GGX101052)。

关键词推荐系统强化学习策略网络注意力机制 recommender systems reinforcement learning policy network attention mechanism

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：42
2刘胜宗,樊晓平,廖志芳,吴言凤.基于PMF进行潜在特征因子分解的标签推荐[J].湖南大学学报（自然科学版）,2015,42(10):107-113. 被引量：3

二级参考文献18

1RENDLE S, SCHMIDT-TH1EME L. Pairwise interaction tensor actorization for personalized tag recommendation [C]//Proceedings of the 3rd ACM International Conference on Web Search and Data Mining. New York, USA: ACM, 2010:81-90. 被引量：1
2JASCHKER, MARINHO L, HOTHOA, etal. TagRecom- mendations in folksonomies[J]. Knowledge Discovery in Da tabases: PKDD,2007,47(2): 506-514. 被引量：1
3SIGURBJORNSSON B, VAN ZWOL R. Flickr tag recom mendation based on collective knowledge[C] //Proceedings of the 17th International Conference on World Wide Web. Bei- jing:ACM, 2008: 327-336. 被引量：1
4SEN S, LAM S K, RASHID A M, etal. Tagging, communi- ties, vocabulary, evolution[C]//Proceedings of the 2006 20th Anniversary Conference on Computer Supported Cooper- ative Work. New York, USA:ACM, 2006: 181-190. 被引量：1
5HOTHO A, JASCHKE R, SCHMITZ C, et al. BibSonomy: A social bookmark and publication sharing system[C]//Pro-ceedings of the Conceptual Structures Tool Interoperability Workshop at the 14th International Conference on Conceptual Structures. Aalborg, Denmark, 2006:87- 102. 被引量：1
6MA H, YANG H, LYU M R, et al. Sorec: Social recom- mend dation using probabilistic matrix factorization [C]// Proceedings of the 17th ACM Conference on Information and Knowledge Management. New York, USA: ACM, 2008: 931-940. 被引量：1
7SYMEONIDIS P, NANOPOULOS A, MANOLOPOULOS Y. TagRecommendations based on tensor dimensionality re- duction[C]//Proceedings of the 2008 ACM Conference on Recommender Systems. Lausanne, Switzerland: ACM, 2008: 43-50. 被引量：1
8LANGSETH H, NIELSEN T D. A latent model for collabo- rative filtering[J]. International Journal of Approximate Rea- soning, 2012, 53(4): 447-466. 被引量：1
9POLAT H, DU W. SVD-based collaborative filtering with privacy[C]//Proceedings of the 2005 ACM Symposium on Applied Computing. New York, USA: ACM, 2005:791 -795. 被引量：1
10MA H, KING I, LYU M R. Learning to recommend with so- cial trust ensemble[C]//Proceedings of the 32nd Inter Na- tional ACM SIGIR Conference on Research and Development in Information Retrieval. Boston, USA: ACM, 2009:203 - 210. 被引量：1

共引文献43

1向菲,彭昱欣,邰杨芳.一种基于协同过滤的图书资源标签推荐方法研究[J].图书馆学研究,2018(15):46-52. 被引量：11
2陈潜,陆满君,宋柯,于祥祯,杜科.相控阵雷达导引头技术现状及发展趋势[J].上海航天（中英文）,2021,38(3):157-162. 被引量：10
3王金予,魏欣然,石文磊,张佳.强化学习在资源优化领域的应用[J].大数据,2021,7(5):131-149. 被引量：3
4张荣霞,武长旭,孙同超,赵增顺.深度强化学习及在路径规划中的研究进展[J].计算机工程与应用,2021,57(19):44-56. 被引量：21
5喻波,王志海,孙亚东,谢福进,安鹏.非结构化文档敏感数据识别与异常行为分析[J].智能系统学报,2021,16(5):931-939. 被引量：10
6郭心德,丁宏强.离散制造智能工厂场景的AGV路径规划方法[J].广东工业大学学报,2021,38(6):70-76. 被引量：4
7邓清唐,胡丹尔,蔡田田,李肖博,徐贤民,彭勇刚.基于多智能体深度强化学习的配电网无功优化策略[J].电工电能新技术,2022,41(2):10-20. 被引量：14
8徐国奇,洪昭斌,陈水宣,郭炳廷.采用DDPG算法的弹道导弹突防诱饵分布空域[J].厦门理工学院学报,2022,30(1):34-41. 被引量：1
9王涵,俞扬,姜远.基于动态自选择参数共享的合作多智能体强化学习算法[J].智能科学与技术学报,2022,4(1):75-83. 被引量：1
10项羽铭,陈焜,赵志峰,李荣鹏,张宏纲.脑注意力机制启发的群体智能协同避障方法[J].智能科学与技术学报,2022,4(1):84-96.

同被引文献13

1吕琳媛.复杂网络链路预测[J].电子科技大学学报,2010,39(5):651-661. 被引量：241
2王珊珊,肖明.基于本体的引文知识服务系统构建研究[J].情报理论与实践,2017,40(11):125-129. 被引量：8
3周悦芝,张迪.近端云计算:后云计算时代的机遇与挑战[J].计算机学报,2019,42(4):677-700. 被引量：68
4王体春,华洋,WU Yong.面向汽车发动机设计的可拓知识推送模型[J].华南理工大学学报（自然科学版）,2020,48(2):107-115. 被引量：1
5卢海峰,顾春华,罗飞,丁炜超,杨婷,郑帅.基于深度强化学习的移动边缘计算任务卸载研究[J].计算机研究与发展,2020,57(7):1539-1554. 被引量：18
6喻鹏,张俊也,李文璟,周凡钦,丰雷,付澍,邱雪松.移动边缘网络中基于双深度Q学习的高能效资源分配方法[J].通信学报,2020,41(12):148-161. 被引量：9
7荣沛,苏凡军.基于知识图注意网络的个性化推荐算法[J].计算机应用研究,2021,38(2):398-402. 被引量：7
8Samrat Nath,Jingxian Wu.Deep reinforcement learning for dynamic computation offloading and resource allocation in cache-assisted mobile edge computing systems[J].Intelligent and Converged Networks,2020,1(2):181-198. 被引量：19
9彭博.主题-知识关联的网络文物信息资源知识推荐方法研究[J].情报科学,2021,39(9):162-169. 被引量：5
10张屹晗,王巍,刘华真,谷壬倩,郝亚奇.基于知识图嵌入的协同过滤推荐算法[J].计算机应用研究,2021,38(12):3590-3596. 被引量：10

引证文献2

1刘高,黄沈权,龙安,王玉洁,朱晓辉.基于超图网络的产品设计知识智能推荐方法研究[J].计算机应用研究,2022,39(10):2962-2967. 被引量：4
2巨涛,王志强,刘帅,火久元,李启南.D3DQN-CAA:一种基于DRL的自适应边缘计算任务调度方法[J].湖南大学学报（自然科学版）,2024,51(6):73-85.

二级引证文献4

1宋雪雁,张伟民,张祥青.基于RDF的语义知识超图存储研究[J].情报学报,2023,42(8):967-979.
2王伦康,高茂庭.基于超图卷积网络和目标多意图感知的会话推荐算法[J].计算机应用研究,2024,41(1):32-38.
3丁满,李鹏慧,张一飞,马洪坤.复杂网络在工业设计领域的应用研究现状与进展[J].图学学报,2023,44(6):1080-1090. 被引量：1
4黄驰涵.基于能量损失的Transformer神经网络信息流序列推荐算法[J].计算机与网络,2024,50(2):171-176.

1雷德明,杨海.求解多目标不相关并行机调度问题的多群体人工蜂群算法[J].控制与决策,2022,37(5):1174-1182. 被引量：6
2李拓晨,王长柱,王晓西,那琪.消费者战略行为下新进企业产品质量提升策略[J].哈尔滨工程大学学报,2022,43(5):745-752.

湖南大学学报（自然科学版）

2022年第8期

浏览历史

内容加载中请稍等...

基于策略记忆的深度强化学习序列推荐算法研究被引量：2

参考文献2

二级参考文献18

共引文献43

同被引文献13

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于策略记忆的深度强化学习序列推荐算法研究 被引量：2

参考文献2

二级参考文献18

共引文献43

同被引文献13

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于策略记忆的深度强化学习序列推荐算法研究被引量：2