基于深度强化学习的空间众包任务分配策略被引量：2

Task Allocation Strategy of Spatial Crowdsourcing Based on Deep Reinforcement Learning

下载PDF

导出

摘要针对动态在线任务分配策略难以有效利用历史数据进行学习、同时未考虑当前决策对未来收益的影响的问题,提出基于深度强化学习的空间众包任务分配策略.首先,以最大化长期累积收益为优化目标,基于马尔科夫决策过程从单个众包工作者的角度建模,将任务分配问题转化为对状态动作价值Q的求解及工作者与任务的一对一分配.然后采用改进的深度强化学习算法对历史任务数据进行离线学习,构建关于Q值的预测模型.最后,动态在线分配过程中实时预测Q值,作为KM(Kuhn-Munkres)算法的边权,实现全局累积收益的最优分配.在出租车真实出行数据集上的实验表明,当工作者数量在一定规模内时,文中策略可提高长期累积收益. In the traditional dynamic online task allocation strategy,it is difficult to effectively make use of historical data for learning and the impact of current decisions on future revenue is not taken into account.Therefore,a task allocation strategy of spatial crowdsourcing based on deep reinforcement learning is proposed.Firstly,maximizing long-term cumulative income is regarded as an objective function and the task assignment problem is transformed into the solution of Q value of state action and the one-to-one distribution between workers and tasks by modeling from the perspective of a single crowdsourcing worker grounded on Markov decision process.Secondly,the improved deep reinforcement learning algorithm is applied to learn the historical task data offline to construct the prediction model with respect to Q value.Finally,Q value in real time gained by the model in the dynamic online distribution process is regarded as a side weight of KM algorithm.The optimal distribution of global cumulative returns can be achieved.The results of comparative experiment on the real taxi travel dataset show that the proposed strategy increases the long-term cumulative income while the number of workers is within a certain scale.

作者倪志伟刘浩朱旭辉赵杨冉家敏 NI Zhiwei;LIU Hao;ZHU Xuhui;ZHAO Yang;RAN Jiamin(School of Management,Hefei University of Technology,Hefei 230009;Key Laboratory of Process Optimization and Intelligent Deci-sion-Making,Ministry of Education,Hefei University of Technology,Hefei 230009)

机构地区合肥工业大学管理学院合肥工业大学过程优化与智能决策教育部重点实验室

出处《模式识别与人工智能》 EI CSCD 北大核心 2021年第3期191-205,共15页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.91546108,71901001,71521001) 安徽省科技重大专项项目(No.201903a05020020) 安徽省自然科学基金项目(No.1908085QG298)资助。

关键词空间众包任务分配多阶段序贯决策深度强化学习 Spatial Crowdsourcing Task Allocation Multi-stage Sequential Decision-Making Deep Reinforcement Learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1李洋,贾梦迪,杨文彦,赵艳,郑凯.基于树分解的空间众包最优任务分配算法[J].软件学报,2018,29(3):824-838. 被引量：13
2范泽军,沈立炜,彭鑫,赵文耘.基于约束的空间众包多阶段任务分配[J].计算机学报,2019,42(12):2722-2741. 被引量：16
3宋天舒,童咏昕,王立斌,许可.空间众包环境下的3类对象在线任务分配[J].软件学报,2017,28(3):611-630. 被引量：47
4童咏昕,袁野,成雨蓉,陈雷,王国仁.时空众包数据管理技术研究综述[J].软件学报,2017,28(1):35-58. 被引量：56

二级参考文献6

1戴健,许佳捷,刘奎恩,武斌,丁治明.DKR-Tree:一种支持动态关键字的空间对象索引树[J].计算机研究与发展,2013,50(S1):163-170. 被引量：2
2周傲英,杨彬,金澈清,马强.基于位置的服务:架构与进展[J].计算机学报,2011,34(7):1155-1171. 被引量：171
3王金宝,高宏,李建中,杨东华.RB树:一种支持空间近似关键字查询的外存索引[J].计算机研究与发展,2012,49(10):2142-2152. 被引量：9
4胡骏,范举,李国良,陈姗姗.空间数据上Top-k关键词模糊查询算法[J].计算机学报,2012,35(11):2237-2246. 被引量：15
5冯剑红,李国良,冯建华.众包技术研究综述[J].计算机学报,2015,38(9):1713-1726. 被引量：128
6李国杰,徐志伟.从信息技术的发展态势看新经济[J].中国科学院院刊,2017,32(3):233-238. 被引量：35

共引文献105

1伏明兰,王浩,方宝富,黄晓玲.分布式自利agent任务分配算法[J].模式识别与人工智能,2018,31(12):1061-1073. 被引量：2
2段志强,蔡为,余晓敏,秦昆,黄长青,郭涛,徐源泉.面向规划管理的众包数据接入与存储处理方法[J].地理空间信息,2017,15(11):8-11. 被引量：3
3王志宏,傅长涛,李阳阳.众包的行业应用研究述评[J].长安大学学报（社会科学版）,2017,19(5):68-76. 被引量：1
4王文杰,孙中苗,徐琪.考虑社会配送供应能力的众包物流服务动态定价模型[J].管理学报,2018,15(2):293-300. 被引量：39
5刘辉,李盛恩.时空众包环境下基于统计预测的自适应阈值算法[J].计算机应用,2018,38(2):415-420. 被引量：9
6张晨,郭玉超,林培光,任威隆,张森,聂秀山,任可.空间众包中基于位置预测的任务分配[J].南京大学学报（自然科学版）,2018,54(2):471-480. 被引量：4
7王文杰,孙中苗,徐琪,王志宏.随机需求下考虑服务商竞争的众包物流动态定价策略[J].工业工程与管理,2018,23(2):114-121. 被引量：30
8丁晗,唐世琪.基于UML的医院健康体检信息智能检索系统设计[J].自动化与仪器仪表,2018,0(4):148-152. 被引量：1
9王贵喜.救援指挥调度数据库错误数据自动识别研究[J].自动化与仪器仪表,2018,0(6):53-55. 被引量：7
10姚迪,张超,黄建辉,陈越新,毕经平.时空数据语义理解：技术与应用[J].软件学报,2018,29(7):2018-2045. 被引量：31

同被引文献13

1温立民,巨永锋,闫茂德.基于自然统计特征分布的交通图像雾浓度检测[J].电子学报,2017,45(8):1888-1895. 被引量：7
2刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：484
3罗会兰,张云.基于深度网络的图像语义分割综述[J].电子学报,2019,47(10):2211-2220. 被引量：34
4邵杭,王永雄.基于并行对抗与多条件融合的生成式高分辨率图像修复[J].模式识别与人工智能,2020,33(4):363-374. 被引量：10
5高青青,赵建伟,周正华.基于递归多尺度卷积网络的图像超分辨率重建[J].模式识别与人工智能,2020,33(11):972-980. 被引量：8
6史腾飞,王莉,黄子蓉.序列多智能体强化学习算法[J].模式识别与人工智能,2021,34(3):206-213. 被引量：5
7刘会东,杜方,余振华,宋丽娟.基于强化学习的无标签网络剪枝[J].模式识别与人工智能,2021,34(3):214-222. 被引量：3
8方宝富,马云婷,王在俊,王浩.稀疏奖励下基于情感的异构多智能体强化学习[J].模式识别与人工智能,2021,34(3):223-231. 被引量：6
9张铭津,彭晓琪,郭杰,李云松,王楠楠,高新波.基于多残差网络的结构保持超分辨重建[J].模式识别与人工智能,2021,34(3):232-240. 被引量：3
10孙世光,兰旭光,张翰博,郑南宁.基于模型的机器人强化学习研究综述[J].模式识别与人工智能,2022,35(1):1-16. 被引量：5

引证文献2

1金一凡,余雷,费树岷.基于空洞卷积神经网络的噪声水平可调的高斯去噪方法[J].模式识别与人工智能,2021,34(11):979-989. 被引量：1
2张政锋,赵彬琦,单洪明,张军平.问题设定驱动的深度强化学习研究:综述[J].模式识别与人工智能,2022,35(8):718-742. 被引量：2

二级引证文献3

1刘东华,张伟,顾旋,梁富娥,吕珊珊.一种基于深度学习的二阶段舌象分割网络模型[J].中医药信息,2022,39(11):35-39. 被引量：2
2徐磊,张志,章方圆,夏天.基于深度学习和白流量过滤的网络流量检测系统研究[J].电子技术与软件工程,2023(6):1-4.
3白冰,董飞,彭文启,刘晓波.基于深度强化学习的水质模型参数率定[J].环境科学学报,2024,44(7):271-280. 被引量：1

1黄颖,梁春泉,杨泽宽,曹晓旭,武文君.基于跳步的增量式影响力最大化算法[J].计算机工程与设计,2021,42(1):89-95. 被引量：1
2黎继子,汪忠瑞,刘春玲,刘芳兵.基于Nash-Rubinstein Bargain的跨国供应链企业间争夺股权控制的策略分析[J].中国管理科学,2020,28(11):110-119. 被引量：2
3钟庆,熊能,王钢,汪隆君,许中.基于电压暂降监测数据分析的配电网故障定位[J].电力电容器与无功补偿,2021,42(2):97-102. 被引量：20
4顾婧,曾璐璇,李雯欣,徐泽水.一类序贯决策方法的提出:透镜与直觉模糊信息的视角[J].中国管理科学,2021,29(1):24-35. 被引量：3
5姬祥,方明.我国优秀男子体操运动员自由体操成套动作编排特征分析[J].运动-休闲（大众体育）,2021(1):259-259.

模式识别与人工智能

2021年第3期

浏览历史

内容加载中请稍等...

基于深度强化学习的空间众包任务分配策略被引量：2

参考文献4

二级参考文献6

共引文献105

同被引文献13

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的空间众包任务分配策略 被引量：2

参考文献4

二级参考文献6

共引文献105

同被引文献13

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的空间众包任务分配策略被引量：2