1
|
深度Q学习的二次主动采样方法 |
赵英男
刘鹏
赵巍
唐降龙
|
《自动化学报》
EI
CSCD
北大核心
|
2019 |
16
|
|
2
|
基于情节经验回放的深度确定性策略梯度方法 |
张建行
刘全
|
《计算机科学》
CSCD
北大核心
|
2021 |
8
|
|
3
|
基于斯蒂芬森价值迭代的改进DDPG算法 |
张秋娟
宋文广
李博文
|
《计算机工程与设计》
北大核心
|
2024 |
0 |
|
4
|
独立董事治理与声誉回报——基于累积投票选举的分析 |
韩晴
|
《暨南学报(哲学社会科学版)》
CSSCI
北大核心
|
2016 |
3
|
|
5
|
养老金奖惩机制对退休决策的影响研究——基于累积前景理论的视角 |
莫一茗
何林
|
《保险研究》
CSSCI
北大核心
|
2022 |
6
|
|
6
|
基于平均序列累计奖赏的自适应ε-greedy策略 |
杨彤
秦进
|
《计算机工程与应用》
CSCD
北大核心
|
2021 |
5
|
|
7
|
同分布强化学习优化多决策树及其在非平衡数据集中的应用 |
焦江丽
张雪英
李凤莲
牛壮
|
《中南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
|
2019 |
2
|
|
8
|
基于Q学习的新闻图像检索方法 |
赵娟
|
《计算机工程与设计》
CSCD
北大核心
|
2012 |
0 |
|