-
题名稳健的重尾线性赌博机算法
- 1
-
-
作者
马兰霁弘
赵鹏
周志华
-
机构
计算机软件新技术国家重点实验室(南京大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第6期1385-1395,共11页
-
基金
国家自然科学基金项目(61921006,62206125)。
-
文摘
线性赌博机模型是在线学习的基本模型之一,其每个摇臂的平均奖赏可以由线性函数进行参数化.该模型具有坚实的理论保证和良好的实际建模能力,被广泛应用于各个场景.然而在一些现实场景中,数据通常是从开放动态环境中收集得到,因而会存在数据不规范的问题,已有算法缺乏对此的稳健性.特别关注2类数据的不规范性:奖励函数的回归参数可能随时间变化,环境噪声可能无界,甚至不服从亚高斯分布.这2类问题分别被称为分布变化和重尾噪声.为了应对这2类不利因素,提出一种基于置信上界的在线算法,该算法使用均值中位数估计器以处理潜在的重尾噪声,同时采用重启机制来解决分布变化问题.在理论上,首先建立了问题的遗憾理论下界,进一步给出了算法的理论保障,所取得的结果可以回退到已有研究中没有分布变化或没有重尾噪声场景线性赌博机的理论结果.此外,针对未知环境设计了实用的在线集成适应技术,并在合成和真实世界的数据集上进行了广泛的实验来验证其有效性.
-
关键词
机器学习
开放环境学习
线性赌博机或没有重尾
分布变化
重尾噪声
-
Keywords
machine learning
open environment learning
linear bandits
distribution change
heavy-tailed noise
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-