-
题名基于Bandit反馈的分布式在线对偶平均算法
- 1
-
-
作者
朱小梅
-
机构
重庆师范大学数学科学学院
-
出处
《四川轻化工大学学报(自然科学版)》
CAS
2020年第3期87-93,共7页
-
文摘
为解决梯度信息难以获取的分布式在线优化问题,提出了一种基于Bandit反馈的分布式在线对偶平均(DODA-B)算法。首先,该算法对原始梯度信息反馈进行了改进,提出了一种新的梯度估计,即Bandit反馈,利用函数值信息去近似原损失函数的梯度信息,克服了求解复杂函数梯度存在的计算量大等问题。然后,给出了该算法的收敛性分析,结果表明,Regret界的收敛速度为O(Tmax{k,1-k}),其中T是最大迭代次数。最后,利用传感器网络的一个特例进行了数值模拟计算,计算结果表明,所提算法的收敛速度与现有的分布式在线对偶平均(DODA)算法的收敛速度接近。与DODA算法相比,所提出算法的优点在于只考虑了函数值信息,使其更适用于梯度信息获取困难的实际问题。
-
关键词
分布式在线优化
对偶平均算法
Bandit反馈
Regret界
-
Keywords
distributed online optimization
dual averaging algorithm
bandit feedback
regret bound
-
分类号
TB115
[理学—数学]
-