期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
非光滑凸情形Adam 型算法的最优个体收敛速率 被引量:5
1
作者 丁成诚 +1 位作者 陶蔚 陶卿 《智能系统学报》 CSCD 北大核心 2020年第6期1140-1146,共7页
Adam是目前深度神经网络训练中广泛采用的一种优化算法框架,同时使用了自适应步长和动量技巧,克服了SGD的一些固有缺陷。但即使对于凸优化问题,目前Adam也只是在线学习框架下给出了和梯度下降法一样的regret界,动量的加速特性并没有得... Adam是目前深度神经网络训练中广泛采用的一种优化算法框架,同时使用了自适应步长和动量技巧,克服了SGD的一些固有缺陷。但即使对于凸优化问题,目前Adam也只是在线学习框架下给出了和梯度下降法一样的regret界,动量的加速特性并没有得到体现。这里针对非光滑凸优化问题,通过巧妙选取动量和步长参数,证明了Adam的改进型具有最优的个体收敛速率,从而说明了Adam同时具有自适应和加速的优点。通过求解l_(1)范数约束下的hinge损失问题,实验验证了理论分析的正确性和在算法保持稀疏性方面的良好性能。 展开更多
关键词 机器学习 AdaGrad算法 RMSProp算法 动量方法 Adam算法 AMSGrad算法 个体收敛速率 稀疏性
下载PDF
自适应策略下Heavy-Ball型动量法的最优个体收敛速率 被引量:1
2
作者 陇盛 陶卿 《模式识别与人工智能》 EI CSCD 北大核心 2021年第2期137-145,共9页
同时使用自适应步长和动量两种优化技巧的AMSGrad在收敛性分析方面存在比自适应步长算法增加一个对数因子的问题.为了解决该问题,文中在非光滑凸情形下,巧妙选取动量和步长参数,证明自适应策略下Heavy-Ball型动量法具有最优的个体收敛速... 同时使用自适应步长和动量两种优化技巧的AMSGrad在收敛性分析方面存在比自适应步长算法增加一个对数因子的问题.为了解决该问题,文中在非光滑凸情形下,巧妙选取动量和步长参数,证明自适应策略下Heavy-Ball型动量法具有最优的个体收敛速率,说明自适应策略下Heavy-Ball型动量法兼具动量的加速特性和自适应步长对超参数的低依赖性.求解l 1范数约束下的Hinge损失问题,验证理论分析的正确性. 展开更多
关键词 自适应步长算法 动量算法 AMSGrad 个体收敛速率
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部