PID控制是飞行器控制中应用最广泛的控制方法,但是PID参数的调节往往十分繁琐。为了实现飞行模拟器控制系统自主优化PID控制器的参数,从而完成系统的稳定控制,本文使用强化学习中的概率推理学习控制算法(Probabilistic Inference for Le...PID控制是飞行器控制中应用最广泛的控制方法,但是PID参数的调节往往十分繁琐。为了实现飞行模拟器控制系统自主优化PID控制器的参数,从而完成系统的稳定控制,本文使用强化学习中的概率推理学习控制算法(Probabilistic Inference for Learning Control,PILCO)自主优化PID控制器的参数。首先,利用输入输出数据拟合出系统的概率动力学模型,并使用策略评估的方法对当前PID控制器进行评价;最后,使用策略提升的方式对当前PID控制器进行优化。在系统采样频率为100 Hz,每次采集8 s数据的实验中,经过10个回合的离线训练之后,系统控制效果已经可以满足要求,PID控制器参数已经收敛。经过PILCO优化的飞行姿态模拟器在定点实验中表现出良好的鲁棒性,表明PILCO算法可以优化PID控制器的参数,并且在解决非线性控制和参数优化方面具有很大潜能。展开更多