深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近...深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了危险样本经验池和安全样本经验池,其中危险样本经验池用于记录探索失败时的临界状态和危险状态的样本,而安全样本经验池用于记录剔除了临界状态和危险状态的样本.DDN-SDRL方法在原始网络模型上增加了一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数.DDN-SDRL方法以危险样本经验池中的样本为输入,使用深度Q网络训练得到惩罚项.由于DDN-SDRL方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态的样本、优先选取安全状态的样本来提高安全性.DDN-SDRL方法具有通用性,能与多种深度网络模型结合.实验验证了方法的有效性.展开更多
残基对的相互作用描述了蛋白质三维结构中一对残基的空间距离关系.一对残基是否相互作用不仅取决于这对残基的本身属性,还受到这对残基所在蛋白质的所有其它残基的影响.传统的残基相互作用预测方法往往选取要预测残基对本身以及它们各...残基对的相互作用描述了蛋白质三维结构中一对残基的空间距离关系.一对残基是否相互作用不仅取决于这对残基的本身属性,还受到这对残基所在蛋白质的所有其它残基的影响.传统的残基相互作用预测方法往往选取要预测残基对本身以及它们各自邻居的残基属性作为特征,这些方法忽略了影响残基对相互作用的全局因素.本文使用双向LSTM(Long Short-term M emory)抽取蛋白质序列上每个残基的属性,通过这种方式得到的每个残基属性不仅包含了局部属性还包含了全局属性.实验结果表明我们的模型在多个基准测试集上的Acc(Accuracy)超过其它方法 10%以上.展开更多
文摘深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了危险样本经验池和安全样本经验池,其中危险样本经验池用于记录探索失败时的临界状态和危险状态的样本,而安全样本经验池用于记录剔除了临界状态和危险状态的样本.DDN-SDRL方法在原始网络模型上增加了一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数.DDN-SDRL方法以危险样本经验池中的样本为输入,使用深度Q网络训练得到惩罚项.由于DDN-SDRL方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态的样本、优先选取安全状态的样本来提高安全性.DDN-SDRL方法具有通用性,能与多种深度网络模型结合.实验验证了方法的有效性.
文摘残基对的相互作用描述了蛋白质三维结构中一对残基的空间距离关系.一对残基是否相互作用不仅取决于这对残基的本身属性,还受到这对残基所在蛋白质的所有其它残基的影响.传统的残基相互作用预测方法往往选取要预测残基对本身以及它们各自邻居的残基属性作为特征,这些方法忽略了影响残基对相互作用的全局因素.本文使用双向LSTM(Long Short-term M emory)抽取蛋白质序列上每个残基的属性,通过这种方式得到的每个残基属性不仅包含了局部属性还包含了全局属性.实验结果表明我们的模型在多个基准测试集上的Acc(Accuracy)超过其它方法 10%以上.