-
题名基于随机森林回归的乳腺癌抗药生物活性预测
- 1
-
-
作者
龙荣进
袁松
杨丽鑫
王飞云
周洁
-
机构
贵州大学数学与统计学院
-
出处
《运筹与模糊学》
2023年第2期778-788,共11页
-
文摘
在药物研发中,雌激素受体α亚型(Estrogen receptors alpha, ERα)被认为是治疗乳腺癌的重要靶标,能拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。因此本文旨在以生物活性值pIC50作为因变量,作用于ERα靶标化合物的分子结构描述符作为自变量,构建关于ERα靶标化合物的生物活性预测模型,进而挑选出有效的抗癌候选药物。首先采用方差过滤法、随机森林、XGBoost以及灰色关联分析对自变量进行筛选,得到MDEC-23等16个与pIC50相关性强,且变量间相关性弱的分子结构描述符。其次建立随机森林回归生物活性预测模型,将预测结果与支持向量回归、梯度提升回归树、XGBoost模型和MLP回归模型预测结果进行对比分析,结果表明随机森林回归模型能更好地拟合数据,在R2、MAE、MSE上优于其它模型,更适应于对生物活性pIC50值的预测,同时也表明筛选出的分子结构描述符在一定程度上能治疗乳腺癌。
-
关键词
生物活性预测模型
灰色关联
随机森林回归
-
分类号
R73
[医药卫生—肿瘤]
-
-
题名抗乳腺癌候选药物的优化建模
- 2
-
-
作者
夏珏武
王琦瑗
王灿
-
机构
长沙理工大学数学与统计学院
-
出处
《应用数学进展》
2023年第6期3098-3111,共14页
-
文摘
乳腺癌是一种致死率较高的癌症。人体的乳腺上皮细胞在多种致癌因子的共同作用下发生增殖失控而形成癌变。本文针对提供的ERα拮抗剂信息,通过建立化合物生物活性的定量预测模型和ADMET性质的分类预测模型,为同时优化ERα拮抗剂的生物活性和ADMET性质提供预测服务。首先利用随机森林算法评价变量重要度大小筛选出贡献度排名前60的分子描述符;然后通过高相关性变量去耦合,对前60个分子描述符进行高相关性滤波处理,从而得到前20个对生物活性最具有显著影响的分子描述符;最后基于高相关度变量滤波算法保证了降维后分子描述符之间的独立性,对分子描述符之间的相关程度进行可视化,从而验证了其合理性。其次,在通过尝试构建多元线性回归方程解决此题时,发现时序残差图的异常点较多后,我们构建了多元非线性回归模型。首先利用python对变量进行标准化操作,得到标准化指标;其次利用问题一得到的前20个分子描述符作为自变量,通过对一些数值较大的变量取自然对数,建立了用于预测生物活性的多元非线性回归模型。最后找出影响ADMET性质的前10个分子描述符,并分别对各分子描述符之间的相关程度进行可视化;其次利用全连接单层神经网络优秀的非线性映射能力构建5个化合物的分类预测模型,并通过各个化合物的分类预测模型的交叉熵损失图说明了模型有着较高的准确度。
-
关键词
随机森林
多元非线性回归方程
生物活性定量预测模型
神经网络
博弈论
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-