
-
生物通官微
陪你抓住生命科技
跳动的脉搏
结合XGBoost机器学习与分子对接策略筛选地中海实蝇天然引诱剂:分子表征与数据库构建指导体外/体内实验
【字体: 大 中 小 】 时间:2025年09月20日 来源:Archives of Insect Biochemistry and Physiology 1.9
编辑推荐:
本研究通过整合机器学习(XGBoost-QSAR)与结构虚拟筛选(分子对接与动力学模拟),从巴西天然产物数据库(NuBBE)中筛选出206种地中海实蝇(Ceratitis capitata)潜在引诱剂,为可持续害虫治理提供分子基础与实验候选库。
地中海实蝇(Ceratitis capitata)作为全球最具破坏性的农业害虫之一,对约400种水果作物造成直接损害并引发采前感染,尤其在巴西东北与东南水果种植区导致重大经济损失。传统化学杀虫剂因环境污染、健康风险及抗药性问题日益受限,而基于半化学物质(semiochemicals)的可持续治理策略成为研究焦点。昆虫嗅觉识别依赖气味结合蛋白(Odorant Binding Proteins, OBPs)介导的化学信号传导,其中OBP作为疏水性气味分子的初级转运蛋白,与嗅觉受体(ORs)协同触发行为响应。尽管单一化合物研究可提供机制见解,但天然挥发物混合物更能反映真实生态环境并引发更强行为反应,其设计却因复杂性与监管限制面临挑战。
本研究通过计算生物学手段整合机器学习驱动的定量构效关系(QSAR)与结构虚拟筛选(分子对接与动力学模拟),旨在从巴西天然产物数据库NuBBE中筛选潜在引诱剂,构建标准化分子数据库以加速实验验证进程。
2.1.1 训练数据集构建
从文献中筛选45种标准化合物(20种引诱剂、25种非引诱剂),包括酚乳酸、草蒿脑、邻丁香酚、(E,E)-α-法尼烯等已知行为活性分子,建立二分类标签体系(1=引诱,0=非引诱)。
2.1.2 分子描述符计算
使用ChemSketch构建三维分子结构,经PM3半经验量化优化后,通过Dragon 7.0计算2217种分子描述符,涵盖拓扑、几何、电子及混合特征类别。
2.1.3 特征选择与模型训练
采用蜂群优化算法(Bee Colony Optimization, BCO)结合最佳优先搜索(Best-First Search, BFS)筛选出5个关键描述符:
Mor27v:加权范德华体积的3D-MoRSE描述符,反映分子体积与疏水腔匹配度;
H1s:基于I-state加权的氢原子自相关描述符,捕获局部电子分布均匀性;
Eig09_AEA(bo):键序加权的电子自相关矩阵第九特征值,指示分子共轭与刚性;
P_VSA_e_1:低电负性原子范德华表面积和,关联脂溶性;
R6p+:原子极化率拓扑分布描述符,影响诱导契合相互作用。
基于上述描述符,利用XGBoost算法构建分类模型,参数设置为:n_estimators=10, max_depth=2, learning_rate=0.1,并通过五折交叉验证获得平均AUC=0.963,显示优异泛化能力。
2.1.4 天然库筛选与验证
将模型应用于NuBBE数据库(>2200种巴西植物天然产物),预测出365种潜在引诱剂,其中206种高置信度(概率>0.7),涵盖萜类、芳香族等结构类型。
2.2.1 靶点蛋白准备
以地中海实蝇OBP(PDB: 6HHE)为靶点,其结构含7个α-螺旋疏水腔,通过Chimera去除水分子并优化静电分布(pH=6.5)。对接网格定位结合腔(坐标:X=18.082?, Y=3.943?, Z=?7.219?),尺寸20×20×20?。
2.2.2 分子对接虚拟筛选
使用AutoDock Vina对NuBBE库进行对接筛选,结合能计算以(E,E)-α-法尼烯为参照(-7.9 kcal/mol)。筛选标准综合结合能、挥发度(蒸气压)及相互作用模式,优先选择萜类化合物。
2.2.3 分子动力学模拟
对法尼烯-OBP复合物进行100 ns分子动力学模拟(GROMACS 5.1.2, GROMOS 54a7力场),评估复合物稳定性与结合自由能(MM/PBSA法)。结果显示蛋白骨架RMSD稳定于0.1 nm,配体RMSD<0.2 nm,结合自由能ΔG=?134.722 kJ/mol,主导作用力为范德华力(?139.605 kJ/mol)与疏水效应(SASA=?16.843 kJ/mol)。
五折交叉验证显示模型AUC均值为0.963,敏感性与特异性平衡良好。描述符重要性分析表明:分子体积(Mor27v)、局部电子分布(H1s)及表面亲脂性(P_VSA_e_1)为引诱活性的核心决定因子。
从NuBBE库中鉴定20种高亲和力化合物(结合能?9.2至?7.9 kcal/mol),其中16种被ML模型归类为引诱剂,一致性达80%。Top5化合物包括:
β-长叶松烯(?9.2 kcal/mol, 蒸气压28.684 Pa)
α-古巴烯(?8.8 kcal/mol, 32.2 Pa)
α-蛇麻烯(?8.6 kcal/mol, 11.155 Pa)
β-花柏烯(?8.6 kcal/mol, 12.53 Pa)
α-瑟林烯(?8.5 kcal/mol, 14.104 Pa)
相互作用分析显示配体主要通过烷基、π-烷基及范德华力与OBP疏水残基(PHE29/47/119/122, ILE48, VAL51/81, LEU系列)结合。以β-长叶松烯为例,其结合模式与法尼烯高度重叠,验证结合腔的拓扑兼容性。
法尼烯-OBP复合物在模拟中保持稳定,蛋白RMSD于50 ps后平衡(≈0.1 nm),配体波动低于0.2 nm。MM/PBSA能量分解确认范德华力为主导贡献(?139.605±6.890 kJ/mol),静电作用微弱(?1.648±0.922 kJ/mol),符合疏水配体特性。
本研究通过融合机器学习QSAR与结构生物学手段,建立了高效的地中海实蝇引诱剂筛选流程。蜂群算法优选出的5个描述符(Mor27v, H1s, Eig09_AEA(bo), P_VSA_e_1, R6p+)显著提升了模型解释性与预测精度。从NuBBE库筛选出的206种高概率引诱剂(如β-长叶松烯、α-古巴烯等萜类)兼具OBP高亲和力与适宜挥发特性,为后续体内外行为实验提供优先候选库。
未来工作需深入验证候选化合物在诱捕装置中的协同效应,并拓展至其他嗅觉蛋白靶点(如ORs)。本研究提供的计算框架与分子数据库有望加速环境友好型害虫治理策略的开发。
生物通微信公众号
知名企业招聘