编辑推荐:
在早期药物发现中,小分子化合物引起的检测干扰是一大难题。研究人员开展 “E-GuARD: expert-guided augmentation for the robust detection of compounds interfering with biological assays” 主题研究,构建 E-GuARD 框架,提升了定量结构 - 干扰关系(QSIR)模型性能,有助于减少实验验证时间和成本。
在药物研发的奇妙世界里,高通量筛选(HTS)本是快速寻找潜在药物的得力助手,它能对数以十万计的化合物进行活性评估。然而,现实却给这个过程设下了重重障碍。大量在 HTS 中被筛选出的 “命中” 化合物,可能并非真正有潜力的药物,而是因为化合物聚集、直接干扰检测方法或与检测成分发生非特异性化学反应等原因导致的 “虚假阳性”,这些干扰检测的化合物就像隐藏在药物研发道路上的 “绊脚石”,严重阻碍了早期药物开发的进程。
面对这一困境,传统的实验方法,如反筛或正交检测,虽然能在一定程度上识别出这些干扰化合物,但成本高昂,而且在处理大型化学库时,无法做到回溯性应用。于是,计算方法应运而生,它就像是药物研发人员的新 “武器”,试图通过在发现过程早期识别潜在的检测干扰模式,来帮助优先选择化合物进行实验跟进,优化筛选资源。不过,现有的计算方法也存在问题,数据稀缺和类别不平衡成为了模型开发的 “拦路虎”,限制了其预测准确性和适用性。
为了突破这些瓶颈,来自奥地利维也纳大学、芬兰阿尔托大学、瑞典阿斯利康等机构的研究人员展开了一项重要研究。他们构建了一个名为 E-GuARD(Expert-Guided Augmentation for the Robust Detection of Compounds Interfering with Biological Assays,即用于稳健检测干扰生物检测化合物的专家引导增强框架)的创新框架,将自我蒸馏、主动学习和专家引导分子生成巧妙地结合在一起。这项研究成果发表在《Journal of Cheminformatics》上。
研究人员在开展这项研究时,用到了几个关键的技术方法。首先,他们利用平衡随机森林(BRF)分类器算法构建定量结构 - 干扰关系(QSIR)模型,作为预测干扰化合物的基础。其次,运用 REINVENT4 这一基于强化学习框架的工具来生成新的分子,通过自定义评分函数优化分子生成过程。此外,借助 MolSkill 这一神经网络模型模拟专家决策,引导数据采集,选择有价值的化合物加入训练集 。
下面来看看具体的研究结果:
- 训练集增强及化学空间分析:研究人员通过主动学习,使用五种不同的采集函数从 REINVENT4 生成的化合物中选择子集加入训练集。结果发现,E-GuARD 能有效平衡数据集,使不平衡率(IR)降低,尤其是在最不平衡的数据集(FI、NI 和 RR)中,IR 从 0.97 降至 0.60 。同时,虽然生成化合物的内部分子多样性平均下降了 20%,但在使用随机采样、贪婪或 EPIGSkill 采集函数时,仍能保持至少 0.6 的内部多样性。新添加化合物与初始训练集的支架相似性较低,表明 E-GuARD 探索了新的化学空间。不过,TR 和 RR 数据集添加了较多含 PAINS(pan assay interference compounds,泛检测干扰化合物)子结构的化合物,这可能会带来一些影响,需要谨慎对待。另外,生成模型生成已知干扰化合物的可能性在迭代过程中增加,且使用基于人类偏好的采集函数(如 GreedySkill、EPIGSkill)能提高生成分子的类药性(QED)评分。
- 学生模型演化分析:通过中心核对齐(CKArf)分析发现,随着训练集中添加更多增强数据,教师模型和学生模型之间的相似性降低,尤其是随机采集时。而不同运行的学生模型之间的相似性在大多数情况下保持较高水平,表明学生模型的演化具有一致性。
- 干扰化合物的预测:分析发现,E-GuARD 能显著提高 QSIR 模型的性能。在富集因子(EF)方面,使用 Greedy、GreedySkill 和 EPIGSkill 采集函数时,FI、NI 和 TR 的 EF 值分别有显著提升,如 FI 的 EF 值增加了 18.0 。在马修斯相关系数(MCC)方面,E-GuARD 使四个数据集中的三个 MCC 得分提高,其中 TR 数据集的提升最大,从 0.39 提升到 0.46 。在外部验证中,E-GuARD 在 PubChem 生物检测数据集上的表现也优于仅通过阈值优化的模型。
综合上述研究,E-GuARD 通过迭代丰富训练数据,增强了 QSIR 模型的性能,在多个关键指标上都有显著提升。这一成果对于早期药物发现意义重大,它能够帮助高通量筛选科学家和药物化学家更高效地筛选出无干扰的化合物,减少实验验证的时间和成本。不过,该研究也存在一定的局限性,所使用的数据集化学空间有限,未涵盖所有可能的干扰类型。未来的研究可以在此基础上进一步拓展,以提高 E-GuARD 的适用性,为药物研发提供更强大的支持,推动整个药物发现领域朝着更高效、更可靠的方向发展。