机器学习精准预测喹啉衍生物活性位点:药物研发新助力

【字体: 时间:2025年04月22日 来源:Artificial Intelligence Chemistry

编辑推荐:

  为解决喹啉衍生物 C-H 功能化位点预测难题,研究人员开展基于机器学习(ML)预测喹啉衍生物活性位点的研究。结果显示,人工神经网络(ANN)模型预测准确率达 86.5% - 90%。该研究助力药物设计与合成,意义重大。

  在药物研发的广阔领域中,寻找具有独特生物活性的分子结构一直是科研人员的重要目标。喹啉,作为一种备受瞩目的 “特权结构”,拥有异环芳香氮双环结构,就像一把神奇的钥匙,能开启多种生物活性的大门。它广泛存在于各类具有抗菌、抗病毒、抗寄生虫等功效的生物活性化合物中,其衍生物在抗炎、抗精神病药物的研发中也占据着重要地位。
然而,在喹啉衍生物的合成道路上,却布满了荆棘。传统的合成方法,如 Friedl?nder 反应、Povarov 反应等,虽然为合成喹啉衍生物提供了途径,但这些方法在实现喹啉特定位置的 C-H 功能化时,面临着重重挑战。过渡金属催化虽能在一定程度上实现喹啉的区域选择性转化,可不同位置的功能化研究进展参差不齐,像 C6、C7 位置的 C-H 功能化研究较少,C2、C8 位置的研究主要集中于喹啉 N-O 化合物。而且,空间位阻和其他官能团的竞争反应,使得产物的选择性大打折扣,探索这些位置的功能化条件不仅耗时费力,还难以取得理想效果。

为了攻克这些难题,上海交通大学的研究人员勇挑重担,开展了一项极具意义的研究。他们将目光投向了当下热门的机器学习(ML)技术,期望借助其强大的数据处理和预测能力,为喹啉衍生物活性位点的预测开辟新的道路。研究人员的努力得到了丰硕的回报,他们成功开发出一种基于人工神经网络(ANN)的模型,该模型在预测喹啉衍生物的活性位点方面表现卓越。在对 2467 种化合物进行 80/10/10 的训练 / 验证 / 测试划分后,模型以 SMILES 字符串为输入格式,结合六个量子化学描述符,能够精准识别化合物的反应位点。在外部验证集中,高达 86.5% 的分子都被正确预测。这一成果意义非凡,它就像是为药物研发人员提供了一张精准的 “导航图”,使他们能够快速判断喹啉衍生物在发生亲电取代反应时,哪个位点更具反应活性,大大加速了药物设计和合成的进程。该研究成果发表在《Artificial Intelligence Chemistry》上,为相关领域的发展注入了新的活力。

在研究过程中,研究人员运用了多种关键技术方法。首先,从 Reaxys 数据库和文献中精心筛选出包含喹啉环的化合物,获取其 SMILES 字符串,构建研究所需的数据集。接着,利用化学信息工具 RDkit 对数据进行处理,过滤掉不符合要求的化合物,并计算分子的量子化学描述符,这些描述符涵盖原子描述符(如部分电荷和凝聚福井指数)、键描述符(C-H 键级和键级)以及补充描述符(相邻原子的芳香性和可及表面积)。最后,运用支持向量机(SVM)、随机森林(RF)和人工神经网络(ANN)等机器学习模型对数据进行训练和验证,通过对比不同模型的性能,确定 ANN 模型在预测活性位点方面表现最佳。

研究结果具体如下:

  • 数据收集:数据集分为两部分,一部分来自 Reaxys 数据库,另一部分来自文献。为确保数据质量,研究人员通过多步严格筛选,去除不含喹啉环、喹啉环上取代基过多、元素种类超出范围以及原子数过多的分子。同时,对数据进行 DFT 计算获取分子描述符,并将数据集按 80% 训练集、10% 验证集、10% 测试集的比例划分。
  • 数据处理:研究人员选取一系列量子化学方法计算的局部电子量作为描述符,这些描述符从不同角度精准刻画了化合物的静电性质和局部环境。在计算过程中,利用 RDkit 将 SMILES 字符串转化为 3D 结构,经几何优化后计算各项描述符,最后将这些描述符整合为输入向量。
  • 模型训练:针对 SVM 分类器,研究人员采用线性核函数,并通过网格搜索确定最优参数 C = 0.1 和 ε = 0.1;对于 RF 回归器,经过多次参数调整,将决策树的数量设定为 100。这些模型均基于 Python 虚拟环境,借助 Scikit-learn 机器学习包实现。
  • 模型验证
    • 内部验证:对 SVM、ANN 和 RF 三个模型进行测试。在测试过程中,先对默认参数的模型进行多次随机拆分训练和验证,完成超参数优化后,再用剩余 20% 的数据进行测试。结果显示,ANN 模型表现出色,平均准确率达到 89.97%。
    • 外部验证:研究人员从文献中收集 531 个数据点组成外部验证集。验证结果表明,模型对所有碳原子的正确标记率为 87%,对所有反应位点的识别率为 86%,且在 Friedel-Crafts 反应的预测上表现良好,但对硝化反应的预测能力相对较弱。
    • 与其他模型比较:与 RegioSQM 模型相比,该研究的 ANN 模型通用性更强。RegioSQM 模型在计算含大取代基的化合物时存在困难,且更适用于不含杂原子的芳香族化合物;而 ANN 模型不仅能准确预测含杂原子的芳香族化合物的亲电反应位点,对苯环化合物也能精准预测。
    • 模型分析:研究人员对预测错误的分子进行深入分析,发现错误可分为三类。第一类是将一个位点误判为反应位点,而实际其他位点才是反应位点;第二类是误判分子没有反应位点;第三类是误判,即正确识别了反应位点,但存在一些误判为反应位点的碳原子(假阳性),不过这些假阳性碳原子有可能会产生出版物中常被忽视的副产物。


研究结论和讨论部分指出,研究人员成功构建了基于原子的 ML 模型,用于预测芳香族亲电取代反应的区域选择性。ANN 模型凭借量子化学描述符计算和 ML 模型的结合,在众多模型中脱颖而出。它不仅能准确区分碳原子在亲电芳香取代反应中的活性,还能为预测提供可信度,让研究人员对预测结果的可靠性有更清晰的认识。随着数据的不断积累,ANN 模型还可快速重新训练,进一步提高预测准确率。与已发表的模型相比,该模型展现出了更好的泛化能力,为药物研发、有机合成等领域提供了强有力的工具,有望推动相关领域取得更大的突破和发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号