使用机器学习预测较大规模反义寡核苷酸数据集中的保留时间
《Machine Learning with Applications》:Prediction of retention time in larger antisense oligonucleotide datasets using machine learning
【字体:
大
中
小
】
时间:2025年08月07日
来源:Machine Learning with Applications 4.9
编辑推荐:
反义寡核苷酸(ASO)的离子对液相色谱(IPC)保留时间预测研究,采用梯度提升机(GB)、随机森林(RF)、决策树(DT)和支持向量回归(SVR)四类ML模型,对比分析其在三个梯度时间(G1、G2、G3)数据集上的性能。通过引入硫原子数量(SuCOUNT)和序列首尾核苷酸(POSITION)等新特征,GB模型在G1和G3数据集上RMSE分别为0.439和1.18分钟,且调参速度最快(仅0.345分钟),较SVR快8.49倍。研究证实多特征组合(如COUNT、SuCOUNT、CONTACT)可提升预测精度,并指出长序列、全硫代ASO及硫原子缺失序列是主要预测难点。该成果为ASO生产中的高效分析优化提供了方法学参考。
ASO(反义寡核苷酸)是具有变革性治疗潜力的核酸分子,特别适用于传统药物难以治疗的疾病。然而,ASO的生产与纯化仍面临挑战,因为存在不必要的杂质。离子对液相色谱法(IPC)是一种成功用于分离ASO化合物与杂质的工具,它在色谱分离过程中扮演着关键角色。IPC通过将化合物分布于流动相和固定相之间,根据其在流动相中的保留时间($t_R$)来识别化合物。由于ASO的序列依赖性和色谱条件的差异,准确预测$ t_R $是一个困难的任务。本研究通过应用机器学习(ML)技术,基于ASO的序列特征来预测$ t_R $。研究对四个ML模型——梯度提升、随机森林、决策树和支持向量回归(SVR)进行了评估,并在三个具有不同梯度时间的大型ASO数据集上进行了测试。通过特征工程和网格搜索优化,研究识别了关键预测因子,并利用均方根误差(RMSE)、决定系数(R2)和运行时间对模型准确性进行了比较分析。结果显示,在三个数据集中,梯度提升模型的性能与SVR模型竞争,但其调参速度是SVR的3.94倍。此外,新提出的序列特征,如硫原子数量和序列首尾位置的核苷酸,被发现能够提高模型的预测能力。本研究展示了基于机器学习的大规模$ t_R $预测的优势,并提供了关于机器学习在色谱应用中可解释性和高效利用的见解。
### 1. 引言
寡核苷酸是一类基于核酸的分子,它们可以针对人体中难以用传统药物作用的蛋白质,以达到治疗目的。其中,反义寡核苷酸(ASO)是一类短的、化学修饰的单链DNA或RNA分子,能够特异性地靶向特定基因并影响其活性。近年来,分子生物学的进步主要体现在ASO在先进治疗中的应用。尽管ASO具有变革性的治疗潜力,但其生产过程仍然复杂,因为存在大量杂质。这些杂质必须在ASO被用作药物之前进行分析和去除,这显著增加了分析成本。鉴于ASO的创新优势和生产复杂性,已经探索了多种方法来优化分析过程。其中,机器学习(ML)被认为是预测能力最高的方法之一。
在色谱分离过程中,ASO与相关杂质的分离具有挑战性。因此,需要一种方法来识别ASO的全长产物(FLP)及其产生的杂质。离子对液相色谱(IPC)结合质谱分析是一种常用的技术手段,用于识别ASO样品和其杂质。在IPC中,化合物在色谱柱中停留的时间称为保留时间($ t_R $),它是从注入时间到流出时间的计算结果。该方法通过将化合物分布在流动相和固定相之间进行分离,流动相通常由水和有机溶剂组成,并持续泵入色谱柱。图1展示了IPC系统中分离和识别ASO样品的步骤。
ASO的保留时间预测对于优化实验条件至关重要。通过预测保留时间,可以提前了解化合物的分离行为,从而减少需要进行的物理实验次数,降低实验成本并加快研究进程。尽管目前已有多种预测方法,但这些方法在预测性能上仍存在局限性,尤其是在大规模数据集上。因此,本研究旨在填补这一空白,评估四种ML模型(SVR、梯度提升、随机森林和决策树)在三个大型ASO数据集上的表现,并探讨新提出的序列特征对预测性能的影响。
### 2. 相关研究
在IPC中预测$ t_R $的应用不仅限于蛋白质识别,还用于优化实验。数字模拟可以减少需要进行的物理实验次数,提高实验效率。结合其他色谱参数的预测方法,化学家可以更容易地了解化合物的行为特征。因此,实现这一过程的部分或全部自动化对于提高ASO分析方法和获取有价值的信息至关重要。为此,许多研究人员已经对核苷酸序列的保留行为进行了预测研究。
在文献中,关于ASO保留时间预测的研究相对较少,而更多关注于肽类化合物。例如,Gilar等人在2002年提出了一个数学模型,用于预测肽的保留时间。随后,Kohlbacher等人在2006年和Sturm等人在2007年提出了基于机器学习的方法,特别是在支持向量回归(SVR)方面的应用。SVR在小规模数据集上表现出色,尤其是在处理非线性关系方面具有优势。此外,Enmark等人在2022年利用SVR预测了磷酸硫酯修饰的ASO的保留时间,并发现序列中核苷酸的频率在预测过程中起着关键作用。
近年来,随着机器学习方法的进一步发展,保留时间预测的准确性得到了显著提高。例如,Liu等人在2024年利用深度学习模型和大规模数据集(如MassBank)提高了小分子在液相色谱中的保留时间预测精度。Randazzo等人则应用了XGBoost模型来预测纳米液相色谱(nano-HPLC)中短分子的保留时间,结果显示集成方法在预测精度上优于传统方法。Wolfer等人还展示了机器学习在超高效液相色谱-质谱(UPLC-MS)中用于非靶向代谢物识别的有效性,进一步强调了模型选择和优化在色谱分析中的重要性。
然而,大多数关于ASO保留时间预测的研究仍然集中在小数据集(通常约为100种化合物)上,并主要依赖于SVR模型。虽然SVR在准确性和效率方面表现良好,但在大规模数据集和不同实验条件下,其与其他ML模型的比较研究仍较为有限。因此,本研究旨在填补这一空白,评估四种ML模型在三个大规模ASO数据集上的表现,并探讨新提出的序列特征对预测性能的影响。
### 3. 方法论
本研究的数据集和机器学习流程用于预测三个不同梯度时间下的ASO化合物的保留时间(G1 = 11分钟,G2 = 22分钟,G3 = 44分钟)。数据预处理、特征提取、模型训练、超参数调优和性能评估均在Python 3.9.7和Scikit-learn 0.24.2等库中实现。数据集包括8-20长度的ASO序列,这些序列由A、T、C和G等四种核苷酸组成,并可能包含硫原子(*),表示部分或完全磷酸硫酯修饰的序列。
在特征提取过程中,研究采用迭代方法和领域知识,逐步选择和验证不同的特征。特征被分为五个类别:COUNT、CONTACT、SCONTACT、SuCOUNT和POSITION。COUNT类别包括四种核苷酸(A、T、C、G)的频率和序列长度;CONTACT类别包括16个有序的二核苷酸频率(如AA、AT、AC、AG、TA、TT、TG、TC、CA、CT、CG、CC、GA、GT、GG和GC);SCONTACT类别包括六个无序的二核苷酸频率(如AT_TA、AG_GA、AC_CA、GT_TG、CT_TC、CG_GC);SuCOUNT类别表示序列中硫原子的数量;而POSITION类别则表示序列首尾位置的核苷酸。其中,COUNT和SCONTACT类别是基于之前研究的特征,而SuCOUNT和POSITION是本研究中引入的新类别。
在机器学习模型的选择上,研究对四种模型进行了评估:随机森林(RF)、梯度提升(GB)、决策树(DT)和支持向量回归(SVR)。这些模型在不同数据集上的表现各不相同,其中SVR在预测精度上表现最佳,但其调参时间较长;而GB在预测精度上表现接近SVR,但调参速度更快。RF和DT则在处理大规模数据集时表现出良好的灵活性和鲁棒性。
在模型训练和评估过程中,数据被分为80%的训练集和20%的测试集。测试集用于评估模型的泛化能力,以确保模型在未知数据上的表现。所有模型均在相同测试集上进行评估,以保证公平比较。此外,研究还对每个模型进行了超参数调优,以优化其性能。调参过程采用三折交叉验证网格搜索方法,以最小化RMSE(均方根误差)作为目标函数。研究还评估了R2(决定系数)和运行时间等其他指标,以全面分析模型的性能。
### 4. 结果与讨论
研究对四种ML模型(SVR、GB、RF和DT)在三个ASO数据集(G1、G2和G3)上的表现进行了评估。结果表明,SVR在预测精度上表现最佳,但调参时间较长;而GB在预测精度上与SVR相当,但调参速度更快。RF和DT则在处理大规模数据集时表现出良好的灵活性和鲁棒性。此外,新提出的序列特征(如硫原子数量和序列首尾位置的核苷酸)在预测过程中起到了积极作用,尤其是在G1、G2和G3数据集上。
在G1数据集上,模型的预测精度较高,因为该数据集的噪声较少。SVR和GB在G1数据集上的表现接近,其中GB的预测误差略低于SVR。然而,SVR的调参时间是GB的8.49倍,这可能与其处理复杂数据集的能力有关。在G2数据集上,SVR和RF的竞争较为明显,其中SVR的预测精度略高于RF,但RF的调参时间较短。而在G3数据集上,RF表现出最佳性能,但其预测误差较大,因为该数据集的噪声较多。
研究还对G3数据集进行了深入的误差分析。结果显示,部分ASO序列的预测误差较大,尤其是那些长度较长、完全磷酸硫酯修饰并失去硫原子的序列。这表明,模型在处理这些复杂序列时存在一定的挑战。此外,误差分析还揭示了某些序列的预测偏差较大,可能是由于实验条件的不确定性或数据集本身的噪声影响。
### 5. 结论与展望
本研究通过评估四种机器学习模型(SVR、GB、RF和DT)在三个大型ASO数据集上的表现,展示了机器学习在预测保留时间方面的潜力。研究发现,SVR在预测精度上表现最佳,但调参时间较长;而GB在预测精度上与SVR相当,但调参速度更快。新提出的序列特征(如硫原子数量和序列首尾位置的核苷酸)在提高模型预测性能方面发挥了重要作用。这些结果表明,机器学习在大规模ASO数据集上的应用具有重要意义,并为未来研究提供了新的方向。
尽管本研究的模型在预测保留时间方面表现出色,但仍存在一些挑战。例如,不同ASO序列的多样性可能导致模型在处理某些特殊序列时出现偏差。因此,未来的研究应进一步探索先进的机器学习驱动的特征工程,特别是在ASO偶联物和其他新型分子的开发中。此外,研究还指出了一些影响模型性能的潜在威胁,如数据集中的噪声和异常值可能影响模型的准确性。为了提高模型的鲁棒性,研究建议在模型设计中避免过度复杂化,以减少对特殊噪声情况的依赖。
总之,本研究为ASO的工业生产和纯化提供了重要的支持。通过预测保留时间,可以更高效地进行样品表征,并减少对物理实验的依赖。这不仅降低了实验成本,还加快了研究进程。未来,随着机器学习技术的不断发展,其在色谱分析中的应用将更加广泛和高效。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号