综述:纳米孔传感中用于单分子分析的人工智能方法:从机器学习到深度学习
《Nano Materials Science》:Artificial intelligence approaches in nanopore sensing for single-molecule analysis: From machine learning to deep learning
【字体:
大
中
小
】
时间:2026年05月16日
来源:Nano Materials Science 17.9
编辑推荐:
中锋高|孟雪孙|新穗|娜莉|范霞|余黄|雷江
山东大学界面反应与传感分析重点实验室,济南大学化学与化学工程学院,济南,250022,中国
**摘要**
早期的机器学习方法在基于特征的分类方面取得了持续进展,尤其是在纳米孔传感领域,以克服离子电流信号固有的噪声、非稳定
中锋高|孟雪孙|新穗|娜莉|范霞|余黄|雷江
山东大学界面反应与传感分析重点实验室,济南大学化学与化学工程学院,济南,250022,中国
**摘要**
早期的机器学习方法在基于特征的分类方面取得了持续进展,尤其是在纳米孔传感领域,以克服离子电流信号固有的噪声、非稳定性和高维度等限制。然而,它们对人工设计特征的依赖限制了灵敏度和可扩展性。深度学习通过自动化特征提取、提高信噪比以及实现对多种生物分子的稳健分类,彻底改变了这一领域。卷积神经网络、循环神经网络和变换器等架构推动了从信号去噪到多模态融合的任务发展,使得在核酸变异检测、蛋白质修饰分析以及糖链分析等应用中实现了飞摩尔级别的灵敏度。尽管如此,数据稀缺性、可解释性以及实时部署等挑战仍然存在,这指向了新的研究方向,包括自监督学习和小样本学习、基于物理原理的可解释人工智能(AI),以及适用于即时检测的轻量级模型。从传统机器学习到深度学习,再到基础模型和跨模态框架的演变,使得增强人工智能的纳米孔传感成为下一代分子分析和精准医学的基石。
**1. 引言**
纳米孔传感技术起源于20世纪末对皮安级电流检测的需求,现已发展成为一种用于单分子检测的革命性工具[1,2]。其基本原理简单而强大:当DNA、RNA、蛋白质或纳米级颗粒等生物分子在电场作用下通过纳米孔时,会引发离子电流的瞬态变化[3]。通过持续监测这些电流阻断现象,可以提取关于分子结构、大小和动态的丰富信息。这种独特的能力使纳米孔技术能够在单分子水平上实现无标记、实时和高通量分析,相比依赖放大或标记的传统方法具有显著优势[4,5]。因此,纳米孔传感已广泛应用于基因组测序、病原体鉴定、蛋白质-配体相互作用研究以及药物发现等领域,并不断推动分子诊断和生物医学研究的边界[6],[7],[8],[9]。
尽管纳米孔传感技术发展迅速,但研究人员仍面临一些未解决的技术挑战,这些挑战限制了其更广泛的应用。分子迁移过程中产生的原始离子电流信号通常具有噪声、高度非稳定性和随机性[10]。对于区分相似生物分子至关重要的阻断幅度或停留时间的微妙变化,常常被背景波动所掩盖[11]。此外,纳米孔事件发生在微秒到毫秒的时间尺度上,留给准确解释的时间窗口非常短暂[12]。传统的数据分析流程严重依赖于人工设计的特征(如阈值处理、停留时间直方图或电流幅度分布),并且受到线性或浅层统计模型的限制[13]。这些方法常常存在灵敏度低、重复性差以及操作者依赖性强等问题,尤其是在处理异质生物样本或低丰度目标时[14]。因此,实现可靠的高精度单分子识别一直是纳米孔技术向临床和工业应用迈进的瓶颈。
在这种背景下,涵盖机器学习(ML)和深度学习(DL)的人工智能(AI)作为一种变革性解决方案应运而生[15,16]。早期的机器学习方法(如支持向量机(SVM)、随机森林(RF)和隐马尔可夫模型(HMM)为超越传统规则基础分析提供了重要步骤[17],[18],[19]。这些模型实现了电流迹线的自动化分类、事件动态的概率建模以及罕见分子事件的统计检测。然而,它们的性能往往强烈依赖于人工设计的特征和领域专业知识,这限制了在不同纳米孔系统和实验条件下的可扩展性和泛化能力。
最近,深度学习显著扩展了AI在纳米孔传感中的分析能力[20,21]。与依赖预定义特征的传统ML方法不同,深度神经网络提供了端到端的、数据驱动的特征表示学习。通过利用分层架构,它们可以从原始电流信号中自动提取区分性特征,捕捉非线性依赖关系,并模拟局部和长期的时间动态[22]。例如,卷积神经网络(CNN)在识别精细的阻断模式方面表现出色,而循环神经网络(RNN)及其变体(如长短期记忆网络LSTM)在捕捉纳米孔时间序列信号中的序列依赖性方面表现出色[23]。更先进的框架(如混合CNN-RNN模型、基于注意力的架构和多模态融合策略)进一步扩展了整合异构信息的能力,包括离子电流波动、分子结构和迁移动力学,将其纳入统一的分析流程[24]。
通过这些进展,从传统ML到现代DL的AI方法在提高信噪比、改进分类准确性以及实现纳米孔数据的稳健实时解释方面展现了显著优势[25,26]。在数据集有限、特征明确或计算资源受限的情况下,经典ML算法仍起着重要作用;而在大规模、复杂和异构数据场景中,DL则表现出色[27]。这些互补的方法共同推动了纳米孔分析的范式转变,有效解决了长期存在的挑战,并为高精度、可扩展和智能化的单分子检测铺平了道路[28,29]。
在这篇综述中,我们系统地概述了这个新兴的跨学科领域(图1)。首先介绍了纳米孔传感的基本原理及其独特优势和固有局限性,然后总结了将机器学习和深度学习应用于纳米孔数据分析的最新突破,包括信号去噪、事件检测、特征提取和多模态融合等方面。特别强调了在糖苷化合物鉴定、蛋白质翻译后修饰检测以及中医、食品分析和临床诊断等领域的应用。最后,我们讨论了数据稀缺性、模型可解释性和集成到便携式系统等关键挑战,并指出了将人工智能与纳米孔技术结合以实现下一代单分子分析的有前景的未来方向。
**下载:** 下载高分辨率图像(676KB)
**下载:** 下载全尺寸图像
**图1.** 本综述的概念框架示意图。该图总结了文章中讨论的主要主题,包括纳米孔传感的基本原理、人工智能辅助的纳米孔信号分析、在生物分子检测中的代表性应用,以及当前挑战和未来展望。
**2. 纳米孔传感的基本原理**
纳米孔传感是一种无标记的单分子检测策略,依赖于监测生物分子通过纳米孔时引起的离子电流阻断。在典型的设置中,包含一个或多个纳米孔的平面基底被安装到流动池中,使得顺式和反式腔室仅通过纳米孔电连接(图2a)[30]。两个腔室都充满了电解质溶液(通常是KCl或LiCl等单价盐),并使用不可极化的电极(如Ag/AgCl)在膜上施加电压偏置。这种偏置产生稳定的离子电流,称为开孔电流。当DNA、RNA或蛋白质等生物分子进入纳米孔并在电场作用下迁移时,会部分阻塞离子流动,导致电流的瞬态减少。这些电流阻断事件的幅度和停留时间编码了关于分子大小、电荷、二级结构和构象的丰富信息,从而实现了直接的高分辨率单分子表征。
**下载:** 下载高分辨率图像(1MB)
**下载:** 下载全尺寸图像
**图2.**
(a) 单分子检测和定量分析的纳米孔组装及离子电流记录示意图[30]。
(b) α-HL纳米孔传感器的原理和实验设置,以单链DNA(ssDNA)迁移为例[31]。
(c) 硅氮化物纳米孔芯片的结构及其对应的离子电流直方图[32]。
(d) 双纳米吸管配置,展示了测量原理和分子迁移过程中的代表性离子电流迹线[33]。
纳米孔大致分为生物纳米孔和固态纳米孔,每种类型具有不同的结构特征、制造策略和应用领域[34,35]。生物纳米孔是自发组装在脂质双层或嵌段共聚物膜中的跨膜蛋白通道。它们本质上是单分散的,具有原子级别的结构精度,孔径通常在1纳米到3纳米之间,非常适合核酸和肽的分析[36]。重要的是,生物纳米孔可以通过定点突变进行工程改造,以定制传感特性。典型的例子包括α-溶血素(α-HL)、气溶素、分枝杆菌Smegmatis的porin A(MspA)和噬菌体phi29的DNA包装马达[37]。其中,α-HL由于其可重复的组装和有利的几何结构而成为研究最广泛的纳米孔之一。Branton及其同事在1996年的开创性工作首次展示了使用α-HL检测单链DNA和RNA,奠定了纳米孔传感的基础[38]。在这些系统中,分子进入狭窄通道时会产生皮安级的电流下降,事件特征直接反映了分子的身份和动态(图2b)[31]。这些特性使得生物纳米孔在纳米孔测序和分子诊断中发挥着核心作用。
相比之下,固态纳米孔是在合成膜(如硅氮化物(Si3N4)、石墨烯、阳极氧化铝或聚对苯二甲酸乙二醇酯(PET)中制造的[39]。这些材料具有机械强度、化学稳定性和与微纳制造的兼容性,便于集成到芯片平台上[40]。固态纳米孔的孔径可调,范围从1纳米到100纳米,能够分析从核酸和蛋白质到细胞外囊泡和病毒颗粒等更广泛的分析物。例如,基于硅的纳米孔可以实现微秒级的时间分辨率和超过20的信噪比,支持高通量和精确检测(图2c)[32]。结构创新(如双纳米吸管配置或表面功能化)进一步解决了快速迁移的挑战,延长了停留时间并提高了信号分辨率(图2d)[33]。这些进步将固态纳米孔扩展到了基因组学、蛋白质组学、食品安全和药品质量控制等前沿应用[41],[42],[43],[44]。
纳米孔实验的输出是一个包含稳定基线和瞬态阻断事件的时间序列离子电流迹线。每个事件通过幅度(电流减少)和停留时间(事件持续时间)进行定量描述。这些参数共同编码了分子的“指纹”;然而,分子运动的随机性和实验噪声常常阻碍了精确解释[45,46]。如图3所示,纳米孔分析可以被视为将分子传感与计算数据分析相结合的集成框架。首先通过纳米孔传感分析代表性分子目标(图3a至d)。当这些分子通过纳米孔迁移时,它们会产生明显的电化学信号,这些信号在离子电流迹线中表现为瞬态阻断事件(图3e)。随后通过涉及信号预处理、特征提取、模型训练、预测和性能评估的计算工作流程对这些信号进行处理。通过这一过程,噪声中的微妙差异可以被转化为可靠的分子识别。这种计算辅助的纳米孔分析进一步推动了基因组学、蛋白质组学和精准医学等领域的应用。
**下载:** 下载高分辨率图像(803KB)
**下载:** 下载全尺寸图像
**图3.** 由ML和DL辅助的纳米孔单分子分析的集成框架。第一部分(图3a–d)展示了通过纳米孔传感分析的代表性分子目标。第二部分(图3e)显示了这些目标分子通过纳米孔迁移时产生的独特电化学信号。第三部分概述了数据分析工作流程,包括信号预处理、特征提取、模型训练、预测和性能评估。最后一部分强调了AI辅助纳米孔分析在基因组学、蛋白质组学和精准医学等领域的潜在应用。
**3. 纳米孔传感的挑战**
尽管纳米孔传感在单分子分析方面展现出巨大潜力,但几个固有挑战限制了其更广泛的应用。这些问题源于离子电流信号的物理化学性质以及传统分析方法的局限性。
**3.1. 纳米孔信号的固有特性**
纳米孔电流迹线本质上具有噪声、非稳定性和随机性。噪声来源于热波动、仪器噪声以及孔附近的非特异性分子相互作用[47]。同时,停留时间、取向和折叠状态的变化引入了事件异质性,即使相同的分子也可能产生不同的阻断特征。这种变异性严重降低了信噪比,使得下游分析变得复杂,特别是对于小分子或低丰度目标。这种信号复杂性为传统基于特征的方法带来了根本性的障碍,并推动了数据驱动方法的探索[48]。
**3.2. 传统分析方法的局限性**
传统分析依赖于人工设计的特征(如幅度、停留时间和事件频率),并结合阈值处理或聚类[49]。这些流程存在操作者依赖性、区分能力有限和可扩展性差的问题。结构相似的分子之间的细微差异往往无法被区分,手动特征选择也影响了不同实验室之间的重复性。随着数据集规模的扩大,这些方法难以应对,导致误分类和低鲁棒性。这些限制突显了需要更加适应性强的分析策略——最初通过传统的机器学习算法尝试实现,最近则通过能够自动进行表示学习的深度学习方法来实现[50]。3.3. 应用层面的瓶颈除了数据处理之外,更广泛的挑战限制了实际应用。灵敏度仍然有限,尽管已经展示了皮摩尔级别的检测能力,但由于捕获效率低,要达到早期诊断所需的飞摩尔级灵敏度仍然具有挑战性[51]。复杂的生物样本引入了背景干扰,使得特定目标的识别更加困难[52]。此外,计算密集型的处理流程阻碍了实时和便携式应用的发展,而缺乏标准化的基准测试也减缓了临床和工业领域的采用[53]。这些应用层面的瓶颈进一步强调了智能计算工具(包括机器学习和深度学习)的重要性,以提升性能并促进其在实际场景中的应用。3.4. 智能数据分析的机会上述挑战凸显了迫切需要自动化、适应性强的计算方法,这些方法能够处理纳米孔信号的复杂性。人工智能方法,包括传统的机器学习和现代的深度学习,提供了克服当前限制的强大机会[54]。诸如SVM、RF和HMM之类的机器学习算法已经被用于分类离子电流事件、识别分子状态以及改进信号解释[55]。通过利用手工制作的特征(如阻塞深度和停留时间),这些方法可以提供可解释的模型,并且在数据集有限或信号特征相对简单的场景中有效[56]。然而,它们对特征工程的依赖性限制了其在不同纳米孔系统和异质生物样本中的泛化能力。相比之下,深度学习方法能够直接从原始纳米孔轨迹中进行端到端的特征学习,减少了对手动预处理的依赖。卷积神经网络(CNN)可以从阻塞信号中提取细粒度的空间模式,而循环架构(如LSTM)可以捕捉事件序列中的时间依赖性[57]。更先进的框架,如混合CNN-RNN模型、注意力机制和多模态整合策略,进一步增强了建模非线性动态、抑制噪声以及融合互补信息(例如离子电流、迁移动力学和分子结构)的能力[58]。机器学习和深度学习共同构成了智能纳米孔数据分析的互补工具包。在数据受限或资源有限的场景中,机器学习方法仍然具有价值,因为可解释性和较低的计算成本至关重要。另一方面,深度学习在处理大规模、噪声较大和复杂的 数据集方面表现出色,从而提高了灵敏度、鲁棒性和实时性能。通过整合这两种范式,基于人工智能的策略有潜力将纳米孔传感转变为一个可靠、高精度且可扩展的平台,用于生物医学研究、诊断和临床应用[59,60]。4. 机器学习和深度学习在纳米孔信号处理中的应用信号处理和人工智能方法(包括机器学习和深度学习)越来越多地被用于纳米孔信号分析[[61], [62], [63]]。传统的机器学习方法依赖于手工制作的特征,如事件幅度、停留时间和事件频率。如图4所示,常见的算法包括SVM、RF、k最近邻(KNN)和多层感知器(MLP)。这些方法广泛用于事件分类、异常检测和错误校正,提高了单分子测量的灵敏度和可重复性[24]。近年来,深度学习模型已被引入纳米孔数据分析,包括CNN、RNN和基于Transformer的架构。与传统机器学习方法不同,深度学习模型可以直接处理原始离子电流信号,无需大量预处理即可自动提取相关特征[64]。这使得深度学习特别适合于信号解释、序列预测和噪声减少等任务。模型选择受到数据集大小的强烈影响。深度学习模型通常在大型数据集上表现更好,而传统机器学习方法在小型数据集上往往表现更稳定。机器学习和深度学习方法共同显著扩展了纳米孔传感的分析能力,支持实时分析、高通量测序和生物标志物发现等应用[65,66]。下载:下载高分辨率图像(613KB)下载:下载全尺寸图像图4. 机器学习和深度学习算法常用于纳米孔信号分析。(a) SVM:将特征投影到高维空间并构建用于分类或回归的最优超平面。(b) RF:一种集成方法,结合多个决策树以提高预测准确性和鲁棒性。(c) KNN:根据特征空间中k个最近邻的多数类对样本进行分类。(d) MLP:具有全连接层的前馈神经网络,用于建模非线性关系。(e) CNN:使用卷积滤波器从信号中自动提取局部模式。(f) RNN:专为序列数据设计,捕捉信号中的时间依赖性。(g) Transformer:利用自注意力机制来建模序列数据中的长距离依赖性。为了便于比较纳米孔信号分析中使用的不同计算方法,表1总结了主要的机器学习和深度学习架构。该表概述了它们的信号特征、优势、局限性、计算成本和典型应用。不同的计算架构捕捉纳米孔离子电流信号的不同方面。传统的机器学习算法通常依赖于从离子电流事件中提取的统计描述符。相比之下,深度学习模型无需显式的特征工程即可捕捉层次化的信号表示。卷积网络捕捉局部信号模式,循环模型描述序列数据中的时间依赖性,基于注意力的架构识别长距离的上下文关系。由于这些差异,每种模型类型都适用于纳米孔信号的特定特征,包括局部阻塞模式、时间动态和长距离信号相关性。表1. 用于纳米孔信号分析的代表性机器学习和深度学习模型的比较。模型类型捕捉的信号特征优势局限性计算成本典型应用代表性研究SVM/RF手工制作的特征,如阻塞幅度、停留时间和事件频率适用于小型数据集;良好的可解释性对特征工程的依赖性强;非线性建模能力有限事件分类、分子识别、小型数据集纳米孔传感任务[[67], [68], [69]]CNN离子电流轨迹中的局部模式和短时间阻塞特征强大的自动特征提取能力;对噪声的鲁棒性有限捕捉长距离时间依赖性的能力中等信号去噪、事件检测、脉冲分类、从原始信号中提取特征[[70], [71], [72], [73]]RNN/LSTM/GRU纳米孔信号中的时间依赖性和序列动态适用于建模时间序列信号训练不稳定性和并行化能力有限中等到高基础调用、DNA/RNA修饰检测、序列信号解释[[74], [75], [76], [77]]Transformer长距离依赖性和全局信号上下文强大的表示学习和并行计算需要大型数据集和计算资源高基因组规模信号解释、多模态数据整合、长读长测序分析[[78], [79], [80]]4.1. 机器学习在纳米孔信号处理中的应用在深度学习广泛采用之前,机器学习方法为分析纳米孔信号提供了必要的工具。传统的机器学习方法被广泛使用,因为它们能够有效处理高维和噪声较大的纳米孔数据[81]。SVM在特征空间中构建最优超平面,根据提取的信号描述符区分不同的分子种类。MLP通过非线性变换映射这些特征,使得线性模型可能无法区分的细微结构差异得以区分。典型的工作流程包括预处理原始离子电流信号,然后进行特征提取、模型训练和验证(图5a)[67]。下载:下载高分辨率图像(1MB)下载:下载全尺寸图像图5. (a) 人工智能辅助的纳米孔信号处理和分类[67]。左图:机器学习工作流程的示意图,包括原始事件的预处理(A–F)、特征提取(停留时间、标准化电流、标准差)以及特征矩阵的构建。数据集被随机划分为训练和验证子集,用于模型开发和评估。右图:最优模型的混淆矩阵,展示了所有事件类别的分类性能。(b) 使用基于线性SVM的机器学习对结构相似的甲状腺激素进行分类[68]。(c) 基于MLP的机器学习能够使用OmpF纳米孔区分仅相差一个糖苷键的寡糖异构体[69]。Wang等人报告了一个镍固定的MspA纳米孔平台,用于单分子识别结构相似的分析物(图5b)[68]。为了自动化事件分类并减少操作者偏差,他们开发了一个结合了离子电流阻塞特征提取和分类器训练的机器学习工作流程。使用线性SVM,该模型实现了高验证准确性,有效区分了密切相关的分子种类。这项研究表明,仔细的算法选择和特征工程可以将微妙的信号差异转化为可靠的分子分类,即使在复杂的环境中也是如此。类似地,Gao等人使用电静力不对称的OmpF纳米孔来处理复杂分析物中的信号异质性(图5c)[69]。通过应用监督机器学习模型(包括MLP),他们能够自动区分高度相似的分子结构。特征驱动的信号预处理和强大的分类器设计使得在噪声较大和信号变化的情况下也能实现精确的分子区分。这些例子表明,除了特定的实验系统外,机器学习算法的选择、特征提取策略和模型优化对于提升纳米孔信号分析至关重要。4.2. 深度学习在纳米孔信号处理中的应用深度学习方法已成为强大的纳米孔信号分析工具,因为它们可以从复杂的离子电流轨迹中自动学习表示。不同的神经架构捕捉不同类型的信号特征,包括局部模式、时间依赖性和长距离的上下文关系[82]。与传统的机器学习方法相比,深度学习架构为复杂的离子电流信号提供了更强的表示学习能力。这种能力对于信噪比较低(SNR)、非稳定性和事件特征异质性的信号特别有利。因此,深度学习模型已被广泛应用于各种纳米孔分析任务中,包括信号去噪、事件检测、碱基调用和核酸修饰识别[83]。用于纳米孔信号分析的代表性深度学习架构包括CNN、RNN和基于Transformer的模型。4.2.1. CNN用于信号去噪和特征提取CNN在捕捉纳米孔信号中的局部模式(包括阻塞开始、幅度波动和事件持续时间)方面非常有效,同时抑制背景噪声。一维CNN(1D-CNN)特别适合时间序列离子电流轨迹,因为它们具有平移不变性和局部感受野[[70], [71]]。多项研究展示了CNN在纳米孔分析中的实用性。QuipuNet(Misiunas等人)应用1D-CNN对设计用于多重蛋白检测的DNA载体的迁移信号进行分类。通过自动从折叠和未折叠的DNA配置中学习特征,QuipuNet实现了比半自动化或基于阈值的方法更高的准确率和吞吐量。重要的是,该网络可以在不进行手动参数调整的情况下处理五倍更多的事件,展示了CNN在高通量多重传感方面的潜力(图6a)[72]。下载:下载高分辨率图像(1MB)下载:下载全尺寸图像图6. (a) 纳米孔数据分析的CNN示意图[72]。(b) 基于神经网络的去噪算法[73]。(c) B-Net的架构。双向网络包含两个ResNet,每个ResNet由一个CNN和一个FFNN组成[84]。ResNet 1预测时间窗口内的脉冲或迁移事件数量。ResNet 2估计同一窗口内所有脉冲的平均迁移幅度和持续时间。为了处理信号噪声,已经采用了卷积自编码器和U-Net架构进行纳米孔信号去噪。Tsutsui等人使用了一种不需要干净参考信号的Noise2Noise方法,迭代学习从离子电流轨迹中减去背景噪声。这种方法优于传统的数字滤波器(傅里叶、小波),即使在低SNR条件下也能恢复微妙的事件特征并精确跟踪单个和双纳米粒子的动态(图6b)[73]。B-Net代表了一种专门的CNN架构,用于客观和自动的特征提取。其双ResNet设计可以直接从原始信号中计数迁移脉冲并估计它们的幅度和持续时间(图6c)[84]。B-Net在低至1的SNR下也能实现准确处理,无需依赖用户定义的阈值。这种方法已成功应用于DNA和蛋白质纳米孔数据集,证明了精心设计的CNN架构在处理脉冲型信号方面的鲁棒性和多功能性。4.2.2. 循环神经网络用于序列建模虽然CNN在局部特征提取方面表现出色,但由于迁移事件的序列性质,纳米孔信号通常表现出时间依赖性。RNN及其变体(LSTM、双向LSTM(Bi-LSTM)和门控循环单元(GRUs)非常适合建模这些依赖性[[74], [75]]。通过引入门控机制,RNN克服了梯度消失的问题,捕捉了序列事件中的短距离和长距离依赖性。在基因组学中,RNN已被用于从Oxford Nanopore测序数据中检测DNA修饰。DeepMod[84]使用Bi-LSTM来建模离子电流信号中的时间依赖性,结合了每个测序事件的上游和下游上下文。该网络捕捉由修饰(例如5 mC甲基化)引起的局部失真,而次级DNN整合了相邻CpG位点的预测,提高了聚集区域的准确性。这种方法突显了RNN处理生物信号中时间相关性的能力,实现了高精度的基因组规模修饰检测(图7a)[76]。下载:下载高分辨率图像(1MB)下载:下载全尺寸图像图7. DeepMod和STRONG基于RNN的纳米孔分析框架。(a) DeepMod架构的示意图。选定的长读长(用黄色突出显示)与对齐的纳米孔电流轨迹一起显示。九个相邻的LSTM单元(由黑色箭头标示)被可视化,以展示沿序列[76]的修饰预测。(b)基于GRU的RNN框架,使用STRONG字符串表示法进行纳米孔属性预测[77]。纳米孔的几何结构被标记并嵌入,然后处理序列嵌入以预测形成能量、形成时间和气体传输屏障。在专注于材料的纳米孔研究中,STRONG[74]将纳米孔几何结构表示为标记化的字符串,将其转换为密集的嵌入。基于GRU的RNN随后处理这些嵌入,以高精度(R2高达0.99,见图7b)[77]预测形成能量、形成时间和气体传输屏障。这种方法展示了序列学习如何编码纳米孔设计的结构和空间信息,从而实现功能化材料的高通量筛选。
4.2.3. 变换器用于上下文表示学习
虽然基于RNN的模型能够捕捉序列纳米孔信号中的时间依赖性,但最近的研究越来越多地采用变换器架构来建模长距离的上下文关系,并整合异构的生物信息。变换器最初是为自然语言处理开发的,它们依赖于自注意力机制,使模型能够直接关注序列中的所有元素,从而高效地表示短距离和长距离的依赖性[85]。这种能力使它们特别适合分析复杂的生物信号,因为信息模式通常超出局部区域,并涉及多个特征或模态之间的相互作用[78]。
在基因组学中,基于变换器的方法已被应用于纳米孔测序,以提高DNA修饰的检测能力。Rockfish[76]采用了一种变换器编码器-解码器架构,联合处理原始离子电流信号、碱基调用序列和对齐信息,以准确预测CpG位点的5-甲基胞嘧啶[79](见图8a)。多头注意力层在纠正潜在的碱基调用错误的同时,对局部扭曲进行了上下文化处理,从而实现了比基于RNN和HMM的方法更高的读取级别和位点级别的准确性。值得注意的是,Rockfish在多种数据集和物种中展示了出色的泛化能力,突显了注意力机制整合异构生物信息并在基因组尺度上改进甲基化检测的能力。
下载:下载高分辨率图像(1MB)
下载:下载全尺寸图像
图8. 生物医学中的基于变换器的架构。(a)在基因组学中,Rockfish使用变换器编码器-解码器将原始纳米孔信号与碱基调用序列相结合,实现单碱基分辨率下的DNA甲基化准确预测[79]。(b)在神经科学中,多模态变换器结合人口统计、遗传、神经心理学和成像特征,预测阿尔茨海默病中的β-淀粉样蛋白和tau蛋白负担[80]。这些例子突显了注意力机制在统一异构数据和捕捉跨领域长距离依赖性方面的多功能性。
除了基因组学之外,变换器还被扩展到多模态生物医学数据整合。Jasodanand等人[77]开发了一个基于变换器的框架,该框架融合了人口统计、遗传、神经心理学、成像和临床数据,以预测阿尔茨海默病中的β-淀粉样蛋白和tau蛋白病理[80](见图8b)。通过联合建模生物标志物之间的协同关系,该框架在不同队列中实现了稳健的性能,使预测结果与PET衍生的病理学和尸检发现一致。重要的是,该模型通过特征掩码处理缺失的模态,同时仍保持预测能力,为早期疾病分期和试验分层提供了可扩展的解决方案。这些应用展示了变换器如何通过上下文化表示学习,统一异构输入并捕捉长距离依赖性,使其成为下一代生物医学建模的多功能工具。
尽管深度学习模型减少了对手动特征提取的依赖,但纳米孔信号往往由于实验条件的波动而表现出相当大的噪声变化[86,87]。几项研究表明,深度神经网络可以通过数据驱动的去噪和鲁棒特征学习部分缓解这一问题。例如,卷积神经网络(CNN)和基于自编码器的架构已被应用于抑制背景噪声并从低信噪比测量中恢复微妙的事件特征。此外,还提出了诸如噪声感知训练和数据增强等策略,以提高模型在处理异构纳米孔信号时的鲁棒性[88,89]。
总体而言,这些深度学习架构展示了现代AI方法从复杂纳米孔信号中自动提取信息特征的能力,从而改进了去噪、序列建模和上下文表示学习。它们在捕捉局部阻塞模式、时间依赖性和长距离信号关系方面的互补优势,大大扩展了纳米孔传感的分析能力。
5. 机器学习和深度学习驱动的纳米孔传感应用
纳米孔传感与机器学习(ML)和深度学习(DL)的结合,将这项技术从一个单分子检测器转变为一个用于复杂生物分析的多功能平台[90]。通过增强信号解释、减少噪声和实现更高阶的数据建模,ML和DL方法将纳米孔应用从分子检测扩展到细胞级分辨率和临床诊断,标志着向更广泛的生物医学和转化应用迈出的关键一步[91]。
5.1. 核酸测序和精准基因组分析
核酸是纳米孔传感中最早也是研究最广泛的靶标之一,特别是通过纳米孔测序技术。AI辅助分析已广泛应用于DNA/RNA碱基调用、基因组测序、变异检测和病原体识别等任务[[92], [93], [94]]。其基本原理依赖于检测DNA或RNA分子通过纳米孔时的离子电流调制,其中序列组成、碱基修饰或二级结构的微妙变化反映在不同的阻塞模式中[95]。然而,由于高信号噪声、短暂的迁移事件以及与单碱基变异相关的小电流变化,传统分析流程在准确解释方面面临挑战[96]。这些因素使得单核苷酸多态性识别、表观遗传修饰映射和病毒基因分型等精准基因组学任务变得复杂。
机器学习和深度学习作为变革性工具,克服了这些限制,并成为现代纳米孔测序流程中的关键计算组件。除了提高碱基调用准确性外,AI模型还能够提取传统分析方法经常忽略的复杂信号特征。在最近的一项研究中,Wang等人[97]利用机器学习提取了纳米孔传感中之前被忽视的动态特征,从而提高了单分子识别的准确性(见图9)。使用突变的K238Q气溶菌酶纳米孔,作者识别出叠加在稳定R-T转换上的瞬态尖峰信号,这些信号传统分析通常被视作噪声。通过训练一个神经网络模型(1D ResNet-50),他们证明这些动态尖峰特征具有很强的分子特异性,分类准确性从约44%提高到了93%。重要的是,机器学习框架能够解释由DNA碱基与纳米孔位点之间的随机碰撞产生的复杂非线性离子电流模式。这种纳米孔生物物理学与神经网络建模的结合提供了一种强大的方法,用于捕获丰富的动态特征,为推进单分子测序和蛋白质分析提供了新的机会。
下载:下载高分辨率图像(418KB)
下载:下载全尺寸图像
图9. 机器学习辅助的纳米孔传感:神经网络捕获由随机碰撞产生的动态尖峰特征[97]。
除了传统的机器学习方法外,深度学习架构如CNN和RNN也被广泛应用于纳米孔测序。Nguyen等人[98]引入了Dinopore,它将纳米孔直接RNA测序数据与CNN结合,以识别腺苷到肌苷(A到I)的编辑位点(见图10a)。通过利用离子电流迹线的偏差和特征性的碱基调用错误,Dinopore能够区分未修饰的腺苷、肌苷和A/G基因变异,并提供编辑水平的定量估计。与传统的Illumina间接方法不同,Dinopore在包括人类、小鼠和非模式生物在内的多种转录组中实现了高准确性和广泛的泛化能力。
下载:下载高分辨率图像(1MB)
下载:下载全尺寸图像
图10. (a)直接RNA测序后使用深度学习检测肌苷的示意图[98]。(b)使用Nanopore测序进行5 mC检测的DeepSignal-plant[99]。
除了CNN之外,RNN架构也被用于纳米孔测序。例如,DeepSignal-plant利用双向长短期记忆(BiLSTM)网络检测植物中CpG、CHG和CHH背景下的胞嘧啶DNA甲基化(见图10b)[99]。通过去噪和样本平衡策略,它与亚硫酸盐测序取得了高度一致的结果,并将甲基化分析扩展到重复和复杂的基因组区域。
最近,混合架构展示了更优的性能。如TandemMod这样的框架结合了CNN和LSTM,共同捕获局部信号模式和长距离依赖性,实现了包括m6A和m5C在内的RNA修饰的高精度检测[100]。重要的是,迁移学习允许这些模型在减少训练数据需求的情况下泛化到其他修饰(例如m7G、Ψ、肌苷)。这些进展共同展示了深度学习如何增强敏感性、可扩展性和跨物种适用性,在纳米孔测序和单分子核酸修饰分析中发挥了重要作用,突显了AI驱动的分析框架在精准基因组学中的日益重要性。
5.2. 蛋白质分析和翻译后修饰
翻译后修饰(PTMs)在调节蛋白质功能中起着关键作用,但传统方法如质谱和免疫测定在灵敏度、特异性和多重检测能力方面存在局限性[101,102]。生物纳米孔提供了一个无标记的、实时的单分子PTM检测平台,但其信号本质上是噪声较大且随机的,这对传统分析策略构成了挑战。因此,深度学习被采用以实现稳健和自动化的PTM分析[103]。
在一项代表性研究中,Cao等人[104]使用气溶菌酶纳米孔分析了α-突触核蛋白及其PTM变体(见图11a)。通过应用混合LSTM–MLP模型,他们实现了94%的准确事件检测、特征提取和PTM肽的分类。这种方法能够区分单个和组合PTMs,突显了其在解码复杂修饰谱型方面的潜力。
下载:下载高分辨率图像(1MB)
下载:下载全尺寸图像
图11. (a)由两个腔室组成的单通道记录设置示意图,以及通过深度学习区分α-突触核蛋白肽PTMs[104]。(b)炭疽毒素PA作为潜在纳米孔肽生物传感器平台的示意图,以及TCN/密集模型基于的肽分类的转移事件混淆矩阵[105]。(c)颗粒在孔中的传感器示意图,典型的Pro单分子SERS光谱,以及带有数据分类框架的CNN模型架构[106]。
同样,Krantz及其同事采用了带有双分支时间卷积网络(TCN)和密集层的CNN–RNN架构,通过炭疽毒素PA纳米孔对肽迁移事件进行分类(见图11b)[105]。这种方法对七种模拟肽实现了99.98%的显著准确性。值得注意的是,跨多个事件的投票聚合策略的结合增强了分类信心,并解决了混合样本场景中的局限性,在纯样本中实现了100%的top-1准确性。这种集成方法对于临床应用尤其有价值,在这些应用中,准确检测低丰度PTMs至关重要。
除了基于电流的纳米孔传感之外,深度学习还与等离子体纳米孔表面增强拉曼光谱(SERS)相结合。Zhao等人[106]开发了一个1D-CNN模型,能够在单分子水平上以96.6%的准确性区分脯氨酸和羟脯氨酸(见图11c)。梯度加权特征可视化(Grad-CAM)证实提取的特征对应于由羟基化引起的光谱变化,突显了可解释AI在纳米孔分析中的潜力。
总之,这些研究表明,深度学习不仅能够从噪声较大的纳米孔信号中准确分类PTMs,还扩展了分析模式(例如电学和光学),为未来的临床诊断、药物发现和蛋白质组学研究铺平了道路。
5.3. 小分子和糖胺聚糖检测
小分子如糖苷由于其结构多样性和密切相关异构体的普遍存在,对传统分析技术(如色谱和质谱)构成了巨大挑战[107,108]。生物纳米孔传感提供了一个高度敏感、无标记且实时的替代方案,当与机器学习和深度学习结合时,它允许对复杂分子混合物进行自动化、高分辨率的分析[109,110]。Fan等人通过应用KNN、SVM和随机森林等算法展示了经典机器学习在纳米孔分析中的强大能力,以高准确性分类微妙的电流阻塞特征(见图12a)[111]。使用KNN模型,他们在八种结构相似的丹参酸中实现了99.0%的识别准确性,强调了特征工程数据集如何使即使是简单的ML模型也能超越传统分析。除了分类之外,还采用了DBSCAN和One-Class SVM等无监督方法进行噪声减少和异常值检测,从而实现对复杂草药提取物的稳健分析。这项工作展示了如何通过定制的ML策略桥接纳米孔信号的复杂性与可靠的分子识别,为实时、便携式传感平台奠定了基础。
下载:下载高分辨率图像(1MB)
下载:下载全尺寸图像
图12. (a)草药中丹参酸的机器学习驱动的纳米孔分析[111]。(b)基于工程化的S278K气单胞菌素的非转移阻塞传感示意图,以及用于混合物中人参皂苷识别的深度学习辅助人工智能模型GS-Net的训练工作流程[111]。该模型结合了基于Seq2Seq的数据预处理、带有嵌入层的卷积神经网络、注意力模块以及七个卷积模块[112]。(c) 使用AeL纳米孔进行SGs检测的示意图以及模型训练工作流程,包括阻塞事件的预处理、网络架构和模型评估[69]。Qing等人通过使用工程化的aerolysin纳米孔突变体(S278K)延长分子驻留时间并实现非转运阻塞感应,展示了这种方法的力量(图12b)[112]。他们使用基于1D-CNN的深度学习模型GS-Net,成功以91.2%的准确率分类了24种高丰度的人参皂苷,并在真实的人参样本中验证了该方法。结果与高效液相色谱法一致,证实了AI增强型纳米孔传感在植物化学分析中的实际应用价值。在随后关于steviol糖苷(SGs)的研究中,同一团队在不同施加电压下使用野生型aerolysin纳米孔实现了双模式识别:在低电压下结合,在高电压下转运(图12c)[69]。他们专门开发了一个名为SteviNet的深度学习模型,用于端到端的原始信号分析,在区分15种SGs时达到了93.6%的准确率。这一策略使得商业甜味剂和饮料的定性和定量表征成为可能,显示出其在食品质量控制中的巨大潜力。这些例子强调了孔工程、电动力学调节和深度学习之间的协同作用如何推进小分子和糖类的识别与量化。这些方法不仅扩展了纳米孔传感的分析能力,还为结构阐明、食品和制药的质量保证以及生物活性小分子的功能研究开辟了新的途径。
5.4. AI辅助纳米孔传感的新兴和扩展应用
尽管纳米孔传感最初是作为一种单分子检测技术建立的,但最近的进展表明其应用范围远远超出了传统的核酸、蛋白质和糖类分析。通过整合机器学习和深度学习,基于纳米孔的平台现在正被应用于更复杂的生物学领域。例如,纳米孔传感最近被扩展到食品分析和代谢物分析中。Fan等人[113]改造了一种MspA纳米孔,使其带有苯硼酸适配器,能够选择性地识别天然水果中存在的含有顺式二醇的化合物,包括糖类、醛糖醇和α-羟基酸(图13a)。硼酸官能团与顺式二醇基团形成可逆的共价相互作用,在分子转运过程中产生特征性的离子电流信号。通过将这些信号与基于机器学习的分类方法结合,该系统实现了99.3%的识别准确率,同时大大减少了复杂的样品预处理需求。值得注意的是,该平台能够区分结构上密切相关的类似物甚至对映体对,如DL-苹果酸。这些结果证明了纳米孔传感器在复杂食品基质中进行快速化学分析的能力,并突显了其在食品质量控制和代谢物分析中的潜在应用价值。
此外,纳米孔传感越来越多地应用于单细胞水平,其中先进的计算模型有助于解决稀疏和噪声信号的问题。例如,Ma等人引入了DeepNanoHi-C,这是一个专门为单细胞纳米孔长读长Hi-C数据设计的深度学习框架(图13b)[114]。通过结合多步自动编码器和稀疏门控专家混合模型(SGMoE),该模型有效解决了scNanoHi-C数据集的稀疏性和异质性问题。DeepNanoHi-C在多种分析任务中表现出色,包括细胞类型聚类、缺失数据恢复、检测细胞特异性拓扑关联域边界以及跨物种保守性分析。这些结果凸显了其作为准确建模和推断3D染色质结构的计算工具的强大能力,从而推进了单细胞3D基因组的解读。
除了分子识别和细胞水平分析之外,纳米孔传感还提供了在单分子水平上实时监测分子过程的独特机会。这一能力最近激发了单分子时间组学的概念,旨在捕捉复杂生物系统中分子群体和相互作用的时间分辨变化。通过记录来自单个分子的连续离子电流信号,纳米孔能够表征分子异质性以及动态生化过程。最近的研究强调了纳米孔平台在时间分子分析方面的潜力,包括高时间分辨率下监测酶反应和生物分子相互作用[115]。在这种情况下,人工智能在信号解释和模式识别方面的整合可能进一步促进从复杂纳米孔数据集中提取动态信息,并加速单分子时间组学框架的发展[6]。总体而言,这些研究展示了纳米孔传感与先进计算模型的结合如何扩展其应用范围,从传统的单分子检测发展到细胞水平解析和系统级生物学洞察。
6. 结论与展望
人工智能与纳米孔传感的整合正在重塑单分子分析的格局。早期研究主要依赖于需要手动特征提取和预定义信号描述符的传统机器学习方法。深度学习的出现显著扩展了纳米孔平台的分析能力。包括CNN、RNN以及最近的基于Transformer的模型在内的神经架构,能够直接从原始离子电流迹线中自动提取复杂的信号特征。这些方法提高了纳米孔测量的灵敏度和特异性,使得通常难以用传统分析方法区分的生物分子变体和修饰得以区分。因此,结合数据驱动分析的纳米孔传感越来越多地应用于基因组学之外的领域,如蛋白质组学、糖组学、代谢组学和分子诊断学。尽管取得了这些进展,但仍有一些挑战限制了这些方法在实际分析平台中的可靠应用(图14)。
下载:下载高分辨率图像(1MB)
下载:下载全尺寸图像
图13. (a) 用于分析复杂水果样本中含顺式二醇化合物的机器学习辅助纳米孔传感,包括样本组成、反应性纳米孔检测、事件特征提取以及目标和分析物干扰物的自动分类[113]。(b) 深度学习在单细胞纳米孔长读长序列数据精确分析及三维基因组结构解释中的应用[114]。
此外,纳米孔传感越来越多地应用于单细胞水平,其中先进的计算模型有助于解决稀疏和噪声信号问题。例如,Ma等人引入了DeepNanoHi-C,这是一个专门为单细胞纳米孔长读长Hi-C数据设计的深度学习框架(图13b)[114]。通过结合多步自动编码器和稀疏门控专家混合模型(SGMoE),该模型有效解决了scNanoHi-C数据集的稀疏性和异质性问题。DeepNanoHi-C在多个分析任务中表现出色,包括细胞类型聚类、缺失数据恢复、检测细胞特异性拓扑关联域边界以及跨物种保守性分析。这些结果突显了其作为准确建模和推断3D染色质结构的计算工具的强大能力,从而推进了单细胞3D基因组的解读。
除了分子识别和细胞水平分析之外,纳米孔传感还提供了在单分子水平上实时监测分子过程的独特机会。这一能力最近激发了单分子时间组学的概念,旨在捕捉复杂生物系统中分子群体和相互作用的时间分辨变化。通过记录来自单个分子的连续离子电流信号,纳米孔能够表征分子异质性以及动态生化过程。最近的研究强调了纳米孔平台在时间分子分析方面的潜力,包括高时间分辨率下监测酶反应和生物分子相互作用[115]。在这种情况下,人工智能在信号解释和模式识别方面的整合可能进一步促进从复杂纳米孔数据集中提取动态信息,并加速单分子时间组学框架的发展[6]。综上所述,这些研究展示了纳米孔传感与先进计算模型的结合如何扩展其应用范围,从传统的单分子检测发展到细胞水平解析和系统级生物学洞察。
6. 结论与展望
人工智能与纳米孔传感的整合正在重塑单分子分析的格局。早期研究主要依赖于需要手动特征提取和预定义信号描述符的传统机器学习方法。深度学习的出现显著扩展了纳米孔平台的分析能力。包括CNN、RNN以及最近的基于Transformer的模型在内的神经架构,能够直接从原始离子电流迹线中自动提取复杂的信号特征。这些方法提高了纳米孔测量的灵敏度和特异性,使得使用传统分析策略难以区分的生物分子变体和修饰得以区分。因此,结合数据驱动分析的纳米孔传感越来越多地应用于基因组学之外的领域,如蛋白质组学、糖组学、代谢组学和分子诊断学。尽管取得了这些进展,但仍有一些挑战限制了这些方法在实际分析平台中的可靠应用(图14)。
下载:下载高分辨率图像(569KB)
下载:下载全尺寸图像
图14. 人工智能辅助纳米孔信号分析面临的挑战和未来机遇。主要挑战包括信号变异性、数据可用性有限、模型鲁棒性和效率以及模型可解释性。
一个主要挑战源于不同实验条件下纳米孔信号的变异性。离子电流迹线对实验参数非常敏感,包括孔几何形状、电解质组成、施加电压、温度和仪器设备。即使这些因素的微小变化也会影响基线电流水平、事件幅度和转运动态。因此,在不同实验条件下生成的数据集可能会表现出显著的分布差异。在特定实验室设置下训练的模型在应用于不同实验配置下收集的数据时可能表现不佳[86,87]。解决这一问题需要改进纳米孔实验的标准化、系统的跨平台基准测试以及开发能够适应异质信号分布的算法。
另一个限制是大型、注释良好的纳米孔数据集的可用性。可靠的离子电流信号标记通常需要广泛的实验验证或专家注释,特别是当信号对应于密切相关的分子种类或微妙的化学修饰时。这一要求显著限制了可用于训练机器学习模型的数据集规模。因此,许多当前的研究依赖于相对较小或特定于任务的数据集,这可能限制了模型的泛化能力。已经提出了迁移学习、半监督学习和数据增强等策略来缓解这一限制。然而,缺乏标准化的基准数据集和共享存储库仍然是系统模型开发和评估的主要障碍[88]。
除了这些方法论挑战之外,机器学习模型在纳米孔传感系统中的实际部署还面临进一步的困难。许多先进的神经架构需要大量的计算资源进行训练和推理,这可能限制了它们在便携式或实时纳米孔设备中的使用,因为在这些设备中处理速度和能源效率是关键考虑因素[27]。因此,开发轻量级模型和高效的信号处理流程对于实现现场可部署纳米孔平台中的实时分析至关重要。
模型可解释性也是一个关键问题。许多深度学习架构作为复杂的统计预测器,使得难以建立模型输出与控制纳米孔传输的物理化学过程之间的明确联系。纳米孔信号源于分子结构、静电力、孔几何形状和传输动态之间的复杂相互作用。根据这些生物物理机制解释模型预测仍然具有挑战性。因此,提高可解释性需要结合物理洞察和统计学习的方法,包括基于物理的建模策略和可解释的分析框架[54]。
展望未来,几个新兴方向可能有助于解决这些限制。一种有前景的方法是开发大规模纳米孔信号存储库,以便预训练能够捕捉离子电流动态共同模式的通用模型。然后可以通过有针对性的微调将这些预训练模型适应特定的分析任务。同时,跨模态数据整合的进步可能允许将纳米孔信号与包括分子结构数据、光谱测量或动力学参数在内的互补信息源一起进行分析。这些综合方法可能提供对纳米孔内分子行为的更全面理解。
最后,计算蛋白质设计的最新进展为下一代纳米孔传感器的开发提供了新的可能性。结构预测和生成建模方法使得可以合理设计具有可控孔几何形状、电荷分布和分子识别特性的纳米孔蛋白。这些方法可以系统地调整关键传感参数,包括分子选择性、驻留时间和信号分辨率。将计算纳米孔工程与先进的信号分析相结合,最终可能开发出能够实现稳健和高通量分子表征的智能纳米孔传感系统。
总体而言,纳米孔分析的演变反映了从特征工程数据分析向基于表示的计算建模的更广泛转变。算法开发、实验标准化和纳米级设备工程的持续进步预计将进一步增强纳米孔传感在分子生物学、分析化学和生物医学诊断中的作用。