综述:人工智能/机器学习辅助的表面增强拉曼散射生物传感用于生物分子检测:从直接光谱响应到集成诊断系统

《Biosensors》:AI/ML-Assisted SERS Biosensing for Biomolecular Detection: From Direct Spectral Response to Integrated Diagnostic Systems

【字体: 时间:2026年06月22日 来源:Biosensors 5.6

编辑推荐:

  表面增强拉曼散射(Surface-enhanced Raman scattering, SERS)为生物分子检测提供了有力路径,因其兼具分子特异性、高灵敏度、快速光学读出及多重检测能力。然而在实际生物样本中,分析性能极少仅由信号增强决定。血清、血浆、唾液、尿液

  
表面增强拉曼散射(Surface-enhanced Raman scattering, SERS)为生物分子检测提供了有力路径,因其兼具分子特异性、高灵敏度、快速光学读出及多重检测能力。然而在实际生物样本中,分析性能极少仅由信号增强决定。血清、血浆、唾液、尿液及组织间液等生物流体含有复杂的生物分子混合物,会干扰目标捕获、光谱响应及数据解读。因此,实用的SERS生物传感器必须实现目标定位、稳定光谱响应、耐受基质诱导变异,并将复杂光谱转化为可靠的分析信息。本综述从集成系统视角讨论SERS生物传感的最新进展,重点关注人工智能/机器学习(artificial intelligence/machine learning, AI/ML)辅助的解读方法。无标记直接SERS可提供化学透明的读出结果,但受限于复杂样本中的随机吸附、热点异质性及光谱变异。生物识别界面可改善目标定位,而基于纳米标签、免疫分析、成簇规律间隔短回文重复序列(clustered regularly interspaced short palindromic repeats, CRISPR)系统、纳米酶及侧向层析形式的信号转导策略,可将分子识别与光谱生成解耦。数字SERS通过将波动的强度转化为可计数的、基于事件的输出,进一步提升测量稳健性。AI/ML辅助分析可支持全谱分类、校准转移、可解释性及患者层面的决策。本文将AI/ML辅助的SERS生物传感构建为一个连接基底设计、界面工程、信号转导、数字测量及临床验证的集成架构。未来的进展将不仅取决于等离子体增强本身,同样依赖于可验证的工作流程,尤其是针对跨样本、跨仪器及跨临床场景运行的系统。
  1. 1.
    引言
    早期精准的生物分子检测是现代诊断学的核心。许多临床重要靶标(包括癌症生物标志物、病原来源核酸、细胞外囊泡、炎症蛋白及代谢指标)丰度低,且需在高度复杂的生物流体中检测。这些样本并非简单化学溶液,血清、血浆、唾液、尿液及组织间液包含密集且多变的蛋白质、盐类、脂质、代谢物、囊泡及细胞碎片混合物,这类组分会与传感表面竞争、掩盖微弱分子信号并引入显著的样本间差异,因此核心挑战不仅是检测靶标,更要在真实生物条件下保留分析意义。SERS因兼具分子特异性和光学灵敏度而备受关注,其通过在等离子体纳米结构附近放大拉曼散射,可在小样本体积、短采集时间内生成丰富的振动光谱,适用于液体活检、传染病检测、即时诊断及多重生物标志物分析。当前领域大量工作聚焦于设计可产生更强电磁热点的基底,但热点工程仅解决了生物传感问题的一部分。强热点仅是测量的一个环节,要使SERS信号具备实用价值,靶标必须进入增强场、保持在有效传感距离内,并产生跨位点、跨基底、跨样本稳定的光谱响应,且需在基质背景和生物变异性存在的情况下被正确解读,这也是大量高灵敏SERS演示难以转化为稳健诊断流程的原因——实用生物传感的瓶颈已从单纯信号增强转向目标定位、响应生成、测量稳定性及解读的系统性问题。近期进展正是对这一问题的回应:无标记直接SERS是最具化学透明性的策略,但易受随机吸附、分子取向效应、热点异质性及大生物分子部分采样的影响;抗体、适配体、多肽及分子印迹聚合物(molecularly imprinted polymers, MIPs)等生物识别界面通过改善传感表面的目标定位与选择性解决该局限;信号转导与扩增策略则进一步将分子识别与光谱生成分离,通过拉曼纳米标签、免疫分析结构、CRISPR介导反应、纳米酶催化或侧向层析富集,让靶标触发更易测量的响应。测量与解读层面也在发生转变:数字SERS将不稳定的强度型响应转化为可计数事件、分区测量或二值阳性输出;同时AI/ML辅助分析改变了光谱解读方式,不再仅依赖选定拉曼峰,而是利用全谱模式分类样本、校正校准差异、提取隐藏光谱特征并支持患者层面决策,这对生物流体分析尤为重要——疾病相关信息常表现为整体光谱轮廓的小幅变化,而非单一新增拉曼峰。但计算分析的作用需被谨慎定义:它无法弥补所有测量缺陷,若光谱主要反映基底缺陷、污染或批次特异性变异,模型可能学习到这些伪影而非目标生物学特征。AI辅助SERS的价值体现在传感架构能生成可重现、可追溯且结构足够清晰以供模型解读的光谱,因此AI不仅是最终数据处理步骤,更是影响基底质量控制、光谱采集、预处理、校准转移、验证策略及临床决策的更广泛设计框架的一部分。本综述围绕这一架构递进展开,不按分析物类型、基底材料或生物医学应用分类,而是审视各层控制如何逐步提升分析可靠性:首先讨论作为生物分子光谱检测基础形式的无标记直接SERS;随后分析改善目标定位的生物识别界面;接着介绍产生更稳定可测量输出的信号转导与扩增策略;再聚焦作为集成诊断系统关键步骤的数字SERS与AI/ML辅助解读;最后讨论分析性能、生物流体验证、标准化及监管考量,这些因素决定了AI辅助SERS生物传感器能否从前景可观的演示走向具备临床行动力的工具。
  2. 2.
    无标记直接SERS与基底控制的光谱读出
    无标记直接SERS是SERS生物传感中最具化学透明性的形式,该模式下靶标分子与等离子体近场相互作用后直接生成所测拉曼光谱,无需拉曼报告分子、二级标签、酶促反应或核酸扩增步骤,优势在于只要分析物能进入活性热点,SERS即可从小样本体积获得快速分子指纹。但这种直接性也定义了其核心局限:测量信号不仅由分析物浓度决定,还取决于靶标是否到达热点、相对于局域场的取向、哪些分子基团最靠近金属表面,以及所得光谱能否与周围生物背景分离,在复杂样本中这些条件极难控制,导致仅基于光谱的读出化学信息丰富但分析稳定性不足。该问题的核心在于光谱解读层面:直接SERS产生高维振动信息,但诊断相关变异常分布在微弱且重叠的光谱特征中,而非孤立拉曼峰,传统峰高分析适用于简单靶标,但在异质生物流体、细胞外囊泡、细胞或临床样本的光谱中会变得脆弱,此时数据驱动分析更具价值——无需将解读局限于少数选定峰,而是将全谱作为反映样本整体生化状态的模式进行分析。在解读具备可靠性之前,物理测量必须先受控,因此基底工程仍是无标记SERS的核心。胶体金、银纳米颗粒可通过聚集产生强热点,但其局域几何结构难以复现;自组装或液态等离子体阵列可提升介观有序性,提供更均匀的测量环境;光刻定义结构则进一步提升空间可重复性,包括纳米颗粒-镜面结构、DNA折纸模板二聚体在内的间隙模式体系,可对纳米间隙几何结构与分析物可及性实现更精细的控制。这种递进体现了基底设计的典型权衡:分子层面控制可改善热点定义,而更大面积组装可提升实际测量均匀性与通量。除增强幅度外,基底形貌应被视为AI/ML辅助SERS的数据质量变量:纳米颗粒尺寸、形状、间隙分布、表面粗糙度、聚集状态及空间热点密度均会影响测量光谱,不仅作用于信号强度,还影响光谱可重复性、Mapping异质性及批次间差异。若AI/ML模型训练所用光谱来自形貌不受控的基底,数据集可能包含反映基底变异而非生物分子差异的光谱模式,当基底形貌在实验组间存在系统性差异时,模型可能学习到与形貌相关的光谱方差而非靶标相关的生物学信息,因此未来AI/ML辅助SERS研究应在报告模型性能的同时,同步报告基底形貌、批次信息、Mapping条件及质量控制标准。即便基底优化,无标记SERS仍易受界面变异性影响:小分子可适配有效热点体积并产生相对清晰的指纹,但蛋白质、细胞外囊泡、病原体及细胞等较大生物分子的尺寸往往超出等离子体近场空间范围,测得的光谱可能仅反映靶标表面暴露部分而非完整生物分子结构,即SERS捕获的是特定吸附几何下的靶标部分界面投影,而非完整分子指纹。这一问题在生物流体中更为严重:血清、血浆、唾液、尿液及组织间液中的丰富蛋白质、代谢物、盐类、脂质、囊泡及其他基质组分会与等离子体表面竞争,阻塞热点、改变吸附几何、影响聚集行为并引入背景峰,对无标记直接SERS而言,基质干扰并非信号生成后的附加噪声,而是直接改变传感界面。因此无标记直接SERS在现代生物传感中扮演双重互补角色:一是当分析物与基底环境受控时,仍是强大的分子指纹工具;二是为复杂生物样本提供数据丰富的轮廓分析手段,其目标通常不是将每个谱带归属到单一分子,而是将与生物状态相关的可重现光谱模式进行分类,后者正是AI/ML尤其适用的场景。因此无标记SERS需要格外严格的基底质量、采集条件及预处理控制,因为模型会接触到光谱中的所有变异,若光谱被基底缺陷、不受控聚集或批次特异性伪影主导,机器学习可能分类实验噪声而非生物学信息,AI辅助无标记SERS的价值因此仍依赖于最初推动基底工程的核心物理要求:可重现的热点、受控的采集、稳定的预处理及可追溯的样本元数据。综上,无标记直接SERS应被视为AI辅助SERS生物传感的基础,而非完整解决方案:它建立了生物分子与振动光谱的直接关联,同时也揭示了为何需要额外控制层——生物识别界面解决目标定位问题,信号转导策略稳定光谱生成,数字SERS规范测量事件,AI/ML辅助分析则将结构化光谱变异转化为诊断信息,这一递进构成了后续章节的基础。
  3. 3.
    识别赋能的SERS:从随机吸附到可控目标定位
    无标记直接SERS依赖分析物与等离子体表面的自发相互作用,该模式在分析物体积小、丰度高且与金属界面化学兼容时表现优异,但多数生物传感问题不满足这些条件:临床相关靶标通常浓度低、嵌入复杂基质,且无法可重现地占据热点。识别赋能的SERS正是为解决该问题而出现,其主要作用不仅是提升选择性,更是将随机吸附转化为可控的目标定位。在SERS中,结合本身并不保证可测量信号:生物识别层常被描述为将靶标与背景分子分离的生化过滤器,但在SERS中它还具备额外的物理功能——决定靶标相对于等离子体近场的位置,即使受体特异性极高,若其将靶标置于距热点过远的位置,或形成易污染的厚界面,仍会在分析上失效,因此SERS中的生物识别应被视为界面工程,而非单纯的亲和化学。抗体功能化SERS平台是识别赋能传感最常用的形式之一,尤其适用于临床已确立的蛋白质生物标志物检测,近期发展的多重免疫SERS形式进一步扩展了该原理,通过不同拉曼报告分子编码多个生物标志物相关信号,已在多种前列腺健康指数(prostate health index, PHI)相关检测中得到验证。抗体具备高亲和力、广泛的生物医学相关性及与临床免疫分析格式的兼容性,在夹心型SERS检测中尤为实用:捕获抗体固定生物标志物,拉曼标记的检测探针产生光学信号。但抗体尺寸较大,会在捕获靶标与等离子体表面之间引入距离损失,且随机固定可能阻塞结合域或产生异质的表面覆盖,因此抗体-SERS平台的性能不仅取决于结合亲和力,同样取决于取向控制、探针密度、间隔基设计及抗污染回填。适配体与多肽提供了更紧凑的替代方案:适配体可化学合成、通过定义的连接子修饰,并可设计为发生靶标诱导的构象变化,适用于传感机制依赖报告分子、靶标与热点间距变化的场景;多肽则提供更短的识别基序,可减少界面位阻拥挤,这些特性对SERS极具吸引力,因为近场耦合随距离快速衰减,更小的识别元件可提升结合事件产生可测量光谱响应的概率。分子印迹聚合物(MIPs)提供了另一条识别路径:它不依赖生物受体,而是在合成聚合物基质中创建形状和化学性质互补的空腔,具备储存稳定性好、耐苛刻条件、对生物探针完整性依赖低的优势,其原理是通过印迹空腔作为合成识别位点,将分析物限制在SERS活性基底附近,无需抗体或适配体即可实现选择性光谱读出。MIP-SERS的优势也带来了核心设计挑战:识别发生在聚合物基质内部,若基质过厚、过密或与等离子体场未对齐,就会成为屏障——在有效近场外捕获的靶标虽可被化学识别,却无法产生可检测的光谱信号,因此MIP-SERS的性能取决于空腔位置、基质厚度、分子扩散与等离子体耦合的协调,是识别与信号生成不可分离设计的典型例证。识别赋能的SERS也已超越平面基底与传统检测形式:微针集成SERS贴片将识别拓展到可穿戴与原位检测场景,设备需穿透或接触生物组织、采样局部生化环境,并在实际约束下生成拉曼可读响应,因此识别赋能传感已不仅是表面捕获,而是将识别事件嵌入同时控制采样、传输与光学读出的器件架构中。识别界面还会影响下游数据分析的质量:通过缩小吸附几何范围并抑制非特异性背景,它们能在计算模型介入前就提升光谱模式的可重现性;控制不佳的界面会导致吸附几何、背景信号与强度的广泛变异,基于此训练的模型可能学习到表面伪影而非靶标生物学特征,而设计良好的识别界面可在计算开始前就收窄这种变异。但这并非意味着识别层能完全解决SERS生物传感问题:抗体可提升特异性,但会增加与热点的距离;适配体与多肽减少了位阻损失,却可能对离子强度或基质组成敏感;MIPs提供了稳健性,但会带来扩散与厚度限制;可穿戴识别平台提升了部署潜力,却增加了机械与采样变异性。所有场景的核心问题始终一致:识别是否能产生稳定且可解读的SERS响应。因此识别赋能的SERS是超越无标记直接检测的第一个主要架构层,它赋予传感系统目标定位的控制权,但许多被捕获的靶标仍无法自行产生强且稳定的拉曼信号,这一局限推动了下一个架构层的发展——信号转导与扩增:不再要求靶标自身产生测量光谱,而是由转导系统将识别事件转化为更强、更稳定、更易测量的SERS输出。
  4. 4.
    信号转导与扩增:从靶标光谱到设计型响应
    生物识别界面改善了靶标被捕获的位置,但并不总能解决“测量什么”的问题。许多临床相关靶标是弱拉曼散射体、丰度低,或难以可重现地置于热点内,即便捕获具有选择性,靶标本身的固有拉曼信号仍可能微弱、多变或被生物背景掩盖。信号转导策略正是为解决该问题而发展。这一转变从根本上改变了传感架构:在转导型SERS中,靶标无需自行产生测量光谱,而是触发一个识别事件,该事件再被转化为更强或更结构化的拉曼响应,这改变了SERS的角色——它不仅是一种直接读取靶标分子的方法,更成为一种读取工程化检测输出的方法。报告分子介导的纳米标签是这一转变最清晰的例证:拉曼报告分子被置于等离子体纳米颗粒上或内部,通常带有保护壳层与靶向配体,报告分子被选择为能产生强、稳定且具有光谱区分度的信号,生物识别元件则负责特异性,在该架构中,识别与光谱生成不再是同一过程——靶标决定纳米标签的结合位置,而报告分子决定所测光谱的特征。这种分离具有多重优势:首先降低了对生物标志物固有拉曼截面的依赖,蛋白质、核酸、囊泡或病原体只要能招募强SERS标签,无需本身是强拉曼散射体;其次提升了多重检测能力,不同报告分子可产生 distinct 拉曼峰,允许并行测量多个靶标;第三,由于光谱特征被预定义,而非完全依赖不受控的吸附几何,输出更适配定量与AI辅助分析。免疫-SERS将这一逻辑延伸到成熟的诊断格式:在典型夹心免疫-SERS检测中,捕获抗体固定靶标,拉曼标记的检测抗体产生读出信号,因此测量光谱由标签产生,而非抗原本身,该架构特别适用于蛋白质生物标志物检测——无标记直接SERS常受限于取向效应与表面偏倚采样。但免疫-SERS也引入了新设计约束:捕获表面、靶标、抗体层、报告颗粒与等离子体热点必须以兼容的几何结构排布,间距过大削弱信号,探针密度过高则增加位阻与非特异性结合,因此免疫-SERS不仅是“带有拉曼检测的免疫分析”,更是一种分层信号组装架构。值得注意的是,并非所有免疫-SERS格式对AI/ML的需求都相同:在简单的单靶标夹心免疫-SERS检测中,测量光谱主要由已知拉曼报告分子产生,若报告峰强、孤立且可重现,传统峰强度分析、比率校准或经典多元分析已足够,此时AI/ML对识别靶标信号并非必需,因为光谱通道已由报告分子化学预先定义。但当免疫-SERS检测变得复杂时,AI/ML的作用会更显著:在高度多重化的纳米标签检测中,报告峰会重叠、颗粒批次间报告分子负载可变、基质背景会扭曲标签信号的表观强度;在侧向层析或成像型免疫-SERS格式中,测量响应还会受测试线异质性、读卡器对准度及空间采样位置影响,在这些条件下,AI/ML的价值不在于报告分子光谱未知,而在于检测输出需要在批次、仪器或样本基质间进行解卷积、归一化、质量控制与校准转移,因此AI/ML在稳健的单重免疫-SERS中是可选的,但在多重化、空间异质性高或临床部署的免疫-SERS系统中价值日益凸显。近期发展的多重免疫-SERS系统展示了报告分子介导架构如何从单生物标志物检测拓展到多组分临床评估,例如用不同拉曼报告分子编码多个前列腺特异性抗原(prostate specific antigen, PSA)相关生物标志物,组装成卫星免疫纳米复合物,可实现基于PHI的前列腺癌临床样本筛查,这类检测说明报告分子型SERS不仅用于信号扩增,还可实现结构化、多重化的诊断读出。CRISPR相关蛋白12a(CRISPR-associated protein 12a, Cas12a)集成的SERS提供了一种基于成簇规律间隔短回文重复序列(CRISPR)识别的可编程信号转导形式:靶标核酸激活Cas12a,激活的Cas12a随即切割与报告分子连接的核酸探针,经磁分离后改变拉曼报告分子的分布或强度,因此SERS信号报告的是靶标触发的生化反应,而非靶标核酸本身的固有拉曼光谱。该设计对低拷贝核酸靶标尤其有价值——直接SERS因靶标稀缺、散射弱且嵌入复杂样本基质而难以实现检测,通过将分子识别转化为报告分子释放、切割或富集,CRISPR-SERS构建了更易测量的信号通路。纳米酶基SERS通过催化化学遵循相同的架构逻辑:它不依赖“存在或不存在”的报告分子,而是将靶标识别或靶标诱导的化学反应转化为反应介导的信号生成,催化纳米颗粒或类纳米酶底物可将无拉曼活性或弱拉曼活性的前体转化为更强的拉曼活性产物(如氧化态3,3',5,5'-四甲基联苯胺,oxTMB),进而通过SERS监测,在其他设计中,靶标结合或靶标诱导的氧化还原反应可能抑制、释放或调节催化活性,例如银纳米酶修饰的金属-多酚纳米球可催化TMB氧化,并利用谷胱甘肽的氧化还原响应调控oxTMB的SERS信号,实现细胞环境中的催化SERS检测,其结果是识别事件可通过周转实现信号扩增——一个识别事件可影响多个报告分子。催化扩增对低丰度检测极具吸引力,因为它在等离子体增强之外增加了增益,但也引入了动力学变量:反应时间、底物扩散、类酶活性、pH、温度及局域浓度都会影响最终光谱,因此纳米酶-SERS不仅是纳米材料问题,更是反应工程问题,分析响应取决于识别、催化转化、传输与拉曼读出在时间与空间上的协调。基于侧向层析免疫分析(lateral-flow immunoassay, LFIA)的SERS及其他快速检测格式将信号转导带入可部署的检测形式:在这类系统中,SERS纳米标签沿试纸条或多孔膜迁移,在测试线处结合,并由便携式或台式拉曼系统读取,靶标通过拉曼报告分子的富集而非自身光谱指纹被检测,该方法保留了侧向层析的操作简便性,同时相比比色读出提升了灵敏度与多重检测能力。SERS-LFIA的价值不仅在于更低检测限,更在于它表明信号转导必须被封装为可用的流程:毛细管传输、测试线几何、报告分子稳定性、抗体密度、膜性质及拉曼采集位置都会影响结果,化学性能优异的试纸条若传输不一致或拉曼读卡器采样区域错误,仍会表现不佳,因此对即时SERS而言,检测格式本身就是传感架构的一部分。尽管化学机制各异,这些形式都遵循同一逻辑:将生物识别事件转化为比靶标本身更易测量的光谱输出,输出可以是拉曼报告峰、条码模式、切割探针、催化产物或测试线图谱,这种结构化输出对AI辅助SERS尤为重要——当输入数据可重现、可解读且与已知信号通路关联时,机器学习模型的性能更佳。但转导并未消除变异性,只是将其转移到系统的不同部分:纳米标签可能在报告分子负载或聚集状态上存在批次差异,免疫-SERS可能在抗体取向与夹心间距上存在变异,CRISPR-SERS依赖反应效率与探针切割,纳米酶-SERS依赖催化动力学,LFIA-SERS依赖流动、富集与读卡器几何。这些因素必须在计算分析被采信前得到控制。因此信号转导应被理解为SERS生物传感的第二个主要架构层:直接SERS要求靶标生成光谱,识别赋能SERS要求界面放置靶标,转导型SERS要求靶标触发设计型光谱响应,这一递进使信号更强、更结构化,但也让传感系统更复杂。当SERS信号通过结构化检测、报告分子模式、数字图谱或多重读出生成后,剩余挑战是如何可靠地表示与解读这些信号:数字SERS通过将波动强度转化为可计数事件解决测量侧的问题,AI/ML辅助分析则通过从复杂光谱数据中提取诊断意义解决解读侧的问题,二者共同构成SERS生物传感架构的下一层。
  5. 5.
    数字SERS与AI/ML辅助解读:从光谱测量到诊断推断
    信号转导策略使SERS输出更强、更结构化,但它们本身并未解决测量变异性与诊断解读的问题:拉曼报告分子强度可能波动,测试线可能存在空间异质性,多重光谱可能存在峰重叠,无标记生物流体光谱可能同时反映多种微弱的生化变化。随着SERS生物传感向真实样本与临床决策推进,核心问题再次转变:应如何表示测量信号,又应如何解读?数字SERS与AI/ML从不同侧面应对这一问题:数字格式规范测量本身,AI/ML方法则处理所得光谱的复杂性。数字SERS通过改变测量格式,从纯模拟强度平均转向可计数、分区或基于事件的读出;AI/ML则通过将光谱视为高维模式而非少数人工选定的拉曼波段,改变解读格式。传统SERS中,定量常依赖峰强度,这一方式十分脆弱,因为SERS强度受热点异质性、局域报告分子浓度、分子取向、激光聚焦及基底变异的强烈影响,少量高增强位点即可主导测量信号,因此即使分析物浓度相同,若局域热点分布不同,两次测量也可能产生不同强度,导致SERS尽管灵敏度高,却常难以成为常规定量技术。数字SERS试图降低对这种波动强度的依赖:它不问平均信号有多强,而是问有多少个测量单元呈阳性,这些单元可以是纳米柱、液滴、微腔、像素、Mapping区域或单颗粒事件,输出变为事件计数、占据分数、二值图谱或概率估计,这种方式并未消除所有误差来源,但改变了测量的统计学特性——定量更少依赖少数不受控的热点,更多依赖可检测事件的数量与分布。数字纳米柱SERS平台是这一逻辑的例证:大量空间分离的等离子体纳米柱充当离散传感位点,平台不依赖整体平均强度,而是检测和计数多个纳米结构单元上的分子事件,使测量更适配统计解读,并减少局域热点变异的影响。需注意数字SERS不应与AI混淆,其主要贡献是产生结构化、可计数的测量输出,更易于定量、比较与验证。AI/ML辅助SERS则解决另一局限:即使测量稳定,光谱本身仍可能难以解读。在生物样本中,诊断相关信息很少局限于一个主导拉曼峰,而是分布在峰位置、相对强度、基线形状及相关光谱区域的诸多微小变化中,这在血清、血浆、尿液、细胞外囊泡及细胞的检测中尤为明显——SERS光谱往往反映的是生化状态,而非单一纯化分析物。传统基于峰的分析在靶标峰已知、孤立且可重现时是有用的,但许多SERS生物传感问题不满足这些条件:疾病相关光谱差异可能很细微,基质效应可能偏移或掩盖谱带,多重报告分子可能重叠,患者样本可能因与疾病无关的因素而产生变异,在这些条件下AI/ML方法变得有用,因为它们可以在数据被正确收集与验证的前提下,学习整个光谱轮廓中的模式。外泌体-SERS-AI示例代表了第二个方向:外泌体携带与其起源细胞和疾病状态相关的复杂分子信息,其SERS光谱不是简单的单分析物指纹,而是由膜成分、蛋白质、脂质及其他囊泡相关分子塑造的复合光谱轮廓,深度学习分析可将这些轮廓转化为患者层面的决策输出,包括癌症分类与组织起源推断,该示例说明AI/ML对无标记或最少标记的SERS系统尤为重要——诊断信号分布在全谱中,而非集中在某个明显的峰上。这一区分也有助于厘清AI/ML在内在与外源SERS中的作用:内在或无标记SERS的测量光谱由分析物及其周围基质直接产生,诊断信息常分布在微弱、重叠且样本依赖的光谱特征中,此时AI/ML可成为分析流程的核心,因为相关光谱模式可能无法通过少数预定义峰捕获;相比之下,外源SERS(包括许多免疫-SERS与纳米标签检测)的测量光谱由外源报告分子有意生成,当报告分子信号简单且分离良好时,AI/ML可能仅提供传统校准之外的有限增益,其附加价值主要体现在报告分子系统多重化、光谱串扰出现、空间图谱或试纸条图像需要解读,或检测变异需要在批次与仪器间校正时。因此AI/ML不应被表述为所有SERS生物传感器的通用要求,其必要性取决于不确定性进入测量的环节:对无标记SERS而言,不确定性常来自生物光谱本身;对免疫-SERS而言,不确定性更多来自报告分子重叠、检测几何、批次间变异及部署条件。这一差异很重要,因为它避免了将AI/ML过度泛化为设计良好的报告分子化学的替代品,相反,AI/ML应被用于解决那些无法通过单变量或传统多元分析可靠处理的真实分析问题。细菌病原体检测是AI/ML可大幅改进SERS或拉曼光谱解读的另一重要示例:全细胞细菌光谱本身就很复杂,因为包含了细胞壁组分、蛋白质、脂质、核酸、代谢物及生长状态依赖的生化变异的贡献,此外细菌光谱还会随培养条件、样本制备、菌株身份、抗生素暴露及基底相互作用而变化,因此仅靠特征拉曼峰归属往往不足以实现可靠的种或菌株水平鉴定,基于深度学习的拉曼或SERS分析已被用于将病原细菌、抗生素治疗组及耐药菌株从高维光谱数据集中分类,这些研究表明,当诊断信息分布在全细胞光谱轮廓中而非集中于一个或两个孤立拉曼峰时,AI/ML尤为有用。细菌检测文献因此将AI/ML辅助SERS生物传感的应用从癌症生物标志物与细胞外囊泡拓展出去,并凸显了数据集规模、生物重复及批次分离验证的重要性。近期AI辅助SERS还被拓展到抗菌诊疗一体化系统,例如将AI辅助SERS生物传感与光激活抗菌治疗集成在Au@Cu2?xSe平台中用于多重耐药菌,表明AI-SERS不仅可用于细菌鉴定,还可用于面向治疗的抗菌应用。在AI辅助SERS中,模型开发始于光谱数据集的质量,而非算法选择:光谱采集必须在激光波长、功率、积分时间、Mapping面积及采样密度上标准化,基底批次应被表征,患者与样本元数据必须被追踪,若无这些控制,模型可能学习到实验伪影而非生物学差异,这在SERS中风险尤其高,因为基底批次、采集日期、操作人员、预处理方法及样本处理都会在光谱中留下强烈印记。因此预处理并非次要技术步骤,它定义了模型将看到的内容:基线校正、宇宙射线去除、平滑、归一化、光谱范围选择及波数校准都会塑造输入数据,这些操作可提升可比性,但若在选择时已查看类间分离情况,也可能引入偏差,对临床AI-SERS而言,预处理应被视为分析方案的一部分,并在最终验证前固定,模型的可靠性不会超过用于训练它的光谱表示的可靠性。模型选择应由数据集规模、光谱复杂性及输出预期用途引导,而非仅由算法新颖性驱动:当数据集适中且可解释性重要时,主成分分析-线性判别分析(principal component analysis–linear discriminant analysis, PCA-LDA)、支持向量机(support vector machines, SVMs)及随机森林等经典方法仍有用,它们可揭示是否存在广谱分离及哪些区域对分类贡献最大;当数据集更大且诊断信息分布在复杂光谱模式中时,一维卷积神经网络(one-dimensional convolutional neural networks, 1D-CNNs)等深度学习方法更具吸引力;当模型需跨仪器、基底批次或临床站点运行时,迁移学习与域适应尤为重要。除传统分类模型外,多种新兴AI策略也与SERS生物传感日益相关:迁移学习与域适应在需跨仪器、基底批次或临床站点比较光谱时很有用;自监督或表示学习方法可帮助在有限的标注临床数据可用前,利用大型未标注光谱数据集;不确定性感知模型对诊断性SERS很有用,因为它们可标记出落在已验证训练域之外的光谱;主动学习与贝叶斯优化可进一步减少实验负担,引导基底设计、光谱采集或检测优化朝向信息量最大的条件,这些方法不能替代实验验证,但可帮助AI/ML辅助SERS更具可迁移性,减少对单一数据集、仪器或实验室的依赖。可解释性对AI辅助SERS至关重要:一个表观精度很高但与合理的光谱或生化特征毫无关联的模型,仍难以解读和临床验证,SHapley Additive exPlanations(SHAP)、梯度加权类激活映射(gradient-weighted class activation mapping, Grad-CAM)及谱带重要性映射等特征归因方法,可帮助识别哪些光谱区域影响了分类,这些输出本身不应被视为生物学机制的证据,但可帮助检验模型是利用了合理的拉曼特征还是隐藏的混杂因素,对诊断技术而言,这一区分很重要。验证则更为重要:许多SERS数据集包含来自同一样本的多条光谱,若将光谱随机划分为训练集与测试集,来自同一患者或标本的信息可能同时泄漏到两个集合中,由此得到的性能可能看起来极佳,但在新患者身上会失败,因此AI辅助SERS的验证应在患者或样本层面进行,留一患者交叉验证(leave-one-patient-out cross-validation, LOPO-CV)、外部测试队列、独立仪器验证及批次分离评估远比随机光谱划分更有意义。AI/ML辅助SERS生物传感中另一个重要问题是模型开发所需的数据量与结构:迄今为止,许多SERS研究通过大量光谱报告了高分类准确率,但光谱数量并不总是代表数据集的真实规模或多样性,因为大量光谱可能来自同一患者、同一生物样本、同一细菌分离株、同一基底批次或同一采集会话,因此对AI/ML辅助SERS而言,必须区分独立样本数与光谱测量数——前者反映生物学、临床或实验多样性,后者主要反映光谱采样的密度。这一区分在SERS中尤为重要,因为光谱变异可能源于靶标与测量系统两方面:基底形貌、热点分布、激光聚焦、样本制备、基质组成及预处理都会影响测量光谱,若这些因素未在训练集与测试集间正确分离,AI/ML模型可能学习到基底或批次特异性特征,而非靶标相关光谱信息,因此AI/ML辅助SERS的数据集设计不仅要考虑收集多少光谱,还要考虑包含多少独立样本、患者、分离株、基底批次、仪器及采集天数。多项要点可从相关对比中得出:第一,当验证在患者或样本层面进行时,小型临床数据集仍可能有用,但不应将来自同一标本的重复光谱视为独立生物样本;第二,深度学习模型可受益于大型光谱数据集,但大光谱数量不能消除独立验证的需求;第三,扩增与迁移学习可减少实验负担,但应被视为支持策略,而非真实测试样本的替代品,因此未来AI/ML辅助SERS研究应在报告模型准确率的同时,同步报告学习曲线、独立样本数、每样本光谱数、基底批次信息、仪器变异
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号