
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于卷积自编码器的荧光显微图像无监督伪影检测新方法及其在生物标志物定量分析中的应用
【字体: 大 中 小 】 时间:2025年09月13日 来源:Scientific Reports 3.9
编辑推荐:
本刊推荐:为解决荧光显微镜图像分析中伪影干扰定量准确性的问题,研究人员开展了一项关于使用卷积自编码器(CAE)进行无监督伪影检测的研究。该研究通过训练CAE仅学习无伪影图像的特征,利用图像重建误差(IRE)成功检测出多种未知伪影,平均准确率达95.5%。该方法无需伪影图像训练集,为高通量显微成像分析提供了轻量级、高通用性的自动化质量控制解决方案,对提升蛋白质寡聚体生物标志物检测的可靠性具有重要意义。
在荧光显微镜成像领域,确保分析准确性始终面临着一个核心挑战:图像伪影的干扰。这些不请自来的“噪音”可能源自显微镜本身、实验材料或样本处理过程,形式多样——从光片荧光显微镜中常见的条纹伪影,到全内反射荧光(TIRF)显微技术中因浸没油气泡导致的问题,乃至样本制备中产生的荧光杂质或尘埃污染。尤其在进行定量分析时,这些伪影会显著扭曲 assay 读数值,直接影响结果的科学性。
传统解决方案主要依赖人工筛查,但这种方法效率低下且易受主观偏差影响。虽然人工智能方法尤其是卷积神经网络(CNN)已被应用于伪影识别,但它们通常只能检测训练集中已知的伪影类型。要构建一个涵盖所有可能伪影类型的大规模训练集,既不现实也不经济。更棘手的是,在自动化工作流程中,未被训练过的全新伪影类型可能持续污染数据而难以被发现。
正是在这样的背景下,一项创新性研究在《Scientific Reports》上发表,提出了一种突破性的解决方案:利用卷积自编码器(Convolutional Autoencoder, CAE)实现无需伪影训练图像的无监督伪影检测。这种方法的核心思想是“学会正常,异常自现”——通过训练CAE仅学习无伪影图像的特征,使其能够准确重建正常图像,而对包含伪影的图像则会产生较大的重建误差,从而实现伪影的自动识别。
研究人员主要采用了表面荧光强度分布分析(sFIDA)技术生成的图像作为研究模型。sFIDA是一种高通量荧光显微镜技术,专门用于定量检测作为蛋白质错误折叠疾病生物标志物的各种蛋白质寡聚体。该技术每个样本通常产生至少100张图像,数据量庞大,使人工伪影检测成为分析流程中的瓶颈。研究使用了六个不同的数据集,包括人工制备的Aβ包被硅纳米颗粒(SiNaPs)和来自真实人类样本的血浆及脑脊液(CSF)数据,涵盖了不同的实验、分析物和基质类型。
关键技术方法包括:首先对原始图像进行预处理(高斯模糊去噪和强度阈值处理),然后使用缩减尺寸后的图像训练卷积自编码器。CAE的网络结构经过优化,包含卷积层、最大池化层和转置卷积层,使用RELU激活函数。通过计算输入与输出图像之间的图像再现误差(IRE)的99.99百分位值作为伪影检测指标,并采用基于分位数的阈值设定方法进行分类判断。
研究结果显示,在所有数据集中,含伪影图像的IRE值 consistently 高于无伪影图像。统计检验表明这种差异具有高度显著性(P值最大为6.78e-13)。通过受试者工作特征(ROC)分析得到的曲线下面积(AUC)值在0.9644到0.9998之间,证明了IRE在区分两类图像方面的卓越性能。值得注意的是,基于相同实验但不同批次的数据集(数据集2、3、4)显示了 comparable 的IRE水平,而基于不同assay的数据集则表现出 varying 的IRE水平。
应用数据集特异性阈值进行分类,CAE模型在全部测试集上达到了95.5%的平均准确率,平均灵敏度为94.2%,平均特异性为96.1%。即使在基于脑脊液样本的数据集6(与其他血浆基质数据集不同)中,虽然灵敏度相对较低,但仍达到了88.0%。与使用相同数据集训练的参考模型VGG-16架构CNN相比,CAE表现更优——CNN虽然实现了100%的特异性,但平均灵敏度仅为46.8%,这证实了基于学习已知伪影的方法在遇到未知伪影类型时的局限性。
该研究证实了卷积自编码器在成像分析方法中识别伪影的强大能力。图像重建误差能有效区分无伪影和含伪影图像,成为 robust 的分类特征。这种方法的主要优势在于其检测不局限于先前学习过的伪影类型,因此只需要少量手动标记的无伪影图像进行训练和少量含伪影图像进行验证,大大降低了数据准备的门槛。
研究的局限性包括阈值方法在含伪影图像比例超过50%时可能受到的影响,以及无法检测信号强度非常低的伪影(这些可能在预处理阶段已被去除)。然而,对于sFIDA应用而言,这些低强度伪影对定量分析的影响可以忽略不计。
研究人员证明了卷积自编码器代表了一种有前途的全自动、高效伪影检测方法。该方法在sFIDA图像上表现出色,能够准确区分含伪影和无伪影图像,且不受所用抗体或基质的影响。未来的研究方向包括将该方法扩展到其他类型的显微镜图像,以验证其在不同显微镜模式中的适用性,以及探索生成最优阈值的额外技术和使用元学习器进行分类的潜力。
这项研究的创新之处在于它摆脱了对已知伪影类型训练集的依赖,为高通量显微成像分析提供了一种轻量级、高通用性的自动化质量控制解决方案。特别是在神经退行性疾病生物标志物研究领域,如阿尔茨海默病(Aβ寡聚体)和帕金森病(α-Synuclein寡聚体)的检测中,该方法能够显著提高定量结果的可靠性和可重复性,为疾病早期诊断和治疗监测提供了更加坚实的技术基础。
生物通微信公众号
知名企业招聘