TomoPicker:基于正未标记学习的冷冻电子断层扫描大分子定位方法实现高标注效率
《Briefings in Bioinformatics》:Localization of macromolecules in crowded cellular cryo-electron tomograms from extremely sparse labels
【字体:
大
中
小
】
时间:2025年11月29日
来源:Briefings in Bioinformatics 7.7
编辑推荐:
本研究针对冷冻电子断层扫描(cryo-ET)中大分子定位需大量标注数据的瓶颈,开发了TomoPicker方法。通过将大分子定位转化为体素分类问题,并结合两种正未标记(PU)学习策略(非负风险估计与KL散度正则化),仅需10个标注大分子位置即可达到传统监督方法需数百标注的效果。在拥挤的真核细胞数据集(如S. pombe)和原核细胞(如M. pneumoniae)上的实验表明,TomoPicker在稀疏标注场景下F1分数提升最高达170%,显著优于DeepETPicker等现有方法。该工作为原位结构生物学提供了高效的自动化分析工具。
在结构生物学领域,冷冻电子断层扫描(cryo-electron tomography, cryo-ET)技术能够以接近原生状态的分辨率可视化细胞内部大分子的三维结构,为揭示生命活动的分子机制提供了强大工具。然而,从拥挤的细胞环境中精准定位目标大分子(如核糖体)仍是重大挑战。传统模板匹配方法存在模板依赖性偏差且计算效率低,而基于深度学习的方法虽能实现高通量定位,却依赖大量人工标注数据——这对信号噪声比低、体积庞大的细胞断层扫描图像而言极为耗时。现有学习型方法如DeepETPicker在标注稀疏时性能显著下降,且多局限于稀疏单粒子或原核细胞场景,难以应对高度拥挤的真核细胞环境。
为突破这一瓶颈,研究人员在《Briefings in Bioinformatics》上发表了题为“Localization of macromolecules in crowded cellular cryo-electron tomograms from extremely sparse labels”的研究,开发了名为TomoPicker的标注高效大分子定位方法。该方法将大分子定位问题转化为体素级二分类任务,创新性地引入两种正未标记(positive-unlabeled, PU)学习策略:基于非负风险估计的PU学习与基于KL散度正则化的PU学习。通过仅需10个标注大分子位置(占全数据集约0.04%),TomoPicker在真核生物S. pombe(含VPP与无VPP成像)和原核生物M. pneumoniae的细胞断层扫描数据上,实现了与监督方法使用500个标注相当的定位性能,显著降低了标注负担。
- 1.数据预处理与生成:对断层扫描图像进行标准化与对比度增强,通过滑动窗口提取子体积并生成对应球形标注掩码;
- 2.基于MultiResUNet的体素分类器设计,支持残差连接与上采样路径;
- 3.正未标记学习损失函数:分别采用非负风险估计(通过梯度选择策略优化)和KL散度约束(使未标注区域预测值逼近预期大分子比例);
- 4.推理时基于分数阈值与非极大抑制的坐标提取流程。实验使用EMPIAR-10988(S. pombe)和EMPIAR-10499(M. pneumoniae)等公共数据集,以F1分数为核心指标评估定位准确性。
TomoPicker大分子定位结果与专家标注高度吻合
在仅使用10个标注位置的训练条件下,TomoPicker(KL)在VPP数据集TS_0003切片(z=500)和去噪后无VPP数据集TS_045切片(z=250)的视觉对比中,其预测边界框与真实标注的重合度最高,显著优于CrYOLO(漏检严重)和DeepETPicker(假阳性过高)。
在VPP数据集中,TomoPicker(KL)仅用10个标注取得的平均F1分数(0.46)与监督方法使用500标注时的性能(DeepETPicker为0.57)接近,相当于减少98%标注需求。在无VPP数据集中,其F1分数(0.36)较DeepETPicker(0.26)提升40%。
随着训练标注数量减少,TomoPicker(KL)的性能优势进一步扩大。在VPP数据集中,其F1分数较DeepETPicker提升170%;在M. pneumoniae数据的定性评估中,其定位结果更符合真实分布,而监督方法出现随机错误预测。
KL散度正则化方法(TomoPicker(KL))在稀疏标注下稳定性最优,其性能受预期大分子数量估计偏差影响较小;而非负风险估计方法(TomoPicker(PU))虽优于传统PN学习,但仍存在较多假阳性。
本研究提出的TomoPicker框架通过正未标记学习有效解决了拥挤细胞环境中大分子定位的标注效率问题。其核心创新在于将PU学习理论引入cryo-ET数据分析,使模型在极稀疏标注(10个位置)下仍能保持高精度,为原位结构生物学研究提供了可扩展的自动化工具。该方法尤其适用于真核细胞等高拥挤度场景,且对成像条件(如VPP使用)具备鲁棒性。未来可进一步结合自监督学习或跨物种迁移学习,扩展至更多大分子类型与细胞环境。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号