基于机器学习的姐妹染色单体交换自动检测系统开发与应用
《Scientific Reports》:Automatic detection of sister chromatid exchanges using machine learning models and image analysis algorithms
【字体:
大
中
小
】
时间:2025年11月07日
来源:Scientific Reports 3.9
编辑推荐:
本刊推荐:传统姐妹染色单体交换(SCE)分析依赖人工显微镜观察,存在耗时久、主观性强等局限。研究团队集成Mask R-CNN染色体实例分割、Vision Transformer(ViT)图像分类与DBSCAN聚类算法,开发出全自动SCE检测系统。该系统在染色体分割准确率达91.67%,SCE计数准确率达84.10%,成功实现野生型(WT)与BLM-/-细胞SCE频率的精准区分,为染色体异常分析提供创新技术方案。
在遗传学研究和临床诊断中,姐妹染色单体交换(Sister Chromatid Exchange, SCE)作为DNA同源重组修复的重要指标,长期以来依赖实验人员通过显微镜进行人工判读。这种传统方法不仅耗时费力,更因主观判断差异导致结果波动,成为制约大规模染色体异常筛查的技术瓶颈。随着DNA损伤检测在环境毒理学、遗传病诊断等领域的应用深化,开发自动化、标准化的SCE分析系统迫在眉睫。
为解决这一难题,东京都立大学的研究团队在《Scientific Reports》发表最新研究成果,开创性地将深度学习与图像处理算法相结合,构建了端到端的SCE自动分析管道。该系统首次实现了从染色体图像预处理到SCE计数的全流程自动化,为染色体异常检测提供了新的技术范式。
研究团队采用三大核心技术模块:基于Mask R-CNN的染色体实例分割模型负责从复杂的细胞显微图像中精准分离单个染色体;Vision Transformer(ViT)分类器对分割后的染色体进行SCE初筛;针对ViT难以准确计数多交换点的挑战,创新性地引入DBSCAN空间聚类算法,通过色谱体骨架分析和参考点定位实现SCE数量的精确量化。
关键技术方法包括:利用Detectron2框架构建Mask R-CNN染色体检测模型,采用ImageNet-21k预训练的ViT-Base模型进行迁移学习,结合OpenCV图像处理库和DBSCAN聚类算法开发SCE计数流程。实验样本来源于野生型TK6细胞和BLM基因敲除(BLM-/-)TK6细胞系。
通过912个单染色体和243个多染色体图像训练Mask R-CNN模型,结果显示可分析比率(AR)达91.67%。该模型能有效区分紧密排列或部分重叠的染色体,为后续分析提供高质量的单染色体图像。
使用536个SCE阳性和等量阴性染色体图像训练ViT模型,在验证集上准确率快速收敛至96.4%。值得注意的是,当直接处理Mask R-CNN输出的真实数据集(含9.78%不可分析染色体)时,模型仍保持85.37%的分类准确率。
单独使用图像处理算法时SCE计数准确率为75.98%,而与ViT模型联用后提升至90.32%。这种提升源于ViT对SCE阳性染色体的有效筛选,使算法专注于更易分析的样本。最终集成系统在358个WT细胞染色体上的整体准确率达到84.10%。
在关键的应用验证中,系统成功检测到BLM-/-细胞(0.814 tpc)与WT细胞(0.182 tpc)之间的SCE频率差异,与人工计数结果(0.967 tpc vs 0.191 tpc)高度一致。这一结果不仅验证了系统的可靠性,更证明其能有效捕捉遗传背景差异导致的生物学变化。
研究同时揭示了系统优化的三大方向:首先,当前模型对染色不佳或前中期染色体的误判率较高,需通过扩充训练数据集提升Mask R-CNN的鲁棒性;其次,弯曲染色体的错误分类问题可通过图像矫直算法加以改善;最后,随着多SCE样本数据的积累,未来有望实现纯机器学习模型的端到端SCE计数。
这项研究标志着染色体异常分析正式迈入智能化时代。通过巧妙融合计算机视觉与遗传学分析需求,该技术框架不仅为SCE检测建立了新标准,更为其他染色体异常(如染色体断裂、融合等)的自动化分析提供了可扩展的技术平台。随着数据集的持续扩充和算法迭代,这种基于深度学习的方法有望成为遗传毒性评价、疾病诊断和基础研究的革命性工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号