拷贝数变异与多倍体基因组中的短串联重复基因分型新工具:ConSTRain的开发与应用

《Communications Biology》:Genotyping short tandem repeats across copy number alterations, aneuploidies, and polyploid organisms

【字体: 时间:2025年10月09日 来源:Communications Biology 5.1

编辑推荐:

  本研究针对现有短串联重复序列(STR)基因分型工具无法有效处理拷贝数变异(CNA)、非整倍体及多倍体基因组的局限性,开发了新型工具ConSTRain。该工具通过显式整合位点拷贝数信息,在人类二倍体基准测试中实现98.28%的准确率,并在唐氏综合征模拟样本、三倍体香蕉及结直肠癌类器官中成功解析复杂STR基因型。ConSTRain为癌症基因组学、植物遗传学等领域的STR研究提供了首个支持多倍体分析的解决方案,填补了现有技术空白。

  
在基因组中,短串联重复序列(Short Tandem Repeats, STR)如同动态变化的“遗传条纹”,其长度变异可调控基因表达,甚至直接参与疾病发生。然而,这些高度变异的区域一直是基因分型领域的“硬骨头”——现有工具大多针对二倍体人类基因组设计,当面对癌症中常见的拷贝数变异(Copy Number Alterations, CNA)、唐氏综合征等非整倍体,或香蕉、小麦等多倍体作物时,便显得力不从心。这种局限性使得STR在肿瘤进化、作物育种等关键领域的研究潜力难以充分释放。
为了解决这一瓶颈,来自瑞士苏黎世应用科学大学、都灵大学等机构的研究团队在《Communications Biology》上发表了题为“Genotyping short tandem repeats across copy number alterations, aneuploidies, and polyploid organisms”的研究,推出了全新STR基因分型工具ConSTRain。该工具的核心突破在于将位点特异性拷贝数信息直接纳入基因分型模型,首次实现了从二倍体到多倍体、从正常基因组到复杂结构变异样本的STR精准解析。
关键技术方法概述
研究主要基于Rust语言开发的ConSTRain算法,其输入包括测序比对文件(BAM/CRAM)、STR参考面板(BED)和染色体核型文件(JSON),可选提供CNA区域信息。工具通过解析跨STR区域的读段(spanning reads)构建等位基因长度分布,基于拷贝数生成所有可能基因型矩阵,通过曼哈顿距离最小化选择最可能基因型。基准测试使用HG002细胞系100X全基因组测序(WGS)数据(来源:Genome in a Bottle),并利用T2T联盟的Q100单倍型作为金标准;多倍体验证采用三倍体香蕉(Musa acuminata,数据来源:欧洲核苷酸档案PRJEB33317)和微卫星不稳定结直肠癌类器官WGS数据(来源:欧洲基因组表型档案EGAD50000000411)。
研究结果
ConSTRain在二倍体人类测序数据中实现高精度基因分型
在100X WGS的HG002样本中,ConSTRain对超过170万个STR位点进行分型,未过滤时准确率达95.25%,经标准化深度过滤后提升至98.28%。即使在测序深度降至10X时,过滤后准确率仍保持在94.75%。研究同时发现,长STR等位基因(>120 bp)因测序读长限制存在检测盲区,但绝大多数人类STR(95%以上)长度小于30 bp,适用于常规短读长测序。
ConSTRain在非整倍体与多倍体场景中展现优势
在模拟21三体(唐氏综合征)样本中,ConSTRain准确区分了单等位基因(AAA)、双等位基因(AAB)和三等位基因(ABC)型,总体准确率达98.39%。相比之下,传统工具GangSTR和HipSTR无法处理三倍体位点,仅能报告二倍体基因型(如将ABC型误判为AB型)。此外,在三倍体香蕉样本中,ConSTRain成功识别染色体02大片段重复区域的四倍体化STR,并通过标准化深度过滤有效排除异常位点(提供CNA信息后,重复区域位点过滤率从27.04%降至3.44%)。
ConSTRain揭示癌症类器官的STR异质性
对微卫星不稳定结直肠癌类器官的WGS分析显示,ConSTRain可量化样本间STR差异:二倍体原始株系与克隆05-0差异最小,而两个经历全基因组复制的四倍体克隆(01-0与07-0)间STR距离最大,提示肿瘤内存在独立进化事件。这一结果表明ConSTRain可用于追踪肿瘤克隆演化与异质性。
结论与展望
ConSTRain是首个能够系统处理拷贝数变异、非整倍体及多倍体基因组的STR基因分型工具,在保持高精度(>98%)的同时,其多线程运行效率较现有工具提升超45倍。研究突破了STR分析在癌症基因组学(如考虑CNA的eSTR鉴定)和作物遗传学(如多倍体物种STR研究)中的技术壁垒,为探索STR在结构变异背景下的生物学功能提供了通用框架。未来工作可进一步整合非完整重复单元插入缺失(out-of-phase indels)的检测能力,并拓展至长读长测序数据的大片段扩展重复分析。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号