单细胞RNA测序数据中线粒体DNA同质与异质性SNVs精准识别新流程的开发与应用
【字体:
大
中
小
】
时间:2025年10月09日
来源:Genomics 3
编辑推荐:
本研究针对单细胞RNA测序(scRNA-seq)数据中线粒体DNA(mtDNA)单核苷酸变异(SNVs)检测可靠性不足的问题,开发了一套包含质量控制、比对、SNV calling及注释的新型生物信息学流程。该流程通过定制化覆盖度阈值识别异质性SNVs,有效过滤测序错误、链偏好性错误和RNA修饰诱导错误,成功实现了同质性与异质性mtDNA SNVs的高精度检测,为线粒体相关疾病机制研究提供了重要技术支撑。
线粒体DNA(mitochondrial DNA, mtDNA)的突变与多种疾病密切相关,尤其在肌肉、大脑等高能量需求组织中表现突出。这些突变通常以单核苷酸变异(single nucleotide variants, SNVs)的形式存在,并可分为同质性(homoplasmic,所有mtDNA分子携带相同突变)和异质性(heteroplasmic,仅部分mtDNA分子携带突变)两种类型。理解这些SNVs在单细胞水平的分布与特征,对于揭示其致病机制和临床表现形式至关重要。尽管目前已有大量公开的单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)数据,但现有分析流程在从scRNA-seq数据中可靠检测mtDNA SNVs方面仍存在明显不足,例如难以有效区分真实变异与测序错误、链偏好性偏差以及RNA修饰引入的人工假象。
为应对这一挑战,研究人员开发了一套新型生物信息学流程,专门用于从scRNA-seq数据中识别同质性和异质性mtDNA SNVs。该流程整合了质量控制、线粒体基因组比对、SNV calling和注释等多个步骤,并特别设计了针对测序错误的过滤策略。其中,覆盖度依赖性阈值可自定义,以灵敏捕捉低频率异质性SNVs;重复读段(duplicate reads)被保留,因研究证实多数为真实生物重复;此外,通过剔除链偏好性错误(阈值设定为链比例超过1:3)、RNA修饰诱导错误(同一位置存在多个替代等位基因)以及过度表达的SNVs,显著提升了检测准确性。
该研究已发表于《Genomics》,其核心方法包括:利用公共scRNA-seq数据集(未注明具体队列来源),通过比对至线粒体基因组(参考序列为GRCh38)实现读段定位;采用GATK等工具进行SNV calling;设置覆盖度阈值识别异质性SNVs(最低频率阈值可调);并基于生物信息学规则过滤系统误差。
质量控制与比对
研究团队首先对原始scRNA-seq数据实施严格质控,去除低质量读段和接头序列。随后,将清洁读段比对至人类线粒体基因组,确保高特异性映射率,为后续SNV分析奠定基础。
SNV Calling与错误过滤
在SNV检测阶段,流程采用灵敏度较高的caller初步识别候选位点,并通过覆盖度依赖性阈值区分同质性与异质性SNVs。为减少假阳性,研究人员开发了多层级过滤策略:排除链偏好性显著偏离1:3比例的位点;剔除同一位置存在多个替代等位基因的位点(提示RNA修饰干扰);移除在多个细胞中过度重复出现的SNVs(可能源于扩增偏差)。
注释与功能分析
最终通过的SNVs经注释工具解读其潜在功能影响,如是否位于编码区或改变氨基酸序列,从而评估其生物学意义。
研究结论表明,该流程能高效、可靠地从scRNA-seq数据中检测同质性与异质性mtDNA SNVs,解决了现有方法误差率高、灵敏度不足的问题。讨论部分强调,这一工具为利用公共scRNA-seq资源研究线粒体遗传变异提供了标准化方案,尤其适用于能量代谢疾病(如线粒体肌病、神经退行性疾病)的机制探索,未来有望推动精准医学中线粒体变异检测的临床应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号