
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于RNA-Seq数据的VarRNA方法揭示癌症致病变异等位基因特异性差异表达
【字体: 大 中 小 】 时间:2025年05月29日 来源:Communications Medicine 5.4
编辑推荐:
研究人员开发了新型计算工具VarRNA,通过XGBoost机器学习模型从肿瘤RNA-Seq数据中精准分类SNV和indel变异(区分胚系/体细胞/假象),在儿童癌症队列验证中识别出50%的DNA外显子组变异及独特RNA编辑事件,首次发现致癌基因中变异等位基因表达显著高于DNA预测水平,为癌症机制研究和精准治疗提供新视角。
癌症基因组学研究长期面临肿瘤样本量不足的困境,当活检组织稀缺时,DNA测序往往难以开展。而RNA作为DNA的转录产物,不仅能反映基因表达动态,还携带遗传变异信息,却因RNA编辑、剪接复杂性等技术挑战,导致传统方法难以区分肿瘤特异性突变与转录噪声。更关键的是,现有RNA变异检测工具多针对正常组织胚系变异设计,无法解决肿瘤样本中体细胞突变识别、等位基因表达失衡(Allele-Specific Expression, ASE)等核心问题。
为解决这些难题,美国Nationwide Children's Hospital等机构的研究团队开发了VarRNA——首个专门针对肿瘤RNA-Seq数据的变异分类系统。这项发表于《Communications Medicine》的研究通过双重XGBoost模型,实现了单核苷酸变异(SNV)和插入缺失(indel)的精准分类,不仅识别出外显子组测序(Exome Sequencing, ES)50%的变异,更首次发现致癌基因中变异等位基因表达水平远超DNA预测的现象。例如MSH6基因突变在DNA中呈杂合状态(VAF 44.1%),而RNA中变异等位基因表达竟高达94.2%,揭示了错配修复缺陷导致超突变表型的关键机制。
关键技术方法包括:1)使用儿童癌症队列(NCH,n=77)和成人胶质母细胞瘤(GBM,n=9)的配对肿瘤/正常DNA外显子组测序作为金标准;2)STAR双通道比对和GATK HaplotypeCaller进行RNA变异初筛;3)通过覆盖度过滤(≥10 reads)和区域注释(排除重复序列/非外显子区)优化数据质量;4)构建两个XGBoost分类模型(真变异vs假象、胚系vs体细胞),采用SHAP值解析特征重要性;5)利用ZERO Childhood Cancer Program(ZCC)数据集进行独立验证。
模型性能评估
VarRNA在测试集(8931个变异)中展现出优异性能:真变异召回率95.1%(假象过滤精度93.6%),胚系变异分类精度达97.3%。相较于GATK Variant Filtration,其AUPRC(精确召回曲线下面积)从0.786提升至0.961,假阳性率降低3倍。特别值得注意的是,在肿瘤纯度>80%的样本中,体细胞变异识别灵敏度提高35%,证实其对高质量样本的分析优势。
变异特征解析
SHAP分析揭示:群体频率(gnomAD AFraw)是区分胚系变异的最强特征(OR=8.2),而临床致病性预测(ClinPred评分)和进化保守性(PhyloP>2)对体细胞变异判断贡献最大。研究还发现,支持变异等位基因的读长中位数(MFRLALT)异常增长会显著增加假象判定概率,这与DNA测序中长片段易产生测序误差的规律一致。
DNA与RNA变异谱差异
在44例NCH患者中,VarRNA检测到12,486个RNA特异性变异(占总量2.5%),其中62%源于DNA测序覆盖不足或捕获探针失效。典型案例如STAG2基因移码突变(DNA VAF 51.8% vs RNA VAF 97.4%),其RNA单等位基因优势表达提示Ewing肉瘤不良预后特征,这一发现仅通过DNA分析极易遗漏。
临床价值验证
在1例仅存RNA数据的儿童高级别胶质瘤中,VarRNA成功鉴定出FGFR1 p.N546K激酶域热点突变和PIK3R1 iSH2功能域缺失(6bp缺失),与脑脊液游离DNA检测结果完全一致。这些变异均被OncoKB数据库列为Ⅰ/Ⅱ级临床可操作靶点,证实了该方法在微量样本中的临床应用潜力。
这项研究开创性地建立了肿瘤RNA-Seq变异分析的标准化流程,其核心突破在于:1)首次实现无配对照样本的体细胞突变识别;2)揭示致癌基因中变异等位基因的"表达优势"现象;3)提供RNA编辑事件的系统检测方案。从转化医学角度看,VarRNA使临床医生能够利用常规转录组数据获取突变谱和表达调控信息,尤其适用于穿刺小样本分析。未来通过整合单细胞测序和表观组学数据,该方法有望进一步解析肿瘤异质性背后的分子机制,为个体化治疗策略制定提供多维依据。
生物通微信公众号
知名企业招聘