
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SCIG:基于遗传序列特征的机器学习方法揭示单细胞身份基因调控网络
【字体: 大 中 小 】 时间:2025年05月29日 来源:Nucleic Acids Research 16.7
编辑推荐:
为解决单细胞身份基因(CIGs)鉴定依赖表观组数据且缺乏跨细胞类型可比性的难题,波士顿儿童医院Kaifu Chen团队开发了机器学习方法SCIG。该研究整合基因表达与73种遗传序列特征(如TF结合基序、miRNA靶点等),首次实现不依赖细胞间比较的单细胞CIG鉴定,AUROC达0.95。SCIGNet模块进一步揭示内皮细胞分化中组织微环境对身份基因的特异性调控,为再生医学提供新工具。
在生命科学领域,细胞身份的决定机制一直是核心科学问题。每个细胞类型都由数百个细胞身份基因(CIGs)构成的精密网络调控,这些基因包括可诱导细胞命运转化的主转录因子(TFs)如Oct4/Sox2、维持分化必需的TF、执行特异功能的效应基因以及作为标记物的基因。然而现有技术面临三重困境:表观遗传分析成本高昂且难以应用于单细胞;基于表达差异的方法会遗漏非特异性表达的CIGs(如c-Myc在干细胞和成纤维细胞中均有表达);网络分析无法区分身份基因网络与细胞周期等无关网络。
波士顿儿童医院与哈佛医学院的Kaifu Chen团队在《Nucleic Acids Research》发表突破性研究,开发了机器学习算法SCIG。该方法创新性地利用CIGs独特的遗传序列"指纹"——包括启动子区PhyloP100way高保守性、广泛的TF结合基序分布、3'-UTR延长等73种特征,结合单细胞转录组数据,首次实现不依赖细胞间比较的CIG鉴定。
关键技术包括:1) 整合10种人类细胞类型的RNA-seq和ENCODE表观数据建立训练集;2) 采用前向特征选择从680个候选特征中优化出19个核心特征(含Gini/Tau表达特异性指数);3) 构建逻辑回归模型SCIG(AUROC 0.95)和网络分析模块SCIGNet;4) 应用hdWGCNA和CellRank分析人类胎儿心脏和神经分化单细胞数据集。
研究结果揭示:
CIGs的遗传序列特征
比较247个已知CIGs发现,其启动子区序列保守性显著高于管家基因(P<0.001),含有更多TF结合基序(如SOX2基因含12个保守基序)和miRNA靶点。独特的密码子偏好(富含甘氨酸)和低AT含量(P=2.2×10-16)提示其RNA稳定性调控机制。
SCIG算法性能验证
在HUVEC细胞中,SCIG成功识别NR2F2、MECOM等已知内皮CIGs(FDR<0.05)。仅需15%训练数据即可达到稳定性能,且对20%标签噪声保持稳健(AUROC仅下降0.2)。跨细胞类型测试显示,用5种细胞类型训练的模型可准确预测其他细胞类型的CIGs(AUROC 0.91)。
CIG评分优化单细胞分析
在人类前脑谷氨酸能神经分化数据中,CIG评分定义的2000个高变基因比传统方法多富集3倍神经发育通路(q<0.05)。CellRank分析显示神经母细胞向未成熟神经元的转化概率提升5倍,更准确反映分化轨迹。
内皮细胞身份调控新机制
分析15种组织的内皮亚型发现:CIGs的组织特异性(Tau评分)显著高于其主调控TF(P=1.3×10-5)。动脉内皮保守性CIGs(如CXCL12)富集Notch通路,而组织特异性CIGs(如皮肤中的VEGFC)与微环境适应相关,表明组织信号对身份基因的"二次校准"作用。
该研究建立了首个不依赖表观数据的单细胞身份基因解析框架,其创新性体现在:1) 发现遗传序列可作为CIGs的分子条形码;2) 开发适用于大规模scRNA-seq分析的通用工具;3) 揭示组织微环境通过修饰而非重建核心调控网络来细化细胞身份。SCIG算法已开源(Zenodo:10.5281/zenodo.14726426),为干细胞重编程和器官再生研究提供了全新视角。未来可进一步探索序列特征与超级增强子(super-enhancer)的协同调控机制,以及在癌症细胞身份紊乱诊断中的应用价值。
生物通微信公众号
知名企业招聘