编辑推荐:
为解析冠状动脉疾病(CAD)分子机制,研究人员基于 GEO 数据库 RNA-seq 数据,运用 LASSO、RF、SVM-RFE 等算法筛选差异表达基因,结合 GO、KEGG 等分析及体内实验验证。发现 11 个核心生物标志物,其中 ITM2B 与 CD8?T 细胞、NK 细胞相关,为 CAD 诊疗提供新方向。
冠状动脉疾病(coronary artery disease, CAD)作为威胁全球健康的重大疾病,其发病机制与免疫炎症通路密切相关。动脉粥样硬化是 CAD 的主要病理基础,尽管学界已认识到炎症、免疫反应与动脉粥样硬化的相互作用,且 CD4?T 细胞、单核细胞、巨噬细胞等免疫细胞在斑块形成中的作用逐渐被揭示,但如何精准调控免疫应答以平衡抗炎效果与宿主防御功能,以及开发更可靠的生物标志物用于个性化诊疗,仍是亟待解决的难题。此外,现有研究虽尝试利用机器学习筛选基因,但整合多维度生物信息学数据全面挖掘新型标志物的潜力尚未充分释放。
为攻克上述挑战,上海中医药大学附属龙华医院、曙光医院等机构的研究团队开展了一项系统性研究。团队基于公共数据库与实验验证,筛选 CAD 外周血差异表达基因并构建核心生物标志物模型,相关成果发表于《Scientific Reports》,为 CAD 的早期诊断与免疫治疗提供了关键线索。
研究技术方法
研究首先从 NCBI 的 Gene Expression Omnibus(GEO)数据库下载 8 个 CAD 相关基因表达数据集(如 GSE9820、GSE10195 等),涵盖 216 例 CAD 患者与 206 例健康对照。通过 R 语言 Bioconductor 包进行数据过滤、背景校正、log2 转换及 ComBat 批次效应校正,结合主成分分析(PCA)验证数据均质性。随后利用 limma 包筛选差异表达基因(|log?FC|>0.5 且 P<0.05),并通过 LASSO 回归、随机森林(RF)、支持向量机递归特征消除(SVM-RFE)三种机器学习算法交叉验证,筛选核心生物标志物。进一步通过基因本体论(GO)、京都基因与基因组百科全书(KEGG)富集分析解析功能通路,运用 CIBERSORT 算法评估免疫细胞浸润模式,并通过动物实验(ApoE?/?小鼠高脂饮食模型)验证关键基因表达。
研究结果
核心生物标志物的筛选与验证
经数据整合与机器学习分析,研究鉴定出 11 个核心生物标志物:ITM2B、GNA15、PLAU、GNG11、HIST1H2BH、SLC11A1、RPS7、DDIT4、CD83、GNLY、S100A12。其中,ITM2B 的受试者工作特征曲线下面积(AUC)达 0.703,敏感性 0.969,特异性 0.420,在外部数据集 GSE61144 及 ApoE?/?小鼠模型中均显示 CAD 患者中表达显著下调,提示其诊断价值。
功能富集与免疫机制解析
GO 分析显示,核心基因富集于酶活性调控(如肽酶活性)、凋亡过程(如半胱氨酸型内肽酶活性)及白细胞迁移等生物学过程;KEGG 通路分析则指向凋亡通路、IL-17 信号通路、RIG-I 样受体信号通路等。基因集富集分析(GSEA)与基因集变异分析(GSVA)表明,ITM2B 低表达与免疫应答、心肌收缩、氧化磷酸化通路激活相关,而高表达则与阿尔茨海默病、帕金森病等神经退行性疾病通路相关。免疫细胞浸润分析显示,CAD 患者中 CD8?T 细胞、活化自然杀伤细胞(NK 细胞)、M1 型巨噬细胞浸润增加,且 ITM2B 表达与活化 NK 细胞(cor=-0.368)、CD8?T 细胞(cor=-0.199)呈负相关,与 M2 型巨噬细胞(cor=0.261)、中性粒细胞(cor=0.244)呈正相关,揭示其通过调控免疫细胞稳态参与 CAD 进展。
调控网络构建
研究构建了 ITM2B 的竞争性内源性 RNA(ceRNA)网络,预测其通过结合 52 种长链非编码 RNA(lncRNA)及 156 种微小 RNA(miRNA)参与转录后调控,为揭示 CAD 分子网络提供了新视角。
研究结论与意义
本研究通过多维度生物信息学整合与机器学习建模,首次系统鉴定出以 ITM2B 为核心的 CAD 生物标志物组合,证实其与 CD8?T 细胞、NK 细胞介导的炎症通路密切相关,并通过体内外实验验证了 ITM2B 的诊断价值。研究不仅为 CAD 的早期筛查提供了潜在分子靶点,也为开发靶向免疫细胞的新型疗法(如调节 ITM2B 相关 ceRNA 网络)奠定了基础。尽管研究仍存在缺乏单细胞功能验证及跨种族队列验证等局限,但其建立的 “数据挖掘 - 实验验证 - 机制解析” 研究范式,为复杂疾病的精准医学研究提供了可借鉴的方法论。未来需进一步开展临床转化研究,以推动 ITM2B 等标志物在个性化诊疗中的应用。