编辑推荐:
【编辑推荐】为解决 OSCC 早期诊断难、预后差等问题,研究人员分析 GEO 数据库中 GSE23558 等 4 个数据集,通过 RRA 和 WGCNA 筛选出 SH3BP4、RRAGC、SQRDL 等关键基因,揭示其参与的生物过程与通路,为 OSCC 诊疗提供新方向。
口腔鳞状细胞癌(OSCC)是全球范围内常见的恶性肿瘤之一,其发病机制复杂,涉及多个基因的精细调控。目前,OSCC 的早期临床检测滞后,缺乏特异性生物标志物,且治疗成本高昂,导致患者预后较差。因此,寻找有效的 OSCC 生物标志物和治疗靶点成为当务之急。为了深入探究 OSCC 的分子机制,来自暨南大学口腔医学院及暨南大学第一附属医院口腔科的研究人员开展了相关研究,其成果发表在《Scientific Reports》上。
研究人员从基因表达 omnibus(GEO)数据库中获取了 GSE23558、GSE30784、GSE36090 和 GSE51010 四个数据集的口腔黏膜组织转录组基因表达矩阵,这些数据集包含了不同的遗传谱和实验条件。研究主要运用了以下关键技术方法:利用 R 统计软件(版本 4.4.0)进行数据处理,通过 sva R 包中的 ComBat 方法去除批次效应;使用 limma 包进行差异基因表达分析;借助 clusterProfiler 包开展差异表达基因(DEGs)的富集分析;运用 WGCNA 包进行基因共表达分析;采用 RRA 包整合多数据集进行稳健秩聚合分析。
数据处理与分析流程
研究首先对四个数据集进行预处理,通过分位数归一化方法确保样本间的一致性,随后使用 limma 包对每个数据集分别进行差异分析,标记出 p 值最显著的前 10 个基因。为解决噪声、冗余和批次效应问题,利用 ComBat 函数对四个数据集进行 Harmonization,结果显示校正后的数据集在批次间表达模式一致,保留了真实的生物差异。
RRA 分析结果
在 RRA 分析中,以 p 值小于 0.05 为标准筛选出 101 个差异表达基因,并对前 10 个上调和下调基因进行可视化。通过整合四个数据集的排名信息,有效降低了单个数据集的偏差和噪声,提高了结果的可靠性。
WGCNA 分析结果
WGCNA 分析构建了基因共表达网络,通过计算皮尔逊相关系数检测并处理异常值,应用软阈值 0.9 选择节点以维持无标度拓扑结构,将具有相似表达模式的基因聚类成不同模块。共识别出 225 个差异表达基因,并进一步探索了特定基因表达谱与特征基因之间的关系,揭示了潜在的调控网络和基因间关联。
GO 和 KEGG 分析结果
对 RRA 和 WGCNA 筛选出的合并基因集进行 GO 和 KEGG 分析。GO 分析涵盖分子功能(MF)、生物过程(BP)和细胞成分(CC),揭示了相关基因参与的生物学过程和细胞定位;KEGG 分析则基于京都基因与基因组百科全书数据库,明确了基因相关的信号通路和生物网络,为理解基因的功能意义和参与的代谢及信号传导途径提供了深入见解。
关键基因识别
通过 RRA 和 WGCNA 结果的交集,最终确定了 SH3BP4、RRAGC 和 SQRDL 三个关键基因。SH3BP4 参与细胞信号调节、细胞骨架重塑和细胞黏附迁移,其失调可能促进肿瘤发生,在多种癌症中显示出与预后的关联;RRAGC 作为 Rag GTP 酶家族成员,通过调节 mTORC1 复合体参与营养感知和信号转导,其激活突变与癌症发生相关;SQRDL 涉及细胞代谢调节和氧化还原反应,在骨骼发育和骨质疏松中起作用,但其在 OSCC 中的具体机制尚需进一步实验验证。
研究通过整合多数据集的生物信息学分析,成功筛选出 OSCC 相关的关键基因,揭示了其潜在的分子机制和信号通路。这些发现为 OSCC 的早期诊断提供了潜在生物标志物,为靶向治疗策略的开发奠定了基础。然而,研究也存在一定局限性,如纳入数据集数量较少、缺乏实验验证等。未来需通过多中心临床研究和实验验证,进一步明确这些基因的临床价值和功能机制,为 OSCC 的精准医学提供更全面的支持。