编辑推荐:
为解决乳腺癌(BCa)多组学数据分析和整合工具匮乏的问题,研究人员开展了关于开发乳腺癌数据分析平台的研究。结果开发出 MammOnc-DB 平台,可助力假设生成与验证、生物标志物及治疗靶点发现,为 BCa 研究和临床诊疗提供有力支持。
在女性健康领域,乳腺癌(Breast Cancer,BCa)如同一个挥之不去的阴影,严重威胁着全球女性的生命健康。它是女性中最常见的恶性肿瘤之一,发病率呈逐年上升趋势。乳腺癌具有高度的形态和分子异质性,这使得其诊断和治疗面临巨大挑战。早期阶段、激素受体阳性以及 HER2 阳性的乳腺癌尚有治疗手段,但三阴性乳腺癌(Triple-Negative Breast Cancer,TNBC)和转移性乳腺癌目前仍难以治愈。
随着测序和蛋白质组学技术的飞速发展,大量关于乳腺癌发生和发展过程中的分子改变数据不断涌现,人们也借此识别出了一些亚类特异性生物标志物和治疗靶点。然而,公共数据库中虽存储着海量的组学数据,却缺乏方便易用的多组学数据分析和整合工具,这就好比空有一座宝藏,却缺少打开宝藏的钥匙。为了攻克这一难题,来自美国多所高校和研究机构(如 University of Alabama at Birmingham、University of Michigan Medical School 等)的研究人员展开了深入研究。他们的研究成果发表在《npj Breast Cancer》杂志上,为乳腺癌研究领域带来了新的曙光。
研究人员开发了一个名为 MammOnc-DB(
http://resource.path.uab.edu/MammOnc-Home.html)的综合乳腺癌数据分析平台。该平台整合了来自超过 20,000 个乳腺癌样本的数据,这些数据来源广泛,包括 NCBI Gene Expression Omnibus、Proteomics Identifications Database(PRIDE)、The Cancer Genome Atlas(TCGA)等多个公共数据库和研究项目。其意义重大,不仅能够帮助研究人员生成和验证假设,还为生物标志物的发现和治疗靶点的识别提供了有力支持,为临床医生制定更精准的治疗方案提供了全面的工具。
在研究方法上,研究人员主要运用了以下关键技术:
- 数据获取与处理:从多个公共数据库下载各类数据,如从 Genomics Data Commons 下载 TCGA 乳腺癌相关的 RNA 测序数据;从 PRIDE 获取蛋白质组学数据,并进行格式转换和处理。对于不同类型的数据,采用相应的处理流程,像 RNA-seq 数据,会进行质量检查、序列比对、基因计数等操作。
- 数据分析:针对不同组学数据开展多种分析。例如,基因表达分析通过计算基因表达水平(如 FPKM 或 RPKM 值),进行差异表达分析;蛋白质组学数据分析会对蛋白质表达值进行 log2 归一化和 Z 值计算,以分析蛋白质表达差异 。
- 数据可视化:利用 PERL CGI 构建用户友好的网络资源,通过 JavaScript 库和 Python Flask 应用实现数据的可视化展示,如用热图展示差异表达基因,用箱线图和抖动图展示基因或蛋白质表达水平与临床特征的关系等。
下面详细介绍研究结果:
- 热图助力识别差异表达基因:MammOnc-DB 的基因表达页面设有特定板块,用户可通过选择肿瘤类型(如 TNBC),以热图形式查看数据集里的过表达和低表达基因。以 SCAN-B 数据集为例,对比非 TNBC 和 TNBC 肿瘤,可展示前 25 个甚至多达前 250 个差异表达基因。点击基因名称还能获取该基因在研究中的详细表达信息,并且平台还支持用热图识别 lncRNAs 和 miRNAs 的差异表达。
- 跨数据集分析基因表达模式:在基因表达页面的特定区域,用户能输入感兴趣的基因,并选择不同的数据集(如 bulk RNA-seq、scRNA-seq 等)进行分析。以 PSAT1 基因在 METABRIC 研究为例,分析发现其在 ER 阴性和阳性患者中的表达存在显著差异(P 值小于 0.001)。此外,用户还可进行生存分析、获取 scRNA-seq 和 snRNA-seq 数据,从多种角度观察基因表达模式。
- 分析靶蛋白表达模式:蛋白质表达页面的设计与基因表达页面类似,用户输入感兴趣的基因后,可从可用研究(如 CPTAC 等)中观察蛋白质的表达结果,以 TK1 蛋白为例,可展示其总蛋白和磷酸化蛋白在不同临床特征下的表达模式。
- 转录因子结合位点分析:平台整合了处理后的 ChIP-seq 数据集,用于评估不同乳腺癌细胞系中的组蛋白修饰、转录因子结合(如 GATA3、FOXA1)和 ER 配体处理情况。用户输入特定基因,就能观察到标记物在启动子或基因体区域的结合情况,如展示 ER 配体与 STK11 基因在 MCF7 细胞系中的结合模式。
在研究结论和讨论部分,MammOnc-DB 平台凭借多组学数据整合的优势,让用户能够在计算机上对特定肿瘤亚组的靶基因进行分析和验证,有助于生成研究假设,发现新的生物标志物,为乳腺癌的早期检测、预后判断和治疗反应预测提供重要依据。
然而,该平台也存在一些局限性。由于无法获取原始数据,处理后的数据采用了不同的归一化方法,这可能导致结果的变异性,影响数据的可比性和解释。而且平台依赖公共数据集,可能存在数据选择和代表性方面的偏差。
尽管如此,与其他类似资源相比,MammOnc-DB 仍具有独特价值。它整合了原发性和转移性乳腺癌数据,以及临床前模型数据,能够更精准地识别与治疗反应和耐药相关的生物标志物。未来,研究人员计划持续完善平台,整合更多分子数据集,如 DNA 拷贝数改变、DNA 甲基化数据等,还将纳入空间转录组学数据,以满足用户需求,为乳腺癌研究和临床实践提供更强大的支持,推动乳腺癌诊疗领域不断向前发展。