编辑推荐:
为解决脑癌研究缺乏 FFPE 样本转录组和表观基因组数据集的问题,ISABIAL 的研究人员开展相关主题研究,创建了约 150 个 FFPE 肿瘤数据集。这些数据对探索脑癌基因模式意义重大,强烈推荐科研读者阅读。
西班牙阿利坎特卫生与生物医学研究所(Instituto de Investigación Sanitaria y Biomédica de Alicante,ISABIAL)的 Anabel García-Heredia、Luna Guerra-Nú?ez、Paula Martín-Climent 等研究人员在《Scientific Data》期刊上发表了题为 “Transcriptomics and epigenomics datasets of primary brain cancers in formalin-fixed paraffin embedded format” 的论文。这篇论文在脑癌研究领域意义重大,为探索胶质瘤和神经胶质瘤的基因表达与 DNA 甲基化模式提供了宝贵资源,有助于推动脑癌生物标志物和治疗靶点的研究进展。
研究背景
癌症是严重威胁人类健康的疾病,中枢神经系统(Central Nervous System,CNS)癌症便是其中之一。其发病率在全球所有确诊癌症中位居第 18 位,若考虑死亡率则攀升至第 12 位,并且未来还有上升趋势。在世界卫生组织(WHO)分类的胶质瘤、神经胶质瘤和神经元肿瘤类别下,包含 40 多种不同的可识别实体,其中就有常见且恶性程度高的原发性脑癌,比如胶质母细胞瘤(Glioblastomas,GBM)。然而,这些肿瘤在患者总生存期和对现有治疗的反应方面表现出高度异质性,当前有限的诊断和治疗手段难以有效应对。
在癌症研究领域,公共数据存储库是极具价值的工具。基于组学的数据集能让科学界进一步分析,并与临床参数关联,从而提出新假设或在独立队列中验证新发现。在胶质瘤研究中,常用的数据集来自癌症基因组图谱(The Cancer Gene Atlas,TCGA)、中国胶质瘤基因组数据库(Chinese Glioma Genome Data,CGGA)和 REMBRANDT 等。但目前缺乏源自福尔马林固定石蜡包埋(Formalin-fixed Paraffin-Embedded,FFPE)生物材料的转录组学和表观基因组学数据集,且这类数据集需考虑固定 / 包埋核酸的内在特性,以便在相同处理的组织中进行进一步验证。医院里大多数活检和手术切除的样本都以 FFPE 组织标本形式保存,这是一种长期且经济有效的生物材料存档方式,能用于回顾性检查,可弥补新鲜冷冻(Fresh-Frozen,FF)组织的普遍不足。不过,FFPE 样本中的核酸完整性会因甲醛固定、石蜡包埋和储存时间等因素受到极大损害,例如固定过程可能导致碱基替换(主要是 C>T/G>A),还会发生其他化学修饰,这些变化可能影响 FFPE 样本中生物标志物的评估 。
尽管存在这些问题,但如今从 FFPE 组织中的核酸进行转录组学和表观基因组学研究仍能获得可靠结果,因为匹配样本的 FF 和 FFPE 在转录组学和表观基因组学(DNA 甲基化)方面总体一致性良好 。不过,相对较短、GC 含量较高或丰度较低的转录本更容易受到 FFPE 处理的影响。本研究旨在填补这一空白,提供来自独立队列的 FFPE 样本数据集,并为研究较少、患者总体生存率通常较长的胶质瘤和神经胶质瘤提供全基因组信息。
研究方法
- 人类样本:研究严格遵循《赫尔辛基宣言》的伦理原则,以及国家和地区关于人类样本生物医学研究和个人数据保护的法律法规。样本和相关临床数据由 ISABIAL 生物库提供,样本的获取经过了医院伦理委员会(Comité de ética de Investigación Clínica con Medicamentos,CEIm)的批准,且在研究过程中,除部分经 CEIm 批准豁免同意的情况外,均获得了参与者的知情同意。一位经验丰富的病理学家对苏木精 - 伊红染色切片进行检查,挑选出肿瘤组织含量至少为 80% 的 FFPE 材料。从每位患者的组织块中,在肿瘤细胞浓度高且排除坏死和出血区域,获取三到四个直径 1 毫米的组织芯。研究人员总共筛选了 185 块来自医院解剖病理科的 FFPE 脑肿瘤组织块。
- RNA 和 DNA 的分离:使用脱蜡溶液(Qiagen 公司)去除石蜡,按照 RNeasy DSP FFPE 试剂盒(Qiagen 公司)的操作说明分离总 RNA,利用 Qubit RNA BR 检测试剂盒(Thermo Fisher 公司)对 RNA 进行定量,通过 RNA ScreenTape 检测(Agilent 公司)评估 RNA 质量。对于基因组 DNA,使用矿物油(Qiagen 公司)去除石蜡,借助 QIAamp DNA Mini 试剂盒(Qiagen 公司)提取核酸,用 Qubit dsDNA BR 检测试剂盒(Thermo Fisher 公司)测量 DNA 浓度,并通过实时 PCR(使用 Infinium HD FFPE QC 试剂盒,Illumina 公司)检测 DNA 质量,之后将 500 ng 的每个样本送往 GENYO 中心。
- 文库制备和批量 RNA 测序:在转录组学研究中,外显子捕获方法被证实优于基于去除核糖体 RNA 的总 RNA 方法,因此研究人员采用该策略。使用 100 ng RNA,按照 Illumina RNA Prep with Enrichment (L) Tagmentation 制备指南,利用 Illumina 外显子 panel - Enrichment Oligos Only 制备文库,并用 Agilent 4200 TapeStation System 的高灵敏度 D1000 Screen tape 检测评估文库质量。将文库(每个 4 nM)混合,在 Illumina NextSeq 550 系统的高输出流动细胞上进行测序,每个样本至少产生 5000 万对 75 碱基对的双端读数。测序完成后,进行文库解复用、修剪 Illumina 接头,并使用 Illumina NextSeq Control Software(Local Run Manager 版本 4.0.0)生成 FASTQ 文件。
- 转录本比对和定量:将同一测序运行中四个不同泳道产生的 FASTQ 文件,使用‘cat’命令(版本 8.30,GNU GPLv3)连接,合并为单个 FASTQ 文件。在获取转录本丰度之前,先评估文件质量。研究人员选择 Salmon(版本 0.12.0)软件包进行转录本比对和定量,该软件基于准映射和概率建模技术,利用 GRCh38 人类基因组(GENCODE 43/Ensembl 109)生成 Salmon 索引,以 FASTQ 文件为输入量化与每个转录本相关的读数。其输出结果为每个转录本的丰度计数,随后使用 Bioconductor 包 Tximport(版本 1.32.0)将其转换为基因水平的计数(计数矩阵)。
- DNA 甲基化分析:Infinium MethylationEPIC v2.0 BeadChip(Illumina 公司)可基于最新版人类基因组(GRCh38/h38)对 936,866 个 CpG 位点进行高通量 DNA 甲基化分析,在 FFPE 样本上性能可靠,能检测到阵列中 > 90% 的 CpG 位点。对质量合格的 DNA,先使用 Zymo EZ-96 DNA 甲基化试剂盒进行亚硫酸氢盐转化,再用 Infinium HD FFPE Restore 试剂盒处理,之后进行标记、与芯片杂交,并使用 Illumina iScan 扫描。扫描后得到的原始 DNA 甲基化强度数据存储在 IDAT 文件中,用基于 R 的 minfi(版本 1.50.0)包进行分析。通过‘preprocessRaw’函数将红 / 绿通道数据转换为 MethylSet 对象,包含甲基化和未甲基化信号;用‘getBeta’函数获得 β 值,表示 DNA 甲基化强度(范围从 0,即完全未甲基化,到 1,即完全甲基化);利用‘preprocessNoob’函数校正背景噪声和染料偏差;通过‘detectionP’函数保留平均检测 p 值 < 0.01 的样本,确保数据高质量;再进行探针水平的过滤,保留检测 p 值 < 0.01 的探针,排除位于性染色体(XY)上以及含有单核苷酸多态性(SNPs)的探针。
研究结果
- 数据记录:原始和处理后的 RNA 测序(RNA-seq)及 DNA 甲基化数据可从基因表达综合数据库(Gene Expression Omnibus,GEO)下载,RNA-seq 数据的登录号为 GSE272042,包含 153 个样本;DNA 甲基化芯片数据的登录号为 GSE274910,包含 149 个样本,两种技术的样本重叠率 > 76%。每个登录号下有完整的样本列表,对应唯一的 GEO 标识符。同时,还可下载包含处理后基因表达值(每百万转录本数,Transcripts Per Million,TPM)或甲基化值(β 值)的文件。每个样本对应一名患者的生物材料,点击 GEO 中的样本,可查看诊断信息、数据获取方法及相关原始文件(RNA-seq 为 SRA 格式,DNA 甲基化芯片为绿色和红色通道的 IDAT 格式)。
- 技术验证:在转录组学数据质量评估方面,研究人员依据 Illumina 的建议,选择 DV200>36.5 的样本(7 个样本 DV200≥31.6)。DV200 是衡量 RNA 片段大于 200 碱基比例的质量指标,用于筛选适合下一代测序(NGS)分析的样本。测序后,用 FastQC(版本 0.11.9)检查原始 RNA-seq 数据质量,生成单个 HTML 报告,再用 MultiQC(版本 1.17)生成所有样本质量评估的统一汇总报告。结果显示,读数质量高,Phred 分数 > 28;GC 含量分布与理论值(40 - 60%)相符,表明样本无污染;由于使用外显子 panel,未出现其他 FFPE RNA-seq 实验中因内含子区域映射导致的伪峰;序列长度分布在 74 bp 处有峰值,与 RNA-seq 文库片段大小一致。此外,Salmon 软件的准量化结果显示,样本的比对和片段一致性指标良好,多数读数能很好地比对到参考基因组。在表观基因组学数据质量评估方面,使用 Infinium HD FFPE QC 试剂盒(协议 15020981)评估基因组 DNA 质量,计算样本与质量控制模板(QCT)的 ΔCT 值,ΔCT<5 的样本适合后续处理。扫描和数据提取后,得到的密度图显示了样本归一化前后 β 值的预期分布,所有值都在 0 - 1 范围内;根据与 CpG 岛相关的基因组特征绘制过滤后的数据,呈现出高质量数据集的预期分布。
研究结论与讨论
研究人员成功创建了约 150 个 FFPE 肿瘤的转录组学和表观基因组学数据集,这些数据集首次在考虑医院最常用存档格式(FFPE)导致的核酸降解和化学改变的背景下,实现了整合转录和表观遗传学研究,为胶质瘤和神经胶质瘤的研究提供了新的视角。同时,数据集包含了多种脑肿瘤亚型,除常见的胶质母细胞瘤、星形细胞瘤和少突胶质细胞瘤外,还纳入了研究较少的 pilocytic astrocytomas(最良性的胶质瘤)、supratentorial ependymal neoplasms(源于脑室和脊髓室管膜上皮的肿瘤)和 gangliogliomas(含有发育异常神经元和肿瘤性胶质细胞的肿瘤),为研究这些肿瘤的基因表达和 DNA 甲基化模式提供了重要资源。
这些数据集可作为独立队列,用于进一步验证潜在的新型生物标志物,有助于解决当前脑癌研究中生物标志物和治疗靶点验证困难的问题。并且,研究人员详细描述了实验流程和技术质量控制方法,确保了数据的可靠性和可重复性,为后续研究提供了重要参考。不过,研究也存在一定局限性,如 FFPE 样本核酸的降解和化学修饰可能仍会对部分转录本和甲基化位点的分析产生影响。未来的研究可以在此基础上,进一步探索如何更精准地分析 FFPE 样本中的组学数据,以及如何更好地利用这些数据集揭示脑癌的发病机制、寻找更有效的治疗靶点,为脑癌患者的诊断和治疗带来新的希望。总之,该研究成果为脑癌研究领域提供了有价值的数据资源和研究思路,对推动脑癌研究的发展具有重要意义。