编辑推荐:
本文聚焦子宫内膜癌(EC),综述多组学技术在其生物标志物发现中的应用。涵盖样本来源、数据表达、数据库利用、生物信息分析及标志物验证等方面,探讨进展与挑战,为 EC 早期诊断和精准医疗提供参考。
引言
子宫内膜癌(Endometrial cancer,EC)是起源于子宫内上皮层的癌症,发病率和死亡率呈上升趋势。Bokhman 于 1983 年将其分为两类,Type I(子宫内膜样腺癌,EEC)常见且预后较好,Type II(子宫浆液性癌)恶性程度高、预后差 。此外还有子宫内膜透明细胞癌(Endometrial clear cell carcinoma,ECCC)和癌肉瘤等类型。随着分子技术发展,基于基因特征又可将 EC 分为 POLE 超突变、MSI 高突变等四类。早期诊断对改善 EC 患者低生存率意义重大,多组学技术在生物标志物发现中发挥着关键作用。
多生物层组学数据对 EC 预后的影响
样本来源
传统检测样本组织虽能检测肿瘤特异性基因产物,但存在肿瘤异质性、采样重复性差及可能导致癌细胞转移等局限,部分 EC 病例还因目标区域体积有限不适合病理诊断。液体活检以血液、宫颈阴道液、尿液等体液为样本,是微创检测方法。其中血液是临床最常用的液体活检标本,宫颈阴道液、尿液等其他体液也富含癌症相关信息,可反映全身状况,有助于评估治疗效果 。外泌体是细胞释放的纳米级囊泡,其成分能反映来源细胞的分子特征,在肿瘤研究中备受关注。
数据表达水平
组织、生物体液和外泌体都携带多种癌症生物标志物。基因组层面,下一代测序(Next-generation sequencing,NGS)推动了肿瘤基因组分析,体细胞变异和体细胞拷贝数改变(Somatic copy number alterations,SCNAs)可用于患者诊断和生物标志物发现,循环肿瘤 DNA(Circulating tumor DNA,ctDNA)也与肿瘤进展相关 。转录组随组织、发育阶段和疾病状态变化,信使 RNA(Messenger RNA,mRNA)丰度可衡量癌症相关基因表达,非编码 RNA(Non-coding RNA,ncRNA)如微小 RNA(MicroRNA,miRNA)、长链非编码 RNA(Long non-coding RNA,lncRNA)和环状 RNA(Circular RNA,circRNA)在癌症发生发展中起重要调控作用,可作为潜在生物标志物 。蛋白质是基因功能的执行者,蛋白质组学借助质谱(Mass spectrometry,MS)技术研究蛋白质特征和变化,数据依赖采集(Data-dependent acquisition,DDA)和数据独立采集(Data-independent acquisition,DIA)两种方法都用于 EC 生物标志物发现 。表观遗传学研究不涉及 DNA 序列改变的可遗传表型变化,DNA 甲基化、组蛋白修饰等可影响基因表达,在 EC 生物标志物研究中具有重要意义 。
公开可用资源
多个公开数据库为生物标志物发现提供了丰富数据。癌症基因组图谱(The Cancer Genome Atlas,TCGA)整合多种癌症的遗传数据,基于此可研究 EC 在基因组、转录组和表观遗传水平的变化 。基因表达综合数据库(Gene Expression Omnibus,GEO)存储高通量功能基因组数据,临床蛋白质组肿瘤分析联盟(Clinical Proteomic Tumor Analysis Consortium,CPTAC)提供多组学数据库 。人类蛋白质图谱(Human Protein Atlas,HPA)专注于蛋白质表达等研究,这些数据库相互补充,加速了 EC 生物标志物的发现进程。
生物标志物发现的生物信息学分析
明确临床问题是生物标志物发现的关键,在此基础上选择合适样本类型、设计实验并确定研究方向 。多组学技术产生大量数据,结合机器学习算法可挖掘潜在生物标志物 。数据降维方法如主成分分析(Principal Component Analysis,PCA)、线性判别分析(Linear discriminant analysis,LDA)等可简化数据展示,突出数据特征 。特征选择算法如随机森林(Random Forest,RF)、Boruta 等能去除冗余特征,提高生物标志物识别准确性 。聚类和分类算法如层次聚类(Hierarchical clustering,HC)、K 均值聚类(K-means)等可对基因和样本进行分类,辅助生物标志物发现 。差异表达分析用于识别不同条件下基因或蛋白质表达的差异,常用算法有 DESeq2、edgeR 和 limma 等 。生存分析中,Cox 比例风险模型(Cox proportional-hazards model,COX)和 Kaplan-Meier 生存分析(Kaplan-Meier survival analysis,KM)可评估分子特征与疾病预后的关系,为生物标志物验证提供依据。
生物标志物候选物的验证和应用
实验验证对确认生物标志物与临床结果的关联至关重要,可确保其可靠性、特异性和实用性 。定量聚合酶链反应(Quantitative Polymerase Chain Reaction,qPCR)用于扩增和定量目标 DNA 分子,灵敏度高、特异性强 。免疫组织化学(Immunohistochemistry,IHC)通过抗原抗体反应检测组织切片中的蛋白质表达和定位 。流式细胞术可分析细胞的物理和化学特征,检测特定细胞分子 。蛋白质免疫印迹(Western Blot,WB)常用于检测组织中的特定蛋白质 。酶联免疫吸附测定(Enzyme-Linked Immunosorbent Assay,ELISA)可检测和定量样本中的蛋白质或分子,特异性和灵敏度高 。平行反应监测(Parallel Reaction Monitoring,PRM)是先进的靶向蛋白质组学分析技术,可同时检测和定量多种目标蛋白质或肽段 。通过这些方法已验证多种 EC 生物标志物,用于疾病预后评估和治疗反应预测。
结论与讨论
多组学技术在 EC 生物标志物发现方面取得显著进展,但从研究到临床应用仍面临挑战 。科学设计实验需明确医学问题和临床症状,选择合适样本和匹配数据,优化数据整合分析 。高通量技术和机器学习算法的结合促进了多层综合分析,但 EC 发病机制复杂,需多组学方法全面深入研究,以加速其向临床实践转化,推动精准医学发展。