编辑推荐:
本文是一篇关于精准医学时代基因组学和多组学的综述。精准医学利用个体基因组、环境和生活方式等信息实现定制化医疗。文章阐述了多组学技术,包括转录组学(Transcriptomics)、蛋白质组学(Proteomics)等,在儿科医疗和研究中的应用,探讨了面临的挑战与未来发展,为精准医学提供了全面视角。
精准医学:医疗模式的变革
精准医学,作为一种创新的医疗模式,正逐渐改变着传统的医疗格局。它通过深入剖析个体的基因组、所处环境、生活习惯及其相互作用,为预防、诊断和治疗提供定制化的医疗方案。这一模式与传统的反应性疾病控制方式不同,更侧重于主动预防疾病和维护健康。
精准医学的发展得益于基因组学的进步。人类基因组计划(HGP)在 2003 年完成,为科学家理解人类生物学框架和常见非传染性疾病的病因提供了重要基础。通过快速且经济高效的基因组数据,下一代测序技术(NGS)推动了对基因、饮食和生活方式之间复杂相互作用的研究,这些相互作用在人群中具有高度的异质性。
多组学技术:深入探索生命奥秘
除了基因组学,转录组学、蛋白质组学、表观基因组学、代谢组学和微生物组学等多组学技术也不断涌现。这些技术从不同层面揭示生命过程,极大地丰富了我们对基因组数据的理解,有助于实现更好的健康结果。
转录组学研究 RNA 转录本,其技术已从微阵列发展到 RNA 测序(RNA-Seq)。RNA-Seq 可在基因组水平识别 RNA 表达,包括批量 RNA-Seq、单细胞 RNA-Seq(scRNA-Seq)和空间 RNA-Seq(spRNA-Seq) ,在儿科疾病研究中发挥了重要作用。例如,在急性淋巴细胞白血病的研究中,RNA-Seq 有助于识别基因融合,为风险分层治疗提供依据;在自闭症谱系障碍(ASD)的研究中,通过单细胞 RNA 测序分析,发现了大脑中兴奋性神经元和神经胶质细胞的转录组失调。
蛋白质组学则专注于蛋白质的研究。蛋白质的翻译后修饰和变体,即蛋白异构体,在表型多样性中起着关键作用。质谱等蛋白质组学分析技术的进步,使得深入研究个体蛋白质组成为可能,有助于建立表型与基因型的关联,为理解疾病病理生理学和开发新的药物靶点提供支持。在儿童局灶节段性肾小球硬化(FSGS)与腹膜透析相关性腹膜纤维化的研究中,通过机器学习对腹膜液中间皮细胞外泌体进行蛋白质组分析,发现了可准确识别 FSGS 患者的特定蛋白质。
代谢组学研究生物样品中小于蛋白质的分子,这些小分子代谢物在生理和病理过程中发挥着重要作用。随着质谱技术与液相或气相色谱的结合,代谢组学已从靶向的小规模分析发展为非靶向分析,能够根据代谢功能障碍的差异对疾病进行分类,识别新的生物标志物和药物靶点。在对自闭症儿童的研究中,通过代谢组学分析发现了与氨基酸和线粒体能量代谢相关的代谢型,可用于区分自闭症儿童和正常发育儿童;在新生儿代谢疾病筛查中,非靶向代谢组学方法的诊断率显著高于传统方法。
表观基因组学研究 DNA 的可逆修饰和与之相关的蛋白质,这些修饰不改变 DNA 序列,但对基因表达起着重要的调控作用。新一代测序技术的发展使得绘制各种细胞和组织类型的参考表观基因组图谱成为可能。例如,在一项美国出生队列研究中,发现宫内暴露于母亲糖尿病与脐带血中特定的 DNA 甲基化模式相关,这些甲基化模式与早产风险相关;在儿童哮喘的研究中,发现新生儿期的 DNA 甲基化模式与学龄期哮喘风险相关。
整合多组学:全面解析健康与疾病
整合多组学将多种组学数据结合起来,包括它们之间的相互联系和作用,能够更全面地理解人类健康和疾病,比单独研究任何一种组学数据都更具优势。实现整合多组学的方法和计算平台多种多样,主要包括基于回归 / 关联、聚类和网络的方法,以及数据集成和模型集成等策略。这些复杂的工具在儿科肿瘤学和其他儿科疾病研究中得到了广泛应用。在呼吸道合胞病毒细支气管炎的研究中,通过整合临床、病毒、鼻咽微生物组、转录组和代谢组数据,发现了四种不同的临床相关疾病内型;在南亚出生队列研究中,通过整合肠道微生物组和血清代谢组数据,发现了儿童早期肥胖的新生物标志物。
电子健康记录(EHR)与多组学数据的整合对于实现精准医学至关重要。EHR 包含结构化和非结构化数据,能够为多组学数据的解读提供临床背景。通过 Health Level 7 Fast Healthcare Interoperability Resources(HL7 FHIR)等技术可以整合 EHR 中的结构化和非结构化数据,再利用人工智能驱动的大数据分析将整理后的 EHR 数据与多组学数据进行融合。一些新型的机器学习平台,如联邦学习,能够在保护患者隐私的前提下实现数据的整合分析。此外,应用程序编程接口(API)和相关平台也为 EHR 与多组学数据的整合提供了支持。
数据库与生物信息学:数据驱动的医学研究
利用整合多组学的潜力,首先需要创建一个可扩展、协作且安全的数字环境,用于识别、收集、共享和检索基因组和多组学数据。许多国家和国际组织都在积极推动相关数字基础设施的建设,如美国国立卫生研究院(NIH)的 Science and Technology Research Infrastructure for Discovery, Experimentation, and Sustainability(STRIDES)倡议和 NIH Cloud Platform Interoperability(NCPI)计划,以及欧盟的 European Genomic Data Infrastructure(GDI)计划。
生物信息学通过计算方法分析和理解生物学数据,数据挖掘是其中的关键环节。它利用机器学习和先进的统计方法在大型基因组和多组学数据库中挖掘趋势和模式,从而产生具有临床价值的见解和应用。虽然公共基因组数据库为数据挖掘提供了丰富的资源,但目前这些数据在儿科研究中的利用率较低。为了克服数据访问和分析的技术复杂性,一些用户友好的软件应用程序应运而生,如 DataMed、GEO RNA-seq Experiments Interactive Navigator(GREIN)、OMICtools 和 Datasets2Tools 等。
临床与研究应用:精准医学的实践探索
在临床应用方面,整合多组学和基因组学在儿科肿瘤学、儿科重症监护和儿科糖尿病等领域取得了显著进展。组织特异性转录组分析或 RNA 测序在诊断未确诊疾病方面的应用越来越广泛,与基因组测序结合使用,能够提高对遗传变异的解读能力,改善临床护理。在儿科癌症的研究中,通过多尺度 RNA 聚类方法对儿科癌症进行分子水平的分类,并开发深度学习模型进行验证,提高了诊断的准确性;在儿科神经肿瘤学研究中,整合多组学数据与组织病理学报告,提高了诊断准确性,有助于发现与诊断和治疗相关的突变,识别癌前综合征并预测预后。
在儿科重症监护中,对危重症婴儿和儿童进行超快速基因组测序,结合转录组学和蛋白质组学分析,能够提高诊断率,影响治疗方案的制定。在一项针对 1 岁以下危重症婴儿的系统评价中,发现基因组评估对相当一部分婴儿具有临床实用性,能够改变治疗方案、提供预后信息等。
在儿科糖尿病研究中,通过多组学分析发现了新诊断的 1 型糖尿病患者中与 β 细胞功能快速下降相关的分子特征,有助于识别疾病进展风险高的患者,为设计多组学指导的临床试验和开发精准治疗方法提供依据。
在研究应用方面,传统的基因组学研究多采用表型优先的方法,但这种方法存在诸多局限性,如电子健康记录不完整、暴露组估计不准确、数据集难以扩展等。基因型优先的方法,即反向表型分析,能够克服这些局限性,通过已知的基因型来关联新的表型数据,有助于发现未被识别或诊断的表型,建立新的基因型与疾病的关联。在自闭症谱系障碍的研究中,采用基因型优先的方法发现了 Ras/MAPK 通路中的单核苷酸多态性与特发性自闭症的关联;在类固醇耐药性肾病综合征的研究中,通过外显子测序和反向表型策略,发现了与遗传性肾病相关的新临床特征和预后因素。
精准医学的挑战与未来:机遇与困境并存
尽管精准医学取得了显著进展,但在实际临床应用中仍面临诸多挑战,主要涉及数据、成本、生物伦理和法律等方面。在数据方面,需要大规模、可扩展且具有互操作性的数据,以训练人工智能 / 机器学习模型,确保其能够做出准确的预测。同时,数据应包含人类基因组的调控 / 非编码成分信息,并且具有人群多样性,避免模型预测偏差。此外,还需要具备对模型进行样本外交叉验证的能力,以确保数据的可推广性。
成本也是一个重要问题。在人群层面实施多组学数据收集和与 EHR 的整合需要大量资金投入,而且分析工具的普及也依赖于政策制定者的意愿和投资。现有的医疗保险报销模式难以支持精准医学的广泛实施,需要进行改革。
生物伦理方面,最大的挑战是在大数据集的包容性和多样性与保护数据安全和隐私之间找到平衡。数据泄露可能导致个人在保险、社会和就业方面受到歧视,因此需要加强对患者数据的保护。
在法律和监管方面,美国将基因组学和多组学测试归类为实验室开发测试(LDT),目前这类测试不受美国食品药品监督管理局(FDA)的监管,这使得它们在市场上销售时缺乏临床有效性和实用性的证明。
为了推动精准医学的发展,需要采取一系列措施。首先,要明确当前在地方、区域和全球层面推进精准医学的基础设施和障碍。其次,建立由医生、研究人员、公共和私人研究资助机构、医疗系统、学术机构、医疗支付者、行业合作伙伴和政府监管机构等组成的协作网络,确保患者及其家属和社区支持团体的参与。第三,投资于劳动力的教育和培训,包括临床遗传学家、计算基因组学和数据科学家等,使当前的医疗保健提供者具备实施精准医学的知识和技能,培养多元化的精准医学人才队伍。第四,简化知情同意流程,鼓励不同社会经济阶层的患者参与基因组学研究。第五,通过法律规范多组学和存储的 EHR 数据,加强对患者隐私的保护,防止歧视,促进数据的合理访问和再利用。第六,采用政府主导的 “自上而下” 和医疗系统发起的 “自下而上” 相结合的方法,推动精准医学的研究、创新和实施。第七,改革保险报销模式,从按服务收费转向基于价值的医疗保健,使医疗系统评估框架以患者为中心,并通过与各利益相关者的协商达成共识。
随着基因组学、多组学和人工智能技术的不断创新,精准医学正逐渐改变着我们对人类生物学的理解。在癌症治疗等领域,以患者为中心的精准医疗方法已经取得了一定的成果,为未来的医疗保健提供了新的方向。虽然目前距离精准医学在日常医疗实践中的全面应用还有一段距离,但我们已经明确了前进的方向。未来,有望创建大规模的包含儿童数据且具备伦理保护的数据集,针对常见的儿科公共卫生问题,如神经发育障碍、哮喘、肥胖和早产等,通过基于不同病因致病机制的分型,利用新型准确的生物标志物进行早期诊断,采用靶向治疗方法进行有效治疗,并借助整合多组学与 EHR 和人工智能的技术进行更好的预后评估,从而实现儿科医疗的变革,为儿童健康提供更有力的保障。