《Journal of Molecular Endocrinology》:Massively parallel functional genomic assays in endocrinology: from promise to delivery
20世纪末,内分泌疾病相关基因与突变的定位研究取得重大进展,这得益于通过内分泌生化研究鉴定功能缺陷以及通过家系研究进行遗传定位。然而进入21世纪,人类基因组测序的完成以及下一代测序(NGS)技术的发展使基因组学研究发生了根本性变革,使得人群规模的基因组测序成为可能。由此产生了遗传变异信息的爆炸式增长,其中临床相关基因中所谓的"变异意义不明"(VUS)数量远超致病性突变。此后,功能基因组学领域因需大规模评估罕见遗传变异的功能而迅速发展。饱和突变诱变技术的最新进展使得研究人员能够合成包含数千种基因变异的文库。当与日益创新的下游检测方法相结合时,这允许同时评估数千种变异与疾病相关的功能。此类检测被广泛称为变体效应多重检测(MAVE),在应用于激素受体及其下游信号通路时,于内分泌学领域具有重大潜力。它们有助于确定VUS的功能意义与否,实现罕见疾病治疗的患者分层,并为靶基因的结构-功能关系提供新见解。研究人员回顾了MAVE的发展现状及其在内分泌遗传疾病中的应用,尤其关注激素受体。
引言部分阐述了内分泌遗传学研究的历史演变。20世纪末分子生物学革命推动了内分泌遗传学发现的加速,传统的精细内分泌和生化研究通常在遗传研究之前功能性地定位内分泌缺陷,而遗传研究常在呈现孟德尔遗传模式的罕见家系中进行。在此期间,研究人员发现了编码肽类激素或激素合成相关酶的基因以及参与内分泌腺体或其他激素分泌组织发育或维持的基因中的致病变异。在这些疾病中,激素替代仍然是治疗的主要手段。
遗传发现尤其在鉴定激素受体功能丧失变异方面取得了显著成功。到世纪之交,多类激素受体中均已描述了致病突变,包括核激素受体(如甲状腺激素受体(1)、雄激素受体(2)、雌激素受体(3)、盐皮质激素受体(4)和维生素D受体(5))、G蛋白偶联受体(如促甲状腺激素受体(6)、促肾上腺皮质激素受体(7,8)和黑色素皮质素神经肽受体(9,10))、细胞因子型受体(如生长激素受体(11)或瘦素受体(12))以及受体酪氨酸激酶(如胰岛素受体(13,14))。少数缺陷也定位于受体下游信号转导所涉及的基因,这些基因常为多个受体所共享,例如编码G
sα G蛋白亚基的GNAS基因(15)以及磷脂酰肌醇3-激酶(PI3K)信号负调控因子PTEN(16)。
尽管取得了这些成功,内分泌遗传研究仍然艰巨且进展相对缓慢,主要由于缺乏人类基因组参考图谱以及仍依赖Frederick Sanger于1977年开发诺贝尔奖获奖但费力的DNA测序方法(17)。进入21世纪初,重大技术进步消除了这些瓶颈:首先,多国人类基因组计划的成功提供了缺失的人类基因组图谱(18);其次,一系列"下一代"测序(NGS)技术的发展使得前所未有的规模上进行大规模并行测序成为可能(19)。NGS于2009年首次成功用于鉴定未预期的致病遗传变异(20),此后随着技术的精进和规模化推广,发现速度令人瞩目。外显子组和/或全基因组测序现不仅应用于遗传病先验概率高的人群,也应用于临床怀疑度较低的人群,以及越来越大的普通人群样本。
随着NGS成本下降、通量和精度提高,这些突破性技术进步使致病突变发现的速度爆炸性增长。然而,它们也造成了实现基因组学在内分泌学中全部潜力的新障碍。特别是,尽管真正的致病基因变异数量确实大幅增加,但人类基因组背景遗传变异的记录也随之增加(21,22),这构成了在大量偶然变异中识别可信致病基因变异的重大"信噪比"问题,而这些偶然变异的生物学或临床意义尚不明确。这种变异普遍存在,估计每个测序个体携带约20,000个罕见编码变异(23)。因此,诊断测序中鉴定的大多数基因变异被标记为"变异意义不明"(VUS)。已记录的VUS在ClinVar等广泛使用的临床基因组数据库中迅速超过致病变异(图1),现已成为遗传诊断中的重大挑战(24)。
计算算法是管理这种基因组数据过剩的一种方法,现已常规用于诊断流程中以支持致病性判定(25,26)。许多计算变异效应预测器(VEP)已被描述,诊断性能各异。新的VEP持续快速开发,如AlphaMissense等现已利用深度学习技术,较早期的启发式方法(即涉及计算"试错")(27,28)提供了显著改进。尽管进展迅速,当前VEP算法仍存在技术局限性,且根据现行指南,VEP衍生的功能预测仅用作致病性的支持性证据(25)。VEP的问题包括对现有临床注释的过拟合(29)、在测序数据中代表性不足的人群中的偏倚性能(30),以及由于评分校准不足导致的跨基因预测性能变异(31)。
VEP的一个更微妙的局限性在于它们通常将基因/蛋白质"功能"视为单维的,未考虑多功能蛋白的突变可能仅损害其正常功能的一个或子集,或不同功能受损害程度不同。这在临床上很重要,因为这些基因通常表现出不同的基因型-表型关联,不同突变有时产生影响不同发育或生理过程的疾病。PIK3R1是一个显著例子,它编码PI3K的调节亚基,是许多类型激素受体信号传导的关键参与者:早期无义PIK3R1突变导致免疫缺陷和胰岛素敏感性增强,而基因晚期无义突变导致严重胰岛素抵抗和发育缺陷;此外,错义突变导致免疫缺陷、发育缺陷、严重胰岛素抵抗或血管过度生长,均取决于受影响的变异和蛋白质结构域(32)。这说明了同一基因的突变如何导致广泛的表型结果谱。
最后,即使仅存在与疾病相关的单一基因功能,VEP目前也无法预测预测功能丧失背后的分子机制,这限制了对罕见内分泌疾病开发精准治疗的努力。就激素受体而言,对内源性配体无反应的受体表达可能仍对非典型配体有反应。然而,在成熟受体蛋白无表达的情况下,评估此类新配体将是徒劳的。另一方面,在这种情况下,尝试使用小分子伴侣提高蛋白质表达可能值得探索(表1)。
变体效应多重检测(MAVE)部分介绍了这一新兴技术领域。MAVE同时提供对感兴趣基因中大量变异的功能读出,有时被称为适应度景观(34),规模常达数千种变异(35,36)。该实验方法的相关命名尚未统一,其实施过程也常被称为深度突变扫描(DMS)或有时为残基组学(37)。在当前的广泛热情之前,对基因组变异库进行大规模并行功能检测的可能性已讨论多年,但直到合成生物学和基因组编辑的最新重大进展,才使大量实验室得以实现。现在可以快速准确地生成极大的置换DNA序列变异库,最常见于蛋白质编码基因。这可以在正常基因组位置原位实现,也可以在含有互补DNA(cDNA)的质粒中实现。当设计出能够在所需规模上给出疾病相关功能读出的检测方法时,每种基因变异的蛋白质产物的效应即可确定。
严格的功能研究被美国医学遗传学与基因组学学院/分子病理学协会(ACMG/AMP)广泛使用的遗传诊断指南视为强有力证据(PS3/BS3)。在贝叶斯决策框架中,它们可以有效地在变异分类中发挥决定性作用(25,38,39),从而可能大幅改善"VUS问题"。ACMG/AMP指南持续演变,目前版本4的修订正在进行中。MAVE在诊断流程中的"主流化"也由Atlas of Variant Effects联盟(40)管理的社区资源促进。这些资源包括MaveDB(41),一个已完成MAVE研究及相关数据的仓库;MaveRegistry(42),旨在协调、优先化和避免正在进行的研究重复;以及最近的MaveMD,作为MaveDB的扩展,将MAVE功能评分转化为校准的ACMG兼容证据(105)。这些资源促进了MAVE研究的合作和转化应用,集中和标准化功能变异数据以实现实验测量变异效应的系统访问。然而,如何标准化MAVE的设计和报告、如何最好地使用MAVE衍生数据支持临床决策、以及如何建立用户对MAVE功能发现严谨性的信心,仍是持续讨论的主题(39)。
重要的是,MAVE不应被视为VEP的竞争者,而应被视为互补,实验方法与计算方法之间存在巨大的协同潜力。一项近期研究发现,VEP和MAVE的结果虽显示相似且通常较高的总体预测性能,但实际相关性仅为中等:顶级VEP的MAVE-VEP相关系数(Spearman ρ)约为0.5-0.6(43)。重要的是,MAVE生成大规模的"低循环性"实验数据集(即对VEP常用数据源依赖最小或为零),为VEP验证提供基准。这种潜在协同的真正规模才刚刚开始实现(44)。
突变文库生成策略部分详细讨论了MAVE的第一步。变异文库的生成通常涉及饱和突变诱变,在靶基因或基因区域引入核苷酸改变,产生源自靶开放阅读框的综合变异蛋白文库。突变诱变可通过不同方法实现,各有其优势和局限性。
基于聚合酶链反应(PCR)的重要方法组包括易错PCR,其依赖工程化DNA聚合酶的不完全保真度,但倾向于产生单核苷酸替换,无法在每个密码子产生全部氨基酸替换库(45,46)。寡核苷酸靶向编辑提供了更大灵活性,将所需突变掺入特别合成的寡核苷酸引物库中,然后使用高保真聚合酶进行PCR。具体而言,对于密码子突变诱变,寡核苷酸设计为每个库含有一个简并密码子(如NNS、NNK),每个待突变密码子对应一个库。NNS和NNK密码子在目标密码子编码所有可能的氨基酸改变同时最小化终止密码子。此类突变诱变方法的报道实例包括POPCode(47)、PFunkel(48)、OnePot(49)、PALS(50)和反向PCR(51),均允许精确且大规模并行突变诱变(图2)。
定制的位点饱和变异文库也可以完全按需合成(52)。这些文库消除密码子偏倚,允许每种氨基酸替换的均等代表,并大幅缩短优化和实施饱和突变诱变实验所需时间。此类文库现已为许多经验丰富的MAVE实验室所青睐(53);然而,目标长度限制和成本考虑仍然阻碍其在全球范围内的采用(52)。
另一重要方法组采用CRISPR相关技术实现内源性位点的原位饱和突变诱变。饱和基因组编辑(SGE)是最常用的原位编辑方法,涉及共递送CRISPR-Cas9/sgRNA复合物和突变诱变修复模板库。Cas9引入靶向双链断裂,通过同源定向修复使用供体模板进行修复,导致在内源基因组位点掺入单一变异(54,55)。与SGE不同,CRISPR先导编辑无需同源供体模板即可实现原位突变诱变。在先导编辑中,细胞接受先导编辑器(含Cas9切口酶与逆转录酶融合蛋白)以及编码所需突变的先导编辑向导RNA(pegRNA)库。每个pegRNA将编辑引导至靶位点并提供逆转录模板以在内源位点安装编程变异(56,57)(图2B)。内源基因组编辑方法保留天然基因组背景,包括内含子和调控元件,因此能够检测基于cDNA的文库生成方法难以评估的剪接破坏性同义变异和内含子变异(58)。
多重功能检测的一般设计考虑部分讨论了MAVE设计的关键要素。开发既报告感兴趣基因产物的疾病相关功能又能在巨大规模上使用的检测方法对MAVE设计至关重要。对于100个氨基酸的蛋白质,有2,000种潜在变异;对于1,000个氨基酸的蛋白质,则有20,000种蛋白质变异,插入和缺失未计入其中。为减少抽样噪声,应在单次实验中对每种变异的多个细胞进行测量,理想情况下涵盖多个克隆,这意味着较大基因的每次实验可能需要数百万细胞。测序深度必须针对变异丰度进行调整。一些方案通过条形码策略进一步减少误差(59),其中变异用两个或多个独特条形码标记,通过技术重复的平均适应度评分实现降噪。
检测设计的第一个关键考虑是选择能够容纳和表达所需规模文库的模型系统。第二个关键考虑是所选下游检测的功能读出是否与所研究的临床状况或表型相关(38)。
模型系统选择方面,MAVE原则上可在广泛范围内实施,从非细胞系统到细菌、植物、低等真核生物再到哺乳动物体内(表2)。20世纪80年代发展的噬菌体展示技术可视为体外MAVE原型(60,61),将感兴趣基因的变异融合文库用于指导融合蛋白产物在噬菌体外部的表达,适用于针对固定底物的"淘选"循环,中间穿插细菌宿主中选中的噬菌体扩增。这种定向进化形式已被有力应用于开发和成熟单克隆抗体,并作为2018年诺贝尔化学奖的一部分获得认可(62)。最近,无细胞cDNA展示蛋白酶解系统已用于在单次实验中测量近百万蛋白质结构域的热力学折叠稳定性(63)。
MAVE也广泛用于细菌模型,通常用于探究抗生素耐药机制(64);但真核细胞模型与内分泌科学家最为相关。最简单广泛使用的真核模型是酵母,为高通量研究提供简单、经济、高效的系统。酵母表面展示特别用于筛选数千种蛋白质变异的结合亲和力和功能(65,66)。酵母模型也用于人类疾病基因的互补检测,其中人类基因功能替代生长必需的同源酵母基因(47),以及蛋白质-蛋白质和蛋白质-DNA相互作用(67,68)。内分泌学家关注的酶蛋白功能检测的酵母模型实例为PTEN编码的磷酸酶研究,该酶拮抗PI3K信号,在PTEN错构瘤肿瘤谱系中突变(69)。
尽管比噬菌体、细菌和酵母的实验操作性差,哺乳动物细胞提供了更接近人类组织的近似,已在内分泌相关MAVE中得到最广泛应用。哺乳动物细胞的复杂性和较高成本限制了可扩展性,细胞文库创建和下游检测策略均需仔细开发,需考虑所需变异文库规模。转染只希望易性、原位基因编辑的便利性、对广泛操作的稳健性(可能包括克隆扩增)、以及基因的内源性表达是关键考虑因素。原位编辑时,靶基因的内源性表达是有效MAVE的先决条件;相反,转基因表达时,内源性表达可能是主要混杂因素,通常通过内源基因敲除或沉默处理。
许多哺乳动物细胞系已用于MAVE。HEK293细胞是MAVE的"主力军"哺乳动物细胞模型,因其易于培养和转染、快速生长、易于适应高通量检测,同时提供比细菌或酵母更好捕获蛋白质折叠、免后翻译修饰和细胞内信号的人类细胞环境。HEK293细胞还经过修饰以优化变异文库整合,使其特别适用于VAMP-seq等通用功能检测,后者确定变异对蛋白质丰度的影响(70,71)。
自发单倍体哺乳动物细胞如髓系Hap1细胞系(36)也广泛用于MAVE。使用此类细胞消除了第二等位基因的混杂效应,特别适用于基因组编辑方法。Hap1细胞中的MAVE还参考了此类细胞生存所必需基因的精心整理列表(72,73)。这些因素共同促成了Hap1细胞中MAVE的半自动化大规模功能基因组学部署(74)。然而,几乎没有真正的激素受体对Hap1细胞的生存是必需的(72,73)。
第三种具有高转化潜力的哺乳动物细胞类型是诱导多能干细胞(iPSC)。iPSC因其定向分化为大量成熟细胞类型的固有能力而特别令人兴奋,为不同谱系背景中的MAVE提供了广阔前景。iPSC已被用于大规模CRISPR筛选,表明类似策略可以适应并整合到未来的MAVE实验设计中(75,76,77)。iPSC衍生细胞在内分泌方面的成熟实例包括胰岛β细胞(78)、脂肪细胞(79)、甲状腺滤泡细胞(80)、类固醇生成肾上腺皮质细胞(81)和肝细胞(82),iPSC衍生类器官也被描述用于各种激素分泌器官(如甲状腺(83)、胰岛(84)、垂体(85)、肾上腺(86))和靶组织(如肝脏(82)、脂肪组织(79))。尽管iPSC在MAVE中具有巨大潜力,目前仍存在阻碍其广泛开发的重大障碍,包括iPSC培养的高成本、iPSC高效基因编辑的挑战、iPSC中许多启动子的沉默(尤其在病毒序列背景下)——尽管最近在克服这些问题方面取得了进展(87)。进一步挑战是iPSC分化方案通常漫长且劳动密集,常有瓶颈减弱文库多样性。然而,这些挑战正在被规避,iPSC在MAVE中的威力和多功能性正开始显现(88),预计将进一步快速发展。
功能检测选择方面,创建包含完整变异多样性(包括充分重复和对照)的细胞文库仅是MAVE设计的第一步。一旦理解下游检测的性能特征和疾病相关性,MAVE的统计稳健性及所需重复和对照数量才能充分建模。开发功能检测诊断性能评估的标准和统计框架的努力略滞后于基因变异整理和评估,但已提出严谨方法(38)。
所选功能检测的核心要求是:必须允许将每个细胞的表型结果与该细胞携带的突变联系起来;必须与感兴趣的疾病或体内过程相关;必须提供足够的动态范围以区分信号与噪声,理想情况下区分不同程度的功能丧失。
结果与突变的关联通常通过下一代测序方法实现。原则上,这可涉及在检测结束时对所有细胞的整个感兴趣基因进行测序。这是基于原位编辑的MAVE中最常见的方法,采用逐外显子靶向并测序相应外显子。对于基于转基因表达测序的许多MAVE,整个开放阅读框因成本而难以测序,尤其对于大基因。因此,在文库创建中将混杂的"条形码"DNA序列与每个点突变顺式掺入是常见做法。此类条形码通常置于编码序列旁侧,有时掺入转录的mRNA中,具有极大多样性——即使20个寡核苷酸的条形码,每个位置4种核苷酸,即有超过1万亿(10
12)种排列。在文库验证过程中,长读长DNA测序可用于条形码和变异的"定相"——即创建列出每种变异相关条形码的索引。一旦建立此映射,即可通过仅测序短条形码区域而非完整变异序列来定量功能检测中的变异丰度(89)。现已提供整合完整下游处理流程的各种免费工具,包括条形码-变异定相、条形码丰度计数、每个变异多个条形码的折叠以及变异评分计算(89)。
检测方法及其疾病相关性取决于所涉及的基因和疾病。然而,研究大量细胞(常达数百万)的苛刻要求实际上将检测限制为几种广泛类型(图3)。
生存检测方面,无论是酵母还是哺乳动物细胞,细胞生存检测为识别疾病基因中的有害变异提供了有力平台。这些检测首先需要鉴定使细胞生存或复制依赖于感兴趣基因完整功能的细胞类型和相关培养条件。这可以直接利用某些情况下的天然蛋白质功能,或利用丰度蛋白片段互补检测等方法。在这些检测中,对细胞生存必需的蛋白质被分成两段,一段与接受MAVE的基因融合;当融合蛋白产物表达且稳定时,分开的蛋白质片段可以结合,恢复必需基因的功能。这种方法虽然更为人为和间接,但有力且可推广,已规模化使用(90)。
在许多基于生存的MAVE中,单倍体状态的酵母或近单倍体细胞系如Hap1是重要优势,因为二倍体细胞需要基因的双等位基因敲除才能证明其必需性。满足此条件时,携基因变异细胞在此选择压力下在群体中的持续存在表明功能得以保留。通过对选择前后变异文库进行测序,如果这些变异消失或在定向进化条件下越来越不占优势,则可识别有害变异(68)。最简单的单时间点实施往往使结果二元化;然而,使用时间点生存检测或改变细胞应激源剂量,可以区分导致适应性逐渐下降的轻度有害突变和强功能丧失效应的突变(36)。
荧光激活细胞分选(FACS)方面,FACS检测通过根据荧光强度将细胞分选入不同容器,实现变异文库的功能分类(91)。为此,荧光必须与蛋白质表达和/或功能相关联,导致分选时基因缺失细胞与表达野生型蛋白细胞之间形成清晰分离。常见策略包括将感兴趣基因与编码荧光蛋白的基因融合,以荧光作为靶蛋白表达的替代指标,即VAMP-seq(variant abundance by massively parallel sequencing)检测subtype,已在多个靶点优化和验证(70)。另一策略是使用特异性结合相关基因产物本身(如(59))或下游上调蛋白质(如(84))的荧光配体或抗体。这对细胞表面蛋白最有效,但固定和透化后有时也可用于细胞内蛋白(如(59))。如果变异破坏蛋白质功能或表达,将减少或消除荧光团结合,使细胞从野生型重新分布至缺失对照细胞容器。中间功能丧失变异将分布在缺失和野生型容器之间,也可从中间容器取样捕获。通过从每个容器扩增条形码并测序,然后使用预先确定的条形码-变异指数确定每种变异在各容器中的分布,即可计算每种变异的功能评分(如(59,92,93))。
基于成像的检测方面,近年来下一代测序方法已适应实现成像细胞中标签DNA条形码的原位测序(如(94,95))。虽然最初为基于成像的池化CRISPR筛选开发,此类方法也为多维MAVE提供了有力可能。携带突变文库的细胞群体的高内涵成像可以针对特定的感兴趣细胞表型和疾病相关性,或更无偏地使用多种细胞器染色来区分不同的异常模式。例如,这可能涉及同时检查核形状、线粒体组织、细胞骨架结构、膜完整性或不同突变产生的其他细胞特征。这种多参数高内涵细胞绘画(96)开启了同时定量多种细胞表型的可能性,为研究具有更复杂基因型-表型关系的基因增加价值。此类成像方法作为MAVE读出物最近已成功应用于LMNA和PTEN,两者均有复杂的基因型-表型关系和内分泌疾病关联(97)。通过原位测序条形码,确保条形码与图像的注册。此类MAVE尚未达到生存或FACS检测的通量,但技术仍在快速发展。
单细胞转录组学方面,单细胞RNA测序(scRNA-seq)同时确定单个细胞水平数千种基因的表达(98)。当文库设计确保标记变异的条形码表达良好且可被scRNA-seq检测时,这提供了另一种有力的高维途径来区分多种疾病相关表型。这种方法对研究对基因表达有显著影响的基因特别有力,例如核激素受体等配体激活的转录因子,其中不同配体对功能的选择性调节已有充分记录。然而,迄今为止一些最佳实例研究的是癌基因或肿瘤抑制基因,如p53(99)。
数据分析、标准和可重复性方面,为MAVE中每种变异评分是基于其在选择后细胞群体中的富集,或其标记条形码的富集,无论这是生存、FACS还是其他检测范式。至少已发布七种不同的MAVE数据分析工具(89);有些能够分析多个时间点或条件的实验,有些仅限于分析单个选定的预选和后选细胞群体。实例包括TileSeqMave v1.0(47),常用于采用直接/瓦片序列方法的MAVE;以及Enrich2(100),广泛用于利用条形码测序的MAVE(89)。
快速扩展的MAVE领域迄今倾向于优先考虑新颖MAVE设计和/或此前未研究基因的MAVE。这种对技术前沿的快速开拓使得MAVE可重复性的严格解决有所滞后。个别研究采用了各种方法进行研究内变异性的统计分析,而不同模型系统或实验室研究同一基因的例子很少,且没有激素受体的例子。使用不同细胞系统和检测设计的两项独立Parkin MAVE显示了强一致性(R = 0.77)和高诊断性能(ROC AUC 0.92和0.94)(101,102)。相比之下,基于丰度的检测如VAMP-seq显示较低的分类性能(ROC AUC约0.70-0.78),提示直接测量蛋白质功能的检测通常比稳定性或丰度检测提供更大的效应量和改善的变异区分能力(70)。
社区为满足跨研究标准化和数据仓库需求而采取的关键步骤是创建公开可访问的MaveDB数据库(41)。该数据库遵循严格的数据和文档标准,强制使用HGVS命名法进行变异表示,体现FAIR(可发现、可访问、可互操作、可重用)数据共享原则,并符合GA4GH(全球基因组学与健康联盟)框架。这些标准确保捕获实验设计的关键细节以保证可重复性,并与其他资源如ClinVar(24)和gnomAD(103)整合。应用编程接口和可视化工具的纳入进一步简化了数据分析,使MaveDB成为基因组学社区的宝贵资源(41)。MaveDB最近为转化目的进一步发展,发布了数据库的临床层——MaveMD,将MAVE功能评分转化为校准的ACMG兼容证据,供临床医生用于支持变异分类(104)。这些标准化数据分析和报告的努力是实现MAVE临床诊断潜力的重要步骤;然而,同一基因在不同模型和实验室中的更多重复研究仍有迫切需求。
与性能评估相关的其他转化障碍仍然存在。用于验证和测试任何MAVE区分性能的突变真集规模已成为关键问题。基于ACMG/AMP标准的建模,应用于癌症相关变异,显示良性变异真集比令人信服的致病变异真集限制更多(105)。如此类良性变异经功能验证的相对较少,而ClinVar中的致病性管理并非基于严格的功能数据。因此,开发高置信度良性真集已被确定为社区的关键需求。基于主动生成良性变异列表的务实解决方案已被提出,依据因素包括人群频率、疾病罕见性和ACMG/AMP标准(105)。
MAVE在激素受体中的应用部分讨论了该领域的具体应用。MAVE在内分泌疾病中的应用尚处于起步阶段,但潜力巨大。除缓解内分泌疾病基因诊断测序中VUS问题的一般目标外,激素受体的MAVE呈现出特别有吸引力的转化机会。许多机会源于受体的高可靶向性,可用内源性、修饰的内源性或全新合成的配体进行靶向。这为全面筛选感兴趣受体的综合突变库提供了广阔空间,以识别某些配体激活特定受体突变的潜在有益作用。这不仅有助于了解受体结构-功能关系,还可能预先根据配体反应性分层所有可能的突变,无需在鉴定每种突变时逐一进行功能研究。这有助于解决罕见疾病转化研究中的限速步骤。迄今为止,已发表数个应用于内分泌学家感兴趣的受体、代表不同受体类别的MAVE实例(图4)。尽管每项受体MAVE报告了不同的性能指标,反映了领域中不断演变的方法,但所有情况下区分性能均高,识别致病突变的ROC曲线下面积通常超过0.90(43,59)。
核激素受体(NHR)方面,NHR是配体激活的转录因子,响应包括性激素、盐皮质激素、糖皮质激素和甲状腺激素在内的亲脂性激素调节基因表达。尚未有此类经典激素受体接受MAVE;但NHR家族中另一具有内分泌重要性的成员PPARγ已有研究。PPARγ在代谢稳态中起关键作用,是脂肪细胞分化的主要转录调节因子。与此一致,功能丧失PPARG突变导致家族性部分性脂肪营养不良(106)。PPARG是否受特定单一配体调控,或作为多种脂质物种通量的传感器,仍有待完全确定。PPARG是应用于内分泌疾病基因最早MAVE之一的对象(106)。该MAVE使用瓦片方法进行文库生成,下游检测在PPARG敲除单核细胞中进行。使用FACS评估CD36的上调,CD36是PPARG响应的细胞膜脂质转运蛋白和清道夫受体,以响应两种配体的两种浓度。MAVE数据进一步用于训练PPARγ变异致病性的监督机器学习分类器,此后用于支持家族性部分性脂肪营养不良3型的临床遗传诊断。
G蛋白偶联受体(GPCR)方面,膜相关GPCR形成最大的蛋白质家族。它们不仅转导多种细胞外信号,包括光子、挥发性气味剂、无机离子、趋化因子和pH,而且对内分泌学至关重要的还包括重要的一元胺(如多巴胺、血清素)和肽类(如促肾上腺皮质激素、促甲状腺激素、胰高血糖素、促黑素细胞激素家族)激素及神经肽/神经递质,以及具有代谢相关性的小分子(107)。迄今有两种具有内分泌意义的GPCR接受了MAVE。第一种是β2肾上腺素能受体(β2AR),主要介导肾上腺素的作用,主要通过Gα
s G蛋白增加细胞内cAMP从而蛋白激酶A(PKA)活性。这一明确作用被用于开发cAMP响应性转录报告系统,表达变异特异性条形码报告基因,可作为配体刺激下游β2AR信号传导的读出物进行定量(108)。该研究描绘了对受体信号传导重要的新型保守结构锁扣,同时提示了Gα
s偶联GPCRMAVE的可推广平台。
该方法进一步发展用于研究另一重要"内分泌"GPCR——黑皮质素4受体(MC4R)(109)。MC4R是单基因肥胖中最常突变的基因(110)。MC4R信号涉及多种G蛋白介导的信号通路,包括Gα
s/cAMP和Gα
q/PLC信号传导,不同通路间的不同信号偏倚模式与不同表型和治疗反应相关(111,112)。该研究优化了cAMP报告构建体以改善信噪比,并开发了Gα
q信号传导的两步报告系统。最初从NFATc驱动启动子获得的不可接受的弱信号,通过用于诱导强激活性人工Gal4-Vpr嵌合构建体得以放大。这反过来激活了与用于读出cAMP的报告基因不同的条形码报告基因的表达。使用此方法,MC4R变异对两种具有Gs和Gq介导效应的药物的反应被绘制(109)。信号偏倚和选择性破坏激动剂结合的突变均被识别,为配体结合和信号转导机制提供了信息。这些将为药物设计和患者分层提供信息,以指导这些新药物的疗法。
受体酪氨酸激酶(RTK)方面,RTK在内分泌学中最突出的是胰岛素和IGF1受体,它们参与包括磷脂酰肌醇3-激酶(PI3K)和RAS/MEK/ERK通路在内的信号通路。RTK在癌症发病机制中也至关重要,其中许多生长因子激活RTK的激活突变促进肿瘤生长。然而,RTK的MAVE不如GPCR发展成熟,直到最近主要聚焦于受体激活机制和对一组RTK抑制剂的耐药,以肝细胞生长因子MET受体的研究为例(113)。这些研究未使用报告检测,而是利用Ba/F3细胞系对病理性激活MET信号传导的依赖性以进行生存,替代野生型细胞对IL-3的依赖。
最近,胰岛素受体(INSR)也接受了多维MAVE研究;使用在敲除Igf1r和敲低内源性Insr的小鼠胚胎成纤维细胞中表达的细胞外变异条形码文库(59)。该研究使用FACS结合荧光标记胰岛素、抗INSR单克隆抗体或针对关键信号中间体pAkt的抗体的结合,来检测细胞表面表达、胰岛素结合以及关键的胰岛素或抗体诱导的最大信号传导(59)。除产生与INSR结构-功能关系相关的新发现并解决严重胰岛素抵抗遗传诊断中的"VUS问题"外,与上述MC4R MAVE类似,该研究还将有助于对新发现的INSR变异患者进行潜在靶向治疗分层,使用非经典INSR配体包括单克隆抗体。
其他内分泌受体类别及下游信号基因方面,不同结构类别的其他重要激素受体(如细胞因子型受体(以生长激素和瘦素受体为例)和TGF家族受体(如GDF15受体))的MAVE尚未有报道。然而,上述其他受体类别MAVE的经验提供了一系列可适应的范式。
MAVE在其他内分泌疾病相关基因中的应用方面,受体之外的内分泌疾病相关基因MAVE研究仍然有限。一个主要挑战是,与受体不同——受体有通用且成熟的多重检测平台(例如用于量化表面表达的FACS抗体或测量GPCR信号传导的cAMP响应报告基因)——非受体内分泌基因跨越多种功能类别,需要不同的检测系统。然而,单基因糖尿病基因仍取得显著进展的实例,如胰高血糖素激酶(GCK),其几乎所有可能的错义和无义变异对酶活性和蛋白质丰度的影响已在酵母互补MAVE中研究(114,115);以及HNF1A,其深度突变扫描已定量了11,970种蛋白质编码变异在人肝细胞中的转录效应(116)。
激素受体MAVE的未来机遇与挑战部分展望了该领域的发展方向。MAVE领域在许多方面正快速发展,不仅包括基础技术、其应用和相关分析流程的持续创新,还包括与遗传诊断和罕见疾病治疗的转化接口。随着方法进一步简化、成本下降,预期将越来越多地开展使用一系列激素浓度、时间进程和多维读数的内分泌MAVE。此类多维读数可能涉及受体激活复杂信号网络不同部分的多重报告基因、单细胞转录组学以及适当时的单细胞蛋白质组学。单细胞转录组学对核激素受体具有特殊吸引力,其中不同的转录反应可能由不同配体或在不同突变扰动下差异性激活。
未来的另一个令人兴奋的可能性是将MAVE应用于分泌性肽类激素。这可能为具有不同治疗情况下多种理想特性的新型肽类激素类似物提供途径,近几十年来胰岛素类似物的增殖即为范例。制造分泌肽的突变文库将很直接,因此挑战在于将表达的、分泌的突变肽与起源细胞中的标签条形码保持偶联。最近一项研究通过将保留自身信号序列的分泌肽与将它们锚定到细胞膜的跨膜蛋白融合,为此迈出了第一步(117)。如果该方法能被证明可产生保留生物活性的细胞表面表达肽类激素,则将开辟一系列激动人心的转化可能性。MAVE列车正在加速,转化内分泌研究的前景广阔。