结合遗传与传统风险因素的心血管疾病高危人群风险预测算法开发与验证

《PLOS One》:Development and validation of a risk prediction algorithm for high-risk populations combining genetic and conventional risk factors of cardiovascular disease

【字体: 时间:2025年10月22日 来源:PLOS One 2.6

编辑推荐:

  本刊推荐:本研究基于爱沙尼亚生物样本库(EstBB)大数据,首次开发并验证了整合多基因风险评分(PRS)与传统风险因素的心血管疾病(CVD)风险预测模型。结果显示,PRS是CVD的强独立风险因素,尤其在年轻男性中提升预测效能显著(C-statistic增加0.028,p<0.0001),净重分类改善指数(NRI)达19.1%。研究支持在高危人群中,应从相对年轻年龄开始将PRS纳入常规风险评估。

  
引言
动脉粥样硬化性心血管疾病(CVD),包括冠状动脉疾病和脑血管疾病,是许多欧洲国家的主要死亡原因。多基因风险评分(PRS)已被证明是评估CVD遗传风险和提高疾病风险预测准确性的一种有价值且创新的方法。多项研究表明,将遗传风险评估纳入现有的风险分层算法可以显著提高其效率。
PRS已在多项研究中得到验证,并被发现可以独立于许多传统因素(如吸烟、高胆固醇血症、高血压、肥胖和CVD家族史)来增强CVD风险预测。通常,PRS将大量(从数百到数百万)单核苷酸多态性(SNPs)的效应作为等位基因计数的加权总和来组合。研究表明,与家族性高胆固醇血症的单基因变异相比,升高的多基因评分导致早发性心肌梗死病例的比例显著更高。这意味着整合遗传易感性可以补充CVD风险预测,并且当与传统因素结合时,可以显著改善疾病风险预测,并促进CVD一级预防的决策制定。结合PRS与临床和生活方式数据评估CVD风险的研究显示出有希望的结果,但要证明其临床实用性,还需要更严格的验证和现有模型之间的比较。
基于传统风险因素的几个大型队列和国家特异性CVD风险预测模型已经被开发出来,例如欧洲的SCORE2、美国的汇总队列方程(PCE)和英国特有的QRISK3算法,然而它们在不同人群中的普适性仍然有限。考虑到英国的心血管疾病患病率相对于中东欧的高危人群较低,利用英国生物银行数据开发的基于PRS的风险评估算法的有效性也面临类似的挑战。
本研究描述了结合传统心血管风险因素与PRS的新型风险评估模型的开发和验证。
方法
伦理
爱沙尼亚生物样本库(EstBB)的活动受《人类基因研究法》监管,该法案于2000年通过,专门适用于EstBB的运作。在EstBB中进行个体水平数据分析获得了爱沙尼亚生物伦理和人类研究委员会(爱沙尼亚社会事务部)的伦理批准(1.1–12/624),并根据爱沙尼亚生物样本库的发布申请(6–7/GI/24836)使用数据。所有参与者均已签署书面知情同意书。
数据来源
研究队列使用爱沙尼亚生物样本库(EstBB)的数据构建。EstBB是一个基于志愿者的生物样本库,包含超过21万名参与者的基因型和临床事件数据。健康记录定期使用国家登记处、医院数据库以及涵盖初级和二级护理数据的国家健康保险基金数据库进行更新。此外,胆固醇数据是使用核磁共振(NMR)光谱法量化的。参与者的招募分两个不同的阶段进行。第一波积极招募期在2002-2004年和2007-2010年,期间招募了超过51,000名参与者。在2011-2017年期间,另有约1000名志愿者加入,形成了约52,000名参与者的队列。第二波在2018-2019年的积极全国运动期间招募了超过15万名参与者,随后在2020-2024年招募了约9000名额外参与者,形成了近16万名参与者的队列。招募过程使用了国家数字身份证系统,允许在附近的医疗保健提供者或药房进行电子同意和血液采样,与第一波相比,使潜在参与者的过程更简单、更快、更容易获得。两波招募的总参与者人数(超过21万)约占爱沙尼亚成年人口的20%。数据于2024年10月26日被访问用于研究目的。作者在数据收集期间或之后无法访问可能识别个体参与者的信息。
本研究中使用的PRS是由Patel等人开发并从PGS目录获取的冠状动脉疾病(CAD)多祖先PRS。该PRS是从151个候选CAD PRS中选出的,因其在预测基线时EstBB数据(包括15,095例CVD病例和119,694例对照)中,通过逻辑回归调整招募年龄和性别后,具有最高的z值。
参与者
样本量:所有年龄在招募时至少25岁且拥有基因分型数据的185,760名EstBB参与者被考虑进行分析。应用纳入和排除标准(见下文)后,研究中包含的个体总数为n = 128,209,其中32,554名来自第一波招募(2002-2017),95,655名来自第二波招募(2018-2022)。为避免招募过程差异和日历时间效应可能引起的选择偏倚,对两波招募的队列进行了单独分析。
排除标准:
  1. 1.
    既往有CVD病例,即在招募前被诊断患有非致命性CVD(ICD-10代码I20, I21–I25, I60–I69,不包括I60, I62, I67.1, I67.5, I68.2)的个体(n = 25,894)。
  2. 2.
    基线时患有糖尿病(E10–E14)的个体(n = 11,555)。
  3. 3.
    患有家族性高胆固醇血症(FH)的个体(n = 76)。
  4. 4.
    血脂值(总胆固醇(Total-C)、高密度脂蛋白胆固醇(HDL-C))缺失的个体(n = 3,569)。
  5. 5.
    收缩压(SBP)缺失或SBP < 50 mmHg 或 SBP > 300 mmHg的个体(n = 27,212)。
  6. 6.
    体重指数(BMI)缺失或BMI < 15 kg/m2 或 > 50 kg/m2的个体(n = 752)。
  7. 7.
    吸烟数据缺失的个体(n = 1,591)。
结局
感兴趣的结局是偶发性非致命或致命CVD事件。偶发CVD事件使用SCORE2工作组提供的动脉粥样硬化性CVD定义进行识别。由于结局数据基于电子健康记录(EHR)链接,我们假设没有缺失的结局数据。EHR的数据可用至2023年12月31日。在6,893名个体中观察到结局事件,非CVD原因的死亡(n = 2,124)被视为竞争风险。
预测因子
该模型结合了CVD的传统预测因子和预先计算的CAD PRS。预测因子的管理已在补充文本中描述。
包含的预测因子列表:
  1. 1.
    年龄(岁)
  2. 2.
    性别(男/女)
  3. 3.
    当前吸烟(是/否)
  4. 4.
    收缩压(SBP)(mmHg)
  5. 5.
    总胆固醇(mmol/L)
  6. 6.
    高密度脂蛋白胆固醇(HDL-C)(mmol/L)
  7. 7.
    体重指数(BMI)(kg/m2
  8. 8.
    冠状动脉疾病多基因风险评分(PRS)
统计方法
a) PRS对结局的影响:使用Aalen-Johansen曲线(考虑竞争性死亡原因并以年龄为时间尺度)评估PRS差异如何影响按PRS分组(底部10%、10%–90%、顶部10%)的招募时年龄在25-70岁之间的男性和女性的累积CVD事件发生率。使用Cox比例风险模型分别计算早期队列和后期队列的粗略风险比(HR)及95%置信区间(CI)。
b) PRS效应和区分度与传统风险因素的比较:分别为早期和后期队列以及两个年龄组(25-59岁和60岁以上)拟合模型,以估计PRS的效应并将其区分度与传统风险因素(当前吸烟、SBP、总胆固醇、HDL-C、BMI)进行比较。在年轻组中,由于存在显著的交互作用,模型按性别分层;在年长组中,性别作为分层变量。Cox模型使用发生CVD事件时的年龄作为时间尺度,以避免左截断偏倚。使用Harrell's C指数评估单风险因子模型和包含所有协变量(含或不含PRS)模型的区分度。
c) 模型在独立样本中的预测能力:使用拆分样本方法,将队列分为训练集(三分之一)和验证集(三分之二),以评估模型的预测能力。在每个组(按年龄、性别和招募期定义)中,在训练数据集中拟合两个Cox比例风险模型,以从招募到偶发CVD事件的时间为主要结局。模型使用多状态建模原理考虑了竞争风险,其中其他死因被视为竞争事件。对于在招募后5年或10年内未发生事件或事件发生较晚的参与者,其事件时间分别在5年(后期队列)或10年(早期队列)进行截尾。首先使用传统CVD风险因素拟合模型,然后使用这些因素加上PRS拟合模型。
通过比较预测风险五分位数组内观察到的CVD事件数量与模型预测的事件数量来评估模型校准。计算连续净重分类指数(NRI)和分类NRI,以比较5年预测风险与观察事件率。使用Benichou和Gail的绝对风险公式(在R软件的riskRegression包版本2023.9.20中实现)将来自针对传统风险因素和PRS调整的生存模型的线性预测因子转换为绝对的5年或10年CVD风险预测。
所有分析均使用R版本4.2.2完成。
结果
队列描述和结局
共有128,209名爱沙尼亚生物样本库参与者被纳入分析。早期队列(n = 32,554,2002-2017年招募)和后期队列(n = 95,655,2018-2022年招募)的基线特征如表1所示。两个队列的招募平均年龄相似,约为44岁(早期队列44.4岁,后期队列43.7岁),性别分布相当(约三分之二的参与者为女性)。早期队列的中位随访时间为14.9年,后期队列为5.1年。在风险因素方面,吸烟率存在很大差异:早期队列中30%的人在招募时为当前吸烟者,而后期队列为19%。我们还可以看到,在60岁及以上的个体中,早期队列的平均血压和低密度脂蛋白胆固醇水平略高。5年累积CVD发病率不同,早期队列为5.7%,后期队列为0.6%。这些差异反映了早期队列更长的随访时间、更高的传统风险因素流行率,以及两个队列之间人口健康的改善和招募程序的差异。
不同PRS百分位数的累积发病率
以年龄为尺度的累积发病率曲线(图1)显示,在所有PRS组和队列中,男性的CVD发病率均高于女性。到70岁时,早期队列中约40%的男性经历过CVD,而后期队列中约为25%。对于女性,这一比例分别为24%和13%。后期队列中的男性CVD风险与早期队列中的女性相似。
PRS的影响在不同性别和队列中是一致的。处于PRS最高十分位的个体与处于中间或最低百分位的个体相比,具有显著更高的CVD风险。例如,在早期队列中,处于PRS最高十分位的男性到70岁时累积CVD发病率是最低十分位男性的两倍多。处于PRS最高十分位的男性比平均水平早六年达到20%的CVD累积发病率,而处于最低十分位的男性则晚五年达到,极端十分位之间相差约十年。在女性中观察到类似的模式。
与处于PRS第10-90百分位范围的个体相比,处于PRS最高十分位的个体的风险比(HR)在早期队列中男性为1.7(95% CI 1.5–1.9),女性为1.5(95% CI 1.3–1.7);在后期队列中男性为1.9(95% CI 1.6–2.4),女性为1.6(95% CI 1.3–2.0)。当将PRS最高十分位与最低十分位进行比较时,HR范围从早期队列女性的1.9到后期队列男性的2.9。
PRS在包含传统风险因素模型中的效应
PRS对应的HR如图2所示。这些HR来自以年龄为时间尺度、调整了当前吸烟、SBP、总胆固醇、HDL-C和BMI的Cox模型。模型分别针对两个队列、性别和年龄组进行拟合(在60岁以上的个体中,按性别拟合模型)。
PRS的效应在年轻男性中最强,在不同队列中HR相似。年轻女性的HR略低,在后期队列中效应更强。在60岁以上的个体中,效应在后期队列中更为明显,在该年龄组中PRS与性别之间没有显著的交互作用。详细的参数估计见补充表S2。
PRS和传统风险因素的区分能力:C指数比较
使用年龄作为时间尺度,并以每个传统风险因素和PRS作为单个协变量拟合Cox模型,以评估它们的相对重要性。Harrell's C指数估计值均低于0.6(图3),这反映了模型对于相同基线年龄个体的区分能力,因为年龄被用作时间尺度。
在年轻男性中,PRS是最强的单一预测因子,C指数为0.60(95% CI 0.58–0.61),几乎等同于包含传统风险因素的模型。将传统风险因素和PRS结合后,C指数达到0.63(95% CI 0.61–0.64),比不含PRS的模型提高了0.028(p < 0.0001)。
在年轻女性中,单独PRS的效应(C指数0.56,95% CI 0.54–0.57)并不比SBP或BMI强,但它仍然导致组合风险因素模型略有改善(C指数0.61,95% CI 0.60–0.63,增加0.004,p = 0.085)。
在60岁以上的个体中,PRS是最强的单一预测因子(C指数0.55,95% CI 0.53–0.56)。将PRS加入传统风险因素模型后,C指数增加到0.57(95% CI 0.55–0.58,增加0.016,p = 0.0002)。
在两个队列的单独分析中,除60岁以上年龄组外,各队列的C指数值仅有微小差异,在后期队列中加入PRS后C指数的提高明显更高(在2002-2017年队列中增加0.008,在2018-2022年队列中增加0.03;详情见补充表S3)。
基于模型的预测在独立样本中的表现
为了评估预测算法在独立数据上的表现,使用42,827名个体的训练集重新拟合了包含所有传统风险因素(含和不含PRS)的模型。参数估计用于计算验证集中85,382名个体的线性预测值。如补充图S1所示,当按预测风险五分位数组比较预测的CVD风险与这些组中观察到的CVD事件数量时,包含PRS的模型在验证集中的校准是充分的。
净重分类分析比较传统模型与加入PRS的传统模型,分别针对两个年龄组(25-59岁和60岁以上)进行,但合并了两个队列的数据(表2)。NRI根据预测的5年CVD风险计算。对于分类NRI分析,风险类别(低、中、高)定义为年轻年龄组(25-59岁)5年内风险<1.25%、1.25%至5%和>5%,年长年龄组(60岁以上)定义为5年内风险<5%、5%至10%和>10%。NRI分析的详细描述见补充文本S2。
在两个年龄组中,事件和非事件的重新分类均有显著改善。在25-59岁年龄组中,总体NRI为19.1%(95% CI 13.3%–24.9%)。该组的分类NRI显示出适度但显著的改善,为3.0%(95% CI 1.2%–4.8%)。在60岁以上年龄组中,总体NRI略低但仍显著,为13.9%(95% CI 8.1%–19.6%),该年龄组的分类NRI略高,为3.1%(95% CI 1.1%–5.0%)。分类NRI分析的详细结果见补充表S4。
图4显示了分类NRI分析的结果,重点关注最初被归类为中等风险个体的重新分类情况。在25-59岁年龄组中,初始中等风险类别包括19,871名个体,5年CVD发生率为2.6%。经过PRS调整后,这些个体中有8.1%被重新分类为低风险,其发生率为0.9%,3.7%被移至高风险,其发生率增加至5.8%。在60岁以上年龄组中,初始中等风险类别包括2,931名个体,5年CVD发生率为8.8%。加入PRS后,15.1%被重新分类为低风险(发生率5.4%),11.4%被重新分类为高风险(发生率12.9%)。
在实践中使用基于PRS的风险预测的潜力:一个示例
所提出的风险预测算法的实际应用涉及在传达可改变的风险因素影响的同时,传达不可改变的遗传成分(PRS)的影响。我们举例说明了可以向50岁男性和女性传达的信息。图5显示了对于具有平均PRS的非吸烟个体,以及PRS超过平均值两个标准差(SD)和/或当前吸烟个体的预测10年风险。所有其他风险因素的值固定为2002-2017年队列中25-59岁男性或女性的平均值。
图表表明,具有高PRS的非吸烟男性的10年CVD风险(20.2%,95% CI 17.0%–23.5%)超过了具有平均PRS的吸烟者(15.6%,95% CI 14.1%–17.3%)。在女性中,具有平均PRS的当前吸烟者面临的风险(8.4%,95% CI 7.4%–9.5%)与具有高PRS的非吸烟者(8.8%,95% CI 7.6%–10.2%)相当。
向医疗保健专业人员传达这些信息可以增强他们对PRS重要性的理解,并支持与患者讨论,鼓励高风险个体在考虑遗传易感性个体差异的同时调整其行为。
讨论
据我们所知,这是首个为高CVD风险人群定制的、结合多基因和传统风险因素来估计心血管疾病风险的模型。本研究发现,将CAD PRS纳入预测模型后,男性和女性的风险区分度均有显著提高。
我们的模型使用爱沙尼亚生物样本库数据,证明较高的CAD PRS与CVD事件和/或死亡风险显著升高相关。此外,具有高PRS的个体可能比具有中等或低PRS的个体早十年发病。这表明高PRS(前10%)构成一个重要的风险因素,其风险程度与吸烟或高胆固醇相当,并且早在30多岁时风险就已显现。我们的研究表明,包含PRS的风险模型在年轻队列中表现最佳,这一点至关重要,因为迫切需要为年轻人群开发高质量的风险评估工具,特别是考虑到现有模型如SCORE-2只能从40岁开始使用。利用芬兰和英国生物银行数据创建的基于PRS的人群模型也显示了类似的结果。
我们利用两个不同时期的队列构建了模型,但PRS效应的显著性和一致性在两者中均保持一致,强调了其在临床风险评估中的重要性,Patel等人的报告也支持这一点。根据标准化心血管疾病死亡率,爱沙尼亚人口被归类为心血管疾病高风险人群,因此可作为中东欧多个高危人群的代表。两个生物样本库队列的基线风险不同,后期队列的传统风险因素水平较低,导致CVD发病率低于早期队列(反映了发达国家CVD发病率下降的当代趋势)。尽管存在队列差异,将PRS纳入模型显示了其在两个队列中对总体风险的一致影响,突出了模型的稳健性。随着公共卫生进步和行为改变降低了传统风险因素对疾病风险的影响,PRS的相对重要性日益增加。因此,像我们这样的模型可以帮助识别人群中的高风险个体,并指导有针对性的干预措施。
目前的欧洲心脏病学会(ESC)心血管疾病预防指南不主张在一级预防中常规收集遗传数据。然而,最近的一项临床共识强调,量化PRS在临床实践中的潜在益处至关重要。在欧洲国家,多基因风险评分尚未整合到常规收集的行政健康数据中,用于人群或个人层面的风险预测。随着全球对预防和健康促进的关注度增加,凸显了遗传学和多基因风险在日常医疗保健中日益增长的重要性,这种做法应重新评估。临床医生通常依赖SCORE2和QRISK3等风险预测模型进行心血管风险管理,但一级预防中基因检测的潜力需要更严格的评估。在将PRS整合到临床实践之前,必须通过随机临床试验验证基于PRS的CVD一级预防策略(如降脂治疗)的有效性。由于我们的研究揭示,具有极高CAD PRS的个体面临显著升高的CVD风险,我们认为此类个体应在相对年轻的年龄就接受更强化的初级预防措施。
优势与局限性
我们研究的一个关键优势是使用了爱沙尼亚生物样本库数据库,该数据库独特地整合了临床和遗传数据——这与大多数生物样本库通常将这些数据集分开不同。几乎所有生物样本库参与者都可获得CAD PRS,使我们能够利用一个庞大而全面的人群进行模型开发。用于计算多基因评分的遗传数据的高质量进一步增强了这一分析,因为所有SNP均使用相同的基因分型芯片一致地测量。
尽管EstBB队列是一个相对较大的样本,但一个关键局限性是一些个体的随访时间不同(平均随访时间为7.3年),并且由于基于志愿者的抽样方案可能存在选择效应。此外,并非所有预测因子都针对每个个体进行了统一测量,人口构成(包括种族和民族代表性)反映的是爱沙尼亚人口而非整个欧洲。为确保在两个队列中使用基于传统预测因子的最佳可能模型,并考虑来自随机人群样本的可能差异,我们没有依赖标准化的风险预测算法(如SCORE2),而是开发了最适合我们数据的模型。为保持简洁,我们选择不在模型中纳入心血管疾病(CVD)治疗数据,也不计算查尔森合并症指数(Charlson Comorbidity Index)。
结论
本研究的结果强调了结合使用多基因风险评分和传统风险因素来识别动脉粥样硬化性心血管疾病高风险个体的重要性。从一级预防的角度来看,多基因风险评分允许早期评估风险,从而能够实施积极主动的预防策略,旨在减轻心血管疾病的负担,尤其是在较年轻的年龄段。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号