《Cancer Medicine》:Predicting Post-Radiotherapy Epigenetic Age Acceleration From Pre-Treatment Data Using a Machine Learning Framework in Head and Neck Cancer Patients
编辑推荐:
背景
头颈癌(HNC)患者在接受放射治疗后出现的表观遗传年龄加速(EAA)已与不良治疗结局相关。若能在放疗前理解患者可能发生的表观遗传衰老反应,则有望为医疗规划和临床决策提供依据;然而,现有方法尚不能有效预测治疗全过程中的这类变化,尤其是在缺乏对表观遗传改变
背景
头颈癌(HNC)患者在接受放射治疗后出现的表观遗传年龄加速(EAA)已与不良治疗结局相关。若能在放疗前理解患者可能发生的表观遗传衰老反应,则有望为医疗规划和临床决策提供依据;然而,现有方法尚不能有效预测治疗全过程中的这类变化,尤其是在缺乏对表观遗传改变进行高成本检测的情况下。
方法
本研究构建并验证了一种机器学习框架,用于预测放疗后的EAA。该框架利用放疗前(Time 1)的社会人口学信息、症状报告、临床测量指标及免疫生物标志物,对三个治疗后门诊阶段的EAA进行预测:放疗结束后即刻(Time 2)、放疗后6个月(Time 3)以及放疗后12个月(Time 4)。
结果
研究结果表明:(1)深度学习方法,尤其是TabNet,优于传统算法,平均均方根误差(RMSE)为4.08(标准差,SD=0.32);(2)在治疗刚结束时的预测最为准确(Time 2的RMSE:4.87);(3)基线免疫标志物,包括嗜酸性粒细胞绝对计数和血红蛋白水平,是跨时间点一致的预测因子;(4)特定患者亚组表现出不同的预测准确性(RMSE范围:1.70–4.34)。
结论
上述结果提示,治疗前的人口学与临床数据能够在无需昂贵表观遗传检测的前提下,有效预测治疗后的EAA轨迹,从而以具有成本效益的方式及早识别高风险患者,并在不良效应显现前为潜在的靶向干预提供依据。
该论文发表于《Cancer Medicine》,聚焦于头颈癌(HNC)患者放疗后表观遗传年龄加速(EAA)的前瞻性预测问题。表观遗传衰老主要体现为与年龄相关的DNA甲基化变化,这一过程不仅反映机体生物学衰老状态,也会受到疾病、环境暴露和治疗因素的共同影响。既往研究已显示,接受放疗的HNC患者相较健康人群可出现约3–5年的表观遗传年龄加速,而且这种加速与治疗并发症增加、生活质量下降以及较差预后相关。因此,EAA虽属于生物学衰老的替代性生物标志物,而非生存等直接临床终点,但其与不良结局的关联决定了它在风险分层和早期识别高风险患者中的潜在价值。
当前基于DNA甲基化的表观遗传时钟虽然已能较好估计当前的生物学年龄,却仍存在两方面局限:其一,这类方法更偏向事后评估,难以在治疗前预测未来衰老轨迹;其二,检测依赖专门实验平台、分子测定技术和较高成本,在常规临床实践中推广受限。正因如此,研究人员开展本研究,尝试仅利用临床中常规可获得的治疗前信息,建立一种能够预测放疗后EAA变化的机器学习框架,从而在不依赖昂贵甲基化检测的前提下,提前识别可能出现加速衰老反应的患者。
研究人员纳入142例来自Emory University的Winship Cancer Institute肿瘤门诊的HNC患者,围绕调强放疗(IMRT)全过程开展纵向研究,在放疗前基线(Time 1)、放疗结束后即刻(Time 2)、放疗后6个月(Time 3)和放疗后12个月(Time 4)4个关键时间点采集问卷和血液样本。研究整合了4类治疗前变量:社会人口学特征、基线症状谱、临床参数以及炎症/免疫生物标志物,并以此预测后续3个时间点的EAA。研究结论表明,仅凭治疗前常规数据即可对放疗后的EAA进行可行且较准确的预测,其中深度学习模型TabNet表现最佳;同时,嗜酸性粒细胞绝对计数、血红蛋白、血小板计数和体质指数(BMI)等指标在不同阶段具有持续预测价值。该研究的重要意义在于,为构建低成本、可前移的放疗相关衰老风险识别策略提供了方法学基础,并提示不同治疗阶段可能需要关注不同的关键预测因素。
研究人员主要采用了以下几类关键技术方法:首先,基于142例HNC患者的纵向队列数据,提取治疗前社会人口学、症状、临床指标及炎症/免疫标志物;其次,使用MethylationEPIC BeadChip(Illumina)检测DNA甲基化,并依据DNAmPhenoAge计算表观遗传年龄,再通过其对实际年龄回归得到EAA;再次,对缺失值、中高相关特征和类别变量进行预处理与特征筛选;随后比较线性回归、随机森林、XGBoost、Permuted CNN与TabNet等模型,并用5折交叉验证与留一法交叉验证(LOOCV)评估预测性能;最后结合K-means聚类、t-SNE可视化及Apriori关联规则挖掘分析不同患者亚组的预测差异。
在结果部分,论文首先在“3.1 Feasibility of Post-Radiotherapy EAA Prediction”中评估了放疗后EAA预测的可行性。研究人员比较了两种策略:一是纵向预测,即用Time 1的特征预测Time 2、3、4的EAA;二是同步预测,即用同一时间点的数据预测对应时间点的EAA。通过多种机器学习模型比较发现,同步预测总体误差略低于纵向预测,但二者差距较小,说明仅依据放疗前数据就能实现对后续EAA的早期预测,具备实际可行性。进一步比较各模型性能后发现,TabNet的平均RMSE最低,为4.08(SD=0.32),优于Permuted CNN以及XGBoost、随机森林和线性回归等传统模型,提示深度学习在处理此类结构化临床表格数据及复杂非线性关系方面更具优势。从时间维度看,Time 2预测效果最佳,平均RMSE为4.87(SD=0.69);Time 3预测难度最高,RMSE为5.65(SD=0.86);Time 4略有改善,RMSE为5.54(SD=0.8)。这说明随着距基线时间拉长,仅用治疗前数据预测动态生物学过程的难度增加,但至远期阶段EAA模式可能出现一定稳定化。
在“3.2 Temporal Dynamics of Feature Importance”部分,研究人员利用兼具较优性能和可解释性的TabNet分析不同预测因子的时间动态。热图显示,社会人口学、症状、临床测量和炎症标志物4大类变量均对预测模型有所贡献,但炎症/免疫标志物整体预测力尤为突出。研究识别出两类时间模式:一类是稳定预测因子,包括嗜酸性粒细胞绝对计数、血红蛋白、血小板计数和BMI,这些Time 1指标在整个随访阶段均持续预测EAA;另一类是动态变化的预测因子,其重要性随时间点而改变。具体而言,在Time 2,免疫系统指标占主导,嗜酸性粒细胞绝对计数是最强预测因子,淋巴细胞绝对计数和血红蛋白也较重要;到了Time 3,吸烟成为首位预测因子,同时疲乏、治疗因素和淋巴细胞绝对计数的重要性上升;到Time 4,疼痛成为最强预测因子,随后为血红蛋白和白细胞计数。由此可见,放疗后不同恢复阶段的EAA关联因素并不相同,反映了从早期免疫反应到中期行为/恢复因素,再到远期症状和血液学参数的演变过程。
在“3.3 Impact of Patient Group Variability on Prediction Accuracy”部分,论文进一步探讨了患者异质性对预测准确性的影响。研究人员基于Time 1特征采用K-means聚类,并经ELBOW方法确定最优聚类数为5类,再结合LOOCV计算各亚组预测误差。结果显示,不同亚组在各时间点的预测性能存在显著差异:Time 2时,cluster 3误差最低,RMSE为1.82(SD=2.46),cluster 4最高,为4.34(SD=4.45);Time 3时,cluster 5预测最好,RMSE为1.70(SD=2.37),而cluster 2较差,为4.06(SD=3.17);Time 4时,cluster 4最低,为1.73(SD=2.94),cluster 2仍较高,为3.88(SD=4.56)。这提示某些患者亚群的EAA轨迹更容易被模型捕捉。为解释这种差异,研究人员进一步实施Apriori关联规则挖掘。结果显示,Time 2时,高血小板计数合并高白细胞计数和高淋巴细胞绝对计数构成高度可靠的预测模式;另一可靠模式是高血小板计数、中等嗜酸性粒细胞绝对计数、低血红蛋白,并伴口干或中等程度神经心理症状(NPS)。Time 3时,高血小板计数、恶心、中等疼痛且无吸烟史的患者具有高度一致的预测模式;另一组则表现为低嗜酸性粒细胞绝对计数、高疲乏、恶心,并伴无吸烟和高血小板计数。Time 4时,高感知压力量表(PSS)评分、高血小板计数、中等嗜碱性粒细胞绝对计数和低血红蛋白构成最可靠模式;若同时存在疼痛,其可预测性也较高。贯穿各时间点,血小板计数均是关联规则中的核心特征,提示其可能是识别稳定可预测患者亚组的重要线索。
讨论部分强调,本研究的主要贡献在于建立并验证了一套用于预测未来EAA的方法学框架,而非直接推出可部署的临床工具。研究表明,标准治疗前信息足以对放疗诱导的EAA变化进行前瞻性预测,且TabNet、CNN等深度学习方法明显优于传统机器学习模型。论文还指出,Time 2预测最准确,可能因为此阶段的EAA更直接受基线免疫状态驱动;而Time 3准确性下降,提示随着恢复进程推进,药物变化、营养状态、运动水平和症状负担等治疗后动态因素会变得更加重要,但这些信息并未纳入当前模型;Time 4略有回升,则可能对应急性效应消退后较长期衰老模式逐步稳定。作者同时指出,患者亚组分析显示,具有特定血液标志物、症状和行为组合的患者,其EAA更容易被可靠预测,这为分阶段临床监测提供了依据。
论文也明确讨论了研究局限。首先,分析仅在单一队列中完成,虽采用5折交叉验证和LOOCV进行内部验证,但仍缺乏独立外部验证,限制了结果的普适性。其次,仅使用治疗前数据是设计上的重要约束,这在后期时间点降低了预测精度。再次,样本量虽相对可观,但未必足以覆盖HNC患者全部异质性,尤其是罕见遗传变异和特定人口学亚群。最后,该框架识别的是统计关联与预测模式,而非因果关系,例如疼痛与Time 4 EAA之间的关系尚不能被解释为直接因果。未来研究需在多中心大样本中进一步验证,并结合更多纵向临床数据和因果推断方法完善模型。
研究结论可译为:本研究通过将机器学习框架应用于治疗前临床数据,为预测HNC患者治疗诱导的EAA提供了重要的初步进展。所提出的机器学习框架能够在无需高成本、耗时DNA甲基化检测的情况下识别具有表观遗传加速衰老高风险的患者。此外,研究结果提供了三方面关键贡献:证实深度学习在捕捉复杂衰老轨迹方面的优势,识别关键预测时间窗口,并揭示治疗诱导衰老的重要生物学与临床预测因子。需要指出的是,EAA是生物学衰老的替代性生物标志物,而非生存、生活质量或并发症发生率等直接临床终点。尽管既往研究已证实EAA与这些下游不良结局相关,但本研究模型预测的是该生物标志物本身,而不是这些临床终点。该模型在治疗后即刻阶段表现出的较强预测能力,构成了早期风险识别所必需的科学基础,并为未来验证其直接临床应用价值的转化研究奠定了基础。