编辑推荐:
遗传疾病严重影响人群健康,为解决传统遗传风险评估的局限,研究人员开展基于机器学习(ML)预测遗传疾病风险的研究。结果显示多种 ML 模型有良好预测能力,梯度提升(Gradient Boosting)模型表现最佳。这有助于精准评估风险,推动基因组医学发展。
遗传疾病如同隐藏在人类基因密码中的 “定时炸弹”,时刻威胁着人们的健康。它们不仅在新生儿中占有相当比例,还与大量的流产、出生缺陷、慢性疾病等密切相关。在印度,由于遗传多样性丰富,遗传疾病的诊断和管理面临着更大的挑战,而且公众对遗传疾病的认知严重不足,这使得情况雪上加霜。传统的遗传风险评估方法,如依靠家族病史和临床评估的系谱分析,在面对复杂的多基因疾病时显得力不从心。多基因疾病涉及成千上万的遗传变异,每个变异的影响微小,且目前的多基因风险评分无法考虑到非线性相互作用和调节疾病风险的变异。在这样的背景下,机器学习(ML)技术的兴起为遗传疾病风险评估带来了新的希望。
为了攻克遗传疾病风险评估的难题,来自未知研究机构的研究人员开展了一项极具意义的研究。他们利用包含家族遗传特征、临床结果和病史的多样化数据集,运用多种 ML 算法,旨在识别遗传模式、评估孟德尔遗传疾病的遗传风险并预测疾病复发。研究结果令人振奋,多种机器学习模型展现出了良好的预测能力,其中梯度提升(Gradient Boosting)模型在平均交叉验证中取得了高达 0.9990 的分数,表现最为突出。这一研究成果对于推动基因组医学的发展意义重大,它能够帮助医疗人员更精准地评估遗传疾病风险,为家庭计划生育提供科学依据,从而有效降低遗传疾病的影响。该研究成果发表在《Computational and Structural Biotechnology Reports》上。
在研究过程中,研究人员运用了多种关键技术方法。首先是数据收集,从 100 个有遗传疾病患儿的家庭收集数据,经过临床评估、基因检测等流程确定相关信息。接着进行数据预处理,针对遗传数据的特点,去除含缺失值的行,对分类变量进行独热编码,并利用重采样、自助采样和 SMOTE(Synthetic Minority Over-sampling Technique)等技术进行数据增强。然后采用分层 k 折交叉验证(k=7)划分数据集,评估模型性能。最后选择 XGBoost、Gradient Boosting 等多种机器学习算法进行模型训练与评估。
下面来看具体的研究结果。在特征重要性分析方面,对逻辑回归(Logistic Regression)模型的分析发现,‘Mother_Carrier’(母亲携带者)特征重要性得分最高,‘Father_Carrier’(父亲携带者)次之,此外‘Type’(遗传模式)、‘Variation’(基因变异)等特征也对风险预测有重要作用,这表明父母的遗传状态在预测模型中起着关键作用。在模型性能评估上,通过交叉验证评估多种模型,Gradient Boosting 模型以 0.9990 的平均交叉验证得分领先,XGBoost 和随机森林(Random Forest)等模型也表现出色,而支持向量机(SVM)模型得分相对较低。总体而言,基于决策树的集成方法在预测性能上优于其他模型。
研究结论与讨论部分指出,该研究虽然取得了显著成果,但也存在一定局限性。模型目前仅适用于孟德尔遗传模式的单基因疾病,对多基因疾病和复杂性状的预测能力有限。同时,训练数据集的规模和范围较小,可能导致过拟合问题,而且模型开发过程中未进行超参数优化。未来研究需要采取更多的正则化策略,扩大数据集并进行超参数优化,以提高模型的泛化能力和临床实用性。尽管如此,这项研究依然意义非凡,它为遗传疾病风险评估提供了新的思路和方法,推动了精准医学的发展。随着技术的不断进步和研究的深入,有望进一步完善遗传风险评估体系,为更多受遗传疾病困扰的家庭带来希望。