编辑推荐:
为解决不同人群身高预测模型通用性问题,研究人员以台湾生物银行(TWB)和台湾精准医学计划(TPMI)参与者为样本,开展基于基因和非基因因素的身高预测研究。结果显示,结合出生年份、测量年龄和基因数据可提高预测准确性,对理解身高遗传机制意义重大。
在人类健康与遗传研究领域,身高作为一个备受关注的特征,一直是科研人员探索的重点。身高不仅是一个简单的生理指标,它还与多种疾病存在关联,比如癌症、冠心病、中风以及黄斑变性等。而且,身高受到多种因素的综合影响,包括遗传、营养、年龄和环境等。以往研究发现,从 1985 年到 2019 年,台湾男性和女性的平均身高分别从 169.2
cm增长到 173.5
cm、从 158.3
cm增长到 160.7
cm,英国男性和女性的平均身高也有所增长 。然而,基于遗传因素的身高预测模型在不同人群中的表现差异较大,尤其是在非欧洲人群中,相关研究相对较少。这就如同在身高预测的地图上,非欧洲人群的部分还存在许多空白,亟待填补。为了深入了解身高预测的奥秘,来自中国台湾 “中央研究院” 等机构的研究人员开展了一项针对台湾汉族人群身高预测的研究,相关成果发表在《npj Genomic Medicine》上。
研究人员为了探究如何更精准地预测台湾汉族人群的身高,利用了台湾生物银行(TWB)和台湾精准医学计划(TPMI)的大规模样本数据。TWB 是一项基于社区的前瞻性队列研究,涵盖了 30 - 70 岁无癌症的个体,通过在全台湾 44 个招募中心收集参与者的多方面信息,并进行基因分型。TPMI 则与 33 家医院合作,参与者提供电子医疗记录和剩余血液样本用于基因分析。研究采用了全基因组关联研究(GWAS)和多变量线性回归最小绝对收缩和选择算子(LASSO)等技术方法。GWAS 用于分析身高与单核苷酸多态性(SNP)之间的关系,LASSO 则用于筛选出对身高预测有意义的 SNP 组合。
临床特征分析
研究人员对 TWB 和 TPMI 的数据进行质量控制后,纳入了 119,360 名个体。分析发现,TWB 和 TPMI 数据集的身高分布无显著差异,且出生年份较晚的参与者平均身高呈上升趋势,这表明营养和其他因素的改善对身高有积极影响。同时,由于身高随年龄变化,测量年龄也被纳入模型考虑。
实际身高与预测身高分析
在 TWB 训练集中,单独使用出生年份、测量年龄或两者结合预测身高效果不佳,但加入与身高相关的 SNP 后,预测准确性显著提高。在测试集中,结合出生年份、测量年龄和身高相关 SNP 的模型,男性和女性的实际与预测身高的皮尔逊相关系数分别达到 0.7759 和 0.6084,差异最小,说明该组合预测效果最佳。
PCA 调整对预测的影响
在基因组相关研究中,主成分分析(PCA)常用于校正群体分层。研究发现,在 TWB 数据集中,PCA 调整对身高预测准确性影响较小,后续为减少不同数据库 PCA 系数差异带来的潜在变化,选择了不含 PCA 的模型进行验证分析。
TPMI 数据集验证
利用 TWB 训练得到的模型,在 TPMI 数据集上进行验证。结果显示,结合出生年份、测量年龄和身高相关 SNP 的组合模型,进一步提高了身高预测的准确性,男性和女性预测与实际身高的相关性分别从 0.2225 提升到 0.3980、从 0.2708 提升到 0.4444,实际与预测身高差异大于 5% 的个体比例显著降低。
在讨论部分,研究人员指出,台湾汉族人群主要为汉族(>95%),PCA 结果也证实样本主要属于汉族血统。虽然台湾汉族内部不同族群存在遗传、生活方式和饮食习惯差异,但对身高预测无显著影响。研究中纳入出生年份和测量年龄虽可能存在共线性和过拟合风险,但方差膨胀因子(VIF)显示无共线性问题,反而提高了预测准确性。此外,研究还发现女性需要更多 SNP 来实现较高预测准确性,可能与激素动态变化和年龄相关生理变化有关。研究也存在一定局限性,如 TWB 样本年龄局限于 30 - 70 岁,数据非长期随访,TPMI 数据缺乏完整的插补 SNP 数据,且两个数据集均来自同一人群,限制了模型对其他人群的推广。
总体而言,该研究成功开发并验证了针对台湾汉族人群的身高预测模型,表明结合遗传因素、出生年份和测量年龄可有效提高身高预测准确性。这不仅为深入理解身高的遗传机制提供了重要依据,也为相关疾病的研究和预测奠定了基础,在生命科学和健康医学领域具有重要的理论和实践意义。