
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于监督机器学习与特征选择的性别特异性生物标志物预测研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:npj Systems Biology and Applications 3.5
编辑推荐:
本研究针对机器学习算法中存在的性别偏差问题,开发了监督学习模型预测9种临床生物标志物(包括BMI、腰围等)。通过NHANES队列数据(n=1199)和RFECV特征选择方法,发现性别分层模型预测误差在5-10%之间,其中男性模型在腰围、BMI等指标上表现更优。该研究为个性化医疗中的性别特异性建模提供了新范式。
在精准医疗时代,生物标志物已成为疾病诊断和治疗的"罗盘"。然而这个"罗盘"却暗藏性别偏差——现有机器学习(ML)模型往往忽视男女在生理指标上的本质差异。就像用同一张地图导航不同地形,当算法将女性数据简单归入男性主导的模型框架时,可能错过关键的"路标"。这种偏差在代谢综合征相关标志物(如腰围、BMI、血压等)预测中尤为显著,直接影响糖尿病和心血管疾病的早期干预效果。
为解决这一难题,Luke Meyer等研究者开展了一项开创性研究。他们从NHANES数据库获取1199人的多维度健康数据,采用递归特征消除交叉验证(RFECV)技术,构建了性别特异性的监督学习模型。这项发表在《npj Systems Biology and Applications》的工作,首次系统评估了9种核心生物标志物(包括腰围、收缩压、血糖等)预测中的性别差异。
研究团队主要运用三项关键技术:1)基于NHANES队列的临床数据清洗与标准化处理;2)递归特征消除交叉验证(RFECV)进行性别分层特征选择;3)19种机器学习算法(如Bayesian Ridge、Huber Regressor等)的交叉验证比较。特别设计了包含性别特征与不含性别特征的对比实验组。
【临床因素分析】
对1199名参与者(男女比例1:1)的基线数据分析显示,男性吸烟率显著更高(49.08% vs 29.64%)。关键生物标志物存在性别差异:男性收缩压(121.84±13.49 vs 116.59±15.15 mmHg)和腰围(97.11±13.62 vs 93.47±14.20 cm)更高,而女性高密度脂蛋白(HDL)水平更优(1.51±0.32 vs 1.28±0.28 mmol/L)。Levene检验证实收缩压、HDL和尿白蛋白/肌酐比(UrAlbCr)的性别间方差差异显著。
【相关性模式】
Spearman相关分析揭示性别特异性关联:BMI与腰围在所有组别均强相关(r=0.9),但女性中白蛋白尿与BMI负相关更强(r=-0.37 vs -0.23)。年龄与收缩压的相关性在女性中更显著(r=0.47 vs 0.29),提示女性血压更易受年龄影响。
【特征选择优化】
RFECV筛选出性别差异化特征组合:例如预测白蛋白尿时,女性模型依赖BMI、HDL等6个特征,而男性模型需要年龄、吸烟状态等7个特征。引人注目的是,年龄成为两性模型中最常选的特征,但在女性血糖预测中特征使用频率更高。
【模型性能】
在10%误差阈值下,男性模型对腰围预测准确率达96%(MAE=3.90cm,R2=0.86),优于女性模型(86%)。相反,女性在白蛋白尿预测上略优(93% vs 92%)。组合数据加入性别特征后,腰围预测R2从0.83提升至0.85,证实性别作为特征的价值。
【验证测试】
热图分析显示性别分层模型的优势:男性腰围预测在5%误差内达58%,远超组合数据的28%。特别值得注意的是,尿白蛋白/肌酐比(UrAlbCr)在所有模型中表现最弱(最佳仅16%),提示需要引入更特异性特征。
这项研究开创性地证实:忽略性别差异的"一刀切"建模会损失关键生物学信息。就像不能用同一把钥匙开所有锁,腰围、BMI等标志物需要性别特异性的"解码器"。该成果为代谢综合征的精准预测提供了新范式——通过分离建模通道,男性模型的腰围预测误差降低23%,女性HDL预测R2提升64%。研究同时暴露出现有模型的局限:对UrAlbCr等复杂标志物,可能需要整合基因组学等跨组学特征。
这项工作的临床意义深远:首先,为ATP-III等代谢综合征诊断标准提供了性别差异化阈值的设计依据;其次,证明将性别简单作为输入特征不如独立建模有效;最后,建立的RFECV框架可扩展至其他组学数据。未来研究可探索年龄分层与诊断范围分类的交互效应,并整合糖化血红蛋白等补充特征以提升弱势指标预测。这项研究标志着个性化医疗向"性别智能化"迈出了关键一步。
生物通微信公众号
知名企业招聘