机器学习驱动的生物地理祖先预测技术革新:TabPFN模型在法医遗传学中的突破性应用

【字体: 时间:2025年06月16日 来源:Forensic Science International: Genetics 3.2

编辑推荐:

  本研究针对法医科学中生物地理祖先(BGA)预测的精度瓶颈,系统比较了SNIPPER、Admixture Model等传统方法与前沿机器学习模型TabPFN的性能。基于VISAGE Enhanced Tool标记集的跨大陆/欧洲内部分类实验表明,TabPFN在准确率(提升9%)、ROC AUC和log loss等指标上全面超越现有方法,为法医DNA分析提供了更强大的分类工具。

  

在法医科学领域,准确推断个体的生物地理祖先(Biogeographical Ancestry, BGA)对灾难受害者识别、刑事侦查和群体遗传学研究至关重要。传统方法如SNIPPER(基于朴素贝叶斯分类器)和Admixture Model(结构分析模型)虽被广泛应用,但其性能尚未与跨学科机器学习方法系统比较。随着基因数据呈现典型的表格化特征,开发更精确的分类算法成为可能。然而当前面临三大挑战:相似种群区分困难(如欧洲内部群体)、混血个体分类复杂性,以及标记选择对分类质量的显著影响。

为解决这些问题,德国弗莱堡大学等机构的研究团队在《Forensic Science International: Genetics》发表研究,首次将前沿表格数据处理模型TabPFN(一种基于Transformer架构的预训练神经网络)引入BGA预测领域。该研究采用VISAGE Enhanced Tool的104个祖先信息标记(AIMs),通过10次重复5折交叉验证,对比了TabPFN与SNIPPER、Admixture Model、PLS-DA等六种方法在跨大陆(9类)和欧洲内部(10类)分类任务中的表现。

关键技术方法包括:1) 使用1000基因组计划等公开数据集构建4342例跨大陆和635例欧洲内部样本队列;2) 采用TabPFN这一无需微调即可处理小样本表格数据的预训练模型;3) 通过ROC AUC、准确率和log loss等多指标评估;4) 开发开源分析平台供方法验证。

研究结果揭示:

3.1 评估指标
TabPFN在所有测试场景中表现最优。跨大陆分类时,其准确率达93%(较SNIPPER提升9%),欧洲内部分类准确率48%(提升5%)。特别值得注意的是log loss指标(衡量概率预测准确性),TabPFN显著低于其他方法,表明其预测置信度更高。

3.2 混淆矩阵分析
跨大陆分类中,TabPFN对北美非裔(NAF)的正确识别率达88%,远高于SNIPPER的17%。但对中东(ME)群体,SNIPPER反以88%准确率略胜TabPFN的81%。欧洲内部分类显示,英国(GBR)样本53%被误判为西北欧(CEU),反映相近群体的分类仍是挑战。

讨论部分指出,TabPFN的优势源于其能捕捉标记间的联合分离模式,而传统方法假设标记独立。研究同时强调数据局限性——中亚样本仅64例导致分类性能下降,提示样本量对模型训练的关键影响。尽管需要GPU支持,TabPFN的推理速度仍快于需要重新训练的常规机器学习模型。

该研究的突破性在于:1) 首次证明基础模型在法医遗传学的适用性;2) 开发开源工具降低技术使用门槛;3) 为外貌特征预测等延伸研究提供方法论参考。作者建议后续研究可结合反事实公平性算法(如Robertson改进版)减少数据偏差,并通过优化标记选择进一步提升性能。这项成果标志着法医DNA分析从传统统计方法向人工智能驱动的重要转型。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号