基于蛋白质组学的法医表型分析新策略:聚焦全血生物性别估计的潜力与挑战

【字体: 时间:2025年09月21日 来源:Journal of Radiology Nursing CS0.9

编辑推荐:

  本研究针对法医DNA表型分析在复杂样本中的局限性,探索了蛋白质组学技术(LC-MS/MS)作为补充工具的应用潜力。研究人员通过分析100例已知性别全血样本的蛋白质组,开发出基于机器学习(XGBoost)的生物性别分类模型,成功鉴定出妊娠带蛋白(PZP)和铜蓝蛋白(CP)等关键肽段标志物。尽管在模拟案件样本测试中暴露出批次效应等技术挑战,该研究为法医蛋白质组学在源属性判定和时间线推断等领域的应用提供了重要理论基础,对推动多组学融合的 forensic investigation 具有里程碑意义。

  

在法医科学领域,DNA分析技术长期以来一直是身份识别和表型预测的黄金标准。通过分析犯罪现场遗留的生物痕迹,法医专家能够推断出个体的外部特征、年龄和生物地理祖先等信息,为案件侦查提供关键线索。特别是生物性别估计,已成为性侵犯案件中的常规检测项目,其基本原理是通过分析X-Y同源牙釉蛋白基因(AMELX和AMELY)的长度变异来实现。然而,DNA分析技术在面对高度降解样本或环境污染物干扰时往往力不从心,这促使科学家们寻找新的补充性技术手段。

蛋白质作为基因功能的直接执行者,能够更直接地反映个体的表型特征。蛋白质组学(Proteomics)作为大规模研究蛋白质组成和动态变化的技术,在法医学领域展现出独特优势:它不仅能够分析组织特异性蛋白表达模式来追溯生物痕迹来源,还能通过翻译后修饰(PTMs)研究来推断痕迹沉积时间。尤其对于头发、骨骼等DNA含量极少的样本,蛋白质组学更能发挥不可替代的作用。然而,将全血蛋白质组转化为表型信息面临巨大挑战——血液蛋白质组具有高度动态性,受激素水平、避孕药使用、疾病状态等多因素影响,且法医全血样本与临床常用的血浆/血清样本在蛋白质组成上存在显著差异。

为此,荷兰法医研究所的Shirin Alex等研究人员开展了一项探索性研究,试图通过液相色谱-串联质谱(LC-MS/MS)技术结合机器学习算法,建立基于全血蛋白质组的生物性别分类模型。研究人员首先收集了120名健康志愿者的全血样本,使用微采样装置(Mitra microsampling device)采集10μL血液,并将其分为100例训练集(47男/53女)和20例测试集。样本经过超声提取、二硫苏糖醇(DTT)还原、甲基甲烷硫代磺酸盐(MMTS)烷基化后,使用Trypsin/Lys-C进行酶解过夜,最后通过C-18 SpinTips进行肽段纯化。

为模拟真实案件条件,研究团队还制备了模拟样本:将5μL全血沉积于预污染棉织物上,干燥后使用S-Trap spin columns进行提取。所有样本通过Waters Acquity M-class系统与Sciex ZenoTOF 7600质谱仪联用进行分析,采用数据依赖采集(DDA)模式,质荷比范围设为m/z 400-1200(前体离子)和140-1750(碎片离子)。原始数据经过Sage搜索引擎处理,使用UniProt人类参考蛋白质组数据库进行肽段鉴定,并采用tail-robust quantile normalization进行数据标准化。

机器学习分析采用梯度提升模型(XGBoost v2.1.0.dev0),通过嵌套交叉验证评估模型性能。使用SHAP(Shapley additive explanations)值解释模型决策过程,识别关键特征肽段。结果显示,从全血样本中共鉴定出3,597条独特肽段序列(对应728个蛋白质组),经过严格过滤后保留1,561条肽段用于模型训练。多维标度分析(MDS)显示,尽管男女样本间存在重叠,第二维度(8.03%方差解释度)仍显示出性别相关分离模式。

差异丰度分析鉴定出88个显著差异的蛋白质组,其中铜蓝蛋白(CP)显示最显著差异(log2FC=-0.57)。交叉验证显示模型对女性样本的准确率为87.5%,男性为90.5%,受试者工作特征曲线下面积(AUC)和平均精度(AP)均表明分类器性能良好。SHAP分析识别出123个贡献肽段,源自73个蛋白质,其中前4个重要蛋白质解释了50%以上的模型输出。

最关键的生物标志物是妊娠带蛋白(PZP)的肽段VVVQTESGGR,以及铜蓝蛋白(CP)的多个肽段。这些蛋白的表达水平已知受性别、妊娠状态和避孕药使用影响:PZP在妊娠期间显著升高,而CP在女性中通常表达更高,可能与铜离子代谢有关。值得注意的是,这些蛋白在糖尿病、先兆子痫等疾病状态下也会发生改变,COVID-19感染期间CP水平可能降低,这提示在实际应用中需考虑个体健康状况对蛋白标志物的影响。

在模拟样本测试中,尽管关键肽段仍可检测,但其丰度与训练集存在显著差异,导致分类性能下降(几乎所有样本被误判为男性)。这种偏差主要归因于样本制备方法变更引起的批次效应(batch effects),以及环境污染物导致的基质效应。研究表明,未经校正的批次效应在法医单样本检测中难以消除,这凸显了开发靶向检测方法(如MRM/PRM)的必要性。

研究人员指出,未来研究应转向开发多重反应监测(MRM)或平行反应监测(PRM)靶向 assay,使用重同位素标记肽段作为内标来校正技术变异。同时需要建立标准化操作程序(SOP)和全面质量控制体系,确保分析流程的稳健性。值得注意的是,本研究使用的蛋白质提取 protocol 与DNA分析具有兼容性,为实现DNA-蛋白质同步提取提供了可能,这对于珍惜法医样本资源具有重要意义。

该研究最终得出结论:虽然蛋白质组学在法医表型分析中展现出潜力,但面临蛋白质组动态性、技术稳健性等多重挑战。相比生物性别估计,蛋白质组学在源属性判定(tissue source attribution)和时间线推断(timeline estimation)等应用方向可能更具前景。这些发现为法医蛋白质组学的发展指明了方向,强调了在推进实际应用前必须解决的技术瓶颈和验证要求。

这项研究的重要意义在于:首次系统评估了全血蛋白质组用于法医生物性别估计的可行性和局限性;建立了基于机器学习的高维蛋白质数据分析框架;鉴定了PZP和CP等关键生物标志物;揭示了批次效应对法医蛋白质组学的重大影响;为开发靶向检测方法提供了理论基础。这些成果不仅推动了法医蛋白质组学方法学发展,也为多组学整合的 forensic investigation 提供了新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号