基于机器学习算法的南印度成人下颌骨非度量参数性别二态性估计及其法医人类学应用

【字体: 时间:2025年10月04日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对法医人类学中下颌骨性别鉴定难题,利用机器学习算法分析12项下颌骨非度量参数。研究人员采集156例南印度人群样本,应用K近邻、决策树、支持向量机和随机森林等算法,结合SMOTE和随机过采样技术处理数据不平衡问题。随机森林模型表现最优(准确率0.92,F1分数0.92),发现下颌角(N6)和升支后缘屈曲(N12)是关键预测特征。该研究为碎片化骨骼的性别鉴定提供了高效准确的解决方案,推动了法医人类学与人工智能的跨学科融合。

  
在法医人类学和考古学领域,性别鉴定是身份识别的重要环节。当遇到大规模灾难、古代遗骸或刑事案例时,骨盆和颅骨通常被视为最可靠的性别鉴定依据。然而,在实际工作中,完整骨骼的获取往往面临挑战——骨盆可能缺失或损坏,这时下颌骨就展现出其独特价值。作为人类颅骨中最坚固的骨骼,下颌骨不仅保存概率高,还表现出明显的性别二态性特征,使其成为性别鉴定的理想选择。
传统上,研究人员通过测量下颌骨的各项指标(如大小、形状、角度)来区分性别。但这类方法需要完整骨骼和精密仪器,在野外工作或骨骼碎片化场景中应用受限。非度量特征(观察性特征)的出现为解决这一难题提供了新思路。通过视觉观察特定形态特征(如下巴形状、下颌角形态等),无需复杂测量工具即可快速完成初步鉴定,特别适合现场勘查和快速筛查。
尽管非度量特征具有实用优势,但主观判断偏差和人口群体差异一直困扰着研究人员。近年来,机器学习技术的兴起为这一领域带来革命性变化。通过算法自动识别模式、分析特征重要性,机器学习不仅能提高鉴定准确性,还能发现人眼难以察觉的细微差异。然而,现有研究多集中于欧美人群,针对印度人群的下颌骨性别二态性研究尚属空白,特别是运用机器学习分析非度量参数的研究更为罕见。
为此,研究团队在《Scientific Reports》发表了这项开创性研究,旨在利用机器学习算法分析南印度成人下颌骨的12项非度量参数,建立可靠的性别鉴定模型。研究收集了156个已知性别的成人下颌骨样本(102男性,54女性),来自印度卡纳塔克邦三家医疗机构。采用四种机器学习算法(K近邻、决策树、支持向量机和随机森林),并运用SMOTE和随机过采样技术处理数据不平衡问题。通过系统评估模型性能,发现随机森林算法表现最优,为法医人类学提供了高效准确的性别鉴定新方法。
研究人员采用多中心横断面观察研究设计,样本均经伦理委员会批准。由五位经验丰富的骨骼形态学家独立观察12项非度量参数(包括下巴形状、下颌角形态、升支轮廓等),通过多数共识确定最终特征分类。使用SMOTE和随机过采样处理数据不平衡问题,采用独热编码处理分类特征。通过10折交叉验证和网格搜索优化超参数,使用精确度、召回率、F1分数、杰卡德指数等指标全面评估模型性能。
描述性统计结果
频率分布显示各项参数在不同性别间存在显著差异。卡方检验发现下颌下缘形状(N3)在男性中多呈摇椅形(70.6%),女性则多呈直线形(74.1%)(p<0.001)。下颌角(N6)在男性中多外翻(p<0.001),而升支后缘屈曲(N12)在男性中出现频率显著更高(p<0.001)。颌舌骨桥(N9)的完全和部分形态在男性中更常见(p=0.021)。这些差异为性别鉴定提供了形态学基础。
模型性能比较
随机森林算法在各项指标中表现最优:SMOTE和随机过采样方法下均获得最高杰卡德指数(0.86)、F1分数(0.92)和准确率(0.92)。支持向量机和决策树表现相当,准确率约0.85-0.90。K近邻算法性能相对较低,准确率为0.80-0.87。随机过采样使KNN、决策树和SVM的平衡准确率最高提升9.7%。
特征重要性分析
排列特征重要性分析显示,下颌角(N6)和升支后缘屈曲(N12)是最重要的预测特征。随机森林模型中,SMOTE方法下N6_Gonial angle_2、N6_Gonial angle_0和N12_Flexure ramal post border_0的重要性得分最高(0.09-0.12);随机过采样方法下N6_Gonial angle_0、N12_Lower border_2和N3_Lower border_0占据主导地位。基尼指数分析进一步验证了这些特征的关键作用。
模型稳定性评估
标准偏差分析显示KNN在不同重采样方法下表现最稳定(杰卡德指数标准偏差0.073%),随机森林和决策树表现出中等变异性。麦克尼马尔检验和Bootstrap AUROC差异分析表明,尽管随机森林性能最优,但各算法间准确率差异无统计学意义(所有p值>0.05,置信区间均包含零)。
SHAP解释分析
SHAP瀑布图显示个体预测中,N6下颌角和N12升支后缘屈曲对模型输出影响最大。摘要图表明这些特征在全球范围内也具有最高影响力,而决策树模型则更多依赖单一特征(如N1下巴形状)。这解释了随机森林为何表现更优——它能综合多个特征的贡献,而非依赖单一决策规则。
本研究证实了使用机器学习算法分析下颌骨非度量参数进行性别鉴定的可行性。随机森林算法表现出最优性能,准确率达92%,为法医人类学提供了一种可靠工具。研究发现下颌角形态和升支后缘屈曲是最重要的性别预测特征,这与前人研究结果一致。
研究的实际意义在于:第一,为碎片化或不全骨骼的性别鉴定提供了实用方法,特别适合大规模灾难现场和考古现场;第二,无需精密测量仪器,通过视觉观察即可获得较高准确率,降低了专业门槛和设备要求;第三,针对南印度人群的研究填补了人口群体研究空白,为建立地区特异性鉴定标准提供了基础。
方法学上,研究证明了SMOTE和随机过采样技术在处理法医人类学数据不平衡问题中的有效性。特别是随机过采样使多数模型的平衡准确率显著提升,为解决法医样本中常见的性别比例失衡问题提供了实用方案。
然而,研究也存在一定局限性:样本量相对较小(156例),且仅来自南印度一个地区,可能影响模型泛化能力。女性样本较少(54例)虽经重采样技术处理,但仍可能引入偏差。未来研究应扩大样本量和地理覆盖范围,验证模型在其他人群的适用性。
该研究的创新点在于首次将机器学习算法系统应用于南印度人群下颌骨非度量特征的性别鉴定,并详细比较了多种算法和重采样技术的效果。跨学科合作模式(解剖学、工程学、计算机科学)为法医人类学研究提供了新范式,推动该领域向数字化、智能化方向发展。
随着机器学习技术在医学领域的深入应用,此类研究将帮助解决全球范围内法医专家短缺的问题,提高身份识别效率,为司法公正、考古研究和灾难受害者识别提供可靠的技术支持。未来研究可整合三维扫描、深度学习等先进技术,进一步提升性别鉴定的自动化和准确度。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号