基于3DCT生成颅骨与骨盆测量值的性别估算中机器学习(Machine Learning, ML)算法应用研究

《International Journal of Legal Medicine》：Machine learning algorithms in the estimation of sex from 3DCT-generated cranial and pelvic measurements

【字体：大中小】 时间：2026年07月03日 来源：International Journal of Legal Medicine 2.6

编辑推荐：

　　摘要：骨骼残骸的性别估算是法医人类学(Forensic Anthropology)的关键环节，其中颅骨与骨盆是形态学上两性异形(Sexual Dimorphism)最显著的部位。传统多元统计方法如判别函数分析(Discriminant Function Ana

摘要：骨骼残骸的性别估算是法医人类学(Forensic Anthropology)的关键环节，其中颅骨与骨盆是形态学上两性异形(Sexual Dimorphism)最显著的部位。传统多元统计方法如判别函数分析(Discriminant Function Analysis, DFA)与 logistic 回归分析(Logistic Regression Analysis, LRA)在不同人群（含南非人）中已实现较高准确率，但基于颅骨与骨盆测量值、采用机器学习(Machine Learning, ML)算法进行性别估算的研究此前尚未在任何南非人群中进行。本研究评估了ML算法根据南非当代黑种人(Contemporary Black South Africans)计算机断层扫描(Computed Tomography, CT)所获颅骨与骨盆测量值估算性别的潜力。样本含680例骨骼元素（400例颅骨、280例骨盆骨），男女各半。取自Charlotte Maxeke Johannesburg Academic Hospital放射科存档的CT扫描经Xiris及IntelliSpace软件重建为三维(Three-Dimensional, 3D)模型，从中采集8项颅骨测量值与11项骨盆测量值。应用7种经典ML算法并通过特征排序(Feature Ranking)技术确定最具信息量的变量，进而构建堆叠(Stacking) ML模型——选取排名前三的分类器作为基学习器(Base Learners)，将其输出组合后传入不同ML算法作为元学习器(Meta-Learner)进行最终分类。研究结果证实颅骨与骨盆骨存在强两性异形，堆叠模型准确率优于传统多元方法（颅骨：80.3%–94.3%；骨盆：86.1%–96.1%），证明了ML在法医性别估算中的应用潜力。

论文解读：基于3DCT生成颅骨与骨盆测量值的性别估算中机器学习算法应用研究

研究背景与意义

骨骼残骸性别估算是法医人类学建立生物档案(Biological Profile)的首要步骤，对缩小未知个体身份排查范围至关重要。颅骨与骨盆因表现出最显著的两性异形(Sexual Dimorphism)，历来是形态学与测量学性别判定首选部位。传统方法依赖肉眼形态观察（主观性强）或经典统计学模型如判别函数分析(Discriminant Function Analysis, DFA)与logistic回归分析(Logistic Regression Analysis, LRA)，后者虽客观但需满足正态性与线性假设，且人群特异性(Population-specific)强——即模型仅适用于其开发时所属人群。南非已有针对白人和黑种人的颅骨、长骨及骨盆判别函数标准，但均基于干燥骨骼收藏（如Raymond A. Dart Collection、Pretoria Bone Collection），且仍沿用传统统计方法。机器学习(Machine Learning, ML)能处理非线性关系且不依赖分布假设，已在欧美人群的颅骨与骨盆性别分类中展现优于传统方法的准确率，但在南非黑种人群体中尚属空白。鉴于南非黑种人为该国最大群体且在法医案件中占比高，开发人群特异性ML模型具迫切法医与公共卫生意义。本文发表于《International Journal of Legal Medicine》。

主要关键技术方法

研究人员获取2006至2022年Charlotte Maxeke Johannesburg Academic Hospital存档的680例18–60岁南非当代黑种人(Contemporary Black South Africans)临床CT扫描（400例颅骨CT：男200/女200；280例骨盆CT：男140/女140），排除＞60岁者以避免骨质疏松影响。CT图像以Xiris及IntelliSpace软件重建为三维(3D)模型，采集8项颅骨测量值与11项骨盆测量值，计算相对技术误差(rTEM)验证测量可靠性。数据经Z-score标准化后，采用Random Forest、Extra Trees及XGBoost进行特征重要性排序筛选关键变量。测试7种监督学习算法：Linear Discriminant Analysis(LDA)、Logistic Regression(LR)、K-Nearest Neighbors(KNN)、Support Vector Machine(SVM)、Random Forest(RF)、Extra Trees(ET)、XGBoost(XGB)；以分层五折交叉验证(Stratified 5-fold Cross-Validation)评估。构建Stacking集成模型，基学习器为表现最优三者（ET、RF、XGBoost），元学习器(Meta-Classifier)为Logistic Regression，以SHAP(SHapley Additive exPlanations)值解释模型。性能以Accuracy、Precision、Sensitivity(Recall)、Specificity、F1-Score及ROC-AUC评价。

研究结果

Results——颅骨与骨盆描述性统计

男性颅骨与骨盆各测量维度均值均大于女性（p＜0.05），确认南非黑种人颅骨与骨盆存在显著两性异形，支持测量学变量用于性别估算。

Results——Machine learning analysis——Best feature combination for sex estimation using cranial measurements

经树模型特征排序，颅骨最具判别力变量为Cra_04、Cra_06、Cra_11、Cra_14、Cra_12。单模型中Extra Trees准确率最高（86.75%）；Stacking集成模型准确率达94.25%，Precision 94.28%，F1-score 94.24%，显著优于任一单独分类器。

Results——Machine learning analysis——Best feature combination for sex estimation using pelvic bone measurements

骨盆最重要特征为AceDia、THox、GSNb、PuW。单模型Extra Trees准确率93.21%；Stacking集成模型进一步提升至96.07%（Precision 96.09%，F1-score 96.07%）。

Results——Machine learning analysis——Development and validation of different ML and stacking models

七种ML算法中集成树模型（ET、RF、XGBoost）均优于LDA与LR；Stacking框架综合基学习器概率输出再由元分类器决策，在颅骨（94.25% vs 最高单模型86.75%）与骨盆（96.07% vs 93.21%）上均取得最优性能，证明集成策略可降低过拟合并提升泛化能力。

Results——Machine learning analysis——混淆矩阵与ROC曲线

颅骨模型女93.00%、男95.50%正确分类；骨盆模型女95.00%、男97.14%正确分类，误判率更低。ROC曲线显示颅骨Stacking元分类器AUC=0.96，骨盆AUC=0.94，均高于各基模型及传统LDA/LR。

Results——Machine learning analysis——Model explainability

SHAP摘要图显示颅骨中Cra_04、Cra_06、Cra_11具高SHAP值，骨盆中AceDia与THox影响最大，GSNb与PuW呈非线性效应，有效阐明"黑箱"模型决策依据。

讨论与结论翻译

本研究系统考察了基于CT所获颅骨与骨盆测量值的经典ML算法在南非人群性别估算中的表现，确认两部位强两性异形，且ML尤指Stacking集成法较传统统计模型准确率更高——骨盆Stacking达96.07%、颅骨达94.25%。骨盆测量整体优于颅骨，与前人结论一致；所选特征对应已知高两性异形解剖标志。SHAP提升了法医语境下模型透明度与可采性。局限包括样本仅限当代南非黑种人（限制跨人群推广）、缺独立外部验证集、CT设备在临床现场可能不可及。模型应作决策辅助工具而非替代人类学专家判断，低置信度预测须结合年龄、身高及形态学评估。未来需外部验证及整合几何形态测量(Geometric Morphometrics, GMM)数据。

结论(Conclusions)：本研究表明ML模型——特别是Stacking集成分类器——可显著提升基于颅骨与骨盆骨骼测量值的性别估算准确性与可靠性，优于传统统计方法，并为法医人类学与生物考古调查提供可解释、可扩展且可复现的工具。

热点排行