《International Journal of Legal Medicine》:Machine learning algorithms in the estimation of sex from 3DCT-generated cranial and pelvic measurements
编辑推荐:
摘要:骨骼残骸的性别估算是法医人类学(Forensic Anthropology)的关键环节,其中颅骨与骨盆是形态学上两性异形(Sexual Dimorphism)最显著的部位。传统多元统计方法如判别函数分析(Discriminant Function Ana
摘要:骨骼残骸的性别估算是法医人类学(Forensic Anthropology)的关键环节,其中颅骨与骨盆是形态学上两性异形(Sexual Dimorphism)最显著的部位。传统多元统计方法如判别函数分析(Discriminant Function Analysis, DFA)与 logistic 回归分析(Logistic Regression Analysis, LRA)在不同人群(含南非人)中已实现较高准确率,但基于颅骨与骨盆测量值、采用机器学习(Machine Learning, ML)算法进行性别估算的研究此前尚未在任何南非人群中进行。本研究评估了ML算法根据南非当代黑种人(Contemporary Black South Africans)计算机断层扫描(Computed Tomography, CT)所获颅骨与骨盆测量值估算性别的潜力。样本含680例骨骼元素(400例颅骨、280例骨盆骨),男女各半。取自Charlotte Maxeke Johannesburg Academic Hospital放射科存档的CT扫描经Xiris及IntelliSpace软件重建为三维(Three-Dimensional, 3D)模型,从中采集8项颅骨测量值与11项骨盆测量值。应用7种经典ML算法并通过特征排序(Feature Ranking)技术确定最具信息量的变量,进而构建堆叠(Stacking) ML模型——选取排名前三的分类器作为基学习器(Base Learners),将其输出组合后传入不同ML算法作为元学习器(Meta-Learner)进行最终分类。研究结果证实颅骨与骨盆骨存在强两性异形,堆叠模型准确率优于传统多元方法(颅骨:80.3%–94.3%;骨盆:86.1%–96.1%),证明了ML在法医性别估算中的应用潜力。
论文解读:基于3DCT生成颅骨与骨盆测量值的性别估算中机器学习算法应用研究
研究背景与意义
骨骼残骸性别估算是法医人类学建立生物档案(Biological Profile)的首要步骤,对缩小未知个体身份排查范围至关重要。颅骨与骨盆因表现出最显著的两性异形(Sexual Dimorphism),历来是形态学与测量学性别判定首选部位。传统方法依赖肉眼形态观察(主观性强)或经典统计学模型如判别函数分析(Discriminant Function Analysis, DFA)与logistic回归分析(Logistic Regression Analysis, LRA),后者虽客观但需满足正态性与线性假设,且人群特异性(Population-specific)强——即模型仅适用于其开发时所属人群。南非已有针对白人和黑种人的颅骨、长骨及骨盆判别函数标准,但均基于干燥骨骼收藏(如Raymond A. Dart Collection、Pretoria Bone Collection),且仍沿用传统统计方法。机器学习(Machine Learning, ML)能处理非线性关系且不依赖分布假设,已在欧美人群的颅骨与骨盆性别分类中展现优于传统方法的准确率,但在南非黑种人群体中尚属空白。鉴于南非黑种人为该国最大群体且在法医案件中占比高,开发人群特异性ML模型具迫切法医与公共卫生意义。本文发表于《International Journal of Legal Medicine》。
主要关键技术方法
研究人员获取2006至2022年Charlotte Maxeke Johannesburg Academic Hospital存档的680例18–60岁南非当代黑种人(Contemporary Black South Africans)临床CT扫描(400例颅骨CT:男200/女200;280例骨盆CT:男140/女140),排除>60岁者以避免骨质疏松影响。CT图像以Xiris及IntelliSpace软件重建为三维(3D)模型,采集8项颅骨测量值与11项骨盆测量值,计算相对技术误差(rTEM)验证测量可靠性。数据经Z-score标准化后,采用Random Forest、Extra Trees及XGBoost进行特征重要性排序筛选关键变量。测试7种监督学习算法:Linear Discriminant Analysis(LDA)、Logistic Regression(LR)、K-Nearest Neighbors(KNN)、Support Vector Machine(SVM)、Random Forest(RF)、Extra Trees(ET)、XGBoost(XGB);以分层五折交叉验证(Stratified 5-fold Cross-Validation)评估。构建Stacking集成模型,基学习器为表现最优三者(ET、RF、XGBoost),元学习器(Meta-Classifier)为Logistic Regression,以SHAP(SHapley Additive exPlanations)值解释模型。性能以Accuracy、Precision、Sensitivity(Recall)、Specificity、F1-Score及ROC-AUC评价。
研究结果
Results——颅骨与骨盆描述性统计
男性颅骨与骨盆各测量维度均值均大于女性(p<0.05),确认南非黑种人颅骨与骨盆存在显著两性异形,支持测量学变量用于性别估算。
Results——Machine learning analysis——Best feature combination for sex estimation using cranial measurements
经树模型特征排序,颅骨最具判别力变量为Cra_04、Cra_06、Cra_11、Cra_14、Cra_12。单模型中Extra Trees准确率最高(86.75%);Stacking集成模型准确率达94.25%,Precision 94.28%,F1-score 94.24%,显著优于任一单独分类器。
Results——Machine learning analysis——Best feature combination for sex estimation using pelvic bone measurements
骨盆最重要特征为AceDia、THox、GSNb、PuW。单模型Extra Trees准确率93.21%;Stacking集成模型进一步提升至96.07%(Precision 96.09%,F1-score 96.07%)。
Results——Machine learning analysis——Development and validation of different ML and stacking models
七种ML算法中集成树模型(ET、RF、XGBoost)均优于LDA与LR;Stacking框架综合基学习器概率输出再由元分类器决策,在颅骨(94.25% vs 最高单模型86.75%)与骨盆(96.07% vs 93.21%)上均取得最优性能,证明集成策略可降低过拟合并提升泛化能力。
Results——Machine learning analysis——混淆矩阵与ROC曲线
颅骨模型女93.00%、男95.50%正确分类;骨盆模型女95.00%、男97.14%正确分类,误判率更低。ROC曲线显示颅骨Stacking元分类器AUC=0.96,骨盆AUC=0.94,均高于各基模型及传统LDA/LR。
Results——Machine learning analysis——Model explainability
SHAP摘要图显示颅骨中Cra_04、Cra_06、Cra_11具高SHAP值,骨盆中AceDia与THox影响最大,GSNb与PuW呈非线性效应,有效阐明"黑箱"模型决策依据。
讨论与结论翻译
本研究系统考察了基于CT所获颅骨与骨盆测量值的经典ML算法在南非人群性别估算中的表现,确认两部位强两性异形,且ML尤指Stacking集成法较传统统计模型准确率更高——骨盆Stacking达96.07%、颅骨达94.25%。骨盆测量整体优于颅骨,与前人结论一致;所选特征对应已知高两性异形解剖标志。SHAP提升了法医语境下模型透明度与可采性。局限包括样本仅限当代南非黑种人(限制跨人群推广)、缺独立外部验证集、CT设备在临床现场可能不可及。模型应作决策辅助工具而非替代人类学专家判断,低置信度预测须结合年龄、身高及形态学评估。未来需外部验证及整合几何形态测量(Geometric Morphometrics, GMM)数据。
结论(Conclusions):本研究表明ML模型——特别是Stacking集成分类器——可显著提升基于颅骨与骨盆骨骼测量值的性别估算准确性与可靠性,优于传统统计方法,并为法医人类学与生物考古调查提供可解释、可扩展且可复现的工具。