《BMC Research Notes》:Sex classification accuracy through machine learning algorithms - morphometric variables of human ear and nose
编辑推荐:
在法医学及医学法律鉴定中,性别鉴定至关重要。研究人员利用 “PyCaret” 机器学习库,基于人耳和鼻的不同参数开展性别分类准确性研究。结果显示逻辑回归(LR)分类器表现最佳,准确率达 86.75%,鼻宽是关键变量。该研究为法医学鉴定提供新方法。
在法医学领域,性别鉴定一直是个人身份识别的关键环节,对缩小调查范围、提高办案效率起着举足轻重的作用。以往,像骨盆骨这类具有高度性二态性的部位,虽能实现高达 100% 的性别预测准确率,但在实际案件中,完整的骨盆骨或其他骨骼并不总是可得的。因此,寻找其他可靠的性别鉴定指标成为当务之急。
人类面部的耳和鼻,作为独特的生物特征,具备潜在的性别鉴定价值。一方面,耳朵的形态特征,如耳轮和耳垂的形状,在男女之间存在差异;另一方面,鼻子的大小、形状等特征同样受到遗传和环境因素影响,在性别上呈现出不同特点。然而,这些特征以往并未得到充分重视,其在性别鉴定中的应用也缺乏深入研究。
为了填补这一空白,来自潘贾比大学(Panjab University)的研究人员开展了一项关于利用人耳和鼻的参数进行性别分类准确性的研究。该研究成果发表在《BMC Research Notes》上。
在这项研究中,研究人员运用了多种技术方法。首先,他们选取了 508 名年龄在 18 - 35 岁的北印度参与者(264 名男性和 244 名女性),排除了有颅面创伤、耳鼻疾病、唇裂、先天性异常或面部手术史的个体。接着,使用滑动卡尺对参与者的耳朵(左右耳)和鼻子进行标准化测量,并借助索尼 Cybershot DSCW80 7.2MP 数码相机拍摄照片。最后,利用低代码开源机器学习库 PyCaret,对 15 种分类器进行比较和评估。
研究结果主要分为以下几个方面:
- 测量精度:计算了技术测量误差(TEM)、相对技术测量误差(rTEM)和可靠性系数(R)。结果显示,大部分测量的可靠性良好,仅有右耳耳甲长度可靠性较差,部分测量为中等可靠性。
- 数据建模与分类实验:数据集包含 26 列变量和 508 行样本,经 SMOTE 算法平衡样本类别、z - score 方法归一化处理后,随机划分 70% 用于训练,30% 用于测试。在众多模型中,逻辑回归(LR)分类器表现最佳,其准确率和召回率均为 86.75% ,AUC 为 94.15% ,精度为 87.18% ,F1 评分达 86.7% ,kappa 值为 73.46% ,MCC 为 73.89% ,且耗时仅 0.0930 秒。通过 ROC 曲线和 AUC 值评估,LR 分类器区分男女的能力较强,平均精度为 0.88。经内部验证,优化后的 LR 分类器各项指标表现良好,鼻宽(NASAL BREADTH)是影响性别预测的最重要特征。
- 外部验证:利用新数据对 LR 模型进行外部验证,从训练样本中抽取 50 个盲样本,模型预测的准确率达到 84%。
研究结论表明,人耳和鼻的形态特征可用于性别估计,逻辑回归分类器在基于耳鼻参数的性别分类中表现卓越,鼻宽是准确预测性别的最重要变量。该研究为法医学调查、面部重建、整形手术等领域提供了重要的参考依据,开辟了利用面部特征进行性别鉴定的新途径。同时,研究也存在一定局限性,如不同机器学习算法可能导致结果差异,研究结果可能不适用于其他人群,耳鼻形态的性别差异不足以实现完美的性别分类等。尽管如此,这项研究依然为后续的法医学研究和实践提供了有价值的方向,有望推动性别鉴定技术的进一步发展和完善。