编辑推荐:
在法医年龄推断领域,传统判别模型存在可解释性和泛化性难题。研究人员开展了利用生成模型进行法医年龄估计的研究。结果显示,变分自编码器(VAE)能学习有意义的潜在空间,在小数据集上表现良好。该研究为法医实践带来新视角。
在当今科技飞速发展的时代,法医医学领域也正经历着深刻变革,其中法医年龄估计是一项极为关键的任务。在法律和移民等诸多场景中,当个体的生物学年龄无法明确确定,或相关文件缺失、存在争议时,准确的年龄推断就显得尤为重要。例如在处理未成年人案件时,准确界定年龄对于法律判决起着决定性作用;在移民审查中,年龄核实也关乎政策执行的公正性。传统上,法医年龄估计主要依据医学影像结合体格检查,并遵循德国法医学协会法医年龄诊断研究小组(AGFAD)的指南进行。然而,随着深度学习技术的兴起,虽然基于该技术的判别模型在年龄预测方面取得了一定成果,如 Wesp 等人和 Qiu 等人分别利用卷积神经网络(CNN)在 CT 扫描数据上进行年龄评估,获得了不错的预测精度,但这些模型却面临着严峻的挑战。它们如同难以捉摸的 “黑匣子”,决策过程晦涩难懂,可解释性差,通常只能通过事后分析来解读,这使得研究人员对其在未知数据上的泛化能力难以准确把握,极易导致过度自信。
正是在这样的背景下,来自汉堡 - 埃彭多夫大学医学中心应用医学信息学研究所和法医学研究所的研究人员 Anastasia Chernysheva、Christopher Gundler 等人,开展了一项极具创新性的研究,旨在探索生成模型在法医年龄估计中的巨大潜力,力求突破传统判别模型的困境。
为了开展此项研究,研究人员运用了一系列关键技术方法。在数据方面,他们收集了两个不同来源的数据集。训练和验证数据集包含 486 例来自美国新墨西哥大学医学调查员办公室(OMI)的死后计算机断层扫描(PMCT)数据,这些数据涵盖了多种死亡原因,且成像协议标准化。测试数据集则由汉堡 - 埃彭多夫大学医学中心法医学研究所提供的 40 例 PMCT 扫描组成。在模型选择上,鉴于变分自编码器(VAE)能提供显式潜在空间,研究人员选用了它,并探索了两种变体 ArVAE 和 AttriVAE。在训练和评估环节,研究人员利用墨西哥的 PMCT 扫描数据进行训练和验证,通过迭代调整超参数,最终确定潜在空间维度为 128,使用 Adam 优化器进行梯度下降训练。在分析潜在空间时,运用主成分分析(PCA)和均匀流形近似与投影(UMAP)进行降维处理,并采用多种回归和分类算法进行性能评估。
研究结果呈现出丰富且有价值的信息。在数据集特征方面,经过筛选最终得到 488 例扫描数据(976 个样本),其中男性占 70%,女性占 30%,年龄分布在 10 - 30 岁之间。在定量结果上,各模型虽存在模糊效应,但能较好保留形状,额外训练目标对 ArVAE 和 AttriVAE 模型的重建质量有显著提升;在潜在空间年龄估计可视化方面,UMAP 投影效果更好,不同训练目标影响较小。定性结果表明,不同算法绝对性能差异较小,复杂模型不比简单线性回归表现更好,UMAP 降维虽导致性能下降,但嵌入仍具预测能力;在分类任务中,基于线性核的支持向量机利用预训练语义空间,对判断个体是否大于 21 岁取得了较高精度。
综合研究结果和讨论部分,这项研究意义非凡。它证明了生成模型,尤其是变分自编码器,在法医年龄估计中具有重要价值,即使数据集规模有限,也能学习到有意义的潜在空间,为后续任务提供可解释性支持。这一成果为法医实践提供了新的思路和方法,有助于提升法医年龄估计的准确性和可靠性。同时,研究也指出了当前的局限性,如数据量较小、切片厚度有待优化等,为后续研究指明了方向。该研究发表在《Rechtsmedizin》杂志上,为法医医学领域的发展贡献了重要力量,有望推动相关技术在实际应用中的进一步发展。