
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在极端类别不平衡的情况下,对XGBoost、TabNet和FT Transformer模型在致命事故预测方面的性能进行比较评估
《Scientific Reports》:Comparative evaluation of XGBoost, TabNet, and FT transformer models for fatal crash prediction under extreme class imbalance
【字体: 大 中 小 】 时间:2026年06月08日 来源:Scientific Reports 3.9
编辑推荐:
摘要在现实世界的交通事故数据中,致命交通事故虽然发生率较低,但其后果却极其严重,通常占总事故记录的不到1%。这种极端的类别不平衡给基于机器学习的严重性预测带来了根本性的挑战,因为标准算法往往为了提高整体准确性而忽视了少数类别。本研究探讨了现代深度表格学习架构(TabNet、FT-
在现实世界的交通事故数据中,致命交通事故虽然发生率较低,但其后果却极其严重,通常占总事故记录的不到1%。这种极端的类别不平衡给基于机器学习的严重性预测带来了根本性的挑战,因为标准算法往往为了提高整体准确性而忽视了少数类别。本研究探讨了现代深度表格学习架构(TabNet、FT-Transformer)在极端类别不平衡的情况下,是否比传统的梯度提升方法XGBoost在预测致命事故方面具有更明显的优势。分析对象是2013年至2022年间土耳其Batman省记录的5,676起交通事故数据,其中致命事故的发生率仅为0.8%。在方法论上,通过事前变量选择、结构化缺失值处理以及对训练集专门应用的SMOTE平衡技术来控制数据泄露问题。模型性能不仅通过ROC-AUC等分解指标进行评估,还通过PR-AUC、Recall@K/Lift以及成本敏感分析进行评估,这些指标对于不平衡数据更为适用。结果表明,FT-Transformer的表现最为出色,其ROC-AUC值为0.820(XGBoost为0.752,TabNet为0.760),PR-AUC值为0.031(约为随机基线的3.9倍)。该模型能够捕捉到最危险10%案例中约44%的致命事故,相比随机选择方法,其预测准确率提高了约4.4倍。校准分析显示,FT-Transformer生成的风险评分更为可靠:在0.5–0.8的预测概率区间内,其实际阳性率达到了8–15%的范围,比XGBoost和TabNet在同一概率区间内的接近零的阳性率(0–2%)高出4–7倍。这些发现表明,基于Transformer的表格学习架构在极端类别不平衡的情况下具有显著的统计优势、操作优势以及成本敏感性优势,因此可以作为交通安全管理中的决策支持工具。为了检验该框架的泛化能力,即是否适用于其他地区和时间段,研究还进行了以下补充:(i) 在Batman省内进行时间上的数据分割(2013–2020年作为训练数据,2021–2022年作为测试数据);(ii) 在一个独立的公开罕见事件事故语料库上进行外部基准测试(n = 12,316;致命事故发生率为1.28% [61, 62])。无论在哪种情况下,FT-Transformer的架构排名及其带来的操作优势都得到了验证。