今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

在极端类别不平衡的情况下,对XGBoost、TabNet和FT Transformer模型在致命事故预测方面的性能进行比较评估

《Scientific Reports》:Comparative evaluation of XGBoost, TabNet, and FT transformer models for fatal crash prediction under extreme class imbalance

【字体: 大 中 小 】 时间:2026年06月08日 来源:Scientific Reports 3.9

编辑推荐:

  摘要在现实世界的交通事故数据中,致命交通事故虽然发生率较低,但其后果却极其严重,通常占总事故记录的不到1%。这种极端的类别不平衡给基于机器学习的严重性预测带来了根本性的挑战,因为标准算法往往为了提高整体准确性而忽视了少数类别。本研究探讨了现代深度表格学习架构(TabNet、FT-

  

摘要

在现实世界的交通事故数据中,致命交通事故虽然发生率较低,但其后果却极其严重,通常占总事故记录的不到1%。这种极端的类别不平衡给基于机器学习的严重性预测带来了根本性的挑战,因为标准算法往往为了提高整体准确性而忽视了少数类别。本研究探讨了现代深度表格学习架构(TabNet、FT-Transformer)在极端类别不平衡的情况下,是否比传统的梯度提升方法XGBoost在预测致命事故方面具有更明显的优势。分析对象是2013年至2022年间土耳其Batman省记录的5,676起交通事故数据,其中致命事故的发生率仅为0.8%。在方法论上,通过事前变量选择、结构化缺失值处理以及对训练集专门应用的SMOTE平衡技术来控制数据泄露问题。模型性能不仅通过ROC-AUC等分解指标进行评估,还通过PR-AUC、Recall@K/Lift以及成本敏感分析进行评估,这些指标对于不平衡数据更为适用。结果表明,FT-Transformer的表现最为出色,其ROC-AUC值为0.820(XGBoost为0.752,TabNet为0.760),PR-AUC值为0.031(约为随机基线的3.9倍)。该模型能够捕捉到最危险10%案例中约44%的致命事故,相比随机选择方法,其预测准确率提高了约4.4倍。校准分析显示,FT-Transformer生成的风险评分更为可靠:在0.5–0.8的预测概率区间内,其实际阳性率达到了8–15%的范围,比XGBoost和TabNet在同一概率区间内的接近零的阳性率(0–2%)高出4–7倍。这些发现表明,基于Transformer的表格学习架构在极端类别不平衡的情况下具有显著的统计优势、操作优势以及成本敏感性优势,因此可以作为交通安全管理中的决策支持工具。为了检验该框架的泛化能力,即是否适用于其他地区和时间段,研究还进行了以下补充:(i) 在Batman省内进行时间上的数据分割(2013–2020年作为训练数据,2021–2022年作为测试数据);(ii) 在一个独立的公开罕见事件事故语料库上进行外部基准测试(n = 12,316;致命事故发生率为1.28% [61, 62])。无论在哪种情况下,FT-Transformer的架构排名及其带来的操作优势都得到了验证。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:深度表格学习|分类不平衡|Transformer|事故预测|特征选择|PR-AUC

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号