基于自然语言处理的西班牙语自由文本分析揭示工作相关事故中的性别差异

【字体: 时间:2025年08月13日 来源:BMC Public Health 3.6

编辑推荐:

  本研究利用自然语言处理(NLP)技术,从智利最大职业健康提供机构的35万份西班牙语事故报告中提取事故机制,并结合国际劳工组织(ILO)标准对职业进行标准化分类。研究发现男女在事故类型上存在显著差异:男性更易接触尖锐物体(57.3%),女性则以同高度坠落为主(42.7%)。该研究为全球南方国家提供了首个大规模性别差异化职业事故分析框架,展示了NLP在职业健康领域的创新应用价值。

  

职业安全领域长期存在"数据鸿沟":全球北方国家的研究已证实工作事故和职业病发生率存在显著性别差异,但智利等全球南方国家缺乏系统性数据。更棘手的是,这些宝贵信息往往以非结构化的西班牙语自由文本形式存在,传统分析方法难以处理。智利安全协会(ACHS)的研究团队创新性地采用自然语言处理(NLP)技术,对2019-2023年间342,017起职业事故报告进行深度挖掘。

研究团队运用三大关键技术:1) 基于GPT-4o-mini模型将42,928种非标准化职业描述映射到ILO国际标准职业分类(ISCO);2) 采用GPT-3.5-turbo从临床记录中自动提取事故机制,建立三级分类体系;3) 通过1,103份人工标注样本验证模型性能(F1-score=0.62)。所有数据均来自ACHS覆盖的260万参保人员,占智利合同工总数的51%。

研究结果部分呈现了丰富发现:

"Normalization of occupations"部分显示,女性职业高度集中于清洁(84%)、教育等传统性别角色岗位,男性则集中在机械操作、建筑等高风险领域。

"Automatic detection of the mechanism in the free text"通过三级分类体系揭示:女性59%的事故为同高度坠落(标准化残差+39.0),显著高于男性;而男性24.9%的事故涉及尖锐物体接触(标准化残差+24.9)。卡方检验证实性别与事故机制的强相关性(χ2=17,116.52, p<0.001)。

"Human evaluation of mechanisms detection"显示模型能有效识别复杂语义关系,如将"过度用力"正确关联到"过度劳累",但对"台阶跌倒"与"坠落"的区分仍需改进。

讨论部分指出三个关键突破:1) 首次量化证明清洁工等女性主导职业中坠落风险的特殊性;2) 揭示智利劳动力市场性别分工如何直接影响事故类型分布;3) 开发出可迁移的NLP工作流,特别适配西班牙语文本分析。研究同时指出局限性:仅涵盖正规就业人群,可能低估女性非正式工的事故风险;现有系统仅记录生理性别,未能涵盖性别认同信息。

这项发表于《BMC Public Health》的研究具有双重里程碑意义:方法学上,建立了首个针对西班牙语职业健康文本的分析框架;实践层面,为制定性别敏感的职业安全政策提供了数据基础。团队公开了所有代码,助力全球职业健康监测体系的完善,特别是为数据采集系统欠完善的地区提供了可复制的解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号