基于大语言模型的情感分析在社交媒体中检测阿片类药物混合使用的创新方法:方法学开发与验证

【字体: 时间:2025年06月30日 来源:JMIR Infodemiology 3.5

编辑推荐:

  为解决阿片类药物滥用危机中混合用药风险监测难题,研究人员创新性地采用GPT-3.5 Turbo等大语言模型(LLM),通过分析YouTube用户自述的用药体验,构建6类情感标签体系(包括欣快感、呼吸抑制等),实现F1-score达0.95的精准识别,较传统机器学习(XGBoost)提升3.26%,为公共卫生干预提供实时数据支持。

  

阿片类药物滥用已成为全球公共卫生危机,仅2020年美国就有近7万人因此丧生。更棘手的是,越来越多的滥用者将阿片类药物与其他非法物质混合使用,导致用药风险呈指数级增长。传统监测手段存在明显滞后性,而社交媒体上大量用户自发分享的用药体验,却如同未被开采的"数字金矿"。这些真实世界的用药报告既包含"止痛效果显著"等正面反馈,也记录了"呼吸困难"等致命副作用,如何从中精准识别高风险行为成为关键科学难题。

《JMIR Infodemiology》最新发表的研究中,科研团队开创性地将大语言模型技术引入药物滥用监测领域。他们收集2020-2024年间YouTube上300,000条用药讨论评论,通过5名标注员严格筛选建立包含6类情感标签(欣快感、止痛效果、放松感、恶心、抑郁情绪、呼吸抑制)的标注体系,标注者间一致性Fleiss κ达0.79。研究团队系统比较了4种传统机器学习模型(XGBoost等)、2种深度学习模型(BiLSTM、CNN)、3种Transformer模型(BERT等)以及GPT-3.5 Turbo大语言模型的性能差异。

关键技术方法包括:通过YouTube API采集用户评论构建标注语料库;采用TF-IDF(词频-逆文档频率)和GloVe(全局词向量)等特征提取方法;使用GridSearchCV进行超参数优化;评估指标包含精确率、召回率和F1-score等。特别针对GPT-3.5 Turbo设置学习率2、批量大小29等参数进行微调。

研究结果方面:

  1. 机器学习模型中XGBoost表现最佳(F1-score=0.92),但需要复杂的特征工程;
  2. 深度学习模型中,采用GloVe词嵌入的CNN模型达到0.94的F1-score,显示词向量质量对性能的关键影响;
  3. Transformer模型中,RoBERTa-base以0.94的指标全面领先BERT-base;
  4. GPT-3.5 Turbo实现全面突破,在6分类任务中整体F1-score达0.95,其中"呼吸抑制"类别的召回率高达1.00,但"抑郁情绪"识别相对较弱(召回率0.85);
  5. 错误分析显示,模型在医学术语理解和情感微妙差异方面仍有改进空间。

这项研究首次证实大语言模型在药物滥用监测中的卓越潜力。相比传统方法,GPT-3.5 Turbo能更精准捕捉"混合芬太尼后窒息感"等复杂表述,其3.26%的性能提升在实际应用中可能意味着更早识别出数千例高风险案例。研究者特别指出,这种非侵入式的监测手段既能保护用户隐私,又能实现近乎实时的风险预警,为构建"数字流行病学"监测体系提供了技术范式。未来通过整合多平台数据、增加临床元信息,有望建立更精准的用药风险预测模型,为遏制阿片危机提供创新解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号