
-
生物通官微
陪你抓住生命科技
跳动的脉搏
BERTopic_Teen优化模型:基于多模块优化的青少年健康短文本主题建模方法
【字体: 大 中 小 】 时间:2025年08月12日 来源:Frontiers in Public Health 3.4
编辑推荐:
这篇综述提出BERTopic_Teen模型,通过流行度偏差正则器(PDR)、动态文档嵌入优化器(DDEO)和概率重分配矩阵(PRM)三模块优化,显著提升青少年健康相关推文的主题建模效果。实验显示其NPMI(0.2184)较原模型提升16.1%,主题多样性(TD=0.9935)和困惑度(1.7214)均优于LDA、NMF等传统方法,为公共卫生监测提供高效分析工具。
青少年健康是社会发展的重要指标,全球15-24岁人口达12亿,面临睡眠减少(日均减少0.8小时)、代谢综合征风险(OR=1.32)及新冠疫情下焦虑症状激增(12.9%至25.6%)等挑战。Twitter等社交媒体每日产生5亿条推文,其中7.3%涉及健康内容,但短文本的语义稀疏性使传统主题建模方法(如LDA)效果受限。BERTopic虽结合BERT嵌入和UMAP降维,仍存在固定维度导致信息损失、高频词干扰及HDBSCAN丢弃异常文档等问题。
2.1 健康主题的社交媒体分析
相比传统流行病学调查(应答率58%),社交媒体数据能实时追踪群体行为,如Hswen等通过推文提前3周预警电子烟相关肺病。但推文缩写、表情符号等特性增加NLP难度,且短文本占比超70%,易导致语义稀疏。
2.2 主题建模技术进展
从LDA、NMF等概率模型到神经主题模型(NTM),再至结合预训练模型(如BERTopic),技术演进显著。但现有方法仍面临通用词过滤与长尾词识别的平衡问题。
3.1 数据预处理
收集2018-2024年64,441条推文,经去重(Sentence-BERT相似度匹配)、停用词过滤及URL/表情符号清除后,保留61,039条有效数据。
3.2 BERTopic_Teen优化框架
PDR模块:对高频词(如"health")施加指数衰减权重(α=0.05),同时将领域词(如"bullying")权重提升1.5倍。
DDEO模块:基于轮廓系数动态选择UMAP维度(2-40维),最优维度为13。
PRM模块:通过余弦相似度(阈值P>0.15)将异常文档重新分配至最近主题簇,使异常率从27.43%降至5.23%。
4.1 模型对比
模块验证:PDR使词典多样性(LD)从0.3381升至0.4643;DDEO在13维时轮廓系数达0.6180;PRM保留80%原异常文档。
整体性能:BERTopic_Teen的NPMI(0.2184)和TD(0.9935)均最优,困惑度(1.7214)低于BERTopic(2.0580)。LDA(70主题)和Top2Vec(396主题)因短文本特性表现较差。
4.2 主题分布
识别7大主题域:
公共卫生政策(25.48%):如"印度青少年疟疾防控"(1.751%)
心理健康(20.19%):"自闭症研究"(2.05%)推文量首超ADHD
医疗服务(17.57%):81%推文提及心理健康服务等待超6个月
政策活动(如"青少年健康周")驱动话题传播,单日推文峰值达1,200条。心理健康讨论呈现季节性波动,考试季自杀预防推文激增。艺术治疗等创新干预(如#MentalHealthArtChallenge)实现线上线下联动。
当前模型计算成本较高,未来可探索轻量化嵌入或结合因果推断深化分析。
生物通微信公众号
知名企业招聘