
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自然语言处理的Reddit双相情感障碍患者性欲亢进语料库构建与信息流行病学研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:JMIR Infodemiology 3.5
编辑推荐:
本研究针对双相情感障碍(Bipolar)患者性欲亢进(Hypersexuality)研究匮乏的现状,通过自然语言处理(NLP)技术构建TABoRC和HiB-RC语料库,结合LIWC-22心理语言分析和BERTopic主题建模,发现性欲亢进讨论量年增长率达91.65%,显著关联负性情绪和心理健康议题,为临床识别和干预提供了重要数据支持。
在全球约2%人口受双相情感障碍影响的背景下,临床观察发现躁狂或轻躁狂状态常伴随风险行为,其中性欲亢进(Hypersexuality)因社会污名化导致患者难以启齿。尽管《国际疾病分类第11版》将其列为强迫性行为障碍,但《精神障碍诊断与统计手册第5版》的排除引发学界争议。现有研究多聚焦生物学机制,而真实世界的行为表现研究严重不足,30年前的研究数据还受到当时性别规范偏见的影响。更严峻的是,60%患者报告医疗系统从未关注其性欲亢进症状,导致该群体面临性侵犯、意外妊娠和关系破裂等高危后果,22%甚至因此遭遇强奸。
为突破传统研究局限,国外研究人员创新性地利用Reddit平台公开数据,构建了包含6,679,485帖文的"谈论双相情感障碍Reddit语料库"(TABoRC),并从中筛选出2146篇性欲亢进相关帖文形成HiB-RC子库。研究采用Pushshift和PRAW API进行数据采集,运用卷积神经网络推断用户人口统计学特征,通过LIWC-22分析心理语言特征,并采用BERTopic进行主题建模。特别值得注意的是,研究团队与Lancaster University Spectrum Connect的体验顾问小组合作,严格遵循英国数据保护法案和GDPR规范,建立了去标识化的伦理数据处理流程。
Posting Characteristics on Reddit
数据分析显示,2012-2021年间HiB-RC帖文年增长率达91.65%,显著高于TABoRC的48.14%。76.7%发帖者为女性,65.1%用户年龄在24-45岁之间,73.5%位于美国。值得注意的是,55.5%用户仅讨论一次性欲亢进经历,但44.5%会反复发帖,提示症状复发可能。
LIWC Results
语言分析揭示HiB-RC显著特征:负性情绪词频升高34%(Cohen d=0.34),性相关词汇增加78%,而健康生活类词汇骤降235%。时间指向分析显示,过去时态使用增加14%,未来时减少90%,印证症状的冲动性特征。
BERTopic Results
主题建模识别9类核心话题,27.21%帖文关联躁狂发作,10.3%探讨性取向认同。特别发现3.12%帖文涉及童年性虐待创伤,如"13岁开始网络性行为"等描述,与已知风险因素吻合。药物治疗话题占3.87%,用户普遍反映情绪稳定剂效果有限。
这项发表于《JMIR Infodemiology》的研究具有多重突破意义:首次证实Reddit平台存在系统性性欲亢进讨论,年增长率超平台整体水平近倍;通过计算语言学框架验证了性欲亢进与负性情绪、创伤经历的强关联;构建的HiB-RC填补了该症状真实世界数据空白。研究局限性包括自报诊断未临床验证、性别推断仅限二元分类等,但提出的"可接受代表性"语料库构建原则,为敏感议题的社会媒体研究提供了伦理范式。正如研究者强调,这些发现不仅呼应了Bipolar UK调查中88%患者报告性欲亢进的现状,更揭示了"性欲双标"现象对女性患者的额外压力,为开发针对性心理干预奠定了数据基础。
生物通微信公众号
知名企业招聘