
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于智能手机被动监测数据的性少数群体物质使用与高风险性行为识别模型构建及验证研究
【字体: 大 中 小 】 时间:2025年08月16日 来源:Online Journal of Public Health Informatics 1.1
编辑推荐:
为解决性少数群体(SGM)物质使用和性传播感染高风险行为的早期识别难题,加州大学洛杉矶分校团队开发了eWellness移动应用,通过被动收集短信、定位和应用使用数据,结合机器学习模型(LR和GBDT)成功预测了甲基苯丙胺使用(F1=0.83)和≥6名性伴侣(F1=0.69)等风险行为,为个性化HIV/STI干预提供了创新技术路径。
在公共卫生领域,性少数群体(SGM)面临着严峻的健康不平等问题。数据显示,该群体发生物质使用和感染HIV等性传播疾病(STI)的风险显著高于普通人群,其中男男性行为者(MSM)使用非法药物的概率是普通人群的两倍,超过半数的新发HIV感染发生在SGM群体。这种健康差异源于社会不公和少数群体压力,导致SGM个体更可能通过物质使用来应对负面生活事件或增强性快感。然而现实困境是:仅有6.5%需要治疗的物质使用者能获得专业帮助,文化适应性服务的匮乏、经济障碍和社会污名化构成了主要阻碍。
针对这一重大公共卫生挑战,加州大学洛杉矶分校(UCLA, University of California, Los Angeles)计算机科学系的研究团队开展了一项突破性研究。他们开发了名为eWellness的Android应用,通过被动收集82名18-29岁SGM参与者的键盘输入、GPS定位和应用使用数据,结合机器学习技术构建风险行为预测模型。这项发表在《Online Journal of Public Health Informatics》的研究,首次系统验证了被动移动监测数据在识别SGM健康风险行为方面的实用价值。
研究团队采用了多项关键技术:基于Aware框架开发的数据采集系统实现被动监测;应用Levenshtein算法和Mean-Shift聚类分别处理文本冗余和位置数据;采用NLTK工具包和LIWC进行文本特征提取;构建包含Scikit-learn的逻辑回归(LR)和梯度提升(GBDT)分类器;通过留一法交叉验证评估模型性能。所有数据通过HIPAA合规流程处理,并获得美国国立卫生研究院保密认证(CC-OD-22-3555)。
研究结果呈现多维度发现:
模型性能:在预测甲基苯丙胺使用方面,基于全词特征的梯度提升模型表现最佳(F1=0.83);对于≥6名性伴侣的预测,结合社交应用、风险词汇和位置特征的模型最优(F1=0.69);而无保护肛交的预测效果较差(最高F1=0.38)。
行为特征:甲基苯丙胺使用者更频繁使用约会应用(P=0.01)和性相关词汇(P=0.002),社交词(P=0.002)和情感词(P=0.003)使用量更高,但驾驶相关词汇显著减少(P=0.02)。多性伴侣群体显示出更广的活动范围(P=0.03)和更强的认知过程词汇使用(P=0.004)。
数据价值:文本特征预测力最强,但位置数据对识别多性伴侣行为具有增量价值。BERT语言模型与传统LIWC分析效果相当,但前者隐私保护更优。
这项研究的重要意义在于:首次证实被动移动数据可有效识别SGM高风险行为,为开发负担更低的数字化干预奠定基础。相较于传统问卷调查,该方法通过减少用户输入负担实现持续监测,特别适合存在服务获取障碍的群体。研究发现的行为数字标志物(如特定词汇模式、应用使用特征)为精准干预提供新靶点——例如向高频使用约会应用和性相关词汇的用户推送PrEP(暴露前预防)信息。技术层面,研究验证了多模态数据融合的价值,同时揭示当前方法对某些行为(如注射吸毒)预测的局限性。未来工作需扩大数据收集范围,并探索如何将预测模型整合到实时干预系统中。这项创新研究为改善SGM健康平等提供了重要技术支撑,开辟了移动健康(mHealth)在少数群体健康促进中的新应用范式。
生物通微信公众号
知名企业招聘