
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习与主题建模的结直肠癌患者体验分析:探索性研究及其临床意义
【字体: 大 中 小 】 时间:2025年06月06日 来源:JMIR Cancer 3.3
编辑推荐:
面对癌症幸存者数量激增与医疗资源短缺的矛盾,荷兰代尔夫特理工大学团队创新性地采用机器学习主题建模技术(NMF),分析美国癌症幸存者网络212,107条结直肠癌(CRC)患者论坛数据,识别出37个主题10大集群,发现"日常生活适应"(38,782帖)和"治疗认知"(31,577帖)为核心关切,并构建患者社区旅程地图。该研究为远程监测系统开发提供了数据驱动的患者需求洞察,发表于《JMIR Cancer》。
在癌症治疗领域,一个日益凸显的矛盾正在加剧:随着医疗技术进步,全球癌症幸存者数量持续攀升,但医疗人力资源的增长却难以匹配需求。以结直肠癌(CRC)为例,作为全球第三大高发癌症,其幸存者群体面临从诊断到康复的漫长旅程中信息、情感和社会支持的多重挑战。传统通过问卷和焦点小组收集患者体验的方式,不仅受限于样本量和社会期望偏差,更难以捕捉那些不愿参与研究的脆弱群体真实心声。与此同时,网络患者论坛正成为癌症患者自发分享治疗经验、情感宣泄的重要平台,每天产生海量非结构化文本数据。如何从这些"数据金矿"中高效提炼患者需求,成为优化医疗支持系统的关键突破口。
荷兰代尔夫特理工大学的研究团队独辟蹊径,将自然语言处理(NLP)领域的主题建模技术引入医疗体验研究。通过美国癌症幸存者网络平台2000-2022年间294,166条CRC患者论坛数据,研究团队采用非负矩阵分解(NMF)算法进行主题建模,结合TF-IDF(词频-逆文档频率)加权和Jaccard相似度评估,最终从212,107条有效帖中识别出37个主题。研究创新性地引入"医院-家庭"场景二分法,并联合5位资深CRC医疗专家开展3小时共创会议,构建出首张结直肠癌患者社区旅程地图。
研究结果部分展现出丰富发现:
数据
清洗后分析212,107条帖子,排除82,059条无法分类内容。经人工评估确定50个主题模型最优,其中13个非相关主题被剔除。
Topic Modeling
NMF算法识别出10个核心集群,包括:医疗决策疑虑(4.6%)、治疗认知(14.9%)、手术体验(4.5%)、检查结果焦虑(14.1%)、副作用管理(12.3%)、保险困惑(3.7%)、恢复期挑战(4.1%)、心理调适(12.4%)、家庭互动(11%)和日常生活适应(18.3%)。
Identified Patient Experience Topics and Patient Community Journey Map
主题分析揭示两大特征:家庭场景讨论更具情感色彩("困惑"、"糟糕"等词频高),而医院场景更多使用"药物"、"淋巴结"等临床术语。旅程地图显示"治疗认知"贯穿全程,而"日常生活适应"主要集中在随访期。值得注意的是,4.6%的帖子公开表达对医疗建议的质疑,这在传统访谈研究中罕见。
讨论部分凸显三大创新价值:首先,机器学习突破了传统定性研究规模限制,首次量化显示CRC患者最关注日常生活重建(18.3%)和治疗方案认知(14.9%);其次,论坛数据捕捉到患者在医患沟通中的真实顾虑,弥补了访谈研究的"礼貌偏差";最后,患者社区旅程地图为分阶段干预提供可视化指南。研究同时指出局限性:网络活跃患者可能存在选择偏倚,且当前仍需大量人工参与主题解读——这提示未来可探索大语言模型(LLM)自动解析方向。
该研究的临床意义深远:为远程监测系统开发提供了数据驱动的需求蓝图,特别是识别出检查结果焦虑(14.1%)和神经病变疼痛(6,275帖)等需重点关注的领域。方法论上开创的"机器挖掘+专家验证"模式,为其他慢性病体验研究树立了新范式。正如研究者强调,这种"不打扰患者"的数据收集方式,正引领着价值医疗向更高效、更人性化的方向发展。
生物通微信公众号
知名企业招聘