编辑推荐:
为探究姑息治疗(PC)在转移性癌症中的记录情况,研究人员利用自然语言处理(NLP)分析 UCSF 系统住院病历,通过 word2vec 等模型发现二者词关联随时间减弱,该研究为优化 PC 记录及临床实践提供新视角。
在癌症治疗领域,尽管姑息治疗(Palliative Care, PC)被证实能显著改善晚期癌症患者的生活质量并减轻症状强度,但在临床实践中,其利用率尤其是在转移性癌症患者中的整合情况仍存在诸多未解之谜。一方面,行政数据对专科姑息治疗(Specialty PC)的敏感性不足,难以准确评估 PC 的实施过程;另一方面,临床文档中关于 PC 的记录往往缺乏结构化信息,无法全面反映医护人员对 PC 的实际考量与决策过程。如何从非结构化的文本数据中挖掘 PC 与转移性癌症之间的关联,揭示记录模式的演变规律,成为提升 PC 质量评估和临床实践的关键问题。
为了攻克这一难题,美国加州大学旧金山分校(University of California, San Francisco, UCSF)的研究团队开展了一项具有创新性的研究。他们聚焦于临床文档中的语言特征,利用自然语言处理(Natural Language Processing, NLP)技术,深入分析了姑息治疗与转移性癌症相关术语在病历中的关联模式及时间变化趋势。这项研究成果发表在《Scientific Reports》上,为理解临床实践中 PC 的记录演变提供了全新的视角。
研究人员采用了一系列先进的 NLP 技术来实现研究目标。首先,他们收集了 UCSF 系统 2013-2020 年期间的成人住院病历,涵盖了 COVID-19 疫情前后的完整时间段。通过应用 word2vec 模型,将文字转化为数值向量,利用余弦相似性(Cosine Similarity)计算转移性癌症相关术语(如 “mets”“metastases”)与 PC 相关术语(如 “palliative care”“pal care”)的上下文关联程度。此外,研究还通过线性回归分析术语间关系随时间的变化,并针对确诊转移性癌症的患者亚组(基于 ICD-9/10 编码)进行了敏感性分析,以验证结果的可靠性。
研究结果
术语关联的时间趋势
通过对 28,600,649 份住院病历的分析,研究发现转移性癌症与 PC 术语在每年的临床记录中均呈现正相关(余弦相似性 95% 置信区间均大于 0),表明二者在文档中存在密切关联。然而,整体趋势显示,这种关联随时间逐渐减弱,其中 “palliation” 与转移性癌症术语的余弦相似性下降具有统计学意义(p≤0.005)。其他术语如 “palliative”“palliate” 的关联度虽无显著下降,但趋势亦呈平缓或轻微下滑。
亚组分析的独特模式
在仅包含转移性癌症诊断编码患者的亚组分析中,术语关联的时间趋势呈现更多变异性。尽管大部分 PC 术语与转移性癌症的关联仍呈下降趋势,但 “pall” 的余弦相似性在 2017-2020 年间有所上升。值得注意的是,2020 年(COVID-19 疫情期间)“palliative” 和 “palliate” 的关联度出现回升,可能与疫情期间 PC 服务在重症患者中的应用变化有关。
研究结论与讨论
这项研究通过 NLP 技术首次揭示了临床文档中 PC 与转移性癌症术语关联的动态演变规律。尽管术语共现的减弱并不直接等同于临床决策中 PC 考量的减少,但其为识别 PC 记录模式的变化提供了量化依据。研究推测,这种现象可能与专科 PC 资源的分配转向、初级姑息治疗(Primary PC)的普及或门诊 PC 的整合增加有关。此外,不同词性术语(如 “palliation” 作为名词与 “palliate” 作为动词)的差异趋势,暗示了医护人员对 PC 的认知可能从 “目标导向” 向 “行动导向” 转变,这为后续探索术语使用与临床行为的关系奠定了基础。
研究同时指出,COVID-19 疫情可能对 2020 年的记录模式产生影响,转移性癌症合并 COVID-19 患者的 PC 需求增加,可能导致相关术语关联度的短暂回升。然而,这一现象的长期影响仍需进一步研究。
该研究的意义不仅在于方法学的创新 —— 利用词嵌入(Word Embeddings)和时序分析捕捉语义漂移(Semantic Drift),更为临床质量改进提供了新方向。通过分析文档中的语言特征,医疗机构可针对性地优化 PC 记录规范,推动早期 PC 整合,进而提升患者照护质量。尽管研究存在单中心局限性且未涉及医护人员访谈,但其提出的 NLP 框架为跨机构、跨时间的临床文本分析提供了可复制的范式,有望在未来推动姑息医学与精准医疗的深度融合。