
-
生物通官微
陪你抓住生命科技
跳动的脉搏
AI驱动转诊信筛查优化肌肉骨骼疾病诊疗:开启精准分诊新时代
【字体: 大 中 小 】 时间:2025年02月15日 来源:npj Digital Medicine 12.4
编辑推荐:
为解决肌肉骨骼疾病患者分诊不佳、等待时间长等问题,莱顿大学医学中心的研究人员开展利用 AI 筛查转诊信优化分诊的研究。结果显示模型能精准预测多种疾病,这对提升诊疗效率、减轻医生负担意义重大,推荐科研读者阅读。
莱顿大学医学中心(Leiden University Medical Center)的 Tjardo Dani?l Maarseveen 等研究人员在《npj | digital medicine》期刊上发表了题为 “Improving musculoskeletal care with AI enhanced triage through data driven screening of referral letters” 的论文。这篇论文在医学领域,尤其是肌肉骨骼疾病诊疗方向意义重大,为优化患者分诊流程、提升医疗效率提供了新的思路与方法。
论文摘要指出,肌肉骨骼疾病(Musculoskeletal,MSK)相关的就诊占全科医生(General Practitioner,GP)门诊量的 30%,大量患者通过转诊信被转介到风湿科诊所。研究团队开发了一种机器学习(Machine Learning,ML)流程,旨在通过识别类风湿关节炎(Rheumatoid Arthritis,RA)、骨关节炎(Osteoarthritis)、纤维肌痛(Fibromyalgia)以及需要长期护理的患者,对转诊进行优先级排序。研究人员利用来自 12 家诊所、5728 名患者的 8044 封转诊信,在两个大型中心训练和验证了 ML 模型,并在其余 10 家中心测试了模型的通用性。结果显示,这些模型表现稳健,RA 模型的受试者工作特征曲线下面积(Area Under the Curve of Receiver Operating Characteristic,AUC-ROC)达到 0.78(置信区间:0.74 - 0.83),骨关节炎模型为 0.71(置信区间:0.67 - 0.74),纤维肌痛模型为 0.81(置信区间:0.77 - 0.85),慢性随访模型为 0.63(置信区间:0.61 - 0.66) 。RA 分类器的表现优于手动转诊系统,其他分类器也在优先级排序上有所改进,这凸显了该研究成果在提高护理效率、减轻临床医生工作量以及促进早期专科护理方面的巨大潜力,未来研究将聚焦于构建临床决策支持工具。
在深入了解这项研究的具体内容之前,先来看看它所处的研究背景。肌肉骨骼疾病在日常生活中十分常见,是导致患者前往全科医生处就诊的重要原因之一。据估计,约 30% 的全科医生门诊患者都患有肌肉骨骼相关疾病。对于这类患者来说,早期治疗至关重要,这直接关系到疾病的预后效果。然而,现实中患者的诊断和治疗之路却充满坎坷。不同的肌肉骨骼疾病需要不同专科医生的专业护理,但最初的治疗往往无法精准匹配患者的具体病情。
以类风湿关节炎为例,这是一种自身免疫性疾病,会导致关节肿胀、压痛,严重影响患者的身体活动能力。如果能在疾病早期就由风湿科医生进行治疗,对于防止关节不可逆损伤极为关键。可许多患有骨关节炎(关节软骨退化)和纤维肌痛(全身广泛性疼痛)的患者,由于症状与类风湿关节炎相似,常常被错误地转诊给风湿科医生。实际上,这些患者更需要的是物理治疗或职业治疗。这样的误转诊不仅加重了医疗系统的负担,还不必要地延长了真正患有炎症性关节炎患者的等待时间。
在欧洲和美国,风湿科医疗人员预计将面临短缺,在这种情况下,优化患者分诊流程、避免额外增加临床医生的负担就显得尤为重要。在急诊医学领域,已经有一些系统通过预测患者的死亡率、住院需求或重症护理需求来优化分诊,并且取得了不错的效果。但这些优先评分系统很难直接应用到风湿科门诊的择期护理场景中,因为它们大多以患者的生命体征参数作为输入变量,与风湿科门诊的实际情况不匹配。
在许多国家,全科医生通常是患者就医的第一站。当遇到诊断不确定、需要专业治疗或应患者要求时,全科医生会通过撰写转诊信,将患者转介到二级医疗机构。转诊信中一般包含患者的健康状况、症状和实验室检查值等信息。然而,目前类风湿关节炎患者在收到转诊后,平均要等待四周才能见到风湿科医生,而从症状出现到看专科医生的总时长平均为 24 周,可理想的治疗时间应在症状出现后的 6 周内。转诊信本为早期干预提供了契机,但由于其结构不统一,以及全科医生写作风格各异,在研究中的应用受到了很大限制。不过,随着机器学习技术的发展,尤其是自然语言处理(Natural Language Processing,NLP)和大语言模型(Large Language Models,LLMs)的兴起,自动处理非结构化文本成为可能,这为解决上述问题带来了新的希望。尽管医疗领域对人工智能的接受度越来越高,但自然语言处理在临床中的应用进展却较为缓慢,此前的相关研究大多缺乏外部验证,这表明该领域的应用还处于起步阶段。
这项研究中,研究人员采用了一系列先进的关键技术方法。研究数据来自 2015 年至 2022 年间,12 家风湿科门诊诊所(Reumazorg ZWN)收到的 8044 封荷兰语全科医生转诊信。为了开发模型,研究人员选取了两个最大的中心 Roosendaal 和 Goes 的数据(共 7213 例),其中 80%(5039 例)用于训练分类器,20%(1225 例)作为验证集,以确保训练和验证数据中没有患者重叠,从而公平地评估分类器的性能。为了进一步评估模型的通用性,研究人员还使用了来自 10 个较小中心(共 831 例数据)的转诊信进行第二次验证。
在自然语言处理方面,研究人员进行了专门的预处理流程。首先利用荷兰语的 BERTje 嵌入和 NER - dutch 句子标记器检测转诊信中的命名实体,然后创建过滤列表,删除个人和地点名称,因为这些信息的预测能力可能因中心而异。接着,在每个训练轮次中,研究人员创建了包含所有在训练文档中出现频率至少为 1% 的单词的词汇表,并使用词频 - 逆文档频率(Term Frequency - Inverse Document Frequency,TFIDF)降低频繁出现但不重要单词的权重,以增强文本的意义。最后,运用 pyCombat 进行批次校正,处理不同中心语言差异带来的影响。
在模型训练环节,研究人员运用了极端梯度提升(eXtreme Gradient Boosting,XGB)技术,为每种疾病构建单独的预测模型。通过基于树结构的 Parzen 估计器进行贝叶斯优化,对模型的超参数进行调整。研究人员依据 AUC - ROC 和精度召回曲线下面积(Area Under the Curve of Precision - Recall,AUC - PRC)来衡量模型在验证集上的性能,并使用 Shapley 可加性解释(Shapley Additive exPlanations,SHAP)值量化转诊信中重要单词的重要性,绘制 SHAP 蜂群图来可视化前 20 个最相关的单词。
下面来看看具体的研究结果:
类风湿关节炎:通过对转诊信的分析训练,RA 模型在验证集中表现出色,AUC - ROC 达到 0.78(置信区间:0.74 - 0.83),AUC - PRC 为 0.31(置信区间:0.21 - 0.42) 。研究发现,预测 RA 的重要关键词包括手部或掌指关节(MCP - joint,Metacarpophalangeal joint)的特定位置、风湿性肌肉骨骼疾病的国际初级保健分类代码(ICPC,International Classification of Primary Care,代码为 L88),此外,解剖学术语 “屈曲(flexion)” 以及提到的僵硬或肿胀也具有预测性,而提及纤维肌痛则与 RA 诊断呈负相关。该模型校准良好,Brier 评分为 0.06。
非自身免疫性疾病(纤维肌痛和骨关节炎):针对非自身免疫性疾病的训练模型在验证集中也取得了不错的结果。骨关节炎模型的 AUC - ROC 为 0.71(置信区间:0.67 - 0.74),AUC - PRC 为 0.44(置信区间:0.40 - 0.52);纤维肌痛模型的 AUC - ROC 为 0.81(置信区间:0.77 - 0.85),AUC - PRC 为 0.33(置信区间:0.25 - 0.48)。对于骨关节炎,提及手部、远端指间关节(DIP - joint,Distal Interphalangeal Joint)、“其他骨关节炎” 的 ICPC 代码(L91)和维生素缺乏(T93)呈正相关,而提及银屑病关节炎和屈曲则呈负相关,患者要求转诊(如 “at request”)也与骨关节炎呈正相关。纤维肌痛的重要关键词包括疾病特异性 ICPC 代码(L18.01)、全身疼痛的 ICPC 代码(A01)或提及放射性疼痛,而提及关节或症状则呈负相关,值得注意的是,像 “collegial regards, mrs” 和 “best regards, mrs” 这类礼貌正式的问候语也出现在前 20 个最具区分性的术语中。
长期随访(“慢性”)患者的预测:慢性患者模型的表现相对较弱,AUC - ROC 为 0.63(置信区间:0.61 - 0.66) 。AUC - PRC 为 0.65(置信区间:0.61 - 0.68),但由于大多数病例属于 “慢性” 类别,这可能会使 AUC - PRC 偏高。识别这类患者的关键词包括痛风、L88、风湿护理和药物名称(如秋水仙碱、泼尼松龙)或特定剂量(如 500mg 或 80mg),提及纤维肌痛、肌肉和关节与被风湿科医生随访呈负相关。
在独立中心的性能表现:为了测试模型的通用性,研究人员将模型应用于另外 10 个中心,并比较了所有中心的 AUC 值。结果显示,RA 模型在这些中心的 AUC - ROC 为 0.74(置信区间:0.69 - 0.78),AUC - PRC 为 0.31(置信区间:0.21 - 0.38),与验证集相似。骨关节炎和纤维肌痛模型的 AUC 值大多相似,不过骨关节炎的 AUC - ROC 略低(0.67,置信区间:0.64 - 0.71),但 AUC - PRC 与验证集几乎相同(0.45,置信区间:0.40 - 0.51)。纤维肌痛模型的 AUC - ROC 为 0.80(置信区间:0.71 - 0.87),AUC - PRC 略有下降(0.25,置信区间:0.13 - 0.41)。慢性模型的性能与验证集相似(AUC - ROC 为 0.61,置信区间:0.57 - 0.64;AUC - PRC = 0.65,置信区间:0.61 - 0.69)。从中心特异性表现来看,RA 和骨关节炎模型表现较为稳定,而纤维肌痛和慢性模型稳定性较差。
定义二元分类器:对于 RA,研究人员根据验证数据的区分度,将临界值设定为 0.08,此时灵敏度为 0.71,阴性预测值(Negative Predictive Value,NPV)为 0.67,该临界值能识别出约三分之二的 RA 病例,同时排除三分之二的非 RA 病例。在外部数据中应用该临界值时,也得到了稳定的结果。骨关节炎的临界值设定为 0.50,可使约三分之二(精度为 0.63)的患者最终被诊断为骨关节炎,特异性为 0.95。纤维肌痛则难以定义具有高精度的有意义二元临界值。慢性疾病的二元阈值设定为 0.55,可包含三分之二的慢性患者,同时排除一半的非慢性病例。
检查模型对全科医生评估的依赖性:研究发现,62% 的 RA 病例未被全科医生怀疑,58% 被全科医生怀疑为 RA 的病例实际上是误诊。骨关节炎、纤维肌痛和慢性随访病例中,漏诊和误诊的比例也分别达到了 54% 和 33%、44% 和 38%、31% 和 26%。尽管如此,预测模型在有疾病和无疾病患者中的概率差异显著,即使全科医生未明确怀疑该疾病,模型也能识别出相关模式,不过当全科医生提及疾病时,模型的置信度会增加。在识别非病例方面,RA 模型表现较好,即使全科医生怀疑为 RA,模型也能识别出非病例;骨关节炎和纤维肌痛模型在全科医生判断错误时,识别非病例存在一定困难;慢性模型则能在全科医生怀疑患者需要风湿科护理时,识别出非病例。此外,与全科医生相比,ML 模型在检测 RA、骨关节炎和纤维肌痛方面具有更高的灵敏度,但在识别慢性患者方面,ML 模型不如全科医生。
基于转诊信的等待时间优先级排序:在现实中,RA 和非 RA 病例的等待时间并无显著差异,但 RA 分类器能够将大多数 RA 病例排在前列,且基于 ML 的优先级排序比当前的预约排序具有更少的假阳性和更高的精度。研究还发现,在模型评分较高的前 5% 的病例中,RA 病例占比在 ML 模型下达到 45.9%,远高于现实中的 13.1%。同时,RA 分类器似乎会将纤维肌痛的转诊信排在列表底部,其他模型(骨关节炎、纤维肌痛和慢性模型)也能达到各自的优先级排序目标。
综合研究结论和讨论部分的内容,这项研究成果意义非凡。研究人员开发的基于 NLP 的转诊优先级自动化流程,仅通过转诊信的内容,就能在患者首次前往风湿科门诊进行二级护理之前,准确预测出患有 RA、骨关节炎和纤维肌痛的患者。经过多个医院的验证,这些模型在个体诊断方面表现良好,不受各医院特定结构的影响。尽管预测慢性随访患者存在一定挑战,但所有 ML 模型在转诊排序上都优于手动转诊系统,能够将高风险患者排在前面,这对于减少患者等待时间、减轻临床医生工作量具有重要意义。
在许多西方国家,人口老龄化加上专科医生短缺,尤其是在偏远地区,患者等待时间过长的问题愈发严重,而且误转诊现象也进一步阻碍了患者及时获得专科治疗。而这项研究中的 AI 辅助患者分诊技术,有望改善这种状况。例如,RA 模型可以为患者开辟一条快速通道,使他们能够更快地接受专科医生的治疗,尽早使用免疫抑制剂进行干预;对于非自身免疫性疾病患者,如纤维肌痛和骨关节炎患者,可以引导他们选择更合适的替代护理途径,如职业治疗或物理治疗。
此外,该模型对全科医生也具有重要的辅助价值。即使全科医生在转诊原因中未明确提及疾病,模型也能预测出正确的诊断,帮助全科医生决定是否需要进行额外检查或确定转诊的优先级。不过,未来还需要进一步研究该模型在所有可能被转诊患者中的表现,而不仅仅局限于实际转诊的患者。
这项研究首次创建了一个可推广的 NLP 流程,用于从转诊信中预测和优先排序诊断结果,为风湿科门诊提供了有力的支持。但研究也存在一些局限性,比如没有探索其他机器学习技术或进行敏感性分析,数据方面可能因格式不一致导致质量参差不齐,诊断编码可能存在错误分类,且对于罕见疾病的诊断延迟问题未深入研究。未来,研究人员计划将 ML 分类器集成到决策支持工具中,以优化患者分诊流程,并从以人为主的角度出发,注重用户体验、可解释性、透明度和公平性等方面的优化。
总的来说,这项研究为改善肌肉骨骼疾病的护理提供了新的方向和方法,虽然还有一些需要完善的地方,但它的重要意义不可忽视,有望在未来的医疗实践中发挥更大的作用,为患者带来更好的医疗服务体验。
生物通微信公众号
知名企业招聘