编辑推荐:
为解决罕见病(RDs)诊断困难问题,蒙得维的亚巴斯德研究所研究人员开展用机器学习早期检测罕见病研究,SVM 模型表现最佳,有助于精准诊断。
在医学领域,罕见病(RDs)犹如隐匿在黑暗中的 “神秘杀手”。这些疾病单独来看,每一种的发病率都极低,影响不到两千分之一的人群,可把它们汇聚起来,却像一股不可小觑的暗流,波及全球约 7% 的人口。大多数罕见病偏爱 “攻击” 儿童,往往是慢性且不断进展的,而且很多都缺乏特效治疗方法。对于罕见病患者而言,诊断过程宛如一场艰难的 “奥德赛之旅”,平均需要 5 年才能确诊,期间要辗转多个专科医生处就诊,还得经历各种侵入性检查。漫长的诊断时间不仅让患者身体备受折磨,心理上也承受着巨大压力,病情还可能在等待中不断恶化。
面对罕见病诊断的困境,蒙得维的亚巴斯德研究所(Bioinformatics Unit, Institut Pasteur de Montevideo)等机构的研究人员积极探索新的解决途径,开展了一项用机器学习早期检测罕见病的研究。他们的研究成果意义重大,为罕见病的早期诊断带来了新的希望,相关成果发表于Scientific Reports。
在这项研究中,研究人员运用了多种关键技术方法。首先,他们构建了一个独特的语料库,该语料库的数据来源广泛,包括 MIMIC-III 数据库中的出院小结、乌拉圭医学院的医学教育笔记、URUGENOMES 项目的诊断报告、从 PubMed 抓取的临床记录以及由 chatGPT “生成” 的临床记录。随后,他们使用 TF-IDF(Term Frequency-Inverse Document Frequency)加权和布尔方案将文本数据转化为数值特征表示,通过限制词汇量进行特征选择,并对数据进行归一化处理。最后,他们训练了多种分类模型,如支持向量机(SVM)、逻辑回归(LR)、决策树(DT)等传统模型,以及基于深度学习的长短期记忆网络(LSTM)、卷积神经网络(CNN)和基于 Transformer 的 BERT 模型。
下面来看具体的研究结果:
- SVM 在出院小结文本中对罕见病患者的预测表现最佳:研究人员对比了多种模型的性能,评估指标包括准确率、F 值和受试者工作特征曲线下面积(AUC)。结果显示,SVM 在 F 值(0.927)这一指标上优于其他模型,包括传统基线模型和先进的深度学习模型。在深度学习模型中,CNN 和 LSTM 表现相近,LSTM 在准确率和 AUC 上略胜 CNN 一筹,且 LSTM 比 LSTM 与 CNN 的组合模型表现更好,表明 LSTM 能在无卷积操作辅助下学习长期依赖关系。在基于 Transformer 的模型中,BioBERT 由于在生物医学数据上进行了训练,其性能优于 BERT,但整体与其他模型表现相近,说明在该任务中,基于 Transformer 模型的复杂性并不等同于更好的结果。从 AUC 指标来看,LSTM、CNN 和 SVM 获得了较高的分数(分别为 0.95、0.94 和 0.96),表明它们在区分罕见病诊断方面能力较强。
- 系统误分类的临床记录分析:研究发现,模型最常见的错误是将罕见病误分类为常见疾病,约 87.25% 的误分类记录属于这种情况,其中约 80.95% 来自 MIMIC-III 临床记录。以 SVM 分类为例,11 条误分类记录实际均为罕见病。经专家分析,这些记录多为老年人常见疾病的并发症,或多种常见疾病并存的情况,因其症状与罕见病重叠,且临床文本复杂冗长,包含大量与诊疗相关的信息,导致了误分类。这表明训练数据的正确性对模型构建至关重要,尽管语料库可能存在标签噪声,但分类器在实际应用中仍能有较好表现。
在研究结论与讨论部分,研究人员指出,他们构建了用于从临床笔记中分类罕见病的语料库,并通过对不同模型的比较研究,得出 SVM 表现最佳的结论。这意味着基于 SVM 的模型能够依据患者的临床记录准确预测罕见病,有望作为预警手段,引导患者走向更精准的诊断路径。该研究成果不仅为罕见病的早期诊断提供了有效的方法,也为后续研究奠定了基础。未来,研究人员计划对 Bio_ClinicalBERT 等模型进行微调,进一步优化诊断效果;同时,他们还打算拓展语料库,纳入更多可靠的临床记录,提升模型性能。此外,研究人员还将探索模型的可解释性,深入理解分类过程,为临床实践和医学研究提供更多有价值的信息。这项研究为罕见病诊断领域注入了新的活力,为改善罕见病患者的诊疗现状带来了新的曙光。