MISTIC:基于 Transformer 的意大利电子健康记录转移分类创新方法,开启肿瘤研究新篇

【字体: 时间:2025年04月11日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  在电子健康记录(EHRs)分析面临格式、术语和语言难题的背景下,研究人员开展 “MISTIC:一种利用 transformers 对意大利电子健康记录进行转移分类的新方法” 研究。结果显示 MISTIC 性能优异,其在临床文本分类领域具有重要意义。

  在当今医疗领域,真实世界证据(RWE)研究正变得越来越重要,它能从日常医疗实践中直接获取有价值的信息。电子健康记录(EHRs)作为 RWE 的关键数据来源,在肿瘤学研究中意义非凡,它涵盖了患者病史、症状、治疗及实验室检查等丰富信息,有助于深入了解疾病的复杂本质。然而,EHRs 存在诸多问题,比如格式千差万别、医学术语繁杂多样,语言表达也存在细微差异,这使得从其中提取一致且可靠的信息困难重重。就像在乳腺癌转移的研究中,准确识别相关信息对于判断疾病阶段和制定治疗策略至关重要,但现有的技术却难以满足需求。
为了解决这些难题,来自意大利 Fondazione Policlinico Universitario Agostino Gemelli IRCCS、Catholic University of the Sacred Heart 以及 Istituto per le Applicazioni del Calcolo “Mauro Picone” 等机构的研究人员,开展了一项极具创新性的研究。他们提出了 Metastases Italian Sentence Transformers Inference Classification(MISTIC),这是一种基于 Transformer 的自然语言处理(NLP)方法,专门用于对意大利 EHRs 中的乳腺癌转移情况进行分类。

研究人员在开展这项研究时,运用了多种关键技术方法。首先,从罗马 Gemelli 医院大量的临床报告中选取了乳腺癌患者的相关数据作为样本队列。然后,利用 Python 包 PySBD 对 EHRs 进行文本分割,将长文本处理为句子级别的数据,以适应模型的处理要求并减少内部矛盾。通过基于规则的系统进行数据标注,为模型训练提供数据。还采用了基于正则表达式(regex)的主题检测技术,筛选出包含关键信息的文本片段。在建模阶段,运用 Sentence Transformer Fine-Tuning(SetFit)框架,在少量训练样本的情况下对预训练的句子转换器进行微调。

研究结果如下:

  • 数据集:从意大利 Gemelli 医院的乳腺癌数据集市中选取了 68,167 份 EHRs,这些数据来源广泛,包括临床日记、病史和放射诊断报告等。其中放射诊断报告占比最多,达到 50.64% 。
  • 文本分割:使用 PySBD 进行文本分割后,共生成 1,088,150 个句子。EHRs 平均每份包含 12 个句子,而句子中的词元数量明显少于完整的 EHRs,这有助于减少模型处理时的内部矛盾和文本截断风险。
  • 主题分析:通过主题检测,筛选出 99,250 个包含转移相关信息的句子。其中,关于病变和结节语义类别的词元出现频率最高,分别为 55.18% 和 30.02% 。
  • 训练:在训练阶段,研究人员对 paraphrase-multilingual-mpnet-base-v2 模型进行了两种不同规模的微调实验,分别使用 550 和 1100 个文本片段。通过平衡采样策略构建训练集,确保正例和反例都能得到充分体现。
  • 评估:在对 300 份 EHRs 的黄金标准集进行评估时,MISTIC 在不同训练设置下都表现出色。在 550 片段设置下,总体 F1 分数达到 0.912,临床日记的 F1 分数最高,为 0.941;在 1100 片段设置下,医学史的分类效果有所提升。与其他对比模型相比,MISTIC 的性能最佳。

在研究结论和讨论部分,MISTIC 展现出了多方面的优势。它在意大利乳腺癌转移分类任务中表现卓越,F1 分数高达 0.912,超过了基于规则的系统、零样本 BERT 模型和大语言模型(LLMs)。MISTIC 的少样本学习设置,使其在计算效率上优于大规模模型。其文本分割和主题分析步骤,增强了模型的可解释性,能够将预测结果与关键文本元素明确关联起来。而且,MISTIC 在不同数据源上都具有很强的泛化能力。与其他研究相比,尽管意大利语在医学 NLP 研究中相对较少被关注,但 MISTIC 仍展现出了巨大的潜力。

总的来说,MISTIC 为临床文本分类提供了一种高效、可扩展且透明的解决方案。它能够从各种文本数据中提取高质量的转移相关信息,有助于医学研究人员分析大量非结构化且信息丰富的医疗报告,提升了数据的可访问性和可解释性,填补了健康信息学和临床实践中的关键空白,为肿瘤学研究和临床决策提供了有力支持,在未来的医疗领域有着广阔的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号