基于首次就诊患者非结构化叙事的人工智能语言模型在儿童癫痫早期诊断中的应用:一项队列研究
【字体:
大
中
小
】
时间:2025年10月05日
来源:Epileptic Disorders 2.7
编辑推荐:
本研究发现基于首次就诊病历文本的人工智能语言模型(NLP)能够有效辅助儿童癫痫的早期诊断。研究比较了朴素贝叶斯(Na?ve Bayes)和句子嵌入(BERT)两种模型,结果显示两者准确率相当(0.73-0.74),其中BERT模型表现出更高的阳性预测值(0.92)。这表明即使简单的语言模型也能从临床叙事中提取有价值的诊断信息,为改善儿童癫痫的诊断流程提供了新的技术路径。
癫痫对儿童的心理社会健康和健康相关生活质量具有显著影响,特别是反复发作可能干扰正常大脑发育,导致认知和行为障碍。癫痫诊断面临重大挑战,近半数患者在首次评估时已经历反复未确诊的发作。虽然明确病例的诊断时间较短,但复杂或不明确表现的诊断可能超过一年。这种诊断不确定性会导致严重后果:诊断延迟使儿童持续面临可能损害认知发展的癫痫发作,而假阳性诊断可能导致不必要的抗癫痫药物治疗并带来潜在不良反应。
语言在癫痫诊断、治疗评估和患者护理管理中起着基础性作用。临床医生严重依赖患者病史和叙述来提炼相关临床信息。尽管辅助检查有所进展,但来自患者病史的临床信息对于诊断和监测癫痫仍然不可或缺。这些丰富的信息通常以非结构化方式存储在电子健康记录中,限制了其在临床决策中的最优利用。
自然语言处理(NLP)的出现为系统处理这些非结构化文本数据提供了有前景的解决方案。NLP作为一种人工智能形式,专门从事口语和书面语言的计算分析,以识别一般模式和趋势并提取相关信息。这涉及将非结构化文本转换为结构化格式,并应用计算算法分析这些结构化特征,从而实现所需信息的检索。
在癫痫研究中,NLP应用呈增长趋势,包括患者识别、风险分层和结果预测。在临床环境中,NLP可以显著促进医学疾病的早期检测和分类,从而减少诊断和治疗时间。最近的进展带来了具有新生成特性的改进NLP模型,称为大语言模型(LLM)。这些模型的本质是具有注意力层的变压器架构,通过自注意力机制为不同单词分配不同程度的重要性来处理文本,允许在(文本)数据中进行高效表示和相关信息检索。
研究分析了1561份医疗患者信件,其中1250份来自乌得勒支大学医学中心(UMCU),311份来自格罗宁根马提尼医院(MZG)。数据回顾性收集自2008年至2022年5月期间转诊至首次癫痫诊所(FSC)的儿童(年龄<18岁)。所有患者信件均由经验丰富的儿科神经学家撰写或监督,并以电子格式提供。
这些医疗信件通常包含FSC访视期间可用或收集的所有信息(即病史、辅助检查、结论、治疗计划和临床考虑)。对于每位患者,研究包括了初始诊断(FSC咨询后确定)和最终诊断(医生共识并在需要时进行辅助检查后,在 presentation 后两年内记录的最新随访)。
最终诊断根据国际抗癫痫联盟的癫痫定义建立。诊断在初始阶段被分类为"不明确",如果需要辅助检查来确认或拒绝癫痫诊断。尽管进行了进一步调查,如果事件是否确实与癫痫相关仍存在不确定性,则最终诊断被分类为"不明确"。
研究专门使用患者病史(病史—患者或护理人员报告的临床历史)的文本信息,排除了来自辅助检查、结论、治疗计划和临床考虑的信息。所有患者数据在分析前通过删除所有个人标识符(包括姓名、地址、出生日期和唯一识别号码)进行匿名化。
研究涉及两个不同的分析。在分析A中,将来自两家医院的数据合并并随机分为训练集(80%;1173名受试者)和测试集(20%;293名受试者)。在分析B中,创建了一个单独的测试集,包括所有316名在初始FSC评估后分类为不明确但在临床随访后分配明确诊断的受试者。
研究使用了朴素贝叶斯分类器作为NLP方法,给定其在文本分类中的简单性和有效性。该模型的本质是应用贝叶斯定理,假设特征之间强独立性。模型开发包含三个阶段:数据预处理、特征选择的数据分析和分类。
预处理包括几个关键步骤:语料库创建、标记化、数据清理、小写转换、n-gram生成和停用词去除。创建语料库涉及以结构化方式收集和组织大量文本数据,以促进系统分析和处理。文本然后通过标记化分成标记(即单词)。删除了不需要的字符,如标点符号、符号、URL和分隔符(数据清理)。小写转换将文本中的所有字符转换为小写字母,确保标记的一致性。
之后,生成n-gram,最大n值为2。N-gram是连续单词的序列,将用作文本分类模型的特征。决定生成单字(单个单词,如"jerks")和双字(连续单词对,如"no_jerks")。最后一步涉及从生成的n-gram中删除停用词。在生成n-gram后删除停用词确保保留一些有意义的双字,即使它们包含停用词(例如,"no_fever"可能被保留,而"no"和"fever"可能单独是停用词)。
研究还采用了分类模型来基于考虑词序的患者文本记录预测癫痫诊断—与词袋(BoW)方法相反。首先,文本数据经过系统预处理。初始预处理步骤包括案例归一化为小写、特殊字符标准化为其词汇等效项、删除多余标点符号和空白归一化。
接下来,使用免费可用的多语言嵌入(即paraphrase-multilingual-mpnet-base-v2变压器模型)处理文本。嵌入模型实现Sentence-BERT架构,为每个文本生成上下文化的768维语义向量表示,无论其长度如何。该嵌入模型因其保存顺序词序信息和跨语言语义关系的能力而被选择。
第三,所得高维嵌入作为通过R中XGBoost框架实现的梯度提升分类器的输入特征。二元分类模型采用具有默认超参数的线性增强器,利用顺序树构建来迭代优化预测目标,同时保持计算效率。
性能评估利用混淆矩阵通过列联表的决策统计比较实际和预测分类。将每个模型的输出与临床医生的最终诊断(金标准)进行比较。关键性能指标包括:准确度(即正确分类的比例)、灵敏度(真阳性率)和特异性(真阴性率)。
灵敏度和阳性预测值特别指正确识别癫痫病例,而特异性和阴性预测值指正确识别"无癫痫"病例。临床后果因错误类型而异:与阈值无关的性能测量(如曲线下面积)同等地对待假阳性和假阴性,但在癫痫诊断中,这些错误具有不同的临床含义。遗漏癫痫(假阴性)可能延迟关键治疗并使儿童面临持续癫痫发作,而过度诊断(假阳性)可能导致不必要的药物治疗并带来潜在不良反应。
首次癫痫发作的中位年龄为4.5年(95% CI:4.0–4.9,范围1个月–17.8年)。大多数患者为男性(54.6%)。首次咨询后,366例(23.4%)诊断被分类为"癫痫",795例(50.9%)为"无癫痫",400例(25.6%)为"不明确"。根据最终诊断,514例(32.9%)被分类为"癫痫"(413例来自UMCU,101例来自MZG),958例(61.4%)为"无癫痫"(767例来自UMCU,191例来自MZG),89例(5.7%)为"不明确"(70例来自UMCU,19例来自MZG)。
术语频率-逆文档频率(TF-IDF)确定了几个对癫痫分类文本最具特征性的关键特征。值得注意的预测n-gram特征包括:"spray"、"drooled"、"her_mouth"、"experienced_seizure"、"slurred_speech"和"last_days"。一些特征直接反映了经常出现在癫痫患者信件中的临床观察或描述,而其他特征,如"last_days"或"her_mouth",与癫痫的联系不太明显。
在包含293封信件的测试集上评估了语言模型的性能。朴素贝叶斯模型正确识别62封信件(21.2%)为阳性和153封信件(52.2%)为阴性,导致40例假阳性(13.7%)和30例假阴性(10.2%),总体准确度为0.73(95% CI:0.68–0.78)。句子嵌入模型正确识别40封信件(13.7%)为阳性和176封信件(60.1%)为阴性,分类62例假阳性(21.2%)和15例假阴性(5.1%),总体准确度为0.74(95% CI:0.68–0.79)。
在包含316封在FSC分析时诊断"不明确"的信件的测试集上评估了语言模型的性能。朴素贝叶斯模型正确识别60封信件(19.0%)为阳性和173封信件(54.7%)为阴性,导致37例假阳性(11.7%)和46例假阴性(14.6%),总体准确度为0.74(95% CI:0.69–0.79)。句子嵌入模型正确识别31封信件(10.0%)为阳性和196封信件(62.0%)为阴性,分类66例假阳性(20.9%)和23例假阴性(7.3%),总体准确度为0.72(95% CI:0.67–0.77)。
执行McNemar检验以统计比较两种模型的性能。在分析A和分析B中,朴素贝叶斯模型和句子嵌入模型之间未发现统计差异(χ2=0.06,df=1,p值=0.804和χ2=0.55,df=1,p值=0.461)。
本研究通过自动分析首次就诊文档,评估并比较了两种不同的语言模型应用在儿童癫痫早期诊断中的效果。研究结果揭示了较简单的朴素贝叶斯模型和更高级的句子嵌入模型之间的相当性能,两者均达到中等至良好的诊断准确度。值得注意的是,两种模型在所有分析中均表现出比特异性更高的灵敏度。
将研究结果转化为临床实践,句子嵌入模型的高PPV(0.92)表明当该模型预测癫痫时,其正确率约为92%。这可以通过提供对阳性癫痫预测的更大信心显著影响临床决策,可能加快治疗决策。相反,模型的较低NPV(0.39)意味着应谨慎解释阴性预测,因为预测无癫痫的患者中约61%可能实际上患有该病症。这些分数在分析A和B中相似,朴素贝叶斯方法的NPV值更高。这表明虽然模型可能有效识别可能的癫痫病例,但不应该单独用于排除癫痫。
分析B中实现的相当性能特别有前景,因为这些病例代表了诊断具有挑战性的子集,其中计算支持可能提供最大的临床价值。先前研究已经确立了NLP在癫痫护理各个方面的价值,包括患者识别、信息检索和应对策略。最近的研究开始探索语言应用在早期临床表型分析和遗传性癫痫中的作用。然而,我们的研究独特地解决了儿童癫痫早期诊断的具体挑战,其中文本分析鉴于症状的异质性表现具有特殊前景。
性能指标应在模型性能的背景下考虑:我们的模型仅依赖于患者叙述,故意排除了来自EEG报告、临床评估和医学结论的信息。从这个角度来看,我们的研究结果表明,语言模型可能作为儿童疑似癫痫临床评估早期阶段的支持工具具有潜力,尽管在任何临床实施之前需要重要的验证和整合工作。这些方法应被视为潜在的补充工具,以增强而非替代专家临床评估。
有趣的是,考虑词序的基于变压器的句子嵌入模型表现出比朴素贝叶斯模型更高的PPV但更低的NPV。朴素贝叶斯模型被认为是一种强大的分类模型,即使在处理有限数据和特征集时也是如此。基于变压器的语言模型可能需要更长的文本序列来有效识别所需模式,特别是在语言利用变化较少的情况下。随着有限的文本输入,简单的模型可以在实践中提供更大的实用价值,其中速度、简单性和可理解性通常在临床工作流程内的实施中优先。
在临床实施环境中,模型可解释性、计算效率和与现有工作流程的无缝集成是重要的考虑因素,如果它们提供相当的性能,可能有利于更简单的方法。一个前瞻性设计将允许捕获记录的—而非书面的—患者病史,这将不可避免地导致新的潜在隐藏语言领域来源(例如,音韵学、韵律、句法使用)以改进癫痫诊断。这对于LLM可能特别有益,因为这些模型擅长检索可能用于分类的"隐藏"文本关联。
除了方法学改进外,将基于语言的分类模型与癫痫护理中现有的临床诊断工具集成将是探索其实际临床价值的下一步。增强算法、改进特征选择以及利用更大、更多样化的数据集对于提高诊断准确度至关重要。
语言模型有潜力在支持儿童癫痫早期诊断方面实现有意义的性能,即使仅限于首次就诊文档。朴素贝叶斯和更复杂的基于变压器的语言模型之间的相当性能表明,只要输入数据在大小和复杂性上有限,更简单、更可解释的模型可能更适合初始临床应用。虽然需要进一步改进,但这些发现支持计算语言方法在改善早期癫痫诊断和患者护理方面的潜在价值。更高的灵敏度和PPV表明两种模型在正确识别癫痫病例方面特别有用。随着这些方法的不断发展,它们融入临床实践可能为临床医生提供有价值的决策支持,同时保持临床专业知识在最终诊断决策中的重要作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号