
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于提示学习的异构电子健康记录表格数据融合框架(TabPF)在临床预测中的应用研究
【字体: 大 中 小 】 时间:2025年07月10日 来源:Journal of Biomedical Informatics 4.0
编辑推荐:
推荐:针对电子健康记录(EHRs)中结构化与非结构化特征难以融合的问题,研究人员提出基于提示学习(prompt learning)的表格数据融合框架TabPF,通过大型语言模型(LLM)生成文本摘要并改进注意力机制,实现患者表征提取。实验表明,TabPF在重症、死亡率和住院时长(LoS)预测中性能优越,为临床决策支持系统(CDSS)提供了新思路。
在医疗信息化飞速发展的今天,电子健康记录(EHRs)已成为临床诊疗和科研的核心数据源。然而,这些数据往往以异构表格形式存在——既有结构化的数值、分类数据,如生命体征和实验室指标,也有非结构化的文本内容,如主诉和入院原因。传统方法要么舍弃文本信息造成浪费,要么通过国际疾病分类(ICD)编码转换丢失语义,而基于BERT的模型又易受低质量文本干扰。如何像医生一样从海量异构数据中提炼关键信息,成为临床预测模型面临的重大挑战。
针对这一问题,中国科学院自动化研究所(Institute of Automation, Chinese Academy of Sciences)的研究团队在《Journal of Biomedical Informatics》发表论文,提出基于提示学习的表格数据融合框架TabPF。该研究创新性地将大型语言模型(LLM)与改进的注意力机制结合,通过两步策略实现异构数据的高效利用:首先设计文本摘要生成模块,针对不同类型表格数据定制提示模板,引导LLM生成标准化文本摘要;随后采用交叉注意力(cross-attention)与自注意力(self-attention)堆叠的异构融合模块,实现多源特征联合学习。
关键技术包括:1)基于eICU-CRD和老年慢性病(CECMed)数据集构建实验队列;2)采用提示学习优化LLM的文本摘要生成;3)长文本嵌入(long text embedding)统一表征维度;4)改进Transformer注意力机制实现特征交互。研究结果显示,TabPF在死亡率预测(AUC 0.912 vs基线0.867)和住院时长预测(MAE 2.3天vs基线3.1天)中显著优于XGBoost、RF等传统模型,消融实验证实各模块贡献度达15-22%。
方法学创新:通过"分治-融合"策略,TabPF首次实现异构EHR表格的统一文本模态转换。提示学习模块针对数值型数据采用"数值-语义"映射模板,对文本数据采用"关键信息提取"模板,使GPT-3生成的摘要临床相关性提升37%。
临床价值:在老年慢性病数据集上,模型对多器官衰竭的早期预警灵敏度达89%,较ICD编码方法提高21%。注意力权重分析显示,融合模块能自动捕捉实验室指标与主诉文本的潜在关联(如血肌酐升高与"水肿"描述的相关性)。
讨论与展望:研究团队指出,当前框架仍受限于LLM的幻觉风险,未来可通过医学知识图谱增强提示设计。该工作为AI辅助诊断提供了可解释性强的表征学习方法,其模块化设计也适用于医保费用预测等衍生场景,标志着医疗大数据分析从特征工程迈向语义理解的新阶段。
生物通微信公众号
知名企业招聘