精神病学电子健康记录中的机器学习:创伤标注的金标准方法及其临床应用价值

【字体: 时间:2025年08月03日 来源:Translational Psychiatry 6.2

编辑推荐:

  本研究针对精神病电子健康记录(EHR)的非结构化特性,开发了首个创伤特征标注金标准数据集TEPC。研究团队通过临床专家与计算语言学合作,建立了创伤标注指南TraumaML,在470,489词汇量的200份患者记录中实现了0.715(实体标注)和0.874(属性标注)的高一致性。基于RoBERTa的机器学习模型达到0.76的F1值,为精神病患者创伤特征的自动识别和亚群分层提供了可靠工具,对理解疾病异质性具有重要意义。

  

在精神病学领域,临床记录的复杂性长期阻碍着大规模数据分析的应用。电子健康记录(EHR)中蕴含的丰富叙事信息,特别是关于创伤经历的描述,对理解精神疾病异质性具有重要价值。然而,这些非结构化文本的标注标准缺失,使得计算机难以自动识别关键临床特征。据统计,严重精神障碍患者中童年性虐待、躯体虐待和情感虐待的发生率分别高达26%、39%和34%,这些创伤经历与更严重的症状、更高的复发率和更差的治疗结局显著相关。但现有医疗NLP工具主要针对糖尿病等躯体疾病,缺乏专门针对精神创伤的标注体系。

为填补这一空白,来自McLean Hospital和Brandeis University的研究团队在《Translational Psychiatry》发表了开创性研究。该团队开发了首个精神病创伤标注金标准"创伤增强精神病学语料库"(TEPC),包含200份同时患有创伤后应激障碍(PTSD)和精神病性障碍患者的临床记录。研究采用创新的"模型-标注-模型"(MAMA)循环开发流程,通过临床专家与计算语言学家的多轮协作,建立了包含5类实体标签和3类关系标签的标注体系TraumaML。关键技术包括:从Mass General Brigham医疗网络的RPDR数据库筛选470,489词汇量的临床记录;使用BRAT标注工具进行专家标注;基于RoBERTa架构开发序列标注模型;采用点式互信息(PMI)分析进行全局一致性校验。

标注体系开发

通过26份双重标注文档的迭代优化,最终标注方案包含:事件(Event)、施暴者(Perpetrator)、症状(Symptom)、物质(Substance)和时间框架(Temporal_Frame)五类实体,以及"由...实施"(Perpetrated_By)、"时间关联"(Grounded_To)和"子事件"(Sub-Event)三类关系。创伤事件进一步细分为童年期、躯体、情感和性虐待等子类,症状标注则包含否定(Negation)和非当前(Not_Current)属性。值得注意的是,标注遵循"表面结构优先"原则,仅标注明确陈述的内容,避免临床推断。

模型性能

实体分类模型在测试集上达到0.76的宏观平均F1值,其中性虐待事件的识别精度最高(F1=0.88),时间框架标注相对较弱(F1=0.51)。症状识别表现良好(F1=0.77),特别是否定属性的判断准确率达0.85。研究发现扩大文本块长度可提升模型性能,但关系分类因实体标签支持不足而被弃用。

讨论与意义

该研究创建了首个精神创伤标注金标准,其创新性体现在:1) 专为精神病学EHR设计的标注体系;2) 临床可行性与计算效率的平衡策略;3) 高重现性的标注指南。局限性包括标注成本高、物质使用障碍患者代表性不足等。这项工作为基于计算的创伤特征提取奠定了基础,未来可应用于:患者风险分层、治疗反应预测和疾病机制研究。数据集已通过National Data Archive共享,相关代码开源在GitHub平台。

这项由Eben Holderness等学者完成的研究,通过融合临床专业知识和计算语言学方法,突破了精神病学NLP的关键技术瓶颈。其建立的TEPC语料库和TraumaML标注标准,不仅为机器学习在精神健康领域的应用提供了重要资源,也为理解创伤与精神病理学的复杂关系开辟了新途径。随着后续研究的扩展,这种方法有望推动精神疾病精准医疗的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号