基于自然语言处理技术揭示社会健康决定因素对不良妊娠结局的影响机制

【字体: 时间:2025年08月10日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对电子健康记录(EHR)中非结构化社会健康决定因素(SDoH)数据提取困难的挑战,创新性地采用自然语言处理(NLP)技术,从MIMIC-III/IV临床文本中自动识别社会支持、职业状况和物质使用三大关键SDoH特征。研究团队通过对比规则匹配、Word2Vec和ClinicalBERT等算法,开发出针对不同SDoH的最优提取模型(最高F1达0.92),并首次证实物质使用(OR=6.47)与社会支持(OR=0.07)与妊娠并发症的显著关联,为产前风险分层提供了可扩展的自动化解决方案。

  

妊娠并发症是威胁母婴健康的重大公共卫生问题,全球每年有数百万家庭受到早产、低出生体重等不良结局的影响。尽管大量研究表明社会健康决定因素(Social Determinants of Health, SDoH)如物质滥用、社会支持缺失等与妊娠风险密切相关,但这些关键信息往往隐藏在电子健康记录(EHR)的非结构化文本中,难以被临床系统有效识别和利用。传统人工提取方式效率低下且成本高昂,使得SDoH在临床决策中长期处于"看得见却用不上"的尴尬境地。

针对这一难题,约翰霍普金斯大学医学院生物医学工程系(Johns Hopkins University School of Medicine)的研究团队在《Scientific Reports》发表创新研究,首次系统评估了不同自然语言处理(NLP)技术从临床文本中提取SDoH的效能,并建立了这些因素与妊娠结局的量化关联。研究采用MIMIC-III数据库中86份出院摘要进行模型开发,并在MIMIC-IV的171份记录中进行外部验证,通过逻辑回归分析揭示了SDoH对妊娠风险的预测价值。

研究主要运用三项关键技术:基于FlashText库的关键词处理器用于规则匹配,Word2Vec词嵌入结合随机森林(RF)分类器捕捉语义特征,以及临床专用预训练模型ClinicalBERT提取上下文表征。样本来源于重症监护医学信息数据库(MIMIC-III/IV)中符合ICD-9妊娠诊断标准的临床记录。

模型开发与评估

通过60:40的分区策略,研究团队在MIMIC-III数据集上对比了三种NLP方法。结果显示:ClinicalBERT结合决策树(DT)对社会支持的识别表现最佳(F1=0.80),其能准确捕捉"家庭探望"等隐含表述;关键词处理对职业状态的提取最有效(F1=0.79);而Word2Vec+RF在物质使用检测中优势显著(F1=0.79)。外部验证进一步证实,优化后的模型在MIMIC-IV数据上保持优异性能,其中社会支持模型的F1提升至0.92。

SDoH与妊娠结局关联

逻辑回归分析揭示:临床记录中提及物质使用会使并发症风险增加6.47倍(p<0.001),而社会支持可将风险降低93%(OR=0.07)。职业因素未显示显著关联,可能由于数据不平衡或记录不完整所致。卡方检验强化了这些发现(x2=14.2和18.9),凸显SDoH筛查对风险分层的价值。

这项研究开创性地构建了从临床文本到风险预测的完整分析链条。技术层面,证实了不同SDoH需要差异化的NLP解决方案——复杂如社会支持需依赖ClinicalBERT的语境理解能力,而明确的职业信息用规则方法即可高效提取。临床意义上,首次量化了物质使用与社会支持对妊娠结局的影响强度,为产前护理提供了明确的干预靶点。研究还发现MIMIC-IV较MIMIC-III有更完善的SDoH记录,提示临床文档质量对NLP性能的关键影响。

尽管存在样本量有限、标注主观性等局限,该研究为整合社会因素与临床决策树立了范式。未来工作可扩展至更多SDoH维度,并探索大语言模型(LLM)的应用潜力。这些发现直接呼应联合国可持续发展目标(SDG3),通过技术创新推动健康公平,最终实现"不让任何人掉队"的全球健康愿景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号