小儿胆道闭锁与胆汁淤积症的超声影像与血清生物标志物综合数据集:提升诊断准确性与AI决策支持

【字体: 时间:2025年10月10日 来源:Scientific Data 6.9

编辑推荐:

  本综述系统构建了首个包含配对空腹-餐后胆囊超声图像、关键超声特征及相关血清生化指标的小儿胆道闭锁(BA)与胆汁淤积症综合数据集(2759张图像/1019例患儿),采用nnU-Net实现自动化胆囊分割(Dice=0.797),并通过多模态数据整合建立高精度BA诊断模型(AUC=0.894),为临床决策支持系统开发提供宝贵资源。

  
背景与概要
胆道闭锁(Biliary Atresia, BA)及其他小儿胆汁淤积性疾病是罕见但严重的肝胆系统疾病,以新生儿期持续性胆汁淤积性黄疸为特征。BA作为最常见类型,易导致婴儿期严重纤维闭塞性病变,若未及时治疗会迅速发展为终末期肝硬化,需肝移植甚至2岁前死亡。尽管发病率较低(1/5000-19000活产儿),BA已成为1岁以下儿童肝移植最主要病因。Kasai肝门空肠吻合术是当前主要外科手段,但成功与否高度依赖早期准确诊断。
目前BA诊断主要依赖超声检查与血清生物标志物组合。超声作为无创检查手段,尤其通过空腹与餐后胆囊收缩功能评估展现高诊断效能。典型超声指标包括肝门部三角韧带征(triangular cord sign)、肝动脉扩张、肝门囊肿及各类胆囊异常(如胆囊缺失、形态异常、收缩功能丧失)。血清生物标志物则以总胆红素(TBIL)、直接胆红素(DBIL)和γ-谷氨酰转移酶(GGT)为核心指标。然而单一诊断方法准确性有限,且仅经验丰富的医师能做出正确诊断,在非专科医院常导致诊断延迟。
深度学习(DL)技术为超声影像分析带来革命性进展,在病灶检测、分割与分类方面表现卓越,甚至在某些腹部疾病诊断任务中超越人类专家。但DL模型开发依赖大样本多样化数据,现有胆汁淤积性疾病超声数据集仍显不足,特别是同时包含空腹-餐后状态及其他诊断性超声特征的配对数据。
研究方法
本研究经广州市妇女儿童医疗中心(GWCMC)伦理委员会批准([2024]第002B01号),采用完全匿名化回顾性数据。收集2016-2022年间5月龄以下胆汁淤积患儿数据,诊断标准遵循北美小儿胃肠病、肝病与营养学会2004年指南:血清TBIL>87.5μmol/L或DBIL/TBIL比值>20%,或TBIL<87.5μmol/L但DBIL>17.1μmol/L。
数据集包含1019例患儿2759张超声图像:
  • 377例BA患者:664张空腹胆囊图像、328张餐后图像、160张异常超声发现图像(三角韧带征、肝动脉扩张、肝门囊肿)
  • 642例非BA患者:1004张空腹图像、580张餐后图像、23张其他图像
血清生化指标包括DBIL、TBIL、GGT、丙氨酸氨基转移酶(ALT)、天冬氨酸氨基转移酶(AST)、碱性磷酸酶(ALP)和总胆汁酸(TBA),均在入院治疗前采集。超声评估参数包括空腹/餐后胆囊长轴与短轴标准化测量(毫米)、三角韧带征厚度、肝动脉直径、肝门囊肿等。胆囊收缩率计算公式为:[(空腹最大截面积-餐后最大截面积)/空腹最大截面积]×100%,若餐后面积大于空腹则定义为无收缩。
数据经过去标识化处理,采用Labelme工具由经验丰富的放射科医师精细标注胆囊壁轮廓区域(ROI)。图像处理采用nnU-Net框架进行自动化胆囊分割,该算法具有全自动配置、通用性强、效率高等特点,自动适应数据特性并优化网络拓扑结构。损失函数采用Dice损失与交叉熵损失组合:
L = LDice + LCE
Dice损失:LDice = 1 - (2∑pigi)/(∑(pi+gi))
CE损失:LCE = -∑[gilog(pi) + (1-gi)log(1-pi)]
图像预处理包括裁剪冗余空白区域、强度标准化(每图像z-score标准化,忽略零值区域)和空间重采样。各向同性数据采用三阶样条插值,各向异性数据则采用最近邻插值保持标签完整性。图像增强阶段应用随机仿射变换、高斯噪声和亮度调整等技术。
技术验证
nnU-Net胆囊分割结果显示平均Dice系数0.797,相对体积误差0.266,灵敏度0.808,特异度0.998,Hausdorff_95距离27.580,像素精度0.996,交并比0.701。分割面临三大挑战:边界模糊、尺寸多样性和位置可变性(见于BA空腹、BA餐后、非BA空腹和非BA餐后四种状态)。
BA诊断模型开发采用两阶段分析方案。单因素逻辑回归初步筛选显著变量(P<0.05),包括人口统计学因素(性别、年龄)、肝生化标志物(TBI、DBIL、GGT、ALT、AST)和超声参数(胆囊收缩率、三角韧带征、空腹胆囊长宽)。多因素逻辑回归最终确定四个独立预测因子:年龄[OR:0.991, 95%CI:0.983–0.999]、GGT(OR:1.003, 95%CI:1.002–1.004)、胆囊收缩率(OR:0.120, 95%CI:0.057–0.254)和三角韧带征可视化(OR:8.635, 95%CI:4.091–18.223)。
ROC曲线分析显示,GGT在单一标志物中诊断性能最佳(AUC 0.845),而整体组合模型达到最大诊断准确性(AUC 0.894)。鉴于假阴性BA诊断的临床影响更大,研究优先考虑灵敏度(>95%),整体组合模型调整截断值为0.161,实现95.20%灵敏度和57.91%特异度。回归方程如下:
P = 1 / [1 + e-(-0.487 - 0.010×Age(days) + 0.003×GGT - 2.547×GB收缩率 + 2.238×三角韧带征(存在=1,缺失=0))]
数据记录
数据集存储于Figshare知识库,原始医学图像以jpg格式存储,Excel数据库包含参与者数据:人口统计学(ID、性别、年龄)、实验室值(TBIL、DBIL、GGT、ALT、AST、ALP、TBA)和超声测量值(空腹/餐后胆囊尺寸、三角韧带征可视化、肝动脉扩张、肝门囊肿)。配置文件(dataset.json)和交叉验证结果(5折)均提供以确保分割流程完全可重复。
研究局限性
本研究存在若干限制:回顾性设计可能无法全面提供所有相关超声图像;中心选择性偏倚可能影响非BA胆汁淤积病例的代表性(这些病例在临床实践中占新生儿胆汁淤积大多数)。未来需要前瞻性多中心研究验证这些发现。
该数据集为提升BA诊断准确性和开发临床决策支持系统提供了宝贵资源,特别在配对空腹-餐后超声图像与多模态数据整合方面具有独特价值,有望推动小儿胆汁淤积性疾病诊断技术的智能化发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号