MCT-LTDiag:面向肝脏肿瘤自动鉴别诊断的多期相CT数据集构建与验证
《Scientific Data》:A Multi-phase CT Dataset for Automated Differential Diagnosis of Liver Tumors
【字体:
大
中
小
】
时间:2025年12月16日
来源:Scientific Data 6.9
编辑推荐:
本研究针对肝脏肿瘤异质性高、影像学鉴别困难的问题,开发了包含517例四期相CT扫描的MCT-LTDiag数据集,涵盖肝细胞癌(HCC)、肝内胆管癌(ICC)、结直肠癌肝转移(CRLM)、乳腺癌肝转移(BCLM)和肝血管瘤(HH)五种亚型。通过基于影像组学和深度学习的基线实验验证,发现多期相整合可显著提升诊断性能(如HCC的AUC达85.88%),延迟期(DP)对鉴别诊断具有关键作用。该数据集为推进肝脏肿瘤自动鉴别诊断提供了重要基准。
肝脏作为人体最大的实质性器官,是多种原发性和转移性肿瘤的好发部位。这些肿瘤在病因、病理特征及治疗策略上存在显著差异:肝细胞癌(Hepatocellular Carcinoma, HCC)多与病毒性肝炎和肝硬化相关,肝内胆管癌(Intrahepatic Cholangiocarcinoma, ICC)则侵袭性更强,而来自结直肠或乳腺的肝转移瘤(Colorectal Liver Metastasis, CRLM; Breast Cancer Liver Metastasis, BCLM)又需根据原发肿瘤制定治疗方案,良性的肝血管瘤(Hepatic Hemangioma, HH)通常只需随访观察。因此,对肝脏肿瘤进行准确的鉴别诊断,是制定合理治疗计划、改善患者预后的关键一环。
目前,多期相对比增强计算机断层扫描(Contrast-Enhanced Computed Tomography, CECT)是肝脏肿瘤无创评估的重要影像学手段。不同类型的肿瘤在增强扫描的动脉期(Arterial Phase, AP)、门静脉期(Portal Venous Phase, PVP)和延迟期(Delayed Phase, DP)会呈现出具有鉴别意义的强化模式。例如,HCC典型的“快进快出”(wash-in and wash-out),ICC的延迟强化,转移瘤的环形强化,以及HH的“快进慢出”特征。然而,仅凭影像科医生的肉眼观察,常常会因为不同肿瘤影像特征的相互重叠而导致诊断不确定性,甚至误诊。虽然肝穿刺活检是诊断的“金标准”,但其有创性伴随着出血、肿瘤针道种植等风险。
近年来,人工智能(Artificial Intelligence, AI)技术,特别是影像组学(Radiomics)和深度学习(Deep Learning),为医学影像的自动化、客观化分析带来了革命性的希望。影像组学能够从影像中提取人眼难以察觉的高维定量特征(如纹理、形状、强度),再结合机器学习算法进行分类。而深度学习模型,尤其是卷积神经网络(Convolutional Neural Networks, CNN),能够端到端地从图像中直接学习判别性特征。尽管前景广阔,但该领域的发展受到公共数据集稀缺的限制。现有数据集或病例数有限,或仅包含单一期相(如LiTS基准仅提供131例PVP期图像),或只聚焦于单一肿瘤类型(如HCC或CRLM),缺乏一个涵盖多种常见肝脏肿瘤类型、包含完整多期相CT扫描的标准化大型数据集,这阻碍了稳健、可推广的AI模型的开发与公平比较。
为了突破这一瓶颈,来自中国医学科学院北京协和医院肝脏外科、复旦大学、上海人工智能实验室等机构的研究团队联合构建并发布了名为MCT-LTDiag(Multi-phase CT dataset for Liver Tumor Diagnosis)的全新数据集。这项研究成果已发表在《Scientific Data》期刊上。该研究旨在提供一个高质量的基准数据集,以推动肝脏肿瘤自动鉴别诊断算法的发展与验证。
研究的关键技术方法主要包括:回顾性收集北京协和医院2014年8月至2024年1月间经病理或临床确诊的517例肝脏肿瘤患者的四期相(平扫NC、动脉期AP、门静脉期PVP、延迟期DP)腹部CT图像;经过严格的纳入排除标准(如图像质量、肿瘤边界、直径≥1cm)筛选后,对数据进行标准化预处理,包括DICOM格式转换为NIfTI格式,并将NC、AP、DP期图像配准到PVP期;采用基于U-Net的自动分割模型结合资深放射科医生手动审核校正的方式,生成精确的PVP期肿瘤分割掩模(mask)。
最终数据集包含517个病例,涵盖5种肿瘤亚型:103例HCC、100例ICC、115例BCLM、103例CRLM和96例HH。所有数据均经过脱敏处理,并以规范化的目录结构存储在哈佛Dataverse平台,包含原始图像、配准后图像以及专家标注的肿瘤和肝脏分割掩模,便于研究者使用。
研究人员利用该数据集进行了系统的基线实验。他们比较了两种主流技术路线:一是基于影像组学的机器学习方法(如随机森林Random Forest和支持向量机SVM),二是基于深度学习的端到端学习方法(包括2D CNN、3D CNN以及结合卷积与Transformer优势的Uniformer模型)。评估采用五折交叉验证,并计算了特异性、敏感性、F1分数、AUC(Area Under the Curve)、准确率和Cohen's kappa系数等多个指标。
一个核心发现是,综合利用多期相CT信息能显著提升分类性能。以Uniformer模型为骨干网络的消融实验表明,与仅使用PVP期相比,联合NC、AP、PVP三期时,整体诊断准确率从56.35%提升至64.68%,Kappa值从0.3577提升至0.4663。而当加入延迟期(DP)构成完整的四期相时,性能达到最佳,整体准确率进一步提升至69.25%,Kappa值达到0.5459。特别是对于HCC的诊断,其AUC从仅使用前三期的74.08%显著提升至85.88%,凸显了延迟期在捕捉HCC“ wash-out”等关键特征中的不可替代作用。
在模型对比方面,影像组学方法在特定任务中表现出较高的特异性(如Random Forest对ICC的特异性达91.11%)和AUC值(如SVM区分BCLM和CRLM的AUC为89.63%),表明其手工设计的特征在捕捉特定纹理模式方面具有优势。而深度学习模型,特别是Uniformer,在整体性能上更具竞争力,其HCC的AUC达到85.88%,对肝转移瘤(LM)的敏感性高达90.32%,显示了其通过数据驱动学习复杂特征的强大能力。这表明两种技术路径各有千秋,可能适用于不同的应用场景。
综上所述,这项研究成功构建了目前首个大规模、多中心、涵盖五种常见肝脏肿瘤亚型并包含完整四期相CT扫描的公开数据集MCT-LTDiag。通过详尽的基线实验,研究不仅验证了数据集的实用价值,还明确证实了多期相CT信息整合,尤其是延迟期,对于提高肝脏肿瘤AI鉴别诊断准确性的关键意义。该数据集的发布为全球研究人员提供了一个宝贵的公共平台,有望促进肝脏肿瘤影像AI分析领域的算法创新、公平比较和临床转化,最终为提升肝脏肿瘤的精准诊疗水平做出贡献。研究的讨论部分也指出了未来方向,如进一步扩大样本量、纳入更多肿瘤类型以及探索更先进的AI模型。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号