构建胃癌组织学图像大数据集:解锁肿瘤微环境(TME)奥秘,引领胃癌诊疗新方向

【字体: 时间:2025年01月23日 来源:Scientific Data 5.8

编辑推荐:

  胃癌(GC)临床进程受肿瘤微环境(TME)影响大,现有深度学习方法因缺乏标注图像受阻。研究人员构建含近 31K 图像的 GC 组织学图像数据集,标注 8 种 TME 组织类。该数据集助力探索 TME 模式等,推动胃癌诊疗发展。

  在癌症的 “战场” 上,胃癌(Gastric Cancer,GC)是一位 “狠角色”,它是全球癌症相关死亡的第三大 “元凶” 。肿瘤微环境(Tumor Microenvironment,TME)就像一个神秘的 “幕后推手”,其高度异质性使得胃癌的临床进程变化多端。一直以来,医生主要依靠主观评估组织学切片来诊断胃癌并指导治疗,这些切片里其实藏着关于 TME 的海量信息,它们对疾病进展和治疗效果起着关键作用。
随着研究的深入,科学家们发现 TME 模式在多种癌症的诊断和预后评估中意义非凡。比如在结直肠癌、肝癌、乳腺癌等癌症研究中,通过量化 TME 中的组织成分,开发出了各种能预测患者生存和预后的生物标志物。然而,在胃癌研究领域,TME 特征的提取和分析却困难重重,原因是缺乏详细标注 TME 的图像,这就好比在黑暗中摸索,没有清晰的地图指引方向。

为了突破这一困境,哈尔滨医科大学的研究人员勇挑重担,开启了一场意义重大的研究之旅。他们构建了一个超大型的胃癌组织学图像数据集,对 TME 中的 8 种组织类型进行了详细标注,数据集包含了来自 300 张全切片图像的近 31,000 张组织学图像。这一成果意义非凡,它为深入探索胃癌 TME 模式搭建了一个重要平台,有望帮助发现新的生物标志物,为胃癌治疗策略的制定提供有力指导。而且,这个数据集还能作为开发预训练特征提取器的基础,在其他癌症的诊断和预后研究中发挥重要作用,就像一把万能钥匙,为攻克多种癌症打开新的大门。该研究成果发表在《Scientific Data》上。

研究人员为开展这项研究,运用了多个关键技术方法。首先,从哈尔滨医科大学附属肿瘤医院 2013 - 2015 年的存档中收集了 300 例胃癌患者的福尔马林固定、石蜡包埋组织切片,并使用 Aperio AT2 扫描仪(配备 20× 物镜)扫描成.svs 格式图像。接着,由两位经验丰富的初级病理医师和一位资深病理医师,通过三步注释流程,对图像中的 8 种 TME 相关组织进行标注,标注后的图像被切割成 224×224 的.png 格式补丁。最后,获取患者临床数据,并使用 Transformer 架构(ViT)和基于 CNN 的 EfficientNet 模型,通过 10 折交叉验证对数据进行分类分析。

数据记录


完整的数据集命名为 HMU - GC - HE - 30K,可在 Figshare 上公开获取。它由两部分组成,一部分是包含注释图像补丁的文件,另一部分是名为 “HMU - GC - Clinical.csv” 的电子表格,里面记录着患者的临床数据。标注后的补丁图像按 TME 组织成分分类存储,这些图像和临床信息可用于提取 TME 特征,为后续研究提供丰富的数据支持。

技术验证


在图像评估和注释过程中,研究团队进行了严格的质量控制。两位初级病理医师先分别进行初始标注,然后交叉审核,最后由资深病理医师进行最终检查,确保每张图像的诊断和注释准确无误。为了验证数据集的可靠性,研究人员选用 ViT 和 EfficientNet 模型进行分类分析。在实验中,20% 的数据集作为独立测试集,其余用于 10 折交叉验证,并且采用分层抽样确保训练集和测试集中各成分比例合理。结果显示,ViT 模型在独立测试集上的 AUC 达到 0.94,EfficientNet 模型的 AUC 更是高达 0.96,这充分证明了数据集的高质量和可靠性。

这项研究成功构建了一个大规模、详细标注的胃癌组织学图像数据集,为胃癌研究提供了宝贵资源。通过技术验证,数据集的可靠性得到了充分证实。它不仅有助于深入理解胃癌 TME 模式,推动新生物标志物的发现和治疗策略的优化,还为其他癌症研究提供了借鉴和基础,在癌症研究领域具有里程碑式的意义,为未来攻克癌症带来了新的希望和方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号