
-
生物通官微
陪你抓住生命科技
跳动的脉搏
头颈癌多模态精准医学数据集HANCOCK的构建与机器学习整合分析
【字体: 大 中 小 】 时间:2025年08月05日 来源:Nature Communications 15.7
编辑推荐:
本研究针对头颈鳞状细胞癌(HNSCC)预后预测缺乏多模态公共数据集的问题,德国埃尔朗根-纽伦堡大学医院团队构建了包含763例患者的HANCOCK数据集,整合了人口统计学、病理学、血液检测、手术报告和全切片图像(WSI)等多维度数据。通过早期融合策略构建多模态患者向量,结合UMAP降维和遗传算法数据分割,证实多模态机器学习模型在复发和生存预测中AUC达0.79。研究创新性采用多实例学习(MIL)框架整合组织微阵列(TMA)和WSI数据,发现HE染色组织对生存预测最具价值。该数据集为头颈癌精准医疗和数字孪生研究提供了重要资源,发表于《Nature Communications》。
头颈鳞状细胞癌(HNSCC)作为全球第七大常见恶性肿瘤,其5年生存率长期徘徊在25%-60%之间。尽管近年来免疫治疗等新技术有所突破,但临床决策仍主要依赖传统的TNM分期系统,缺乏有效的预后预测生物标志物。现有TCGA等数据库存在样本量有限、模态不全等问题,特别是缺少手术报告和血液检测等临床常规数据,严重制约了多模态人工智能模型的发展。这种数据瓶颈使得头颈癌精准医疗进展缓慢,亟需建立高质量的多模态数据集来破解这一困局。
德国埃尔朗根-纽伦堡大学医院(Universit?tsklinikum Erlangen)的Marion Dorrich和Andreas M. Kist团队通过回顾性收集763例患者的临床数据,构建了名为HANCOCK的多模态头颈癌数据集。这项研究创新性地整合了5大类临床数据:包括人口统计学特征(72%为吸烟者,中位年龄61岁)、病理报告(含HPV和PD-L1状态)、术前血液参数(94例含CRP指标)、手术报告文本(经DeepL API翻译为英文),以及最具特色的701例HE染色全切片图像(WSI)和368个组织微阵列(TMA)。这些TMA不仅包含常规HE染色,还涵盖CD3、CD8等7种免疫组化(IHC)标记,每个患者最多包含32个染色核心。相关成果近期发表在《Nature Communications》杂志。
研究团队采用三项关键技术方法:首先通过QuPath软件定量分析TMA中CD3+/CD8+ T细胞密度,构建104维多模态患者向量;其次开发遗传算法创建"分布内"和"分布外"两种数据分割策略,确保模型验证的严谨性;最后创新性应用聚类约束注意力多实例学习(CLAM)框架,结合UNI视觉Transformer编码器分析WSI和TMA的预测价值。所有WSI均经病理专家标注肿瘤区域,数据通过FAUDataCloud平台开放获取。
【多模态数据集特征】研究通过UMAP降维可视化揭示,HPV阳性口咽癌患者形成独立聚类,与已知临床特征高度一致。手术报告分析显示pT分期与报告长度呈正相关(r=0.404),而CD3+/CD8+细胞密度在无复发组显著升高,验证了数据集的生物学合理性。5年总生存率77.3%的队列特征与全球流行病学数据相符,确保数据的代表性。
【多模态机器学习预测】随机森林模型在三种数据分割中表现稳健:"分布内"测试集的复发和生存预测AUC达0.79,显著优于"分布外"测试集。特别值得注意的是,仅包含口咽癌的偏态测试集性能最低,证实模型性能与数据代表性密切相关。通过特征重要性分析发现,血液参数中的CRP水平和TMA免疫细胞密度对预后预测贡献最大。
【多实例学习整合】研究首次在头颈癌领域实现WSI与多染色TMA的MIL整合。使用UNI编码器的自监督模型在肿瘤定位任务中AUC达0.96,显著优于监督学习方法。生存预测方面,WSI+TMA多模态组合(AUC 0.69)优于单模态分析,注意力机制显示HE染色组织最具预测价值,而PD-L1和MHC-1染色也显示一定贡献。
这项研究通过构建目前最全面的头颈癌多模态数据集,为精准医疗提供了重要基础设施。其创新性体现在三个方面:首先,数据集涵盖从分子到器官水平的完整信息链,特别是包含常规临床易获取的血液参数和手术报告;其次,开发的遗传算法数据分割策略为AI模型验证设立新标准;最后,MIL框架与病理基础模型的结合,为数字病理开辟了新途径。研究者特别指出,HANCOCK数据集将助力数字孪生技术在头颈癌的应用,未来通过整合基因组数据可进一步释放其潜力。该研究不仅解决了头颈癌研究的数据瓶颈问题,其多模态整合方法论对其它癌种研究也具有重要借鉴意义。
生物通微信公众号
知名企业招聘