基于14,441例基因组数据的髓系肿瘤自动化临床病理关联研究:验证数据集与诊断革新
《Scientific Data》:14,441 Genomics-Based Validated Automated Comprehensive Clinicopathologic Correlations for Myeloid Neoplasms
【字体:
大
中
小
】
时间:2025年11月20日
来源:Scientific Data 6.9
编辑推荐:
本研究针对髓系肿瘤诊断中临床病理关联(CPC)流程复杂、耗时且依赖专家经验的问题,开发了基于实验室结果自动生成诊断与预后CPC的在线平台。研究整合了10,794例真实世界病例和3,647例合成数据,涵盖全血细胞计数(CBC)、外周血涂片(PBS)、流式细胞术和66种基因的NGS/PCR分子检测结果。经51位国际专家验证,该数据集达到100%的医学与文书准确性,为血液病理学实践、教学与自动化系统验证提供了权威资源。
在血液系统恶性肿瘤领域,髓系肿瘤(MN)的诊断如同一场需要多兵种协作的精密战役。临床医生与病理专家必须将患者的临床表现、实验室检查结果与分子遗传学发现进行综合研判,才能给出准确的诊断、预后评估和随访建议——这一过程被称为临床病理关联(CPC)。然而,传统的CPC构建过程极其耗时耗力,即使是有经验的血液病理专家也需要投入大量时间查阅文献、整合信息。更严峻的是,全球范围内正面临病理医生短缺的危机,预计到2030年,美国将短缺5,000-5,700名病理医生。
与此同时,髓系肿瘤的诊断标准正在经历快速演进。世界卫生组织(WHO)第五版分类和国际共识分类(ICC)引入了许多新的分子标志物,这些发现改变了诊断流程。例如,某些特定基因突变的存在可以改变疾病分类或调整诊断阈值:SF3B1突变对MDS-SF3B1的诊断至关重要;多hit TP53突变是MDS-biTP53的确诊依据;而CSF3R"T618I"突变可将慢性中性粒细胞白血病(CNL)的诊断白细胞计数阈值从25.0K/μL降至13.0K/μL。
面对这一挑战,Ahmed Elsafty等研究人员在《Scientific Data》上发表了一项开创性研究,他们收集并验证了一个包含14,441例综合CPC的数据集(Elsafty_Reports_of_Myeloid_Neoplasms_2024),这些CPC由专门设计的在线平台基于实验室结果自动生成。该数据集不仅包含了10,794例真实世界病例,还创造了3,647例合成数据以覆盖罕见和复杂情况,为髓系肿瘤的自动化诊断系统建立了黄金标准。
研究团队收集了来自埃及及周边国家患者的10,794份真实血液学报告,包含完整的CBC、PBS、流式细胞术(检测原始细胞/早幼粒细胞计数和发育异常筛查)以及66种髓系基因的NGS/PCR分子分析结果。通过在线平台(https://cbctst.com)的RESTful API整合实验室信息系统数据,自动生成CPC文本。采用三阶段验证流程,由51位国际专家从诊断准确性、临床实用性等10个维度对每例CPC进行独立评估。
该数据集包含4,567例真实非CML髓系肿瘤病例(携带7,883个Tier I/II突变/异常)、243例真实CML病例(携带257个突变/异常)以及5,984例良性/不确定病例(NGS阴性)。合成数据部分则模拟了所有新发/随访CML病例以及复杂/罕见非CML MN病例。基因突变谱覆盖了42个驱动基因,包括AML定义性异常如CBFB::MYH11、NPM1突变等。
通过严格的三阶段验证流程,由16位教授/顾问和13位专科医生组成的血液学专家团队,以及22位来自其他临床专业的专家共同参与评估。验证结果显示,初级专家对预后语境、诊断语境等关键维度的批准率在88.2%-100%之间,而高级专家对所有病例均给予100%批准,确认了数据集的医学准确性和临床实用性。
数据集涵盖了髓系肿瘤的完整诊断谱系,包括多种鉴别诊断和预后评估。特别值得注意的是,SF3B1突变在20种不同的鉴别诊断中出现,远超出其两个特异性诊断范畴。CML亚类则包含了治疗后分子反应的全面评估,如深度分子反应(DMR)、主要分子反应(MMR)的达成、维持或丧失等。
这项研究提供了首个经过严格验证的髓系肿瘤自动化CPC数据集,其规模和质量均为前所未有的。数据集不仅展示了自动化系统在生成准确、全面临床报告方面的潜力,更重要的是为血液学教育、临床决策支持系统开发以及人工智能算法训练提供了高质量的基础资源。通过将专家知识转化为可扩展的自动化解决方案,这项研究为缓解全球病理医生短缺问题提供了切实可行的路径,同时为髓系肿瘤的精准医疗奠定了数据基础。
该数据集的独特价值在于其百分之百的验证准确性、全面的临床覆盖以及机器可读的格式特点,使其成为未来血液病理学数字化转型的关键推动力。随着人工智能技术在医疗领域的深入应用,此类高质量标注数据集将加速诊断自动化的发展,最终使全球范围内的患者都能获得及时、准确的血液疾病诊断服务。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号