基于DBSCAN和DBCV的开放医疗记录异质数据分析揭示神经母细胞瘤患者临床显著亚群

【字体: 时间:2025年06月13日 来源:BioData Mining 4

编辑推荐:

  本研究针对神经母细胞瘤(NB)患者电子健康记录(EHRs)的异质性难题,创新性应用密度聚类算法DBSCAN结合DBCV验证指标,成功从三个开放数据集中识别出具有临床意义的患者亚群。研究人员通过分析Genoa、Shanghai和TARGET-NBL数据集,发现MYCN扩增、风险分级等关键变量可显著区分患者预后,为罕见病小样本聚类分析提供了方法学范式。该成果发表于《BioData Mining》,对精准医疗和开放科学实践具有双重推动价值。

  

神经母细胞瘤(NB)作为儿童最常见的颅外实体瘤,每年导致全球约6,000名婴幼儿死亡,其中高危患者的五年生存率仅40%。尽管80%低危患者可治愈,但疾病的高度异质性和临床数据获取困难,严重阻碍了精准诊疗的发展。传统聚类方法如k-Means在分析小样本、高维度的医疗数据时表现欠佳,而开放科学运动催生的公共数据集为突破这一瓶颈提供了新机遇。

意大利米兰比可卡大学、加拿大多伦多大学等机构的研究团队创新性地将密度聚类算法DBSCAN与DBCV验证指标相结合,对Genoa(121例)、Shanghai(169例)和TARGET-NBL(91例)三个开放数据集展开系统分析。研究发现DBSCAN是唯一能识别临床相关亚群的算法,其聚类结果与MYCN扩增状态、国际神经母细胞瘤风险组(INRG)分级等金标准高度吻合。该成果证实了密度聚类在罕见病研究中的独特价值,相关方法已通过开源代码共享。

关键技术包括:1) 对Shanghai数据集采用41%离群值剔除策略;2) 应用8种聚类算法对比分析,重点优化DBSCAN的epsilon和min_samples参数;3) 采用DBCV指数评估聚类质量;4) 通过90%子采样验证结果稳健性。所有数据均来自已公开的神经母细胞瘤电子健康记录库。

研究结果

数据集特征:TARGET-NBL数据集显示79.12%患者为未分化/低分化型,93.41%组织学不良,25.28%存在MYCN扩增。关键数值特征如诊断年龄中位数1328天,总体生存时间中位数1330天。

算法性能:DBSCAN在三个数据集分别获得DBCV=+0.5968(Genoa)、+0.49256(Shanghai)和+0.86032(TARGET-NBL),显著优于其他七种算法。子采样分析显示平均DBCV提升至0.858±0.0024(Genoa)和0.941±0.0006(TARGET-NBL)。

临床分区

  • Genoa数据集:INRG风险分级、预后状态和MYCN扩增完全区分集群,高危/死亡/MYCN+患者集中于cluster 0
  • Shanghai数据集:生存状态完美分区,死亡患者全归入cluster 1
  • TARGET-NBL数据集:性别完全分离集群,女性全部分入cluster 0,且该组呈现更长生存期和更高肿瘤坏死比例

结论与意义

该研究首次系统验证了DBSCAN-DBCV组合在神经母细胞瘤EHRs分析中的优越性,其识别出的亚群与已知临床标志物高度一致。特别值得注意的是:1) 在仅含91例的TARGET-NBL数据中仍检测到显著性别差异;2) 对41%离群值的耐受性凸显算法鲁棒性;3) 完全基于开放数据和工具的研究范式具有可重复性优势。

局限性在于各数据集变量不一致且噪声集群占比较高(Shanghai达92%),未来可拓展至胶质母细胞瘤等其他罕见病研究。这项工作为临床医生提供了新的患者分层工具,同时为开放科学在医学数据分析中的应用树立了典范,相关代码和数据均已开源共享。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号