利用机器学习从多中心的一级和二级护理电子健康记录中揭示新的膀胱癌关联:一项病例对照研究
《Journal of Biomedical Informatics》:Unveiling novel bladder cancer associations from multicentred primary and secondary care electronic health records by machine learning: a case-control study
【字体:
大
中
小
】
时间:2025年11月16日
来源:Journal of Biomedical Informatics 4.5
编辑推荐:
电子健康记录中基于机器学习的高维特征选择方法PanSPICE通过分层优化发现尿路感染、脑卒中和痴呆与膀胱癌相关,性别差异显著,部分药物如复方新诺明呈促进效应而氨氯地平、泼尼松具有保护作用。
本研究旨在利用电子健康记录(EHR)数据,探索与膀胱癌(BC)相关的新型临床信号。随着膀胱癌在全球范围内的发病率和死亡率持续上升,识别与之相关的特征变得尤为重要。目前,临床实践中主要依赖血尿作为膀胱癌的筛查指标,但这一方法存在一定的局限性。血尿虽然能提示可能存在肿瘤,但非恶性疾病如肾脏疾病也可能导致血尿,因此其敏感性较低。此外,现有研究在膀胱癌的临床信号识别方面仍存在不足,特别是在多中心数据融合、高维数据处理以及避免特征掩盖效应等方面。为此,研究团队提出了一种新的方法——Parsimony-driven cAtegory-balaNced binary Signal extractor for Primary Care EHRs(PanSPICE),旨在更高效地从高维数据中提取与膀胱癌相关的信号。
研究数据来源于威尔士全国数据库,覆盖了从1995年1月1日至2018年12月31日期间的患者记录,共纳入64,884例膀胱癌病例和对照组患者,最终提取出48,261个特征。这些特征涵盖了患者的诊断、治疗药物以及医疗过程等多个方面。在处理如此庞大的数据集时,传统的方法往往难以应对高维数据带来的计算挑战,同时也会因为某些特征(如频繁出现的医疗过程代码)而掩盖其他潜在重要的信息。因此,研究团队开发了Retentive Stickiness Binary Particle Swarm Optimisation(RSBPSO)算法,并结合C5.0分类树模型,构建了PanSPICE框架。该框架通过两层优化策略,分别处理医疗过程、诊断和药物等不同类别的特征,以避免某一类别特征对模型预测的主导作用。
在具体实施过程中,PanSPICE首先利用信息增益对特征进行初步排序,然后通过RSBPSO算法进行特征选择。这一算法具有记忆保留机制和动态粒子分配功能,能够更有效地在复杂的高维数据空间中寻找最优解。同时,研究团队还设计了一种专门的适应度函数,用于平衡模型的预测性能与特征集的简洁性。这一设计确保了在提取关键特征的同时,不会过度复杂化模型,从而提升其在实际应用中的可解释性和实用性。
通过上述方法,研究团队最终识别出38个与膀胱癌高度相关的临床特征。其中,尿路感染(UTI)被发现与膀胱癌风险显著正相关,其比值比(OR)为2.19,置信区间为2.05–2.14。这一发现表明,尿路感染可能在某些情况下是膀胱癌的早期预警信号。另一方面,研究还发现某些疾病,如中风和痴呆,与膀胱癌风险呈负相关,分别具有OR值0.64和0.25。这一结果可能意味着这些疾病在某些情况下具有保护作用,或者它们的共存可能影响膀胱癌的发生机制。此外,性别差异在膀胱癌相关特征中也表现得尤为明显,例如女性特有的尿糖检测(尿液中葡萄糖含量异常)被发现与膀胱癌风险存在正相关,其OR值为1.24,置信区间为1.08–1.43。这提示我们,膀胱癌的临床特征可能在不同性别中表现出不同的模式,因此在进行相关研究时,有必要考虑性别因素的影响。
研究还对某些药物与膀胱癌之间的关系进行了探讨。例如,Trimethoprim(一种常用于治疗尿路感染的抗生素)被发现与膀胱癌风险呈正相关,而Ramipril(一种常用于治疗高血压的药物)和Prednisolone(一种糖皮质激素,常用于治疗炎症和免疫相关疾病)则显示出一定的保护作用。这一发现可能对临床实践产生重要影响,例如在某些情况下,药物的使用可能需要重新评估其对膀胱癌风险的潜在影响。此外,这些药物与膀胱癌之间的关联也可能揭示某些潜在的生物学机制,例如某些药物可能通过改变尿液环境或影响免疫系统而间接影响膀胱癌的发生。
研究团队通过使用逻辑回归模型,并结合调整后的社会经济剥夺指数(deprivation indices),对所选特征的临床意义进行了进一步的解释。社会经济剥夺指数通常用于衡量一个地区或个体的经济和社会状况,从而帮助评估健康不平等现象。在本研究中,这一指数被用来调整模型,以确保所发现的特征与膀胱癌之间的关系不是由社会经济因素所主导,而是具有独立的临床意义。通过这种调整,研究团队能够更准确地识别出与膀胱癌风险相关的特征,而不会受到社会经济背景的干扰。
从研究结果来看,PanSPICE方法在处理高维数据时表现出显著的优势。传统的特征选择方法往往面临计算效率低、模型过拟合以及对模型假设依赖过强等问题,而PanSPICE通过引入RSBPSO算法,不仅提高了计算效率,还增强了模型的泛化能力。此外,该方法在特征选择过程中采用了两层优化策略,确保了不同类别特征之间的平衡,避免了某些特征对模型预测结果的主导作用。这种设计使得研究团队能够更全面地捕捉到与膀胱癌相关的临床信号,从而为后续的机制研究和临床应用提供更加可靠的依据。
本研究的另一个重要发现是,性别在膀胱癌的临床特征中扮演着关键角色。女性与膀胱癌之间的关联性不仅体现在尿糖检测这一特定特征上,还可能涉及其他尚未明确的生物学机制。例如,某些药物或诊断过程可能在女性患者中表现出不同的影响,这可能与女性的生理结构、激素水平或生活方式等因素有关。因此,未来的研究需要进一步探索性别差异在膀胱癌发生和发展中的具体作用,以及这些差异如何影响疾病的预防和治疗策略。
此外,研究团队还对社会经济因素与膀胱癌之间的关系进行了分析。结果显示,社会经济剥夺指数与膀胱癌的发病率之间呈现出一种“倒U型”分布,即在中等社会经济水平的群体中,膀胱癌的发病率最高。这一发现与传统假设不同,传统观点认为社会经济状况越差,健康风险越高。然而,本研究的分析表明,社会经济状况的复杂性可能对疾病的发生产生非线性影响。这一结果提示我们,单纯依赖社会经济剥夺指数来评估健康风险可能并不全面,需要结合其他因素进行综合分析。
在方法学层面,本研究提出了一种新的算法——RSBPSO,它在处理高维数据时表现出更高的效率和更好的性能。与传统的粒子群优化算法相比,RSBPSO通过引入记忆保留机制和动态粒子分配功能,能够在复杂的特征空间中更有效地找到最优解。这一创新不仅提高了特征选择的准确性,还增强了模型的可解释性。通过跟踪全局最优解(gbest),研究团队能够更直观地理解哪些特征对膀胱癌的预测具有更大的贡献,从而为后续的临床决策提供支持。
在实际应用中,PanSPICE方法的提出为大规模分析EHR数据提供了新的思路和工具。EHR数据通常包含大量的信息,但其高维度和复杂性使得传统的分析方法难以应对。PanSPICE通过两层优化策略,将不同类别的特征(如医疗过程、诊断和药物)进行分离处理,再整合到统一的预测模型中,从而避免了某一类特征对整体结果的干扰。这种方法不仅提高了模型的预测性能,还增强了其在实际临床环境中的适用性。
本研究的发现对未来的临床实践和研究具有重要的指导意义。首先,识别出的与膀胱癌相关的临床信号,如尿路感染、某些药物的使用以及特定疾病的共存,可能为医生提供新的诊断和预防线索。例如,尿路感染可能被用作膀胱癌的早期筛查指标,而某些药物的使用可能需要重新评估其对患者健康的影响。其次,性别差异的发现提示我们,针对不同性别患者制定个性化的筛查和治疗策略可能是未来研究的一个重要方向。最后,社会经济因素的非线性影响也表明,需要更加全面地考虑多种因素对疾病风险的影响,而不仅仅依赖单一指标。
总体而言,本研究通过引入新的算法和方法,成功地从高维EHR数据中提取出了与膀胱癌相关的临床信号。这些信号不仅包括已知的风险因素,如吸烟和血尿,还揭示了一些新的潜在关联,如尿路感染、某些药物的使用以及特定疾病的共存。此外,研究还强调了性别差异和社会经济因素在膀胱癌风险中的重要性,为未来的临床研究和公共卫生政策提供了新的视角。通过将机器学习与临床数据分析相结合,本研究为数据驱动的医学发现开辟了新的路径,同时也为后续的机制研究和临床应用奠定了基础。
在实际应用中,这些发现可能对膀胱癌的早期筛查和诊断产生积极影响。例如,尿路感染作为一项常见的医疗过程,可能在某些情况下被用作筛查膀胱癌的辅助指标。此外,某些药物的使用可能需要重新评估其对患者健康的影响,特别是在长期使用的情况下。这些结果也提示我们,临床医生在评估患者的健康状况时,应更加关注潜在的临床信号,而不仅仅是已知的高风险因素。同时,性别差异的发现也意味着,针对不同性别患者制定个性化的筛查和治疗策略可能是提高诊断准确性和治疗效果的重要手段。
从公共卫生的角度来看,本研究的结果有助于更好地理解膀胱癌的流行病学特征,并为制定更加有效的预防和干预措施提供依据。例如,针对社会经济水平较高的群体,可能需要采取不同的干预策略,以应对其独特的疾病风险模式。此外,研究团队提出的PanSPICE方法不仅适用于膀胱癌,也可以推广到其他癌症或慢性疾病的分析中,为大规模健康数据分析提供了一种新的解决方案。
在伦理和数据隐私方面,本研究采用了安全的匿名化数据链接机制,确保了患者信息的安全性和隐私性。这一做法符合当前对健康数据使用的伦理要求,同时也为其他研究团队提供了可借鉴的数据处理模式。通过匿名化链接,研究团队能够在不违反保密法规的前提下,充分利用EHR数据的潜力,从而推动医学研究的进展。
综上所述,本研究通过创新的方法和算法,成功地从高维EHR数据中提取出了与膀胱癌相关的临床信号。这些信号不仅有助于提高疾病的早期识别率,还可能为未来的临床实践和公共卫生政策提供新的思路。同时,研究团队提出的PanSPICE方法为大规模分析EHR数据提供了一种高效、可靠的技术手段,具有重要的应用价值。未来的研究可以进一步验证这些发现,并探索其在临床实践中的具体应用,从而为膀胱癌的预防和治疗提供更加全面的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号