编辑推荐:
为解决利用电子健康记录(EHRs)纵向数据进行癌症预测方法有限的问题,研究人员开展了人工智能(AI)方法应用于 EHRs 纵向数据预测癌症的研究。结果发现多种预测方法,多数研究存在高偏倚风险。该研究为癌症预测模型发展提供方向17。
在全球范围内,癌症已然成为人类健康的 “头号杀手”。每年新增的癌症病例数以千万计,死亡人数也相当可观,就像 2022 年,全球约有 2000 万新发病例和 1000 万死亡病例,并且预计到 2050 年,病例数将飙升至 3500 万。早期诊断癌症对于改善患者预后至关重要,能让患者获得更及时的干预和更多的治疗选择。传统的癌症风险预测模型多基于统计方法,而人工智能(AI)的出现为提升模型预测能力带来了新的希望。不过,目前能充分利用电子健康记录(EHRs)中纵向数据的癌症预测方法却非常有限。
为了填补这一空白,来自英国利兹大学等机构的研究人员展开了深入研究。他们的研究成果发表在《BMC Medical Research Methodology》杂志上。这项研究旨在全面总结当前利用 EHRs 纵向数据预测癌症的方法,并为后续模型的开发提供有价值的建议3。
研究人员采用了范围界定审查(scoping review)的方法,严格遵循 PRISMA-ScR 指南进行研究。他们在 MEDLINE、EMBASE、Web of Science、IEEE Xplore、PubMed 和 SCOPUS 这 6 个数据库中进行了广泛搜索,筛选出了相关的研究记录。在筛选过程中,制定了明确的纳入和排除标准,确保研究的准确性和可靠性。
研究结果显示,在筛选出的 653 条记录中,最终有 33 项研究被纳入本次审查。这些研究的预测任务涵盖了癌症风险预测、癌症检测或早期检测、癌症复发预测以及癌症转移预测。其中,研究最多的癌症类型是结直肠癌和胰腺癌,均有 9 项研究涉及。
在模型特征方面,主要有两种处理时间信息的方法。一种是特征工程,16 项研究采用了这种方法,通过提取和处理数据来形成有意义的变量,比如计算趋势、绝对变化等特征。另一种是将时间序列作为直接输入,18 项研究运用了深度学习模型,常见的有循环神经网络(RNNs)、卷积神经网络(CNNs)和 transformers 等45。
预测窗口和前置时间在不同研究之间差异很大,即便针对同一种癌症的模型也是如此。而且,90% 的研究存在高风险偏倚,主要源于不恰当的研究设计和样本量问题2。
在研究的可重复性方面,只有约三分之一的研究提供了在线可用的代码,部分研究使用了可请求或购买的数据集,还有一些研究的数据仅对本国研究人员开放6。
从研究的局限性来看,记录仅由一位作者筛选,尽管采取了宽松的纳入标准并在有疑问时咨询了其他作者,但仍可能存在遗漏。此外,部分研究通过引用和参考文献搜索获得,初始搜索策略未涵盖这些研究,而且搜索策略也可以进一步优化,纳入 “sequential” 和 “trajectory” 等描述纵向数据的术语89。
总的来说,这项研究意义重大。它全面梳理了利用 EHRs 纵向数据进行癌症预测的方法,让人们对该领域的研究现状有了清晰的认识。研究中发现的问题,比如预测窗口的不一致、高风险偏倚等,为后续研究指明了方向。未来的研究可以针对这些问题进行改进,进一步优化癌症预测模型,提高预测的准确性和可靠性,从而推动癌症早期诊断和治疗的发展,为全球癌症防治工作提供有力支持。