编辑推荐:
在大型生物银行研究中,诊断代码缺失影响下游任务。研究人员开发 CATI 框架用于诊断代码分配。结果显示,CATI 在 Phecodes 和 ICD-10 代码分配上优于现有方法。该研究为下游研究提供助力,提升医疗研究可靠性。
在医疗研究的广阔领域中,大型生物银行发挥着关键作用。其中,英国生物银行(UKB)收纳了大量参与者的健康数据,这些数据以诊断代码的形式呈现,标准化的诊断代码如国际疾病分类第十版(ICD-10),能让研究人员迅速识别和分析疾病。但现实却给医疗研究人员出了个难题,由于检测费用高昂、疾病诊断不足以及疾病分类方法不一致等原因,大量诊断代码存在缺失情况。就像在英国生物银行里,超过 60000 人(12%)的相关诊断代码是缺失的。这可不是个小问题,缺失的诊断代码就像拼图中缺少的关键碎片,使得后续的临床研究分析不完整、有偏差,严重影响了研究结果的准确性和治疗方案的有效开发。
为了解决这个棘手的问题,来自未知研究机构的研究人员开展了一项极具意义的研究,他们开发了 CATI(A medical context - enhanced framework for diagnosis code assignment in the UK Biobank study),这是一个医疗背景增强框架,旨在提升英国生物银行中诊断代码分配的准确性和完整性。经过一系列严谨的研究,他们发现 CATI 在诊断代码分配上表现卓越,优于现有的先进方法。这一成果意义非凡,它为后续的疾病相关研究提供了坚实的数据基础,帮助研究人员更准确地构建研究队列,极大地提升了医疗研究的可靠性和有效性,该研究成果发表在《Artificial Intelligence in Medicine》上。
研究人员在开展研究时,用到了几个主要关键的技术方法。首先,从英国生物银行选取了 439310 名参与者作为样本队列,这些参与者在特定数据字段至少有一个 ICD-10 代码。接着,研究人员挑选出包括手术代码、工作代码和药物代码等在内的十个关键编码输入特征,将这些代码用英国生物银行网站提供的正式名称表示,转化为文本形式,再通过在预训练语言模型 BioBERT 上进行提示调整(prompt tuning),将其作为文本嵌入整合到 CATI 中。此外,鉴于诊断代码具有层次结构,研究人员开发了一种独特的卷积层,用于在相邻诊断代码间传播逻辑值(logits) 。
下面来看具体的研究结果:
- 数据来源和结果:研究选取英国生物银行中 439310 名参与者,这些参与者在特定数据字段至少有一个 ICD-10 代码。之所以选择这些参与者,是因为研究聚焦于有相关诊断代码基础的数据,以便后续对诊断代码分配进行研究。
- 数据划分:研究人员将 435304 名参与者的队列按照 3:1:1 的比例划分为训练集、验证集和测试集。与常规随机划分不同,他们特意把更高比例的罕见病代码病例分配到验证集和测试集。这种划分方式能更全面地评估模型在未见、罕见和常见疾病代码上的性能。
- 诊断代码分配性能:在 Phecode 分配任务中,CATI 在无训练实例的情况下,达到了 0.81 的受试者工作特征曲线下面积(AUROC) ,比当前最优模型高出 6.97%;平均精度均值(AUPRC)达到 0.32 ,比最优模型高出 5.72%。对于样本量在 1000 到 10000 之间的情况,AUPRC 提高了 8.73%。在 ICD-10 编码任务中,CATI 在所有疾病类别上都有稳定的性能提升,展现出更强的稳健性。
研究结论表明,CATI 框架通过整合编码特征语义和疾病层次结构,显著提升了生物银行中诊断代码的分配效果。在不同的诊断代码分配场景下,无论是 Phecode 还是 ICD-10 代码,CATI 都展现出优于现有方法的性能。这一研究成果为医疗领域的大数据分析和精准医疗研究开辟了新的道路。它不仅解决了大型生物银行中诊断代码缺失带来的难题,还为后续的疾病风险预测、疾病检测等研究提供了更可靠的数据支持,推动了医疗人工智能在疾病诊断和研究方面的发展,有望为未来的临床实践和医疗决策带来积极影响,助力精准医疗时代的早日到来。