编辑推荐:
为探索电子健康档案(EHRs)二次利用于临床决策支持系统(CDSSs)的应用,研究人员开展系统评价,分析其在预测、检测、治疗推荐等任务中的方法与技术。发现 EHRs 二次利用以回顾性为主,常用机器学习等方法,需重视数据质量。该研究为 CDSSs 发展提供重要参考。
在医疗信息化浪潮中,电子健康档案(EHRs)如同蕴藏海量宝藏的深海,虽承载着患者诊疗全程数据,却因原始用途局限,其潜在价值亟待挖掘。当前,临床决策支持系统(CDSSs)虽在辅助医生精准诊疗中崭露头角,但如何高效利用 EHRs 这一 “数据富矿” 实现疾病预测、早期检测及个性化治疗规划,仍面临数据质量参差不齐、技术方法适配性等挑战。挪威科技大学等机构的研究人员聚焦这一领域,开展了题为 “Secondary use of health records for prediction, detection, and treatment planning in the clinical decision support system: a systematic review” 的研究,相关成果发表于《BMC Medical Informatics and Decision Making》,为 EHRs 在 CDSSs 中的深度应用拨开迷雾。
研究团队采用系统评价方法,基于 PRISMA 指南,通过多数据库检索,筛选出 13 篇聚焦 EHRs 二次利用于 CDSSs 预测、检测、治疗推荐等场景的研究。研究涉及的数据来源主要为医院 EHR 系统、区域医疗数据网络及数据仓库,涵盖结构化与非结构化数据,包括患者基本信息、诊断记录、影像资料等。在技术方法层面,机器学习(ML)、深度学习(DL)、自然语言处理(NLP)及其组合是主流选择,如随机森林(RF)、支持向量机(SVM)、双向编码器表征(BERT)等算法被广泛应用于数据建模与分析。同时,研究强调数据质量验证的关键作用,需对 EHRs 的完整性、准确性进行评估,以确保临床应用的可靠性。
研究结果
数据特征与应用场景
EHRs 二次利用以回顾性研究为主,数据多来自医院信息系统及区域数据仓库,涉及肿瘤、眼科疾病、心血管疾病等多个领域。例如,在非小细胞肺癌研究中,通过 NLP 与 ML 技术分析电子病历文本,实现淋巴结转移的术前预测;在急性缺血性脑卒中研究中,利用 OHDSI 数据网络构建预测模型,评估症状性脑出血风险。研究表明,数据收集周期越长(如 5 年以上),越有助于精准估计疾病发生率及预后,但也面临数据变异性降低的挑战。
技术方法与性能表现
机器学习与深度学习技术在预测任务中表现突出。如在糖尿病发病预测研究中,结合 CT 影像与 EHRs 数据,运用 DL 模型提升预测效能;在癌症检测中,NLP 技术通过分析非结构化文本数据,实现病例自动识别。研究发现,样本量大小与模型性能无绝对正相关,小样本研究(如 286 次眼科门诊记录)通过合理的数据处理(如数据清洗、特征工程),仍可获得较高分析效能。
挑战与伦理考量
数据质量差异、隐私保护及跨系统互操作性是主要挑战。EHRs 中结构化数据便于直接分析,而非结构化文本(如医生手写记录)需依赖 NLP 技术解析,易受语义歧义影响。伦理层面,研究强调需遵循《通用数据保护条例》(GDPR)等法规,通过去标识化、匿名化技术保护患者隐私,且多数研究均获得伦理审批。
结论与讨论
研究提出 EHRs 二次利用的核心流程包括:数据质量验证、技术方法选择与主动训练、结果多维评估。通过标准化数据处理流程(如提取 - 转换 - 加载 ETL)与跨领域协作,可提升 CDSSs 的临床实用性。尽管当前研究多聚焦单一疾病,缺乏对动态增长数据的持续学习模型探索,但随着 AI 技术发展,自监督学习、元学习等新兴技术有望突破数据稀疏与泛化性瓶颈,推动 CDSSs 向智能化、个性化方向迈进。
该研究系统整合了 EHRs 二次利用的技术路径与临床实践经验,为构建高效 CDSSs 提供了方法论指导,尤其在优化医疗资源配置、提升基层诊疗水平等方面具有重要意义。未来,需进一步关注心理健康领域的应用拓展及跨区域数据共享机制,让 EHRs 真正成为精准医疗的 “智慧引擎”。