综述：人工智能方法提升医疗数据质量的研究进展

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月05日 来源：Artificial Intelligence in the Life Sciences CS5.0

编辑推荐：

　　这篇系统综述基于PRISMA框架，系统梳理了2020-2025年间30篇文献，探讨人工智能（AI）在提升医疗数据质量中的应用。研究聚焦六大维度——准确性（Accuracy）、一致性（Consistency）、完整性（Completeness）、时效性（Timeliness）、唯一性（Uniqueness）和有效性（Validity），揭示监督学习（Supervised ML）、深度学习（CNN/RNN）、数据中心化AI（DCAI）等方法的核心作用，同时指出时效性和有效性研究的不足，为医疗AI数据治理提供实践指导。

摘要

人工智能（AI）技术正成为提升医疗数据质量的关键工具。通过系统分析2020-2025年间30项研究，发现监督学习（如回归、分类）、深度学习（CNN、RNN、GAN）和自然语言处理（NLP）最常用于解决数据准确性（占比49%）和一致性（16.6%）问题。数据中心化AI（DCAI）和隔离森林（Isolation Forest）展现出跨维度适应性，而时效性和有效性仅占9.8%和3.4%，凸显研究空白。医疗数据的特殊性促使联邦学习（Federated Learning）和本体论（Ontology）成为隐私保护与语义标准化的前沿方向。

引言

数字时代的数据爆炸催生了AI技术的快速发展，但低质量数据——如不准确、不完整或存在偏差的记录——可能直接导致医疗决策失误。传统模型优化常忽视数据质量，而AI驱动的清洗（Cleaning）、协调（Harmonization）和偏倚修正（Bias Mitigation）成为新范式。例如，电子健康记录（EHR）中的错误若未被识别，可能危及患者安全。本研究通过PRISMA框架，系统评估AI方法如何靶向医疗数据的六大质量维度。

方法论

文献筛选覆盖Google Scholar、ScienceDirect等5大数据库，采用布尔运算符（"Artificial intelligence" AND "data quality improvement"）初筛50篇文献，最终纳入30项研究。开放获取（OA）文献占比57%，但高额文章处理费（APC）可能造成地域偏见——高收入国家研究占主导。关键词共现网络分析（VOSviewer）显示，"准确性"与"深度学习"强关联，而"时效性"多与边缘计算（Edge AI）技术共现。

结果

技术映射

准确性：GAN和CNN通过生成对抗网络修复图像数据噪声；NLP纠正文本记录拼写错误（如临床笔记）。
一致性：DCAI自动标准化多源数据格式（如实验室指标单位差异）。
唯一性：基于NLP的实体解析（Entity Resolution）消除重复患者档案。
有效性：长短期记忆网络（LSTM）识别生理参数异常序列。

地域差异

北美和欧洲研究占比78%，而非洲和南美文献仅2篇，可能限制结论在资源匮乏地区的适用性。

跨维度应用

数据质量提升呈现"技术-伦理"双轨挑战：

技术层面：隔离森林可同步检测异常值（准确性）和重复项（唯一性）；
伦理层面：联邦学习在保护患者隐私（GDPR/HIPAA合规）的同时，实现跨机构数据一致性优化。

讨论

尽管AI方法显著提升数据质量，三大矛盾仍待解决：

技术失衡：深度学习模型依赖大量标注数据，与医疗数据稀缺性冲突；
评估缺陷：现有指标（如F₁-score）难以量化数据"有效性"的临床意义；
资源壁垒：APC费用阻碍低收入国家参与，导致解决方案可能忽略疟疾等地方病数据特征。

结论

医疗AI的发展亟需建立"质量-伦理-可及性"三位一体框架：优先开发轻量级模型（如TinyML）解决时效性问题，通过国际合作降低知识共享成本，并构建涵盖热带病等弱势群体数据的基准测试集。未来研究应探索生成式AI（如GPT-4）在合成高质量训练数据中的潜力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号