
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:人工智能方法提升医疗数据质量的研究进展
【字体: 大 中 小 】 时间:2025年07月05日 来源:Artificial Intelligence in the Life Sciences CS5.0
编辑推荐:
这篇系统综述基于PRISMA框架,系统梳理了2020-2025年间30篇文献,探讨人工智能(AI)在提升医疗数据质量中的应用。研究聚焦六大维度——准确性(Accuracy)、一致性(Consistency)、完整性(Completeness)、时效性(Timeliness)、唯一性(Uniqueness)和有效性(Validity),揭示监督学习(Supervised ML)、深度学习(CNN/RNN)、数据中心化AI(DCAI)等方法的核心作用,同时指出时效性和有效性研究的不足,为医疗AI数据治理提供实践指导。
人工智能(AI)技术正成为提升医疗数据质量的关键工具。通过系统分析2020-2025年间30项研究,发现监督学习(如回归、分类)、深度学习(CNN、RNN、GAN)和自然语言处理(NLP)最常用于解决数据准确性(占比49%)和一致性(16.6%)问题。数据中心化AI(DCAI)和隔离森林(Isolation Forest)展现出跨维度适应性,而时效性和有效性仅占9.8%和3.4%,凸显研究空白。医疗数据的特殊性促使联邦学习(Federated Learning)和本体论(Ontology)成为隐私保护与语义标准化的前沿方向。
数字时代的数据爆炸催生了AI技术的快速发展,但低质量数据——如不准确、不完整或存在偏差的记录——可能直接导致医疗决策失误。传统模型优化常忽视数据质量,而AI驱动的清洗(Cleaning)、协调(Harmonization)和偏倚修正(Bias Mitigation)成为新范式。例如,电子健康记录(EHR)中的错误若未被识别,可能危及患者安全。本研究通过PRISMA框架,系统评估AI方法如何靶向医疗数据的六大质量维度。
文献筛选覆盖Google Scholar、ScienceDirect等5大数据库,采用布尔运算符("Artificial intelligence" AND "data quality improvement")初筛50篇文献,最终纳入30项研究。开放获取(OA)文献占比57%,但高额文章处理费(APC)可能造成地域偏见——高收入国家研究占主导。关键词共现网络分析(VOSviewer)显示,"准确性"与"深度学习"强关联,而"时效性"多与边缘计算(Edge AI)技术共现。
北美和欧洲研究占比78%,而非洲和南美文献仅2篇,可能限制结论在资源匮乏地区的适用性。
数据质量提升呈现"技术-伦理"双轨挑战:
尽管AI方法显著提升数据质量,三大矛盾仍待解决:
医疗AI的发展亟需建立"质量-伦理-可及性"三位一体框架:优先开发轻量级模型(如TinyML)解决时效性问题,通过国际合作降低知识共享成本,并构建涵盖热带病等弱势群体数据的基准测试集。未来研究应探索生成式AI(如GPT-4)在合成高质量训练数据中的潜力。
生物通微信公众号
知名企业招聘