综述:人工智能在胃肠病学和肝病学群体健康中的应用:公共卫生应用与量化影响的全面评述
《Digestive Diseases and Sciences》:Artificial Intelligence in Population-Level Gastroenterology and Hepatology: A Comprehensive Review of Public Health Applications and Quantitative Impact
【字体:
大
中
小
】
时间:2025年10月26日
来源:Digestive Diseases and Sciences 2.5
编辑推荐:
本综述系统阐述了人工智能(AI)在胃肠病学与肝病学(GI)领域的公共卫生应用。文章重点探讨了AI如何将医疗策略从被动治疗转向主动预防,并量化展示了其在结直肠癌(CRC)、代谢功能障碍相关脂肪性肝病(MASLD)、病毒性肝炎、胃肠道感染监测、上消化道癌症及炎症性肠病(IBD)等领域取得的显著成效(如模型AUC高达0.97)。同时,文章也深入分析了数据代表性、算法公平性、患者隐私及全球部署不均等关键挑战,为AI在GI公共卫生领域的未来发展指明了方向。
人工智能在群体层面胃肠病学与肝病学中的应用:公共卫生应用与量化影响的全面评述
胃肠道(GI)和肝脏疾病构成了日益增长的全球公共卫生负担,导致显著的发病率、死亡率和医疗支出。传统公共卫生干预措施在应对这些复杂疾病的规模、效率和精准性方面存在局限。人工智能(AI),包括机器学习(ML)、深度学习(DL)和自然语言处理(NLP)等先进方法,为革新公共卫生策略提供了前所未有的机遇。这些技术能够分析海量复杂数据集,识别复杂模式,并实现前所未有的预测分析。胃肠病学和肝病学领域尤其适合AI应用,因为它严重依赖内窥镜、放射学和病理学等成像技术,产生大量视觉数据。此外,电子健康记录(EHR)、多组学数据和详细临床记录提供了丰富的高维数据环境。AI的核心优势在于其处理、解释和从这类“大数据”中提取有意义模式的能力,从而揭示隐藏的群体健康动态。
CRC是全球第三大常见癌症和第二大癌症相关死因。AI驱动的风险分层正成为优化CRC筛查的关键策略。例如,ColonFlag(或称MeScore)算法结合年龄、性别和全血细胞计数(CBC)参数,识别CRC或晚期癌前病变的近中期高风险个体,验证研究显示其AUC约为0.76-0.82。另一项研究利用人工神经网络(ANN)分析美国国家健康访谈调查(NHIS)数据,实现了0.70的 concordance。在大型跨国饮食研究中,ANN模型对CRC病例的误分类率仅为约1%,显示出基于生活方式的风险预测模型的潜力。此外,AI虚拟患者导航器在纽约的试验中,使结肠镜检查完成率翻倍。在结肠镜检查过程中,计算机视觉辅助的实时息肉检测系统在随机对照试验中,将腺瘤检出率提高了约7-10个百分点(相对改善20-25%)。在低收入和中等收入国家(LMICs),AI分层有助于在结肠镜检查能力有限的情况下优先分配稀缺资源,但需注意算法公平性,避免因训练数据不平衡而低估某些种族或社会经济群体的风险。
MASLD(原名非酒精性脂肪性肝病,NAFLD)影响全球超过25-30%的人口,其患病率预计将继续上升。肝纤维化是MASLD不良结局的最强预测指标。AI驱动的图像分析显著改善了MASLD的筛查和风险评估。Meta分析表明,AI辅助成像模型检测肝脂肪变的汇总敏感性约为91-92%,特异性约为92-94%,AUC约为0.97。深度学习(DL)技术应用于对比增强CT图像,对肝硬化(F4)、晚期纤维化(≥F3)和显著纤维化(≥F2)的AUROC分别达到0.95、0.97和0.96。使用支持向量机(SVM)结合常规 demographic 和生化标志物的模型也显示出良好性能,在日本的MASLD队列中,对显著纤维化(≥F2)、晚期纤维化(≥F3)和肝硬化(F4)的AUROC分别达到0.886、0.882和0.916。AI模型还用于预测MASLD向晚期纤维化和肝硬化的进展,例如,结合稳态模型评估的胰岛素抵抗(HOMA-IR)、甘油三酯葡萄糖-腰围指数(TyG-WC)等指标的模型AUROC可达0.960。AI工具正被部署到公共平台,如美国的脂肪肝基金会提供在线AI风险分层工具。然而,大多数AI模型在西方或东亚人群上训练,其普适性存在挑战,需要针对不同人群进行验证以避免偏见。成本效益和假阳性率的管理也是实施过程中需要关注的问题。
慢性乙型肝炎病毒(HBV)和丙型肝炎病毒(HCV)感染仍是重大全球公共卫生挑战。AI和ML方法被用于识别未确诊的感染者。基于EHR和索赔数据的ML模型在识别未确诊HCV方面表现出色,常见的预测因素包括年龄、出生队列、注射吸毒史、阿片类药物处方、肝硬化、HIV/AIDS诊断、AST/ALT水平升高以及糖尿病、高血压等合并症。在一项涉及1000万患者的大型研究中,堆叠集成模型在召回率>50%时精确度达到97%。在2型糖尿病患者中,AI模型(如LASSO回归)预测HBV/HCV的AUC为0.81,非法药物使用、贫困和种族是主要预测因素。其他模型应用常规血液检查数据对HBV/HCV感染进行分类,准确率高达96.75%。AI还能优化筛查项目的资源分配,例如在罗马尼亚的一个HCV微消除项目中,人工神经网络(ANN)基于风险因素问卷,以81.5%的敏感性将测试负担降低了60%。AI还通过文本挖掘EHR或应用NLP算法于临床笔记,帮助重新联系失访的已确诊患者,改善治疗衔接。在群体层面,AI模型(如ANN和自回归积分滑动平均模型ARIMA)用于监测和预测发病率趋势,ANN预测甲型肝炎病毒(HAV)发病率的相关系数达到0.71。高收入国家(HICs)已较多采用AI,而LMICs则处于早期阶段,面临数字基础设施有限的障碍。
胃肠道感染导致全球每年约120万人死亡,其中包含39万5岁以下儿童死亡。AI与废水流行病学(WBE)和数字流行病学结合,正推动GI感染监测从被动响应转向主动预防。AI驱动的症状监测系统通过分析急诊科(ED)就诊记录等实时数据,可在实验室确认前几天识别GI疾病激增。长短期记忆(LSTM)神经网络等高级时间序列算法已成功预测轮状病毒等GI感染的季节性高峰。非传统数据源,如社交媒体和网络平台,也提供了宝贵信息。例如,纽约市卫生部门利用NLP算法扫描Yelp餐厅评论,在9个月内分析了约29.4万条评论,识别出129例潜在食源性疾病,并确认了3起此前未报告的餐厅相关暴发。WBE通过分析废水中的病原体,提供了独立于就医行为的社区感染信号,并能比临床病例报告提前数周发出预警。例如,监测诺如病毒GII时,废水病毒水平比症状报告和搜索词数据早2-3周。结合下水道网络水力模拟和ML(如SVM)的混合模型可用于定位感染热点。AI模型还利用废水数据和环境因素(如温度、降雨)预测每周诺如病毒病例数,提前期可达一周或更久。最先进的GI暴发预测系统通过贝叶斯网络和DL架构融合临床、环境、数字和实验室数据流,生成综合早期预警。在高收入国家,丰富的数据生态系统有利于先进的AI驱动监测;在LMICs,例如孟加拉国,ML模型利用卫星衍生的河流水位、降雨和温度数据准确预测霍乱暴发,指导针对性疫苗接种运动。需要注意数字数据流可能系统性地低估农村或低收入人群,需部署互补的AI模型并管理隐私问题。
胃癌和食管癌是全球癌症发病和死亡的主要贡献者。AI驱动的计算机视觉模型,特别是卷积神经网络(CNN)和深度神经网络(DNN),在增强内窥镜对早期胃癌和食管鳞状细胞癌(ESCC)的检测方面显示出巨大潜力。AI辅助白光成像内窥镜报告的诊断准确率超过人类专家。例如,一个胃癌模型的每图像检测率达到99.87%,而专家内镜医师为88.2%。在食管癌筛查中,一个在2428张内窥镜图像上训练的DNN检测ESCC的敏感性达到97.8%,特异性85.4%,总体准确率91.4%,显著优于高级(88.8%)和初级(77.2%)内镜医师。另一个在6473张窄带成像内窥镜图像上训练的CNN对早期不典型增生和ESCC的敏感性达到98%,特异性95%。AI辅助还能显著提高内镜医师的表现,尤其是经验较少的医生,并减少观察者间的差异。除了内窥镜图像分析,AI还应用于非侵入性筛查方法。例如,基于血浆代谢组学特征的ML模型区分胃癌患者和健康对照的AUC为0.93。另一些模型结合年龄、幽门螺杆菌(HP)感染状态和血清胃蛋白酶原(PG)水平等风险因素,用于风险分层和筛查优先级排序。AI还有助于在资源有限地区通过任务转移(task-shifting)扩大筛查范围,例如培训非医师卫生工作者使用便携式内窥镜结合AI支持进行上消化道癌症筛查。高收入国家(如日本)在将AI整合到内窥镜工作流程方面处于领先地位,而大多数LMICs尚未实施大规模上消化道癌症筛查。AI无法克服内窥镜能力的根本限制,但可以提高有限项目的效率和公共卫生影响。关键挑战包括确保模型在不同人群中的外部验证、监管批准、临床安全监测和成本效益评估。
IBD,包括克罗恩病(CD)和溃疡性结肠炎(UC),是一个日益严峻的全球公共卫生挑战。AI在IBD公共卫生的多个维度发挥作用:完善流行病学认知、改进病例发现和风险分层、量化更广泛的社会负担以及推进精准预防研究。ML已被用于模拟不同地理和时间范围的发病率模式,支持主动的公共卫生规划。例如,全球IBD协作组织使用ML聚类将国家分为IBD出现和传播的四个“流行病学阶段”,识别出发病率正在上升的地区。在荷兰,随机森林(RF)模型在健康记录中识别IBD病例的AUROC达到0.97。AI驱动的工具有助于病例发现和早期干预。ML模型还用于预测医疗资源利用,识别可能驱动80%医疗成本的约20%的IBD患者,从而优先安排强化干预。预测IBD过早死亡的AI模型AUROC在0.81-0.95之间。NLP技术被用于分析社交媒体内容和在线患者论坛,提供关于生活质量和未满足需求的实时见解。AI模型应用于保险索赔数据,阐明了IBD的经济负担。尽管IBD预防因其多因素病因学而复杂,地理空间AI分析已识别出可能与环境污染或气候因素相关的IBD发病率集群。AI整合多组学数据(基因组学、转录组学、蛋白质组学、代谢组学、微生物组)的能力进一步增进了对IBD发病机制和进展的理解。例如,基于肠道微生物组数据的综合数据优化和风险预测框架(CDORPF)在IBD风险预测中的分类准确率、召回率和F1分数超过0.9。基于实验室标志物的RF模型对CD和UC的AUROC分别达到97%和91%。大型语言模型(LLMs)通过构建EHR中的非结构化组织学和放射学报告,正在改变群体水平的IBD研究。在高收入国家,AI常用于提高效率;在LMICs,AI可帮助通过碎片化健康数据建立虚拟疾病登记库,并将IBD纳入公共卫生议程。国际协作正在探索联邦学习方法,以在不损害数据隐私的情况下进行跨国数据集上的AI训练。
AI还在GI公共卫生的多个交叉领域推动创新,包括饮食干预和营养流行病学、健康不平等监测、数字健康促进以及疾病建模与政策。AI辅助的饮食评估工具(图像基础或运动传感器基础)提供实时、客观的饮食数据,减少回忆偏倚,准确率在60%至95%之间。AI能够分析复杂的饮食模式及其与GI疾病的关联,为公共卫生饮食指南提供信息。在个体层面,AI推进精准营养,例如在IBS的随机对照试验中,基于AI的个性化饮食干预比标准饮食建议显著改善了肠道症状评分。在健康不平等监测方面,AI通过挖掘大规模健康数据,识别疾病负担和医疗可及性方面的地理、种族和社会经济模式,例如发现非裔美国IBD患者接受高质量护理措施的可能性较低。AI还可模拟干预措施的公平性影响。在数字健康促进方面,由NLP驱动的聊天机器人用于教育公众关于预防措施(如肝炎疫苗接种、结肠镜检查准备),成本远低于传统活动。AI还通过社交媒体实现定向健康信息传递。在GI疾病建模与政策方面,AI驱动的模拟模型(如基于代理的模型)用于模拟幽门螺杆菌(HP)传播动力学,评估干预措施(如大规模抗生素治疗)对未来胃癌发病率的影响,或评估食品强化微量营养素预防肝癌等干预措施的成本效益。
AI在GI公共卫生中的应用潜力巨大,但也带来了跨越特定疾病领域的复杂挑战,主要包括健康公平、数据隐私与伦理、监管框架以及实际实施。AI有可能加剧或改善现有的健康差距,这取决于其设计、验证和部署方式。缺乏代表性的训练数据可能使偏见永久化,例如主要在欧洲人群上训练的CRC风险模型在应用于非洲或亚洲人群时可能表现不佳。算法设计选择若过度加权与社会经济地位或健康结构性决定因素相关的因素,可能无意中放大不平等。最佳实践包括在适当情况下将种族和民族作为模型输入、进行严格的亚组分析、应用去偏技术以及确保AI开发团队的多样性。社区参与对于早期识别和解决潜在的不公平影响日益重要。全球范围内,AI研究和发展主要集中在高收入国家,这可能导致解决方案无法普适或惠及服务不足人群,需要促进AI普及、确保包容性数据收集和培养国际合作。
数据隐私和伦理方面,AI应用严重依赖大型数据集,包括EHR、影像、基因组学以及社交媒体或手机数据等非传统来源,这引发了数据隐私、安全和知情同意的重大关切。匿名化技术必不可少但不完美,随着数据集规模和细粒度的增长,患者重新识别的风险增加。全球数据保护标准(如美国的HIPAA和欧洲的GDPR)的差异造成了数据治理的不一致。算法偏见是另一个关键伦理问题,在 skewed 数据集上训练的AI模型可能在不同人口群体中表现出差异性能,加剧健康不平等。AI系统的透明度和可解释性对于道德部署至关重要,许多DL模型的“黑箱”性质阻碍了信任和知情同意。此外,AI驱动错误的法律责任界定不清。联邦学习、差分隐私和同态加密等技术正在探索中以增强数据保护。推广可解释AI对于建立临床医生和患者信任至关重要。
监管框架方面,医疗AI的监管环境仍然分散且不完善。虽然美国FDA和欧洲机构已批准临床AI设备(如AI辅助结肠镜息肉检测),但针对群体健康应用的监管路径较不明确。用于筛查优先级排序或暴发预测的工具通常缺乏明确的监管路径,导致在验证标准、问责制和性能监测方面存在不确定性。国际倡议(如WHO的GI-AI4H和欧盟的AI法案)正开始解决这些差距,强调治理、透明度和道德原则。
实施科学方面,将有前景的AI模型转化为现实影响面临挑战。许多高性能AI模型仍局限于学术出版物,在临床或公共卫生实践中的采用有限。关键障碍包括数据质量和普适性(许多模型在小规模回顾性数据集上训练)、缺乏可解释性、未解决的伦理和法律问题、高基础设施成本以及与现有临床工作流程整合不良。克服这些障碍需要多学科合作、以用户为中心的设计和严格的前瞻性验证。行为干预(如数字 nudges)显示出改善癌症筛查依从性的潜力,突出了参与度、可用性和临床医生认同等人因因素与技术性能同等重要。成功的实施案例(如美国社区诊所的AI驱动HCV筛查)强调了迭代设计和用户培训的重要性。最终,将AI从实验室推向公共卫生影响需要强有力的试点项目、真实世界验证以及对塑造医疗保健服务的人力和组织因素的深入关注。
本综述强调了AI在推进群体层面胃肠病学和肝病学公共卫生目标方面的变革潜力。AI正在从根本上重塑疾病监测、筛查、风险分层和干预优化的方法,实现了从被动到主动公共卫生策略的关键转变。在不同疾病领域,AI展现出持续且可量化的改进。然而,要充分实现AI在群体GI健康方面的变革潜力,必须应对重大的系统性挑战,包括数据质量、算法偏见、患者隐私以及许多AI模型的“黑箱”性质。AI技术与法律和监管框架发展之间的“步调差距”是一个主要制约因素。观察到AI研究和实施主要集中在高收入国家,而LMICs的代表性有限,这对全球健康公平构成显著威胁。如果不及早主动解决,AI可能无意中通过创建无法普适或无法惠及服务不足人群的解决方案来放大现有的健康不平等。
尽管存在挑战,但机遇巨大。AI可以弥合医疗保健中现有的资源差距,民主化专业诊断的获取,并实现规模化个性化公共卫生干预,特别是在医疗基础设施有限的地区。大型多样化数据集(通过EHR、多组学计划)的日益可用性以及可解释AI的持续进步为克服当前局限提供了有希望的途径。
AI无疑将发展成为推进群体层面胃肠病学和肝病学公共卫生目标不可或缺的工具。其无与伦比的增强监测、精准筛查、靶向风险分层和优化干预策略的能力,为全球更好的健康结果提供了一条变革性途径。为了充分发挥AI的巨大潜力,研究人员、政策制定者、医疗系统和行业利益相关者必须协同努力。这些努力必须解决数据伦理方面的关键挑战,通过多样化和具有代表性的数据集确保隐私并减轻算法偏见。跨国界的监管协调对于为AI开发和部署提供清晰、一致的框架至关重要,既能促进创新,又能保障公众信任和问责制。此外,必须优先考虑AI技术的公平获取,特别是对LMICs和服务不足的社区,以防止现有健康差距的恶化。未来的努力必须强调跨学科合作、通过实施科学进行稳健的真实世界验证,以及对健康公平的坚定承诺,确保AI成为一股强大的力量,为所有人创造一个更加公正和健康的世界。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号