
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:计算肾病病理学的进展
【字体: 大 中 小 】 时间:2025年09月21日 来源:Kidney Medicine 3.4
编辑推荐:
本综述系统阐述了人工智能(AI)与深度学习(DL)在肾病病理学领域的革命性应用,重点介绍了全幻灯片图像(WSI)分析、病理组学(Pathomics)及基于多实例学习(MIL)的分类模型如何提升肾脏疾病诊断的精准性、可重复性与效率,并探讨了其在技术、法规及伦理层面面临的挑战与未来发展方向。
人工智能(AI)是执行需智能完成任务的自动化系统的总称。机器学习(ML)作为其子集,指系统从数据中学习而非被明确编程执行任务。学习过程若使用(人工制作的)数据标签,则称为监督学习;若无预定义标签,仅基于数据属性(如数据点间相似性)则属无监督学习。强化学习(RL)是另一范式,智能体通过环境中的奖励与惩罚来学习决策策略。深度学习(DL)是ML的子集,采用人工神经网络(ANN),通过多层结构分层迭代处理数据。“深度”指网络包含众多层级,使其能学习数据中更复杂的抽象表征。
深度学习整合至肾病病理学,增强了图像分析过程及整体数字化工作流的多个环节。其关键应用涵盖分类、病理组学及回归分析——肾病病理学中广泛研究的三种方法。尽管这些方法提供了宝贵新见解,它们亦存在固有局限性,且适用性因任务而异。因此,传统生物统计方法对于验证发现、确保临床可解释性及作为DL衍生数据的下游分析工具仍至关重要。
分类指为数据分配类别标签。语义图像分割即在像素级别进行分类。患者级分类则为每位患者分配一个或多个类别标签。基于DL的分类器从复杂图像特征中学习,这些特征常在训练过程中自动提取。特征提取常作为端到端深度学习的一部分整合进神经网络,使模型能同步优化特征提取与分类。然而,此方法存在局限,因神经网络通常针对单一任务优化,可能难以泛化至其他未见任务。
一项多中心研究引入了端到端DL方法,用于将肾移植活检分类为正常、排斥或其他疾病三类。此初步诊断有助于分诊活检,提升诊断效率。另一研究开发了DL方法用于排斥亚型分类(TCMR、ABMR等)。但两项研究的诊断性能均未如许多癌症分类研究般高,这很可能源于肾脏活检分类的重大挑战:疾病可非常局灶、形态学重叠且组织有限。这些或许是计算肾病病理学中缺乏WSI分类研究的原因,尤其与癌症领域相比。然而,在对单个肾小球图像进行分类的场景中,可实现更高分类性能。一项关于DL分类肾小球病变(如毛细血管塌陷、纤维性新月体)的最新研究取得了有希望的性能。
图像分类亦可扩展至数字化工作流的其他步骤。基于DL的分类器可应用于质控环节。开源工具HistoQC整合了分类器以检测笔迹标记。另一研究探讨了基于智能手机的工具,用于在针吸活检后即时评估肾活检芯的 adequacy,潜在辅助临床医生实时判断组织质量。
肾病病理学中许多研究聚焦于基于DL的肾脏组织学图像分割及后续定量特征提取。这些特征构成一系列下游应用的基础,这些应用采用生物统计或其他DL/ML方法进行诊断分配、疾病状态表征、疾病进展预测、发现多(治疗)组间差异或计算形态学轨迹。
通过全面形态计量特征描述组织病理学图像的方法被称为病理组学(Pathomics),其使能技术称为下一代形态计量学(NGM)。病理组学被认可为2023年肾脏病学关键进展之一。病理组学工作流的第一步是检测组织学结构,这需要采用经监督学习训练的DL模型执行语义分割。语义分割意指图像中每个像素被赋予相应结构或细胞的语义标签(如“肾小球”或“足细胞”)。此类分割识别出单个组织学对象,从中可提取形态计量数据。形态计量数据可涵盖形状(如圆形度、实心度、傅里叶描述符)、大小(如面积、直径)、距离(如至同类其他对象的距离)、纹理(如灰度共生矩阵GLCM)、颜色(如苏木精强度)等多方面测量。病理组学的优势在于,提取的特征数据更可解释且本质上是任务无关的,相较于端到端DL模型的预测,允许更灵活的下游应用。
定量病理组学特征实现了对大型活检队列(含多种疾病)的全面表征,并验证了基于临床数据的既往形态计量学发现,例如肾病综合征患者中肾小球肥大与高蛋白尿的关联。在IgA肾病(IgAN)中,病理组学实现了大规模伪时间分析,计算出一条形态计量轨迹,描绘了IgAN疾病转变过程中肾小球的进行性变形。
多项研究采用病理组学特征进行数据分析,其中许多将特征与临床参数关联,揭示了先前未知的关联。利用病理组学分析研究了叶酸小鼠模型中损伤反应的空间异质性,显示了毛细血管密度与修复失败间的负相关。采用病理组学方法证实了纤维化组织中管周毛细血管密度的下降,并显示了在足细胞病或IgAN中,管周毛细血管纵横比的增加与疾病进展的关联。
采用病理组学方法,基于大型冷冻 procurement 肾活检队列开发了肾脏供体质量评分(KDQS)。此评分与病理学家得出的测量值显著相关,但对移植后肾功能具有更优预测力。在独立队列中回顾性使用KDQS本可减少废弃肾脏数量(398例中的110例)。鉴于研究属回顾性,这些额外器官移植后的结局仍不明确。
病理组学正成为一项高度民主化的组学方法,在拥有数字化肾脏组织学图像时能以相对较低成本实施。无编码技能的研究者现可使用免费软件分析样本,部分软件在线托管,无需购买昂贵计算设备即可使用。可能的工作流设置包括:使用FUSION识别组织学结构,使用HistoLens提取形态计量特征,并使用tRigon进行下游分析。
分类算法为数据分配类别标签,而回归算法则从一组自变量(如病理组学特征)预测一个因变量(连续结局变量)。这些因变量可以是人体测量值(如血压)、实验室值(如蛋白尿)、连续组织病理学评分(如间质纤维化)或时间-事件结局(如发生终末期肾病ESKD)。当因变量结局已知时,回归可用于分析哪些特征对结局有预测性,并刻画特征与结局间的关系。这些关系可以是线性的或多项式的,取决于建模函数。
尽管病理学中存在一些端到端图像回归研究,但在肾病病理学中,回归算法主要应用于病理组学特征分析范畴。在人类肾切除样本中,肾小球组织形态计量学与患者年龄、性别及肾功能实验室估算值相关联。大规模分析揭示了皮质肾小球密度下降及肾小球尺寸增加,标志着与慢性肾脏病(CKD)相关的肥大。
时间-事件回归分析直至临床相关结局发生的时间,如终末期肾病(ESKD)、肾移植后移植肾失功或患者总死亡率。多项研究证明了基于病理组学特征、DL衍生评分以及临床和组织病理学变量的回归模型,可预测IgA肾病患者发生ESKD的时间。为预测肾移植后移植肾失功,一项多中心研究实施了基于DL衍生的肾小管、间质和单核白细胞浸润病理病变特征的复合损伤评分。移植后12个月肾活检的评分可预测长期移植肾失功,其性能超过Banff评分或临床预测因子。
未来,回归将通过肾脏组织的深度表型分析(产生更精确、稳健的预测因子)及更先进的统计技术(如可纳入先验信息的贝叶斯线性回归)得到进一步改进。
尽管DL以其在图像分析中的广泛适用性而闻名,但其能力亦延伸至数字化肾病病理工作流中的各种非图像任务。此领域的突出技术是自然语言处理(NLP),此为机器学习的一种子形式,能够从文本(如书面病理报告或电子健康记录)中提取见解。NLP可将复杂人类语言分解为更小可管理单元或词元(tokens),从而允许根据文本描述进行疾病分类,或从患者数据中挖掘特定状况。
除文本挖掘外,机器学习算法亦可使用临床和组织病理学描述符,绕过图像需求,自动化生成符合现有指南(如Banff分类系统)的诊断和病理报告。这些描述符亦可应用于常见预测任务,如疾病进展和治疗反应。随着大语言模型(LLM)的出现,肾病病理学中非图像应用的范畴很可能进一步扩展。然而,当前此类大模型无法被认证为医疗器械,因而很可能仅支持直接诊断临床决策支持之外的任务。
DL模型的一项挑战是其“黑箱”本质,即人类无法理解DL在其内部决策过程中的确切“推理”。通过使用大型、多样且理想情况下为多中心的数据集(与训练集不同)进行严格外部验证,可提升对模型输出的信任。尽管此类验证增强了置信度与泛化能力,却未必提升可解释性。可解释性在分类任务中尤为重要,其中事后方法(如显著图,即突出显示对决策最具影响的图像区域的热力图)可提供视觉洞察。在分割任务中,可解释性更直观,因图像预测可直接与标注真实值比较(通过将预测图叠加于原始组织学图片上)。
尽管存在这些方法,研究者在推断病理生理学原理时仍应谨慎,因模型预测基于统计关联而非因果关系。随着因果推断新兴领域的发展,更多研究将探究这些因果关系,可能带来新的生物学见解。
计算病理学是一个快速演进的领域。潜在关键进展与新兴技术有望进一步推动该领域发展。
新型成像模式:无损组织成像的进步现允许跨多尺度可视化,从整个器官或组织样本直至亚细胞分辨率。例如,分层相衬断层扫描(HiP-CT)利用高能X射线成像完整人体组织,提供深度穿透与纳米级分辨率,适于绘制整个肾单位等复杂肾脏结构。许多新兴成像技术可实现高分辨率的三维、全面组织可视化。DL常被用于这些3D数据集的分割。尽管当前肾病病理学中的病理组学方法多处理2D图像,但整合3D与多尺度可能为研究复杂组织学结构与损伤模式提供新见解。无损成像若速度足够快或在固定组织中进行,还可保留组织用于后续分子分析。尽管对研究应用有趣,此类方法会否整合入临床病理诊断仍不明确。
新型分子方法:新型分子方法,尤其是空间组学方法,已在实质性推动肾脏研究。这些空间组学方法代表了分子生物学的重大进步,能够在保持空间背景的同时高通量分析多种分子(RNA-转录组学、蛋白质-蛋白质组学、代谢物-代谢组学)。此空间背景对于理解复杂细胞相互作用与组织组织至关重要,提供了传统分子方法可能遗漏的见解。通过空间分析整合多组学数据集特别增强了我们对组织结构与细胞关系的理解。另一有前景的技术是超多重免疫荧光成像,能够在同一组织切片中同时检测多达40种蛋白质与RNA生物标志物,且通常能保留组织用于附加分析。分析此类分子组学方法产生的大规模数据是计算病理学的另一重要组成部分。本综述更侧重于基于图像的计算病理学方法,分子方法的详细讨论可参见其他文献。重要的是,病理组学方法可提供空间组织组织与形态学中缺失的环节,补充并扩展分子诊断。此空间背景对于理解肾脏纤维化病理学中反映的复杂细胞相互作用与组织组织至关重要。此类组合的(病理)组学分析已在肿瘤病理学中显示出潜力,例如通过3D追踪胰腺病变中的分子改变。组合与整合多组学数据集仍具挑战性,新颖计算方法要求高且部分仍需开发。尽管对研究极有价值,其对临床诊断的价值仍有待确定。
基础模型与大语言模型:基础模型是在海量数据上训练的大规模机器学习模型。这些模型捕获全面的数据表征,并可针对众多下游任务以最少任务特定数据进行微调。尽管基础模型采用与传统方法相似的DL架构,它们在几个关键方面存在差异,尤其是模型大小、训练范式与计算需求。基础模型显著深于任务特异性DL。基础模型中的可训练参数数量通常达数十亿或数万亿,而传统DL模型仅使用数百万可训练参数。因此,训练基础模型需要巨大计算资源——常需专用硬件集群。相较之下,传统DL模型常可在高性能工作站上训练。这些计算需求体现在训练与推理的能耗上,对其各自成本与环境可持续性具有潜在影响。
在不同类型的基础模型中,基于文本数据训练的大语言模型(LLM)自ChatGPT(一款基于生成式预训练变换器GPT的应用)推出以来,引起了公众广泛关注。视觉基础模型专为图像数据训练。将此类视觉模型整合进多模态基础模型(例如大语言视觉模型LLVM)近期已被引入医学数据集,使得如PathChat等智能体成为可能。PathChat允许用户仅使用自由文本来指定计算机视觉任务。此类多模态基础模型为开发智能辅助医疗实践的智能体引入了可能性,通过整合每日为每位患者产生的多模态数据来建议诊断与治疗程序。
尤其对于肿瘤病理学,基础模型正日益成为有前景的通用工具,适用于癌症检测、分型、突变状态分析、生存预测与报告生成等任务。CTransPath是首个用于计算病理学的基础模型,为拥有2800万参数的视觉变换器模型,在3.2万张WSIs上训练。自2022年发布以来,模型在训练数据规模、模型大小与任务多样性方面迅速扩展。当前最先进的计算病理学基础模型,如Virchow2G,包含18亿参数,并在310万张WSIs上训练。UNI在超过77太字节数据上训练,覆盖20种不同组织类型,并能执行34项代表性计算任务,包括在OncoTree系统中分类多达108种癌症类型。然而,肾脏组织在这些数据集中通常仅占一小部分,且多由肾癌切片组成。例如,肾脏组织在CTransPath训练数据中占比不足4%,在Virchow2G中不足3%。由于缺乏大规模公共数据集,迄今尚未开发出针对肾病病理学的特定基础模型。
所谓多智能体框架包含多个 specialized 自主智能体,它们协作以实现用户指定目标。其理念是协作智能体能够实现超越单个智能体能力的任务。原则上,现有工具已可构建一个多智能体系统,用于分析与肾活检相关的临床数据、分析组织学、订购潜在附加检测并撰写全面分析报告。重要的是,这与单一多模态模型不同,因为在多智能体系统中,每个智能体可拥有独特方法学,最适合其分析的特定数据或问题方面。此类框架可能向通用医学AI(GMAI)发展,并成为医生的医学伴侣,而不仅限于病理学领域。
计算肾病病理学正在变革我们分析肾脏组织病理学的能力,并预期将显著贡献于肾脏病学研究与临床诊断。通过将人工智能技术整合进数字化与分子工作流,我们能够提升诊断精确性、揭示新颖的形态-分子关系,并使得探索先前无法触及的研究问题成为可能。该领域日益增长的研究数量证明了其巨大潜力,但在其广泛临床实施前,仍存在若干技术、伦理与监管挑战。随着AI、DL及成像与分子组学中的新颖分析模型持续演进,包括基础模型与多模态AI的出现,它们为实现更好理解与管理疾病、维护人类健康的目标提供了激动人心的机遇。
生物通微信公众号
知名企业招聘