基于多颜色通道拓扑特征与深度学习的眼底图像模式识别研究

《Journal of Imaging Informatics in Medicine》:Topological Feature Extraction from Multi-color Channels for Pattern Recognition: An Application to Fundus Image Analysis

【字体: 时间:2025年12月24日 来源:Journal of Imaging Informatics in Medicine

编辑推荐:

  本研究针对眼底疾病早期诊断需求,创新性地融合拓扑数据分析(TDA)与深度学习技术,提出Topo-RetNet和Topo-LBP-G-ML模型。通过从RGB、HSV等八种颜色通道提取持久同调(PH)、局部二值模式(LBP)和Gabor特征,在APTOS 2019、ORIGA和ICHALLENGE-AMD数据集上实现了糖尿病视网膜病变(DR)、青光眼和年龄相关性黄斑变性(AMD)的精准分类,最高AUC达100%,为医学影像分析提供了全局拓扑结构与局部纹理特征协同分析的新范式。

  
在全球范围内,有超过4亿人深受青光眼、年龄相关性黄斑变性(AMD)和糖尿病视网膜病变(DR)等眼部疾病的困扰。许多患者对自身疾病的进展毫不知情,这使得早期检测和治疗变得至关重要。然而,目前的诊断过程缓慢,需要专科医生手动分析视网膜图像,这可能会延误治疗,凸显了对临床决策支持工具的持续需求。
近年来,拓扑数据分析(Topological Data Analysis, TDA)和深度学习在医学图像分析中取得了显著成功,提高了诊断准确性并从复杂数据中提取出有意义的特征。TDA擅长揭示图像中隐藏的拓扑模式并将其转化为有意义的特征,为复杂数据的底层结构提供见解。与此同时,卷积神经网络(Convolutional Neural Networks, CNN)在直接从数据中学习和识别复杂模式方面非常有效,使其成为特征提取和分类的强大工具。这些方法共同为分析医学图像提供了互补的优势。使用TDA中的一种称为持久同调(Persistent Homology, PH)的方法,我们可以将这些模式转化为分类器模型可以有效利用的有意义的图像特征。使用拓扑和基于神经网络的特征使模型能够利用图像中的全局拓扑结构和局部像素级信息,为分类任务提供更全面的方法。
尽管TDA在医学领域已成功应用数十年,但与更传统的数据分析技术相比,其使用仍然相对有限。本研究聚焦于利用机器学习和深度学习框架进行视网膜图像分类。研究人员首先从六个颜色通道——红色、绿色、蓝色、色调、饱和度和值(value)——提取拓扑特征,以捕捉不同颜色空间中的结构和几何属性。此外,还提取了局部二值模式(Local Binary Patterns, LBP)和Gabor特征以表示纹理和空间频率信息。基于这些特征,研究应用了两种互补的模型。第一个模型Topo-LBP-G-ML结合了拓扑、LBP和Gabor特征,并采用传统的机器学习算法进行疾病分类。第二个模型Topo-RetNet使用相同的手工制作特征,但将其与深度学习架构(ResNet50)集成,以捕获高级语义表征。
为开展研究,研究人员主要应用了以下关键技术方法:首先,采用立方持续同调(Cubical Persistence)方法从RGB、HSV等多种颜色通道的眼底图像中提取拓扑特征,并将其向量化为Betti函数。其次,结合局部二值模式(LBP)和Gabor滤波器提取图像的纹理和空间频率特征。然后,构建了混合模型Topo-LBP-G-ML(基于XGBoost机器学习算法)和Topo-RetNet(融合ResNet50深度学习架构与拓扑特征的多层感知机)。研究使用了三个公开的眼底图像数据库:APTOS 2019(糖尿病视网膜病变)、ORIGA(青光眼)和ICHALLENGE-AMD(年龄相关性黄斑变性)来验证模型性能。
拓扑数据分析
在本文中,我们应用了PH作为图像的有效特征提取方法。PH是TDA中的一种基本方法,允许我们通过调整尺度参数来分析数据中的隐藏模式。我们使用了立方持续性,这是一种为图像数据设计的PH形式。它通过处理立方体复合体(cubical complexes)来分析图像中的拓扑特征——例如连通分量、孔洞和空腔——这自然适合图像像素或体素的网格结构。
PH可以分解为三个主要步骤。第一步是过滤(filtration)。它有助于在数据与其拓扑特征之间建立桥梁。它还提供关于数据结构的信息。随后,为了捕获数据集中的拓扑特征,PH被转换为持续性图(persistence diagrams)。这些图通过将每个拓扑特征绘制为一个点,其出生(何时出现)和死亡(何时消失)在坐标轴上,来区分稳定和显著的特征。持续性图中点距离对角线(出生等于死亡)的距离量化了特征的持续性和稳定性。
向量化是最后一步,将这些数据从持续性图转换为传统ML算法可用的向量格式。
在图像的背景下,构建过滤过程由于图像数据的独特结构而有所不同。图像过滤涉及一系列称为立方体复合体的嵌套二值图像。给定一个颜色通道或灰度图像I,其维度为m×n,我们首先选择一个颜色通道(例如,红色、绿色、蓝色或灰度)。像素值βij∈ [0,255] 表示单个像素δij? I的颜色强度,其中δij是图像I第i行第j列的闭正方形(包括边界)。接下来,我们确定阈值数量,记为l,以跨越颜色范围[0,255],其中0 = p1< p2< ... < pl= 255。这定义了我们的过滤序列的长度,通常设置在50到100之间。使用这些阈值,我们创建一系列嵌套的二值图像(立方体复合体)I1? I2? ... ? Il,其中It定义为In= {δij? I | βij≤ pt}(如图1所示)。这意味着从一个空的m×n图像开始,并随着像素的灰度值达到每个阈值pt而逐渐将像素变为黑色。这种方法称为子级过滤(sub-level filtration)。它应用于I,相对于所选的色彩通道(例如,灰度)。或者,可以按照像素值的降序激活像素,这称为超级级过滤(superlevel filtration)。在这种情况下,令It= {δij? I | βij≥ qt},其中255 = q1> q2> ... > ql= 0,形成嵌套序列I1? I2? ... ? Il,称为超级级过滤。
阈值的选择在此过程中至关重要。它决定了PH将用于识别拓扑特征的细节。可以选择N=255,这将导致过滤过于精细。它将在指纹识别过程中导致大多数输出变得微不足道。另一方面,选择非常小的N可能导致许多拓扑特征丢失。在我们的研究中,我们选择N=100,这提供了最佳输出,进一步增加N没有产生任何显著的性能改进。
持续性图(PDs)在图像分析的背景下用于定位和识别拓扑结构,例如连通分量(0维特征)和循环(1维特征),跨越各种灰度阈值。通过将像素值从低强度到高强度进行过滤,可以观察这些特征如何在各个层级出生和死亡。例如,在分析一个小的k×k像素灰度图像时,应用过滤过程根据其强度逐步填充像素。
然后,记录在每个步骤中形成的连通分量。PDs提供了图像中特征的视觉表示,即具有出生和死亡坐标的点,分别对应于它们出现和与其他特征合并的灰度阈值。换句话说,如果一个拓扑特征σ首次出现在αbirth(σ),并消失在αdeath(σ),则PD计算为:PDk(I) = {(αbirth(σ), αdeath(σ)) | Hk(It) for αbirth(σ) ≤ t < αdeath(σ)}。这里,Hk(It)表示Yt的第k个同调群(homology group),代表立方体复合体It中的k维拓扑特征。在我们进行2D图像分析的情况下,我们只使用k=0,1,即PD0(I)和PD1(I)。这些图有助于识别图像中的重要结构。更持久的特征(具有更长生命周期)通常对应于重要结构。
图2显示在I1处有六个分量,对应于六个出生时间为1的0维特征。在I2处,分量数量减少到两个。因此,五个0维拓扑特征在p=2时消失。转到I3,只剩下一个分量,这给出了0维PD,PD0(I) = {(1,∞), (1,2), (1,2), (1,2), (1,2), (1,4)}。对于1维特征,在I1和I2中没有孔洞存在,但在I3处出现了两个孔洞,标志着两个出生时间为3的1维特征的诞生。其中一个孔洞在I4处死亡,而另一个新孔洞在I5处死亡。 resulting in the 1-dimensional persistence diagram PD1(I) = {(3,4), (3,5)}。
PDs,表示为2元组的集合,不能直接用于机器学习模型。为了应对这一挑战,向量化通常被用作持久同调(PH)过程的最后阶段。该技术将PDs转换为向量或函数,使它们更易于集成到机器学习工作流程中。Betti函数监视给定阈值处活动拓扑特征的计数。这是一个阶跃函数,其中β0(pl)表示二值图像Il中的连通特征数量。此外,β1(pl)表示孔洞或循环的数量。在ML应用中,Betti函数随后被转换为向量,其中每个向量βk→有L个条目,代表βk(pl)的值,其中1≤l≤L。因此,我们有βk→(I) = [βk(p1) βk(p2) ... βk(pL)]。例如,在图2的图像Y中,β0(I)的向量是[6,2,2,1,1],这意味着β0(1)=6表示Y1中连通分量的数量,而β1(I)的向量是[0,0,2,1,0],并且I3中孔洞或循环的数量由β1(3)=2表示。
不同颜色模型的拓扑特征提取
从每个视网膜图像中使用八种不同的颜色导出特征。这些包括主要的红色、绿色和蓝色通道,称为RGB。此外,我们加入了灰度颜色,计算为RGB值的加权和,以捕获基于强度的信息。研究人员将这种方法应用于组织病理学癌症检测,证明了基于颜色的拓扑特征在捕捉形态学变化方面的有效性。为了增强特征提取,我们还利用色调(Hue)、饱和度(Saturation)和明度(Value)颜色(HSV),以纳入感知上有意义的颜色分析方法。最后,我们包括了平均HSV颜色,计算为每个像素的H、S和V值的平均值。对于给定分辨率p×q的图像I,通过首先从这八个颜色通道(RGB、HSV、灰度和平均HSV)提取值来创建拓扑特征向量(见图3)。这些颜色由函数(x, y)定义,该函数将每个像素Δxy? I映射到其关联的颜色,其中1≤x≤p且1≤y≤q。通过使用这八个颜色函数(h(x, y)),为每个通道构建了一个子级过滤,并计算了相应的持续性图PDk(I, h)。为了有效整合提取的拓扑模式,将PDs转换为Betti函数。我们将颜色值从[0,255]归一化到[1,100],阈值数量设置为N=100。结果,每个βnh(I)表示为一个维度为100的向量。结果,八个颜色模型,每个有两个维度(n=0,1),生成16个唯一的向量,每个维度为100。总共,对于每个图像I,我们提取了1600个拓扑特征。在图4中,我们展示了视网膜图像在八个不同颜色通道上的Betti-1曲线。
接下来,为了从不同颜色通道捕获局部纹理模式,我们使用了LBP提取。LBP通过合并图像像素的空间结构来捕获局部纹理模式。数学上,对于坐标为(x, y)的像素I,LBP可以计算为:
LBPQ, f(x, y) = ∑q=1Q-1( h(Iq+ Ic) · 2q)
其中Iq代表相邻像素的强度,Q是相邻像素的数量,f是邻域半径,h(x)是阈值函数,如果x>0则s(x)=1,否则为0。因此,LBP将每个相邻像素的强度与中心像素进行比较,如果邻居的强度大于或等于中心像素,则赋值为1;否则赋值为0。LBP特征使用直方图方法提取,每个颜色通道的bin大小为100,每个图像产生800个特征。
此外,为了空间频率、方向和边缘结构,研究人员使用了由Dennis Gabor开发的称为Gabor滤波器的线性纹理分析工具。使用Gabor滤波器来检测图像局部区域的频率内容。通过调整方向(θ)和波长(ρ),他们从每个颜色通道提取特征以增强模式识别。数学上Gabor函数可以写为:
h(m, n) = exp( - (m'2 + β2 n'2) / (2η2) ) · cos( 2π m' / ρ + λ )
其中 m' = m cosθ + n sinθ; n' = -m sinθ + n cosθ; ρ = 正弦波的波长; θ = 滤波器的方向(弧度); λ = 正弦波的相位偏移; η = 标准差; β = 纵横比,决定高斯的形状。通过调整函数的方向(θ)和波长(ρ),他们从每个颜色通道提取了五十个特征以增强模式识别。Gabor特征使用五个不同的角度(0, θ, θ/2, θ/4, 3θ/4)针对θ和ρ值进行提取。使用此过程,他们每个颜色通道生成50个特征(25个基于局部和25个基于平均振幅的特征),每个图像产生400个特征。
研究人员也将相同的架构应用于视网膜图像分析。每个视网膜图像生成2800个特征,包括1600个拓扑特征、400个Gabor特征和800个LBP特征。这个全面的特征提取过程为
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号