UHGAN:融合霍夫变换约束的双阶段生成对抗网络实现农田道路精准提取新突破
【字体:
大
中
小
】
时间:2025年10月14日
来源:Frontiers in Neurorobotics 2.8
编辑推荐:
本文提出一种创新性双阶段生成对抗网络UHGAN(UHGAN),通过引入可微分霍夫变换损失函数与对抗训练策略,有效解决了复杂农田场景中道路提取不连续与几何特征丢失的难题。该模型在WHU RuR+数据集上显著提升提取精度(F1-score=0.789),为智慧农业基础设施规划与高精度遥感分析提供关键技术支撑。
1 Introduction
高标准化农田具有集中连片、基础设施配套的特点,其中田间道路是农业生产与管理的重要载体。精准提取道路网络对提升农田规划与作业效率至关重要。然而,基于U-Net等传统方法在复杂农村场景中易受建筑物、水系和植被遮挡干扰,导致道路连通性与几何特征提取困难。
深度学习模型可分为判别式与生成式两类。生成式模型因模型构建与损失函数定义困难发展较慢,直至生成对抗网络(GANs)的出现才取得突破。GAN包含生成器与判别器两大模块,通过对抗训练提升输出质量与预测能力,但其训练动态存在模式崩溃等挑战。值得注意的是,GAN在图像生成领域展现出独特优势,尤其适用于从噪声遥感影像中恢复细节结构。结合霍夫变换(Hough transform)等特征检测技术,可增强模型捕捉道路网络几何规律性与线性连续性的能力。
霍夫变换是一种基于参数空间投票机制的图像特征检测方法,最初用于检测直线,后扩展至圆形、椭圆等任意形状识别。其核心思想是将图像空间的几何特征映射至参数空间,通过投票确定目标参数。在遥感与街景影像中,道路通常呈现线性或曲线结构,具有连续性与方向性特征。霍夫变换通过提取方向特征、检测不同宽度与曲率道路、整合边缘点重建完整道路轮廓,有效适配这些形状。传统道路提取模型(如U-Net)使用交叉熵损失(Cross Entropy Loss)或Dice损失(Dice Loss),虽聚焦像素级分类精度,但难以约束输出结果的几何合理性。将霍夫变换融入损失函数可为模型学习全局道路结构特征提供显式约束。
2 Preparation
2.1 Theoretical framework of generative adversarial networks (GANs)
GAN由Goodfellow等人于2014年提出,通过生成器与判别器的对抗竞争实现数据分布建模。生成器G的目标是从潜在空间z~pz (z)生成与真实数据分布pdata (x)相似的样本G(z),判别器D需区分真实数据x与生成数据G(z)。原始GAN的优化目标如公式(1)所示:
minG maxD V(D, G) = Ex~pdata (x) [log D(x)] + Ez~pz (z) [log(1 ? D(G(z)))]
但原始GAN存在梯度消失与模式崩溃问题。后续研究提出改进方案,如DCGAN引入卷积网络、批归一化(BatchNorm)与条件生成对抗网络(conditional GANs)。本研究使用的GAN以原始遥感图像及对应标签作为条件输入进行图像生成。
GAN在图像生成与图像修复领域表现卓越,但其训练过程对超参数敏感,且在复杂场景中可能产生模糊细节与纹理失真等伪影。尽管如此,GAN建模高频细节与上下文关系的能力使其非常适合在噪声条件下恢复几何一致的道路网络。
2.2 The structural characteristics and development of U-net network
U-Net由Ronneberger等人于2015年提出,最初应用于医学图像分割任务。其独特的编码器-解码器架构与跳跃连接使其成为像素级预测任务的主流框架。经典结构包含三部分:编码器通过分层卷积与下采样提取多尺度特征;解码器通过转置卷积或上采样恢复空间分辨率,并通过跳跃连接融合对应编码层特征图以缓解梯度消失;这些连接整合浅层与深层信息,显著提升像素级定位精度。
U-Net在医学图像分割与遥感图像处理中表现强劲,但其参数量大可能导致高计算成本,且低对比度目标的边缘定位仍具挑战。尤其单独使用U-Net时,在严重遮挡或复杂背景噪声下难以保持道路连通性。将U-Net与对抗训练及几何约束相结合(如UHGAN框架)可通过增强结构连贯性与抑制假阳性来克服这些局限。
2.3 The motivation and method of combining U-net and GAN
U-Net的像素级生成能力与GAN的对抗训练机制相结合,为图像到图像生成任务提供新途径:U-Net作为生成器,跳跃连接传递局部细节至解码器,解决传统CNN生成器(如DCGAN)的细节丢失限制。编码器-解码器结构同时建模全局语义与局部纹理,适用于图像修复与超分辨率任务。使用Pix2Pix框架,U-Net生成器与PatchGAN判别器结合,通过配对数据学习图像映射关系。对于缺乏配对数据场景,引入循环一致性损失(cycle consistency loss)可实现与U-Net结合的跨域图像生成。
3 Introduction to UHGAN model
3.1 Overview
为提升模型道路提取能力并减少不连续点与孤立点导致的精度下降,本研究设计了两阶段联合训练框架。UHGAN的创新性在于将有可微分霍夫变换损失结构化整合至双阶段生成对抗框架中,明确针对农田道路提取的几何与拓扑挑战。与PLGAN和Pix2Pix仅在后处理或作为不可微分正则化器使用几何先验不同,UHGAN将可微分霍夫变换损失直接融入对抗训练过程,使模型在对抗训练中直接学习全局一致的道路结构。此外,提出的两阶段细化策略功能专门化:第一阶段在强结构约束下恢复几何合理的道路布局,第二阶段作为连通性增强修复网络,纯在重建损失下训练以消除断裂与噪声而不损害语义一致性。这种结构生成与拓扑细化的目标划分——由专门构建的混合损失系统指导——在农村道路提取任务中尚未建立,代表了一种新颖的架构范式,有效平衡像素精度、几何规则性与连通完整性。
首先,采用U-Net网络作为Stage 1生成器进行初步训练。原始遥感图像及其对应标签作为输入产生初始预测。随后,将原始标签与Stage 1预测结合作为新输入,通过第二个U-Net生成器输出最终预测。阶段训练每轮联合进行,梯度仅在各阶段内部流动(Stage 1通过对抗+几何损失;Stage 2通过L1损失),Stage 1输出被分离。
在Stage 1 GAN训练中,实现基于U-Net的生成器并纳入霍夫变换损失、像素精度损失与对抗损失。这种多目标优化方案同时处理道路提取的多个方面,产生更接近真实道路视觉特征的结果。但GAN限制阻止完全检测与重建缺失或孤立点。因此,引入第二U-Net层以教导模型既确定道路结构又移除孤立点。
3.2 Multi level loss function combining Hough transform characteristics
霍夫变换是经典特征检测方法,由Paul Hough于1962年提出,后经Duda和Hart(1972)完善至现代形式。它有效检测图像中的参数化形状,尤其是直线、圆和椭圆。在道路提取任务中,霍夫变换尤其有价值,因为道路网络通常呈现具有明显线性特征的结构。该技术通过参数映射将图像空间点变换至参数空间。对于直线检测,霍夫变换采用极坐标表示(公式2):
ρ = x · cos(θ) + y · sin(θ)
其中ρ代表坐标原点到直线的垂直距离,θ代表垂线与x轴间的角度。这样,图像空间中的每个点(x, y)被映射至霍夫参数空间中的正弦曲线。共线点在参数空间中的曲线将在同一点(ρ, θ)相交,对应图像中的一条直线。
本研究提出基于可微分霍夫变换的损失函数以增强深度学习模型对道路线性特征的提取能力。传统霍夫变换作为经典直线检测算法,广泛用于计算机视觉与深度学习,但其离散投票机制本质不可微分,与基于梯度的优化框架不兼容,需适配。
为将霍夫变换的几何先验整合至端到端深度学习框架,解决经典投票过程中不可微分的核心挑战,实施细节如下:
3.2.1 Forward pass: standard Hough transform
给定预测概率图P ∈ [0, 1](H×W) 与二值真实掩模G ∈ {0,1}(H×W) ,首先通过前向计算获得二值预测掩模M(公式3):
每个活跃像素(i, j)(其中Mi,j = 1)被映射至霍夫参数空间。对于直线检测,使用法线表示(公式4):
ρ = i · cos(θ) + j · sin(θ)
离散化参数空间:角度θ被划分为Nθ 区间(如0°至180°的180个区间),半径ρ被划分为Nρ 区间,分辨率Δρ(如1像素),直至最大值ρmax = √(H2 + W2 )/2。
通过投票构建累加器矩阵Accum ∈ RNθ ×Nρ 。对每个活跃像素(i, j)与每个离散角度θk ,计算对应ρ值,确定其区间索引l,并递增累加器(公式5):
Accum[k, l] = Accum[k, l] + 1
此过程对预测掩模M与真实掩模G均执行,得到Accumpred 与Accumtarget 。
霍夫损失Lhough 随后计算为两个累加器矩阵间的L1范数差异,批量平均(公式6):
Lhough = (1/(B·Nθ ·Nρ )) ∑b=1 B ∑k=1 Nθ ∑l=1 Nρ |Accumpred (b) [k,l] - Accumtarget (b) [k,l]|
3.2.2 Backward pass: gradient approximation via STE
可微分性的关键步骤在于反向传播。损失Lhough 对预测概率P的梯度必须计算。不可微分操作是二值化M = I[P>0.5] 。
使用直通估计器(STE)近似梯度。STE为阈值函数定义代理梯度。具体地,在反向传播中将阈值函数视为恒等函数(公式7):
梯度?L/?M可通过将霍夫变换视为线性投票操作推导。应用链式法则(公式8):
?L/?Mi,j = ∑k=1 Nθ ∑l=1 Nρ (?L/?Accum[k,l]) · (?Accum[k,l]/?Mi,j )
其中?L/?Accum[k,l]仅是L1损失差异(Accumpred [k,l] - Accumtarget [k,l])的符号,而?Accum[k,l]/?Mi,j 在像素(i,j)对区间(k,l)投票时为1,否则为0。实践中,此梯度通过反向霍夫变换高效计算:梯度?L/?Accum被散射回图像坐标(i,j),沿前向投票使用的相同直线。
3.2.3 Computational overhead analysis
霍夫损失的引入增加显著但可管理的计算开销。霍夫变换的复杂度为O(Nactive ·Nθ ),其中Nactive 为活跃像素数。对于典型1024×1024图像与Nθ =180,霍夫损失的前向与反向传播相比仅使用像素损失基线增加约20%每轮训练时间。鉴于几何精度显著提升与道路不连续性减少,此成本可接受。
3.2.4 Comparative cost vs. pixel-level losses
与像素级损失(如L1、L2)在原生图像分辨率(H×W)操作不同,霍夫损失在 drastically 降采样的参数空间(Nθ ×Nρ )操作。例如,H=W=1024且Nθ =180,Nρ ≈725,霍夫空间比图像空间小8倍以上,使霍夫损失自身内存占用可忽略。主要成本是投票过程,高度可并行。因此,霍夫损失比许多图像生成任务中使用的感知或风格损失计算更廉价,同时提供像素损失固有缺乏的强全局几何约束。
与像素级损失(如L1损失和最小二乘损失)不同,霍夫变换损失在参数空间操作,使聚焦具线性结构,对道路样特征有特别敏感性,有效指导模型学习几何模式。同时,提供全局视角,考虑局部像素精度与整体线性布局正确性。通过参数空间比较,模型生成更连续与完整的线性结构。
表1比较霍夫变换损失与传统损失在道路提取中的优势。
在模型中,霍夫变换损失与其他损失函数结合,利用不同损失函数的互补特性。对抗损失使生成道路显得真实,作为判别器网络中霍夫变换的隐式表示。此损失通过对抗学习机制捕捉道路的几何特征。判别器网络在学习过程中自然发展对线性特征的敏感性,与霍夫变换的直线检测原理高度一致。具体地,当区分真实道路与生成道路时,判别器自动学习识别道路的典型几何模式,如直线、平行线与规则交叉口,这些正是霍夫变换关注的特性。
图2展示可微分霍夫变换损失的示意图。输入特征被投影至霍夫参数空间,其中为真实掩模与预测掩模计算投票累加矩阵。这些矩阵间的L1范数差异形成霍夫损失,在训练中强制执行线性与曲线结构一致性。
3.3 Stage 1
模型通过双神经网络定义增强学习能力。在Stage 1,采用标准U-Net生成器对抗其判别器训练,如图3所示。U-Net架构改进FCN(全卷积网络),最初应用于生物与医学图像分割。它高效利用低层图像特征,以有限训练数据实现准确、快速目标提取。
生成器采用经典U-Net架构,包含对称编码器与解码器组件:
? 编码器部分:包含5个编码块,每个有两层3×3卷积层、批归一化与ReLU激活,后接最大池化下采样。处理输入3通道卫星图像,编码器逐步提取特征同时减少空间维度,通道深度依次增加至64、128、256、512与1024。
? 解码器部分:包含4个解码块,每个执行上采样(通过转置卷积或双线性插值)后接两层3×3卷积层。解码期间,跳跃连接拼接同层编码器特征以保留高分辨率空间信息。通道深度依次减少至512、256、128与64。
? 输出层:通过1×1卷积与Sigmoid激活产生单通道二值道路掩模。
U-Net中的跳跃连接直接传递编码器的高分辨率特征至解码器,有效缓解深度网络中的信息丢失并保留道路边界精度。判别器采用PatchGAN架构,对输入图像执行块级真实性评估:
? 判别器接收卫星图像与对应道路掩模(真实或生成)作为输入,初始沿通道维度拼接。
? 网络包含5个卷积层,通道数分别为64、128、256与512。最终输出二维特征图,代表每个块的真实性分数。
? Sigmoid激活函数将这些分数映射至0–1范围,指示判别器对每个块真实性的置信度。
PatchGAN的设计概念将图像分割为多个重叠块进行判别,而非为整幅图像分配单一真假分数。此局部判别机制使生成器更有效聚焦局部道路细节与纹理,从而提升道路边界精度。
3.4 Stage 2
受DDU-Net启发,第二阶段专注于修复Stage 1后仍存在的断裂与抑制孤立噪声。与第一阶段GAN生成器不同,此模块为简化U-Net,接收Stage 1的初步单通道道路掩模作为输入,输出细化掩模相同尺寸。它不引入新图像级特征,而是作为二级修复器,专注于边缘细化、间隙填充与改进道路连通性。
为解耦两阶段,Stage 1的输出从计算图分离并直接馈入Stage 2,确保稳定优化无梯度干扰。训练仅使用监督L1损失对抗真实掩模,故意排除对抗目标以避免不必要伪影。在此级联设计中,Stage 1强调带几何约束的粗分割,而Stage 2通过细化细节与修复局部结构补充它。共同,它们形成双级优化框架,显著提升整体道路连续性与完整性。
4 Data and training
4.1 Data source and preprocessing
由于当前大多数遥感数据集针对城市设计,农村道路稀缺,需要专门数据集WHU RuR+进行模型训练。WHU RuR+是大规模高分辨率农村道路提取遥感数据集,包含27770对1024×1024卫星图像,分辨率0.3m,对应道路标注,覆盖中国中部2620.71km2农村区域。对WHU RuR+上最先进基于深度学习的道路提取方法性能进行全面分析。实验结果表明WHU RuR+对大规模农村道路提取提出显著挑战。此外,数据集满足农村道路建设应用需求,展现巨大应用潜力。图4展示数据集图像预览。
为满足高标准农田道路提取的特定要求与计算约束,对WHU RuR+数据集应用针对性数据选择策略。尽管数据集大规模(总共27770图像),但大部分图像包含无关物体如房屋、建筑群与城市道路,如图5所示,这些非农田环境特征。一些图像还遭受严重遮挡或非道路干扰,使其不适合代表“高标准农田”场景中的道路形态与背景特征。因此,未使用整个数据集,而是手动选择120幅具典型农田道路特征、最小遮挡与高标签质量的图像进行训练,另80幅图像用于测试。
? 任务特异性:高标准农田中道路呈现独特几何结构与背景特征。所选子集更代表此应用场景。
? 计算效率:双阶段GAN结合霍夫变换损失涉及高计算复杂度。有限计算资源(如单RTX 4090 GPU)下大规模训练不切实际。
? 噪声控制:通过排除具显著非农田噪声样本,模型可更有效聚焦目标特征,从而在真实农田环境中改进泛化能力。
为缓解网络训练中数据不足导致的过拟合,应用一系列增强方法:RandomResizedCrop每轮迭代100%概率使用,裁剪尺度0.8至1.0模拟多尺度训练;RandomHorizontalFlip与RandomVerticalFlip以默认PyTorch概率50%应用改进方向不变性;RandomRotation100%概率在-30至+30度范围内执行;ColorJitter100%概率应用,调整亮度、对比度与饱和度±20%,色调偏移0.1弧度,使用双线性插值保留颜色一致性。最后,使用预计算通道wise均值与标准差进行归一化。虽所选子集相对小,但通过全面数据增强技术——包括随机裁剪、旋转与颜色增强——有效增加训练样本多样性,缓解过拟合风险。实验结果表明模型在测试集上仍实现竞争性能,指示所选数据质量与代表性在一定程度上补偿有限数量。尽管如此,承认方法在大规模高复杂环境下的泛化能力需进一步改进。未来工作将涉及合并跨区域数据与引入域适应方法以增强模型鲁棒性。已开源特定代码与数据集:https://github.com/badao162/UHGAN 。
虽排除具严重非农田结构(如建筑群)图像以建立典型农田道路提取基线,但承认此限制模型在更一般农村场景中的鲁棒性评估。初步分析表明在此类场景中性能下降主因密集建筑常引入严重遮挡、阴影与复杂交叉口,破坏道路结构连续性,挑战模型推断全局连通性的能力。未来工作将明确测试UHGAN在包含非农田元素的多样农村场景中的鲁棒性,并探索架构增强以更好处理这些复杂性。
4.2 Parameter setting and training
实验在Python 3.8与PyTorch上实现,使用NVIDIA GeForce RTX 4090 GPU。所有输入卫星图像调整大小至1024×1024像素三通道。使用批量大小1以适应数据高分辨率。
对于Stage 1 GAN,生成器使用Adam优化器训练(学习率=0.0013,betas=(0.5, 0.999)),而判别器使用较小学习率0.0003。对于Stage 2细化U-Net,生成器使用Adam优化,学习率0.00013。为稳定训练,对所有优化器应用余弦退火学习率调度器(Tmax =120轮,ηmin =0)。损失函数包含:基于二元交叉熵(BCE)的对抗损失;分割损失;霍夫变换损失;几何一致性损失。训练过程持续120轮,损失平稳时早停。数据加载由PyTorch DataLoader处理,使用 shuffled 小批量。
为保持道路线性与方向一致性,霍夫变换与对抗及分割损失结合构成模型第一 stage损失函数的一部分。预测与真实掩模被变换至霍夫参数空间,其中计算它们的L1距离。此方法增强道路直线特征与方向连贯性的保留,使模型聚焦道路几何而非纹理细节。此外,几何一致性损失改进对几何变换的不变性,提升道路提取鲁棒性。模型应用90°旋转至输入图像,通过相同生成器处理,然后逆变换输出。最小化原始与逆变换结果间的差异确保跨方向一致道路提取。霍夫变换损失公式遵循(公式9):
Lhough = (1/(B·Θ·R)) ∑b=1 B ∑θ=1 Θ ∑r=1 R |Accumpred (b) (θ,r) - Accumtarget (b) (θ,r)|
其中B为批量大小,Θ为角度区间数,R为最大径向距离。
Lgeo = (1/(C·H·W)) ∑c=1 C ∑i=1 H ∑j=1 W |G(x)(c,i,j) - T-1 (G(T(x))(c,i,j) )|
其中G为生成器网络,T为几何变换,T-1 为逆变换。
Ltotal = λ1 Ladv + λ2 Lseg + λ3 Lhough + λ4 Lgeo
其中有加权系数λn (n=1,2,3,4)。由于训练时间限制,采用小规模网格搜索确定最优超参数配置。实验结果显示几何一致性损失权重过大实际导致模型性能下降。深入分析归因于不同损失函数指导的优化目标根本差异。
几何一致性损失设计增强模型对几何变换(如旋转与缩放)的鲁棒性,其核心约束为局部像素在变换前后应保持一致。但道路生成任务的主要目标是产生结构连贯与连接良好的道路网络,更强调全局拓扑正确性而非严格像素级对齐。过大的几何一致性损失强制生成器过度优化局部像素对齐——例如,在遮挡或阴影区域强制执行不可靠对应。此优化方向与高级语义目标偏离,导致模型生成过于保守的结果,缺乏推断合理全局道路结构的能力,从而损害连通性与实用价值。
相反,霍夫损失明确纳入道路几何先验知识。通过鼓励模型生成与直线和曲线特征对齐的响应,它直接约束输出的结构形式以更好匹配真实道路的方向与连通模式。对抗损失指导生成器朝向视觉合理的全局结构,而分割损失提供像素级监督。在此框架内,几何一致性损失应作为辅助组件,其权重保持相对小以避免约束模型的高级语义生成能力。
因此,设置λ4 为小值(0.001),保留一定几何平滑性而不破坏模型捕捉全局拓扑结构的能力。剩余损失权重——包括对抗损失λ1 、分割损失λ2 与霍夫损失λ3 ——通过网格搜索在{0.1, 0.5, 1}范围内调整。此过程总共产生27种实验配置,如表2所示。最终选择λ1 , λ2 , λ3 为{0.1, 0.1, 1}。
模型第二部分专注于细节修复,采用像素级重建损失指导第一阶段输出的缺陷校正。此阶段直接比较细化输出与真实掩模间的像素级差异。使用L1范数替代L2范数减少异常值影响,更好保留边缘特征,并优先修复断裂道路段——优化连通性与平滑度。此阶段故意排除对抗损失以避免引入不必要高频伪影。
4.3 Evaluation metrics
为定量评估模型性能,本文采用精确度(Precision)、召回率(Recall)与F1分数(F1-Score)作为核心评估指标。它们定义如下:精确度衡量预测精确性,计算为真正例占预测正例的比例(TP/(TP+FP)),防止假警报;召回率评估识别完整性,通过实际正例被正确识别的比例(TP/(TP+FN)),最小化漏检;F1分数——精确度与召回率的调和均值——计算为2×(Precision×Recall)/(Precision+Recall)。范围0至1,此平衡指标提供全面性能指示,特别适用于不平衡数据分布。
这些指标展现互补特性:过高精确度可能降低召回率(过度保守),而高召回率可能损害精确度(过度激进)。F1分数优化它们间的平衡,仅当精确度与召回率均强时实现高值。为基准模型优越性,进行系统对比 against established models including U-Net, ResNet, UNet++, SegFormer
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号