共形验证:一种结合不确定性量化与人工干预的模型验证策略
《Machine Learning with Applications》:Conformal validation: A deferral policy using uncertainty quantification with a human-in-the-loop for model validation
【字体:
大
中
小
】
时间:2025年09月19日
来源:Machine Learning with Applications 4.9
编辑推荐:
智能生成传统建筑风格面临结构完整性和风格一致性挑战。本文提出结构感知稳定扩散(SSD)模型,通过结构感知特征注入模块、双路径文本增强策略和渐进式注入策略,提升模型对建筑几何特征和文化元素的理解。实验表明,SSD在FID(91.34)和CLIP得分(0.293)上显著优于Stable Diffusion、SDXL等基线方法,且参数量减少至8.89M,训练时间14.2小时,推理时间仅3.4秒,实现高效高质量的生成。
传统建筑装饰风格的智能化生成在结构完整性和风格一致性方面面临重大挑战。现有的方法虽然可以生成大量逼真的图像,但缺乏对传统建筑装饰设计中结构元素的深入理解。本文提出了一种结构感知的Stable Diffusion(SSD)模型,通过三个关键创新来增强模型对建筑特征的理解能力。首先,我们设计了一种结构感知特征注入模块,它在U-Net上采样阶段自适应地融合提取的建筑结构信息与原始特征,从而提升模型对几何结构的理解能力。其次,我们引入了一种双路径文本增强策略,将结构描述与原始描述相结合,为生成过程提供更丰富的文本指导信号。最后,我们设计了一种渐进式注入策略,通过余弦调度动态控制结构信息的注入强度,最终实现结构知识的有效内化。实验结果表明,与现有方法相比,我们的模型在生成的传统建筑装饰的多样性和结构合理性方面都有显著提升,从而为传统建筑装饰设计提供了一种有效的技术途径。
传统建筑装饰不仅是文化遗产的重要载体,还体现了历史工艺的精髓,蕴含丰富的艺术价值和文化内涵。随着现代建筑设计需求的快速增长,传统装饰元素设计在效率、成本和传承方面面临多重挑战。尽管数字设计工具在建筑领域得到了广泛应用,但仍然难以准确把握传统建筑装饰创作中的文化特征和艺术原则。特别是在建筑行业数字化转型的背景下,如何利用新技术来继承和创新传统建筑装饰设计已成为亟需解决的关键问题。
近年来,以Stable Diffusion为代表的生成性人工智能技术在创意设计领域取得了突破性进展。这些模型通过深度学习从大规模数据中提取特征,可以根据文本描述生成高质量的图像。例如,Rombach等人提出的潜在扩散模型在高分辨率图像合成方面表现出色,能够生成细节丰富的图像。然而,现有的方法在建筑装饰设计领域仍存在显著局限。首先,标准的生成模型往往忽视建筑装饰中严格的几何规则和结构约束,导致生成结果在结构完整性方面存在缺陷。其次,现有模型难以准确理解和保持传统文化元素的真实性,常常缺乏对文化特征的精确表达。此外,由于模型适应性有限和计算资源的制约,AI生成的设计与现有建筑工作流程的整合仍然面临诸多障碍。这些问题严重限制了生成模型在传统建筑装饰设计中的实际应用。
为了应对建筑装饰设计中结构完整性丧失和文化表达不准确的问题,我们提出了一种结合结构感知与文本增强的生成框架。首先,我们设计了一种结构感知特征注入模块,该模块利用计算机图形学方法提取建筑的几何特征,并在U-Net上采样阶段进行自适应融合,以增强模型对结构信息的理解能力。其次,我们引入了一种双路径文本增强策略,将结构描述与原始文本相结合,使模型能够在生成过程中捕捉整体风格和精确的局部细节,从而提升文化特征的表达能力。最后,我们采用了渐进式注入策略,通过余弦调度动态控制结构信息的注入强度,使模型在训练过程中逐步内化结构知识,避免在推理过程中依赖额外输入。这种方法不仅提高了生成质量,还增强了模型的泛化能力和应用价值。
实验结果表明,与现有方法相比,我们的模型在生成样本的结构一致性方面有了显著提升,并增强了传统建筑装饰的多样化生成能力。本研究的主要贡献包括:
1. 提出了一种结构感知注入模块(SAI),有效提升了模型对古典建筑装饰的理解能力。
2. 设计了一种双路径文本增强机制(DTA),在考虑建筑几何特征和风格表达的同时,实现了更精确的生成控制。
3. 开发了一种创新的渐进式注入策略(PIS),实现了结构知识的内化,并提高了模型在实际应用中的可用性。
4. 通过多种定量和可视化实验验证了模型的有效性,为传统建筑装饰设计提供了一种新的技术方法。
在建筑图像生成任务中,我们的目标是在训练阶段通过输入图像I和文本描述T学习一个条件扩散去噪生成过程,使得模型能够在生成阶段仅基于文本描述T生成高质量且具有结构感知的建筑图像M。为此,我们提出了一种基于Stable Diffusion的结构感知Stable Diffusion(SSD)方法,该方法在训练过程中引入几何结构信息,以指导扩散阶段的噪声分布条件采样。在去噪阶段,它逐步内化建筑的结构特征和风格表达,从而增强生成阶段对复杂建筑图像的建模能力,整个过程如图1所示。
具体而言,我们的方法包括三个关键组成部分:结构感知注入模块(SAI)、双路径文本增强方法(DTA)和渐进式注入策略(PIS)。输入图像I首先通过编码器处理,提取其多尺度特征表示,同时通过结构提取器生成结构特征。为了进一步增强特征信息,DTA模块通过加权组合将原始文本描述与结构描述相结合,生成增强的文本表示,指导模型关注整体风格和细节特征。特征表示通过结构感知注入模块(SAI)在解码阶段进行融合,生成增强的特征,这些特征逐步注入到U-Net的上采样路径中。
在每个解码阶段,SAI模块通过融合不同尺度的特征,自适应地增强模型的几何理解能力。在渐进式注入策略(PIS)的调控下,结构信息的影响通过余弦调度逐步增强,使模型在训练过程中逐步内化结构知识,提高生成质量,并在推理过程中减少对外部信息的依赖。最终,解码器利用增强的特征和潜在空间信息Z生成高质量的预测图像M,实现具有结构感知和风格一致性的建筑图像生成。
为了增强模型对古典建筑装饰设计元素的理解能力,我们提出了一种结构特征注入机制。为实现这一过程,我们首先引入一个专门的结构提取器,该提取器利用计算机图形学技术从输入图像中提取结构信息。结构提取过程主要包括以下步骤:首先,应用迭代自适应滤波以减少噪声,同时保留建筑边缘特征。具体来说,我们采用以下滤波序列:通过高斯滤波和双边滤波的组合,进行特征提取。随后,我们采用一种改进的边缘检测算法,该算法特别优化用于传统装饰的结构特征。最后,通过我们提出的结构感知注入(SAI)模块,将提取的结构感知特征进一步整合到U-Net的上采样阶段,以增强模型对结构特征的感知能力。
结构感知注入模块的核心操作可以通过以下公式表达:通过自适应融合不同尺度的特征,模型能够更准确地捕捉建筑结构特征。这种多尺度特征聚合策略确保了模型在生成过程中对结构信息的有效利用,同时保持了丰富的特征表达。
为了进一步增强结构特征的表达能力和在U-Net上采样阶段的高效交互,我们在SAI模块中引入了一种多尺度特征聚合策略。通过这种策略,模型能够在不同尺度上有效地融合结构特征和原始特征,从而提升对传统建筑装饰的感知能力。
在传统建筑装饰生成任务中,单一图像描述往往难以全面表达结构特征和设计细节。为了进一步提升模型对传统建筑装饰风格的理解,我们提出了一种双路径文本风格增强机制。该机制引入了额外的结构感知文本描述,并将其与原始描述有机融合,为微调过程提供更详细和全面的文本指导,促进模型对建筑装饰风格的理解。
基于3.1中获得的结构感知图像,我们首先提取了针对传统装饰的详细描述信息。这些描述信息关注如花卉图案、几何形状、云纹、卷轴图案等关键结构元素。与原始描述相比,结构描述更好地捕捉了传统建筑的几何特征和装饰图案。为了有效整合这两种互补的描述信息,我们设计了一种自适应融合机制。该机制通过动态调整融合权重α,实现了对结构描述和原始描述重要性的灵活调整,同时确保融合后的文本表示能够有效引导生成过程。
通过这种文本增强机制,我们的模型能够同时关注装饰图案的整体风格和局部细节,从而生成更加真实和和谐的传统装饰图案图像。该机制与结构感知特征注入模块协同工作,共同增强模型对传统装饰风格的理解和表达能力。这种多层次的设计不仅确保了生成结果的质量,还提高了模型在实际应用中的可控性和实用性。
在本节中,我们通过定量评估和可视化实验全面分析了所提出的方法,以验证其有效性。为了验证结构感知Stable Diffusion模型(SSD)的有效性,我们进行了消融研究,系统评估了三个关键模块对生成质量的影响:结构感知注入(SAI)、双路径文本增强(DTA)和渐进式注入策略(PIS)。实验结果如表1所示,生成质量通过FID(Fréchet Inception Distance)和CLIP Score进行评估,其中较低的FID值和较高的CLIP Score值表示更好的生成质量。
基线模型直接使用预训练的Stable Diffusion模型,没有引入任何额外模块,其平均FID值为107.82,CLIP Score为0.247,表明生成的传统建筑图像在结构完整性和风格表达方面存在问题。为了验证我们提出的结构提取器的有效性,我们将其与广泛使用的Canny边缘检测器进行了比较。当在SAI模块中使用基于Canny的结构特征时,FID值降至99.42,CLIP Score提升至0.261。然而,我们提出的结构提取器,结合双边滤波和基于梯度的边缘检测,专门优化用于建筑特征,实现了更优的性能,FID值为97.35,CLIP Score为0.265。这种改进表明,我们的建筑专用结构提取器在捕捉传统建筑的几何特征和装饰图案方面优于通用的边缘检测方法。
在此基础上,添加DTA策略后,FID值进一步降低至95.78,CLIP Score提升至0.278,这表明结合建筑风格描述和局部结构描述的双路径文本指导有助于捕捉传统建筑风格特征和细节,从而提高视觉质量和文本-图像对齐。这种提升符合多通道信息融合方法的研究,验证了文本增强的有效性。随着PIS的引入,FID值降至91.34,同时实现了最高的CLIP Score为0.293。通过余弦调度动态控制结构信息注入的强度,模型在训练过程中逐步内化建筑结构知识,同时在推理阶段减少对结构输入的依赖。
因此,表1中的消融研究结果充分验证了所提出的SSD模型及其核心模块的有效性。通过优化结构表达和风格一致性,SSD模型显著提升了生成图像的质量。此外,跨风格实验表明,该方法在不同建筑风格生成任务中表现出良好的泛化能力,为传统建筑设计提供了新的技术途径和理论支持。
为了更直观地展示所提出的SSD方法在生成传统建筑装饰图像方面的优势,我们将其与现有SOTA模型SD和SDXL进行了比较,特别关注传统建筑的屋檐和屋顶这一具有挑战性的主题。如图2所示,虽然SD生成的图像总体风格符合传统建筑装饰的特征,但其细节渲染相对粗糙,部分图像显示出模糊的纹理和不完整的结构。SDXL在生成图像的细节表示方面有所改进,但仍然存在几何结构失真和文化元素表达不足的问题。
相比之下,我们的SSD方法生成的图像不仅显示出更清晰的纹理细节,还在再现传统建筑结构特征方面表现出更高的保真度,整体视觉冲击力和文化内涵更强。实验结果表明,通过使用高质量数据集进行微调,SSD模型能够生成包含丰富细节和多样化特征的图像。同时,创新的结构感知特征注入模块有效增强了几何结构的再现能力,而双路径文本增强策略确保了生成结果的文化表达准确性。
得益于这些特性,所提出的SSD方法在图像生成质量上显著优于现有SOTA方法,从而为传统建筑装饰设计提供了一种高质量且高效的生成解决方案。
为了探讨不同超参数融合权重α对生成质量的影响,我们分析了α在不同值下的效果。融合权重α控制文本增强过程中原始描述与结构描述的重要性。我们调整α的值从0.0到0.9,步长为0.1,并记录不同α值下的FID指标变化以评估生成结果的质量。实验结果如图3所示。
如图3所示,当α=0.0时,模型完全依赖原始描述,未启用我们提出的模块(包括结构感知特征注入模块、双路径文本增强策略和渐进式注入策略)。此时,缺乏结构特征支持,生成结果表现出较差的细节和一致性,导致FID值为107.82。随着α的增加,结构描述和双路径文本增强策略开始被引入,模型生成的图案在局部细节和整体几何特征方面表现出更高的一致性。这种改进使得生成结果在局部细节和整体几何特征方面显著提升,FID值迅速下降,表明模块在生成质量方面的有效性。
然而,当α>0.5时,过度依赖结构描述导致生成结果的风格多样性下降,FID值再次上升。实验表明,当α=0.5时,模型在原始描述和结构描述之间达到了最佳平衡,实现了最低的FID值,表明生成结果在风格一致性和细节表达方面达到了最佳性能。
为了验证我们方法的计算效率,我们分析了不同方法在特征分布模式上的差异,并将其计算成本与基线方法进行了比较。如表3所示,我们的SSD方法仅需要88.9M参数,14.2小时训练时间,和8.7GB内存,而全微调方法需要860M参数,46.3小时,和23.1GB内存。SAI模块在LoRA基线之上引入了2.9M额外参数,从而创造了更集中的特征簇,提高了风格-内容的分离能力。DTA仅增加了0.4M参数,以增强细节的保留。推理时间仅从3.2秒增加到3.4秒,表明我们的方法在显著提升质量的同时,计算成本极低,具有很高的实际应用价值。
为了更好地理解生成样本的多样性和质量,我们对模型产生的特征分布进行了可视化分析。如图5所示,我们从SD和我们的SSD方法中随机采样了1,000个生成样本,使用预训练的特征提取器提取它们的高层语义特征,并利用t-SNE降维将高维特征映射到二维空间进行可视化。
为了定量评估样本的多样性,我们计算了每种方法中所有生成样本对之间的欧几里得距离的平均值。可视化结果清楚地展示了不同方法在特征空间分布上的显著差异:原始SD模型生成的样本表现出更紧密的聚类,平均类内距离为0.47,这表明存在模式坍塌问题,生成样本的多样性和创造力受到一定限制。而我们的SSD模型表现出更理想的分布特征,平均类内距离显著提高至0.78。SSD生成的样本在特征空间中表现出更分散和均匀的分布,表明模型在生成更多样化的建筑设计方面具有更强的能力。类内距离的增加验证了SSD在更广的特征空间中探索的能力,生成的样本在建筑风格和结构元素方面具有更大的变异性。这种样本多样性的显著提升主要归功于结构感知特征注入模块和双路径文本增强策略的协同作用,使模型能够在保持建筑结构完整性的同时,探索更大的设计空间。较高的类内距离表明SSD成功克服了标准扩散模型在特定领域生成任务中的模式坍塌限制,提供了定量和视觉上的证据,证明了生成多样性的增强。
在本节中,我们通过定量评估和可视化实验全面分析了所提出的方法,以验证其有效性。为了验证结构感知Stable Diffusion模型(SSD)的有效性,我们进行了消融研究,系统评估了三个关键模块对生成质量的影响:结构感知注入(SAI)、双路径文本增强(DTA)和渐进式注入策略(PIS)。实验结果如表1所示,生成质量通过FID(Fréchet Inception Distance)和CLIP Score进行评估,其中较低的FID值和较高的CLIP Score值表示更好的生成质量。
基线模型直接使用预训练的Stable Diffusion模型,没有引入任何额外模块,其平均FID值为107.82,CLIP Score为0.247,表明生成的传统建筑图像在结构完整性和风格表达方面存在问题。为了验证我们提出的结构提取器的有效性,我们将其与广泛使用的Canny边缘检测器进行了比较。当在SAI模块中使用基于Canny的结构特征时,FID值降至99.42,CLIP Score提升至0.261。然而,我们提出的结构提取器,结合双边滤波和基于梯度的边缘检测,专门优化用于建筑特征,实现了更优的性能,FID值为97.35,CLIP Score为0.265。这种改进表明,我们的建筑专用结构提取器在捕捉传统建筑的几何特征和装饰图案方面优于通用的边缘检测方法。
在此基础上,添加DTA策略后,FID值进一步降低至95.78,CLIP Score提升至0.278,这表明结合建筑风格描述和局部结构描述的双路径文本指导有助于捕捉传统建筑风格特征和细节,从而提高视觉质量和文本-图像对齐。这种提升符合多通道信息融合方法的研究,验证了文本增强的有效性。随着PIS的引入,FID值降至91.34,同时实现了最高的CLIP Score为0.293。通过余弦调度动态控制结构信息注入的强度,模型在训练过程中逐步内化结构知识,同时在推理阶段减少对结构输入的依赖。
因此,表1中的消融研究结果充分验证了所提出的SSD模型及其核心模块的有效性。通过优化结构表达和风格一致性,SSD模型显著提升了生成图像的质量。此外,跨风格实验表明,该方法在不同建筑风格生成任务中表现出良好的泛化能力,为传统建筑设计提供了新的技术途径和理论支持。
为了更直观地展示所提出的SSD方法在生成传统建筑装饰图像方面的优势,我们将其与现有SOTA模型SD和SDXL进行了比较,特别关注传统建筑的屋檐和屋顶这一具有挑战性的主题。如图2所示,虽然SD生成的图像总体风格符合传统建筑装饰的特征,但其细节渲染相对粗糙,部分图像显示出模糊的纹理和不完整的结构。SDXL在生成图像的细节表示方面有所改进,但仍然存在几何结构失真和文化元素表达不足的问题。
相比之下,我们的SSD方法生成的图像不仅显示出更清晰的纹理细节,还在再现传统建筑结构特征方面表现出更高的保真度,整体视觉冲击力和文化内涵更强。实验结果表明,通过使用高质量数据集进行微调,SSD模型能够生成包含丰富细节和多样化特征的图像。同时,创新的结构感知特征注入模块有效增强了几何结构的再现能力,而双路径文本增强策略确保了生成结果的文化表达准确性。
得益于这些特性,所提出的SSD方法在图像生成质量上显著优于现有SOTA方法,从而为传统建筑装饰设计提供了一种高质量且高效的生成解决方案。
为了探讨不同超参数融合权重α对生成质量的影响,我们分析了α在不同值下的效果。融合权重α控制文本增强过程中原始描述与结构描述的重要性。我们调整α的值从0.0到0.9,步长为0.1,并记录不同α值下的FID指标变化以评估生成结果的质量。实验结果如图3所示。
如图3所示,当α=0.0时,模型完全依赖原始描述,未启用我们提出的模块(包括结构感知特征注入模块、双路径文本增强策略和渐进式注入策略)。此时,缺乏结构特征支持,生成结果表现出较差的细节和一致性,导致FID值为107.82。随着α的增加,结构描述和双路径文本增强策略开始被引入,模型生成的图案在局部细节和整体几何特征方面表现出更高的一致性。这种改进使得生成结果在局部细节和整体几何特征方面显著提升,FID值迅速下降,表明模块在生成质量方面的有效性。
然而,当α>0.5时,过度依赖结构描述导致生成结果的风格多样性下降,FID值再次上升。实验表明,当α=0.5时,模型在原始描述和结构描述之间达到了最佳平衡,实现了最低的FID值,表明生成结果在风格一致性和细节表达方面达到了最佳性能。
为了验证我们方法的计算效率,我们分析了不同方法在特征分布模式上的差异,并将其计算成本与基线方法进行了比较。如表3所示,我们的SSD方法仅需要88.9M参数,14.2小时训练时间,和8.7GB内存,而全微调方法需要860M参数,46.3小时,和23.1GB内存。SAI模块在LoRA基线之上引入了2.9M额外参数,从而创造了更集中的特征簇,提高了风格-内容的分离能力。DTA仅增加了0.4M参数,以增强细节的保留。推理时间仅从3.2秒增加到3.4秒,表明我们的方法在显著提升质量的同时,计算成本极低,具有很高的实际应用价值。
为了更好地理解生成样本的多样性和质量,我们对模型产生的特征分布进行了可视化分析。如图5所示,我们从SD和我们的SSD方法中随机采样了1,000个生成样本,使用预训练的特征提取器提取它们的高层语义特征,并利用t-SNE降维将高维特征映射到二维空间进行可视化。
为了定量评估样本的多样性,我们计算了每种方法中所有生成样本对之间的欧几里得距离的平均值。可视化结果清楚地展示了不同方法在特征空间分布上的显著差异:原始SD模型生成的样本表现出更紧密的聚类,平均类内距离为0.47,这表明存在模式坍塌问题,生成样本的多样性和创造力受到一定限制。而我们的SSD模型表现出更理想的分布特征,平均类内距离显著提高至0.78。SSD生成的样本在特征空间中表现出更分散和均匀的分布,表明模型在生成更多样化的建筑设计方面具有更强的能力。类内距离的增加验证了SSD在更广的特征空间中探索的能力,生成的样本在建筑风格和结构元素方面具有更大的变异性。这种样本多样性的显著提升主要归功于结构感知特征注入模块和双路径文本增强策略的协同作用,使模型能够在保持建筑结构完整性的同时,探索更大的设计空间。较高的类内距离表明SSD成功克服了标准扩散模型在特定领域生成任务中的模式坍塌限制,提供了定量和视觉上的证据,证明了生成多样性的增强。
综上所述,本文提出的结构感知扩散模型显著提高了建筑风格生成的质量。结构特征注入机制增强了模型对建筑几何特征的理解能力,双路径文本增强策略提供了更精确的生成指导,而渐进式注入策略实现了结构知识的有效内化。这些设计不仅提升了生成图像的质量,还通过在推理过程中消除对结构输入的依赖,增强了模型的实用性。广泛的定量和可视化实验结果验证了我们所提出方法的有效性,SSD生成的传统建筑装饰图像在完整性和风格一致性方面均有显著提升。尽管我们的当前评估主要集中在传统建筑装饰上,但需要指出的是,我们的实验验证是在单一建筑领域内进行的。该方法在其他建筑风格中的可扩展性仍然是未来研究的一个有前景的方向。虽然该方法在当前领域表现出有效性,但其可扩展性需要在更广泛的背景下进行系统性的实证验证。未来的工作将探索扩展我们的框架到包括现代、哥特式和装饰艺术风格在内的多样化建筑领域,同时进行用户研究以评估主观质量,并开发更高效的结构知识内化机制。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号