端到端的、具备语义感知的触觉生成技术

《Intelligent Systems with Applications》:End-to-end semantically aware tactile generation

【字体: 时间:2025年10月31日 来源:Intelligent Systems with Applications 4.3

编辑推荐:

  本文提出一种两阶段深度学习管道,将2D图表转换为可编辑的触觉图形。首先利用U-Net++和梯度惩罚优化灰度触觉生成,其次通过通道分解实现多元素独立编辑。引入对抗感知损失和模糊评估指标,在合成数据集上验证模型,结果显示像素精度达91.26%,Dice系数97.66%,并通过人类评估确认其优于基线方法。

  在现代社会中,视觉信息的传达已经成为日常生活中不可或缺的一部分。然而,对于视觉障碍者来说,传统的视觉信息呈现方式往往无法满足他们的需求。为了弥补这一不足,研究者们提出了多种替代方案,其中触觉图形作为一种重要的辅助工具,被广泛应用于教育、工作和日常生活中。触觉图形通过凸起的表面形式,使得视觉障碍者能够通过触觉感知信息。这一技术的核心在于将二维图像转化为一种可触的表示形式,以便用户能够通过触摸理解图像内容。然而,将复杂的二维图像,如贝塞尔曲线、多边形和柱状图等,转换为有效的触觉图形仍然是一个具有挑战性的任务。

为了应对这一挑战,本文提出了一种新颖的、两阶段的深度学习方法,旨在自动化地将二维图像转换为触觉图形。该方法基于Pix2Pix架构,使用了改进的U-Net++生成器网络,以实现更高质量的图像生成。为了进一步提升触觉图形的感知质量,我们引入了对抗感知损失函数以及梯度惩罚机制。整个转换流程分为两个步骤:首先,将原始图像转换为灰度触觉表示;然后,将灰度图像进一步转换为通道等效形式。这种分阶段的方法有助于更精确地处理图像中的各个元素,并确保最终输出的触觉图形具有良好的可读性和可操作性。

本文所提出的模型在一系列合成数据集上进行了测试,该数据集包含了20,000个源-目标图像对,涵盖了多种二维图像类型。为了评估模型的性能,我们采用了一种模糊化的评估方法,包括像素准确率、Dice系数和Jaccard指数等传统指标的模糊版本。此外,我们还进行了一项人类研究,以评估生成的触觉图形在视觉质量上的表现。研究结果表明,所提出的方法在提升触觉图形生成效率和质量方面表现出了显著的优势,为实现全自动化触觉图形生成提供了新的思路。

在触觉图形生成的过程中,模型的设计需要考虑多种因素,包括图像的结构、元素的分布以及触觉反馈的准确性。传统的触觉图形生成方法通常依赖于人工操作,这不仅耗时费力,还容易受到人为误差的影响。相比之下,本文提出的深度学习方法能够自动完成图像到触觉图形的转换,减少了人工干预的必要性。该方法特别适用于时间敏感的场景,例如教育或研究环境中的快速触觉图形生成需求。此外,该方法还可以与现有的第三方SVG生成工具无缝集成,从而使得用户能够利用已有的设计软件,如Corel Draw、Potrace、Adobe Illustrator和PowerPoint等,进行触觉图形的创建。

触觉图形的生成不仅依赖于图像处理技术,还需要考虑触觉感知的特性。触觉图形通常采用多级灰度编码方案,其中前景信息以黑色表示,背景则为白色。通过引入高度变化,触觉图形能够更有效地传达空间关系。这种高度变化与灰度值之间存在直接的映射关系,其中较暗的灰度值对应更高的凸起。值得注意的是,灰度层级通常被限制为八个,这一设计选择有助于优化触觉可读性,避免信息过载,并确保高度变化的可感知性。

在图像到触觉图形的转换过程中,模型需要具备良好的语义理解能力,以识别图像中的关键元素。这一目标促使我们借鉴了“栅格到向量”的方法,该方法通过直接识别图像中的关键组件,并在向量表示中重建它们,从而提升了图像的语义表达能力。在本文中,我们采用类似的思路,通过深度学习模型识别二维图像中的关键元素,并将其转换为触觉图形的各个通道。这种分阶段的方法不仅提高了模型的准确性,还增强了触觉图形的可编辑性,使得用户能够在不同的触觉通道中进行独立操作。

为了确保模型的训练效果和稳定性,我们引入了对抗感知损失函数和梯度惩罚机制。对抗感知损失函数通过引导生成器模仿真实数据的特征,从而提高生成图像的感知真实性。梯度惩罚机制则通过限制判别器的梯度变化,防止训练过程中出现梯度爆炸或梯度消失的问题。这些机制的结合,使得模型在训练过程中更加稳定,并能够生成高质量的触觉图形。

在实验设置方面,我们采用了一种数据增强策略,以提升模型的泛化能力和对输入变化的适应性。数据增强包括水平翻转、位移、缩放和旋转等操作,这些操作以一定的概率随机应用,以模拟实际数据采集过程中可能出现的不一致。此外,我们还对生成的触觉图形进行了定量和定性评估。定量评估采用模糊化的像素准确率、Dice系数和Jaccard指数,以更精确地衡量生成图形的质量。定性评估则通过一项双盲研究,邀请两名独立用户对生成的触觉图形进行评分,以确保模型在实际应用中的可接受性。

实验结果表明,本文提出的方法在多个方面均优于传统的图像到触觉图形转换方法。具体而言,在二维图像转换任务中,使用U-Net++生成器、对抗感知损失函数和梯度惩罚机制的模型在像素准确率、Dice系数和Jaccard指数上均表现出显著的提升。在柱状图的转换任务中,这些改进同样有效,使得生成的触觉图形在结构和细节上更加精确。此外,我们的方法在实际测试中得到了用户的认可,其生成的触觉图形在视觉质量上优于其他模型。

尽管本文的方法在多个方面表现出色,但仍存在一些局限性。首先,我们的模型依赖于合成数据集,而实际应用中可能需要处理更复杂和多样化的图像类型。因此,未来的研究需要扩展数据集的范围,以涵盖更多真实世界的触觉图形。其次,目前的评估主要依赖于定量指标和定性评分,但缺乏与触觉图形用户和设计师的直接互动。因此,未来的研究可以考虑引入更多来自实际用户的反馈,以进一步优化模型的性能。

总的来说,本文提出了一种全新的深度学习方法,用于将二维图像转换为触觉图形。该方法通过两阶段的转换流程,结合了U-Net++生成器、对抗感知损失函数和梯度惩罚机制,显著提升了触觉图形的质量和可读性。通过合成数据集的训练和测试,以及定量和定性评估的结合,我们验证了该方法的有效性。尽管目前仍存在一些局限性,但本文的研究为未来的触觉图形生成提供了重要的理论和技术基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号