OSTE：利用潜在解耦技术进行的全场景文本编辑

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Vision and Image Understanding》：OSTE: Omni-Scene Text Editing with Latent Decoupling

【字体：大中小】 时间：2026年02月08日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　场景文本编辑中，传统方法难以实现前景文本样式的细粒度调整。本文提出OSTE框架，通过潜在空间解耦实现文本内容和样式的独立编辑。背景补全模块精准修复背景纹理，前景样式编辑模块采用风格编码器、内容编码器和融合生成器三阶段架构，有效分离背景、文本内容与样式特征。创新性采用共享权重策略和"切分文本区域"训练设计，在无配对真实数据场景下避免模型退化，实验表明OSTE能生成高真实感编辑文本并消除原风格阴影残留。

苏同华|杨福祥|范磊|狄东林|王中杰|李松泽|吴向倩|周向

哈尔滨工业大学，中国哈尔滨

摘要

在这项研究中，我们提出了一种名为“全场景文本编辑”（Omni-Scene Text Editing）的任务，该任务在保留原始文本场景的同时，修改源图像的文本内容和文本样式。现有方法往往忽略了前景文本样式属性的细粒度调整，例如旋转角度、颜色和字体类型。为了解决这一挑战，我们提出了一个基于潜在解耦的全场景文本编辑框架（OSTE），该框架在潜在特征空间内操作，以嵌入和细化前景文本样式。OSTE包括两个模块：背景修复模块和前景样式编辑模块，分别处理背景纹理和前景文本，从而实现文本的独立编辑。背景修复模块删除前景文本内容，并恢复具有高保真度的背景纹理。前景样式编辑模块包括一个样式编码器、一个内容编码器和一个融合生成器。样式编码器捕获前景文本的样式特征，而内容编码器提供目标文本在潜在特征空间中的表示，以便进行内容修改。融合生成器结合这些组件的信息，生成最终的渲染文本图像。为了更好地处理真实世界场景，我们开发了共享权重方法和两种模型设计（“剪切文本区域”和AdaIN）用于训练。据我们所知，我们的工作是首次通过潜在特征空间中的深度语义编辑实现前景文本内容和样式的细粒度操作。

引言

场景文本编辑（Scene Text Editing，STE）（Wu等人，2019年）旨在修改自然场景图像中的文本内容，同时保持视觉一致性。作为计算机视觉和计算机图形学中的一个基本任务（He等人，2016年；Simonyan和Zisserman，2015年；Goodfellow等人，2014年；Nichol和Dhariwal，2021年；Fan等人，2025年；Zhu等人，2025年；Sun等人，2025年；Zang等人，2025年；Di等人，2025年），STE由于其在广告设计、内容创作和信息可视化等领域的广泛应用而受到了广泛关注（Wu等人，2019年；Yang等人，2020年；Roy等人，2020年；Yu等人，2021年；Santoso等人，2024年；Zhang等人，2024年）。具体来说，它可以用于图像文本校正（Shimoda等人，2024年）、海报文本修改（Chen等人，2024a）和图像文本翻译（Vaidya等人，2024年）等任务。

以往的研究（Wu等人，2019年；Qu等人，2023a年；Krishnan等人，2023年；Ji等人，2024年；Yang等人，2025年）采用了GANs和扩散模型来自动化STE。例如，SRNet（Wu等人，2019年）首次提出了一种基于GAN的方法，用于在合成配对数据上训练文本编辑。TextStyleBrush（Krishnan等人，2023年）通过自我监督训练将这种方法扩展到真实世界场景数据，取得了令人印象深刻的编辑效果。DIFFSTE（Ji等人，2024年）利用扩散模型进行场景文本编辑，并引入了一个字符编码器以提高文本的可识别性。

这些研究主要集中在修改文本内容的同时保持其原始外观。然而，实际设计任务通常需要更全面的编辑能力，包括调整字体样式、文本角度和文本颜色，如图1所示。直接将这些方法应用于这些任务会遇到几个挑战：

•
文本旋转引起的失真：旋转文本内容通常会导致字符形状的意外变形，从而产生扭曲或无法阅读的文本。
•
字体样式干扰：更改字体样式（例如从“msyh”更改为“stkait”）经常会破坏背景，引入视觉伪影或混合问题。
•
前景-背景纠缠：编辑前景文本内容可能会无意中改变其原始样式，产生不一致或无法阅读的文本外观。

这些挑战的出现是因为现有方法缺乏对场景文本图像组件的适当解耦。它们依赖于模型驱动的设计来替换文本，虽然能够实现端到端的结果，但可控性有限，且文本和背景特征之间的纠缠程度较高。这些限制凸显了需要更先进的方法，以便有效解耦文本属性，实现精确和可控的场景文本编辑。

在这项工作中，我们提出了OSTE，一个基于潜在解耦的全场景文本编辑框架。核心思想是明确地将前景（文本）与背景分开，并进一步解耦前景文本中的字体样式和内容。通过采用这种方法，我们构建了一个基于GAN的模型，能够实现细粒度的控制和全面精确的场景文本编辑。我们的模型包括两个核心模块：背景修复模块和前景样式编辑模块。背景修复模块删除前景文本并重建底层背景纹理，应用感兴趣区域（RoI）对齐操作符提取相关背景区域以实现无缝集成。前景样式编辑模块包括一个样式编码器，从原始文本提取视觉样式嵌入（如字体、颜色和纹理）；一个内容编码器，从原始和目标内容图像中编码文本内容表示；以及一个融合生成器，通过整合背景纹理、文本内容和样式嵌入来合成最终编辑后的图像。这种设计有效地解耦了背景、样式和内容特征，实现了精确且灵活的场景文本编辑，并增强了可控性。

我们的贡献总结如下：

•
我们提出了一个用于潜在场景样式文本编辑的框架OSTE。据我们所知，这是首次尝试编辑前景文本的样式。
•
我们研究了文本样式属性（如旋转角度、字体、颜色等）与潜在空间向量之间的关系，从而实现了文本样式的细粒度调整。
•
我们提出了三种策略，使模型能够在非配对的真实世界数据上进行训练，成功避免了模型退化为直接输出输入图像的情况。
•
OSTE在真实场景中生成更逼真的图像，并在编辑文本内容时避免了原始样式文本的阴影残留。

章节片段

场景文本编辑

场景文本编辑在用另一个词替换或修改源图像中的词的同时保持其真实外观方面取得了显著进展。此前，SRNet（Wu等人，2019年）、SwapText（Yang等人，2020年）和MG-GAN（Yu等人，2021年）在合成配对数据上取得了良好的结果，但在真实世界数据中可能效果不佳。De-rendering（Shimoda等人，2021年）找到了另一种方法来学习文本向量化模型，以获取所有渲染参数，包括文本和大小。

方法

在本节中，我们首先详细介绍了模型架构，然后描述了损失函数以及在真实世界数据上训练的秘密。最后，我们阐述了利用潜在空间进行语义编辑的思想。

实验

在本节中，我们首先介绍实验设置，然后探讨了潜在空间中层向量的作用，使我们能够进行语义编辑。最后，我们进行了消融研究和比较实验，以评估样式文本生成的有效性。

结论与讨论

我们提出了OSTE，用于在潜在空间中对前景文本样式进行向量和调整。据我们所知，OSTE是首次尝试在场景文本编辑中实现前景文本样式的细粒度调整。为了降低样式编辑的复杂性，OSTE通过背景修复模块实现了前景文本和背景纹理的分离。然后OSTE在潜在空间中进行前景文本样式编辑。为了更好地处理真实世界场景，我们开发了共享权重方法。

CRediT作者贡献声明

苏同华：撰写 – 审稿与编辑、撰写 – 原稿、监督、项目管理、调查、概念化。杨福祥：撰写 – 原稿、软件、方法论、调查、数据管理。范磊：撰写 – 审稿与编辑、监督、调查。狄东林：撰写 – 审稿与编辑、监督、资源管理、方法论。王中杰：撰写 – 审稿与编辑、监督、方法论。李松泽：撰写 – 审稿与编辑、可视化：

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家重点研发计划（项目编号2020AAA0108003和GG-2024-01-02）、国家自然科学基金（项目编号62277011）、重庆MEITC项目（项目编号YJX-2025001001009）以及广东人工智能与数字经济实验室开放研究基金（SZ）（项目编号GML-KF-24-18）的支持。

苏同华获得了博士学位，目前是哈尔滨工业大学（HIT）的教授。他的研究兴趣包括大规模模式识别、异构计算架构和深度学习驱动的智能体。他发布了第一个中文手写文本数据库，该数据库已被200多所大学和机构使用。他提出了中文手写识别的无分割策略，这一策略已经发展成为一个

热点排行

新闻专题

联系信箱：

粤ICP备09063491号