文本到图像模型中 Ethical-Lens 框架助力价值对齐的研究进展

【字体: 时间:2025年03月04日 来源:Patterns 6.7

编辑推荐:

  本文提出 Ethical-Lens 框架,有效提升文本到图像模型价值对齐,减少毒性和偏差。

  ### 文本到图像模型发展与伦理困境
近年来,文本到图像模型取得了显著进展,像 Midjourney 和 DALL?E 等模型,能够将文本指令转化为逼真的图像,在艺术、设计、媒体和娱乐等多个领域得到广泛应用,极大地改变了内容创作方式。Midjourney 截至 2023 年 11 月,用户基数已超 1600 万,这充分展现了这类模型的受欢迎程度。
然而,随着其快速发展,伦理问题也日益凸显。虽然商业模型如 DALL?E 3 在价值对齐方面有一定成果,但开源模型由于使用者意图难以确定,且缺乏严格的控制机制,常被用于生成违背社会规范和价值观的内容,包括暴力、歧视性图像以及不适当的材料等。例如,Unstable Diffusion 社区有超过 46,000 名成员在其 discord 服务器上分享生成的不当图像,这表明开源文本到图像工具的潜在风险正在不断积累,可能会对社会产生巨大的负面影响。因此,开发一个确保这些工具符合价值规范的框架迫在眉睫。

Ethical-Lens 框架应运而生


为解决上述问题,研究人员提出了 Ethical-Lens 框架。该框架旨在为所有开源文本到图像模型提供一种通用的解决方案,避免对模型内部结构进行修改,而是通过控制输入和输出来规范模型的使用。它主要从毒性和偏差两个维度来解决模型与伦理价值不一致的问题。

在文本空间中,Ethical-Lens 框架采用 Ethical Text Scrutiny 机制。这一机制利用大语言模型(LLM)强大的语义理解能力,对输入文本进行严格评估、过滤和修改。它会依次从毒性和偏差维度对输入文本进行审查,通过精心设计的提示词,让 LLM 识别并处理文本中的不当内容,如毒性词汇、潜在的偏见表述等,同时尽可能保留用户的原始意图。例如,对于含有毒性但非极端恶意的输入,会修改文本以去除有害元素;若输入被判定为极端恶意,则会通知用户并阻止图像生成。为了平衡计算成本和性能,研究团队还专门训练了一个轻量级的 LLM,在保证文本 - 图像对齐能力的同时,显著提高了推理速度。

在图像空间中,Ethical Image Scrutiny 机制发挥作用。由于文本到图像工具自身可能存在缺陷,即使输入文本看似正常,也可能生成有害图像。因此,这一机制利用基于预训练 CLIP 模型的多头分类器来检查生成的图像,检测其中的伦理问题,并根据不同情况采取相应的编辑策略。比如,对于局部的伦理问题,如图片中出现的 nudity 或未经授权生成的公众人物形象,会采用 CLIPFluzz 方法,先利用 CLIPSeg 定位问题区域,再进行模糊处理;对于涉及 NSFW、政治或文化等全局问题的图像,则将其返回至 Ethical Text Scrutiny 阶段,重新评估和修改文本指令,生成新的符合伦理标准的图像;对于存在性别或年龄偏差的图像,会使用 FaceEdit 工具,基于 AdaTrans 技术调整面部特征,以减少偏见。

多维度评估彰显优势


研究人员设计了一套系统的评估指标,综合 GPT4-V、HEIM 和 FairFace 分数,从多个角度衡量模型的对齐能力。在毒性维度的实验中,研究人员对 DreamLike Diffusion 1.0(DD 1.0)、Stable Diffusion 1.5(SD 1.5)、SD 2.0 和 SDXL 1.0 等多种模型进行了测试,并与商业模型 DALL?E 3 进行对比。结果显示,添加 Ethical-Lens 框架后,各模型在毒性维度的价值对齐程度显著提高,毒性分数大幅提升,同时 CLIPScore 和美学分数保持较高水平,这表明该框架在有效减少毒性的同时,对图像生成质量的影响较小。在避免恶意内容生成方面,Ethical-Lens 也表现出色,尤其是在处理 nudity 和 NSFW 相关内容时,明显优于部分对比模型。

在偏差维度的实验中,同样对多种模型进行评估。结果表明,Ethical-Lens 框架能显著减轻性别、种族和年龄方面的偏差。例如,在对 DD 1.0 模型的改进中,偏差分数得到了极大提升,生成的图像更加平衡和多样化,有效避免了对特定群体的刻板印象。与 DALL?E 3 相比,Ethical-Lens 在减少偏差方面表现更优,尽管 DALL?E 3 在减少偏差上有一定成效,但 Ethical-Lens 能进一步降低各维度的偏差程度。

为了评估 Ethical-Lens 的整体用户体验,研究团队进行了用户研究。让用户对 DD 1.0、添加 Ethical-Lens 后的 DD 1.0 以及 DALL?E 3 生成的图像进行排序。结果显示,添加 Ethical-Lens 后的 DD 1.0 在生成符合伦理标准图像的能力上有显著提升,在毒性维度的表现甚至超过了 DALL?E 3。不过在偏差维度,虽然也有明显改进,但与 DALL?E 3 相比仍稍显不足。进一步分析发现,这可能是由于 DD 1.0 本身在遵循指令生成准确人物形象方面能力较弱,以及用户受图像质量和指令匹配度的影响,更倾向于选择 DALL?E 3 的图像。

发展中的挑战与应对


尽管 Ethical-Lens 框架取得了显著成果,但仍面临一些挑战。在计算资源方面,使用该框架会增加计算开销,虽然其处理时间比 DALL?E 3 短,但未来仍需探索如何在保持审查可靠性的同时,进一步降低资源消耗。模型性能方面,框架中使用的文本审查 LLM、图像审查分类器和 FaceEdit 模型等存在一定局限性。LLM 可能无法完全遵守规则,容易受到越狱攻击;分类器虽然可靠,但偶尔也会产生错误输出。此外,当前框架在性别、种族和年龄身份的分类上存在一定的局限性,没有涵盖性别少数群体,主要关注主要种族群体,且年龄分类较宽泛。这是由于文本到图像模型在准确表示代表性不足群体方面存在困难,同时训练数据也不够充分。

针对这些挑战,研究人员认为,随着基础模型(如 CLIP 和 LLMs)的不断更新,Ethical-Lens 框架也需要定期重新训练,以保持与最新模型的对齐。同时,在使用该框架时,应向用户明确说明对生成内容所做的伦理调整,增强透明度,促进用户更负责任地使用系统。虽然目前的用户研究在一定程度上揭示了 Ethical-Lens 的有效性,但由于参与者数量和人口分布的限制,结论可能存在局限性。研究团队鼓励更多人参与用户研究,以更全面地了解文本到图像领域的价值对齐情况。

广泛应用前景与社会意义


文本到图像模型是一把双刃剑,在为艺术创作、建筑设计等领域带来创新的同时,也存在被恶意利用的风险,可能会误导公众、传播有害信息,对社会尤其是女性群体造成负面影响。Ethical-Lens 框架为规范这些模型的使用提供了有力的支持,通过严格监督输入和输出,确保模型符合伦理价值。该框架具有广泛的适用性,可集成到所有公开部署的开源文本到图像模型中,有效防止模型被滥用,减轻潜在的社会危害。

综上所述,Ethical-Lens 框架为解决文本到图像模型的伦理问题提供了创新的解决方案,在提升模型价值对齐、减少毒性和偏差方面表现出色。尽管面临一些挑战,但随着技术的不断进步和研究的深入,有望进一步完善和推广,为文本到图像模型在社会中的可持续发展和有益应用奠定坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号