利用大型语言模型为盲人用户区分图形用户界面组件的状态

《ACM Transactions on Software Engineering and Methodology》:Distinguishing GUI Component States for Blind Users Using Large Language Models

【字体: 时间:2025年11月07日 来源:ACM Transactions on Software Engineering and Methodology

编辑推荐:

  针对视障用户在移动应用中难以识别GUI组件状态变化的难题,本研究提出基于预训练大型语言模型(LLMs)的CasGPT工具,自动区分组件状态并提供文本提示。实验表明,CasGPT准确率达86.5%,用户研究验证其有效性,并优于其他开源LLMs及GPT版本。

  

摘要

图形用户界面(GUI)是用户与移动应用程序(app)交互的主要媒介。在这些GUI中,可编辑的文本视图、按钮和其他视觉元素在用户操作后会显示不同的状态。然而,开发者通常仅通过不同的颜色来表示这些状态,而没有为盲人用户提供文字提示。这导致盲人用户难以辨别组件状态的变化,从而影响他们执行后续操作的能力。传统的基于规则的方法和属性设置往往难以适应多种组件样式,并且无法处理受上下文影响的组件状态变化。最近,预训练的大型语言模型(LLM)在各种下游任务中展示了其泛化能力。在这项工作中,我们利用LLM开发了一个名为Component states distinguishing GPT(CasGPT)的工具,该工具可以自动识别GUI中的组件状态并提供相应的文字提示,从而帮助盲人用户使用应用程序。我们的实验表明,CasGPT是一种轻量级的方法,能够准确识别组件状态(准确率=86.5%)。通过用户研究验证了该方法的有效性,参与者对其表现出了积极的态度。此外,我们还发现该方法优于其他开源LLM和不同版本的GPT。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号