利用大型语言模型为盲人用户区分图形用户界面组件的状态
《ACM Transactions on Software Engineering and Methodology》:Distinguishing GUI Component States for Blind Users Using Large Language Models
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
针对视障用户在移动应用中难以识别GUI组件状态变化的难题,本研究提出基于预训练大型语言模型(LLMs)的CasGPT工具,自动区分组件状态并提供文本提示。实验表明,CasGPT准确率达86.5%,用户研究验证其有效性,并优于其他开源LLMs及GPT版本。
摘要
图形用户界面(GUI)是用户与移动应用程序(app)交互的主要媒介。在这些GUI中,可编辑的文本视图、按钮和其他视觉元素在用户操作后会显示不同的状态。然而,开发者通常仅通过不同的颜色来表示这些状态,而没有为盲人用户提供文字提示。这导致盲人用户难以辨别组件状态的变化,从而影响他们执行后续操作的能力。传统的基于规则的方法和属性设置往往难以适应多种组件样式,并且无法处理受上下文影响的组件状态变化。最近,预训练的大型语言模型(LLM)在各种下游任务中展示了其泛化能力。在这项工作中,我们利用LLM开发了一个名为Component states distinguishing GPT(CasGPT)的工具,该工具可以自动识别GUI中的组件状态并提供相应的文字提示,从而帮助盲人用户使用应用程序。我们的实验表明,CasGPT是一种轻量级的方法,能够准确识别组件状态(准确率=86.5%)。通过用户研究验证了该方法的有效性,参与者对其表现出了积极的态度。此外,我们还发现该方法优于其他开源LLM和不同版本的GPT。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号