OPTIMAL-EM：基于复杂度驱动的聚类方法，用于优化网页可访问性评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on the Web》：OPTIMAL-EM: Complexity-Driven Clustering for Optimised Web Accessibility Evaluation

【字体：大中小】 时间：2026年06月10日 来源：ACM Transactions on the Web

编辑推荐：

　　摘要要查看此由AI生成的摘要，您必须具有高级访问权限。了解更多信息请登录。摘要网站无障碍一致性评估方法（WCAG-EM）指导审核员选择网页样本进行无障碍评估。然而，WCAG-EM的抽样方法无法从统计学上证明所选样本能够代表网站的其他页面。为了生成一个更具代表性

　　摘要
要查看此由AI生成的摘要，您必须具有高级访问权限。了解更多信息请登录。

摘要
网站无障碍一致性评估方法（WCAG-EM）指导审核员选择网页样本进行无障碍评估。然而，WCAG-EM的抽样方法无法从统计学上证明所选样本能够代表网站的其他页面。为了生成一个更具代表性的样本，我们之前提出了OPTIMAL-EM框架。在本文中，我们应用该框架来探讨框架内两个指标之间的关系：网页复杂性和无障碍性。我们首先使用t分布随机邻域嵌入（t-SNE）和基于密度的带噪声空间聚类（DBSCAN）根据页面结构对页面进行聚类，采用两种方法表示页面：一种包含所有HTML元素，另一种仅关注块级HTML元素。然后，我们比较每个簇的平均复杂性和该簇的复杂性方差与该簇的平均无障碍性。为了衡量它们之间的相关性，我们进行了两阶段评估：首先使用一个包含388页的网站进行初步实验，随后使用另外三个随机选择的各包含500页的网站进行验证研究。实验表明，复杂性变化较小的簇往往具有较少的无障碍障碍，这表明标准化和模板化的网页设计可能比更复杂的页面更有助于提高无障碍性。此外，本文的主要贡献在于表明，通过识别并关注复杂性方差较大的簇，审核员可以更有效地集中精力，优先处理可能出现无障碍挑战的区域。通过提供一种更系统、更可扩展的抽样方法，我们的方法可以通过减少人力成本，专注于更具代表性的页面评估，从而优化大型网站的一致性评估。

AI摘要（实验生成）
此摘要是使用自动化工具生成的，并非由文章作者撰写或审核。它旨在帮助发现、帮助读者评估相关性，并协助来自相关研究领域的读者理解本文内容。它旨在补充作者提供的摘要，后者仍然是论文的官方总结。完整文章才是权威版本。点击此处了解更多信息。点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的生成版本。要查看此由AI生成的通俗语言摘要，您必须具有高级访问权限。

1 引言
技术和网络正日益成为日常生活不可或缺的一部分。确保网站和网络应用程序对残疾人可访问是提供平等信息、服务和机会的关键。然而，尽管有明确的需求和既定的无障碍指南[46]，无障碍障碍仍然存在[48]。由于网页开发者和设计师缺乏意识和动力（部分原因是实施无障碍软件的复杂性和所需时间），这一问题更加严重，而且资源（包括资金、专业知识和时间）也非常稀缺[2]。
世界万维网联盟（W3C）发布的网站无障碍一致性评估方法（WCAG-EM）通过测量网站对WCAG 2.0的合规性来指导无障碍审核员[45]。在某些地区，WCAG已通过立法成为法律强制要求。例如，在欧洲，《网页无障碍指令》（WAD）规定公共部门网站必须符合WCAG[4]标准。因此，评估网站而不仅仅是单个页面至关重要。许多WCAG原则（如成功标准1.1.1：非文本内容）需要手动评估，因此选择合适的样本大小对于管理全面的一致性评估工作量至关重要。
我们发现了WCAG-EM存在的问题，包括评估范围（其适用范围可能导致网站中导航性较差的部分被系统性地排除在审查之外）、非概率抽样方法以及所选样本中的潜在偏见[12]。我们提出了OPTIMAL-EM框架，以促进网页的无障碍评估的代表性抽样，其中网页复杂性是代表性的关键。
复杂性和无障碍性之间存在关联：复杂性可能源于网页布局、内容和交互性，高网页复杂性会加剧无障碍障碍并影响用户与网站的互动[11]。这种关联促使我们研究复杂性、复杂性方差与网页无障碍性之间是否存在相关性。
具体来说，本文提出了一种改进网页无障碍评估的新方法。我们试图确定网页复杂性的方差是否可以预测无障碍障碍。我们在参考文献[14]的基础上进行了扩展，并应用t分布随机邻域嵌入（t-SNE）[27]和基于密度的带噪声空间聚类（DBSCAN）[6]在网页的向量空间模型（VSM）上，生成结构相似的页面组。我们采用了一种基于参考文献[11, 15, 16, 45, 50]的定量复杂性度量方法，即丰富内容HTML元素（如嵌入媒体和交互组件）与页面上总HTML元素数量的比率，并计算每个簇的复杂性方差。先前的研究强调了块级HTML元素在网页抽样中的作用[16]。因此，我们使用两种方法表示网页：一种包含所有HTML元素，另一种仅关注块级HTML元素。
我们如下研究结构复杂性和无障碍性之间的关系：
—RQ1：簇内网页复杂性的方差（第8页的公式2，基于第8页公式1定义的复杂性）是否与无障碍障碍的普遍性（第3页的公式3）相关？
—RQ2：复杂性方差是否比平均复杂性（第8页的公式1）更能预测无障碍障碍？
—RQ3：基于复杂性的页面聚类如何指导更具代表性的抽样？
关于RQ1，我们的发现表明，复杂性变化较小的簇与较少的无障碍障碍相关。我们的初步实验集中在StudentNet上，这是一个来自曼彻斯特大学的页面集合。我们观察到复杂性方差与无障碍障碍总数之间存在强烈的正相关，这意味着簇内网页复杂性的不一致性与无障碍障碍的增加有关。关于RQ2，我们的分析显示平均复杂性和复杂性方差之间存在中等到强的负相关，而平均复杂性和障碍总数之间的负相关较弱，这表明平均复杂性较高的簇可能包含模板化设计，从而导致较低的方差。我们的评估还表明，块级HTML标签驱动了复杂性，且这种效应在整个网站中是一致的，这是由于模板化网页设计实践所致。我们通过在随机选择的额外网站（包括剑桥大学、Goodreads和Eclipse基金会）上复制我们的方法来验证我们的发现。结果总体上支持了我们的初步结论，尽管在Eclipse基金会上的观察结果有所不同，这突显了网站特定因素（如跨页面引入的一致性障碍的共享组件）的影响。
基于我们的研究，关于RQ3，我们建议利用复杂性方差作为预测无障碍障碍的启发式方法，并指导抽样。通过关注复杂性变化较大的簇，无障碍评估可以针对更可能存在障碍的区域进行。这种有针对性的方法可以通过减少对标准化网页的评估数量，为审核员提供更具代表性的样本，从而优化资源使用。最终，该方法旨在通过优先处理最需要资源的领域，提高网页无障碍评估的效率和效果。

2 背景和相关工作
网页内容无障碍指南（WCAG）是全球公认的标准[10]：2012年，WCAG 2.0被认定为ISO标准[19]，最近的WCAG版本（包括WCAG 2.2）围绕四个核心原则构建：可感知性、可操作性、可理解性和稳健性[43]。这些原则为开发者和内容创作者提供了应实现的目标[43]。每个指南都与其中一个核心原则相关，并包含可评估的成功标准；一些标准可以使用自动化工具进行评估，而其他标准则需要手动审查。然而，这些成功标准仅覆盖了49.6%的用户问题[33]，尽管引入了新原则，但在WCAG 1.0和WCAG 2.0之间在用户问题覆盖范围上没有发现显著差异。
W3C制定的网站无障碍一致性评估方法（WCAG-EM）提供了评估网站是否符合WCAG 2.0的指南[45]。该方法包括五个主要阶段：(i) 定义评估范围，(ii) 确定网站的结构、功能和技术栈，(iii) 选择具有代表性的网页样本进行评估，(iv) 审计该样本，(v) 报告发现结果。然而，我们之前的工作发现了这种方法的问题：评估范围的定义可能会将网站中导航性较差的部分排除在评估之外，且抽样方法是非概率性的。这可能导致所选页面存在偏见[12, 14]。
自动化无障碍工具在网页开发中发挥着重要作用，允许审核员、开发人员等即时反馈地评估网页。作为早期干预措施，自动化工具可以有效识别并帮助开发人员在问题嵌入设计之前解决具体的无障碍问题。然而，这些工具的有效性取决于有利的发展环境以及网页开发者和设计师的意识和动力[1, 38, 42, 51]。自动化测试在网页无障碍评估中的使用日益增加，这得益于工具的效率和报告功能[25]，但自动化测试通常只覆盖约50%的WCAG 2.0成功标准[41]，可能导致自动化无障碍评估中存在重大遗漏。鉴于许多无障碍问题需要人工判断，且WCAG的合规性在许多国家具有法律约束力，手动检查仍然至关重要，有效的抽样对于减少全面评估的工作量至关重要。
量化无障碍性通常使用自动化工具提供系统化评估[40]。例如，Lighthouse3基于Axe量化网页的无障碍性，并按类型（如“ARIA”或“导航”）过滤无障碍障碍。不过，Axe将无障碍障碍分为四个级别：严重、严重、中等和轻微，并提供更细致的评估[18]。还存在其他量化无障碍性的方法：参考文献[40]评估了几种无障碍指标，发现不同自动化指标的质量存在显著差异。没有单一指标能够全面覆盖网页无障碍性的所有方面，但Web Accessibility Quantitative Metric、Page Measure和Web Accessibility Barrier在有效性方面表现最佳。
如前所述，现有的方法（如WCAG-EM）为选择要审核的页面提供了方法论指导，但没有统计学基础来证明被审核的页面能够代表整个网站。在本文中，我们通过两种方式扩展了我们的指标[12, 14]以支持代表性抽样：首先，我们在多个实际网站中证明了簇内结构复杂性的方差与无障碍障碍的密度之间存在强烈关联；其次，我们将这一点转化为可操作的抽样指导：评估人员应优先考虑复杂性方差较大的簇，因为这些簇更可能包含严重的或众多的障碍。

2.1 复杂性
WCAG-EM通过(i) 交互性水平、(ii) 内容生成来源和(iii) 内容实现方式来定义网页复杂性[45]。该框架指出，网站的复杂性越高，所需的样本量越大。动态聚合来自多个来源的内容、在运行时处理内容或包含高度交互性内容的网站通常需要大量抽样，以覆盖可能生成的内容组合或增加的页面状态数量。网站可能提供针对用户偏好或设备类型（如移动设备专用版本）的不同版本，这也需要更大的样本来考虑这些变化。
复杂性从心理学角度定义为“提供图像口头描述的难度程度”[17]。这一定义在参考文献[15]中被应用于网页复杂性，其中强调了密集排列的“块级”HTML元素显著增加了感知复杂性。这种方法通过检查文档对象模型（DOM）中这些结构组件的排列和频率来定量评估视觉复杂性，从而与用户对复杂性的感知紧密相关。进一步来说，复杂性也可以被定义为刺激物中的“多样性或变化程度”[3]。在参考文献[11]中，这一定义被应用于网页设计，包括交互元素的多样性、文本、视频和图像等媒体类型的多样性，以及导航结构的变化。这些媒体可以表示为嵌入式或交互式的HTML[44]。[11]发现，这种复杂性会影响网页设计的美学和功能方面，并影响用户交互和可访问性。网站视觉美学评估框架（VisAWI）通过四个指标来评估网站的视觉美学：简洁性、多样性、色彩丰富度和工艺性[29]。简洁性衡量网站设计的清晰度和无杂乱程度，而多样性则评估视觉设计元素的丰富性和变化性。色彩丰富度评估颜色的有效使用和组合，工艺性则关注设计的明显质量和精确度。尽管VisAWI不能客观地测量网页的结构或功能属性，但它提供了一个系统且可量化的指标来评估感知到的视觉美学。过去的研究强调了网页的视觉特征与其可访问性之间的关联[26]：在设计上被称为“简洁”的页面通常具有较少的可访问性障碍；然而，被称为“富有表现力”或“复杂”的页面并不一定包含更多的可访问性障碍。一个网站被认为的可用性并不仅仅基于其功能。美学在感知可用性中起着重要作用[22]，并且存在明显的可用性（用户基于美学的初步感知）和内在可用性（用户交互后的网站功能方面）之间的区别。美学-可用性效应将网站美学定义为多维的，包括经典美学和表现美学[22, 23]。复杂性在这里是一个因素，因为更具视觉复杂性的页面更吸引用户[23]。在参考文献[50]中采用了一种结合的方法来测量视觉复杂性，其中应用了网络挖掘技术和机器学习。该方法提取结构特征、视觉特征和交互特征来计算分布以量化视觉复杂性。结构特征包括各种HTML元素的排列和数量，类似于参考文献[14, 15, 16]中应用的方法。此外，可以从功能角度来处理网页设计的复杂性，使用关注页面视觉结构的指标，如空白空间的数量和图形及文字的数量[37]。最后，在参考文献[52]中更广泛地定义了网站复杂性，通过网站内的链接密度和数量来衡量，更高的互联程度表明网站结构更为复杂。

2.2 聚类
聚类涉及将相似的对象分组在一起。OPTIMAL-EM框架使用聚类将“相似”的网页分组，以便进行代表性抽样。在本文中，我们应用聚类来促进我们对集群内复杂性和可访问性的分析。我们将网页表示为VSM（向量空间模型）。VSM是高维向量，每个维度代表一个HTML标签、属性或其他文本内容[14]。使用VSM进行聚类得到了现有文献的充分支持[8, 20, 47, 49]。我们在之前的工作中证明了使用VSM的合理性[14]，强调了在网页表示中包含结构化HTML的重要性。DBSCAN是一种聚类算法，专注于数据点在数据区域内的集中程度。如果数据点不属于密集邻域，则被视为噪声[5]。在参考文献[36]中，DBSCAN被应用于网络使用数据以识别用户行为；在参考文献[39]中，DBSCAN与期望最大化（EM）算法一起被用来分析网络用户会话。在参考文献[7]中，根据网页访问模式的相似性，这些网络用户会话通过DBSCAN进行聚类。HTML页面是文档，而DBSCAN是文档聚类的成熟方法。在参考文献[5]中，证明了DBSCAN是基于内容相似性对文档进行聚类的合适算法。

3 实验工作
我们在参考文献[12]中介绍了OPTIMAL-EM方法论。该框架旨在优化网络可访问性评估过程，并提出了一组评估指标来评估网络可访问性的各个方面。该框架由一个软件工具[13]支持（图1），包括六个指标。这些方法论的核心是衡量复杂性和可访问性的指标。通过理解复杂性、复杂性方差和可访问性之间的关系，我们旨在更好地指导网页的手动评估抽样：
图1. 该工具包括三个阶段。左侧是数据源获取和聚类的初始步骤，其中网页根据它们的相似性进行分组[14]。右上角是计算内部集群复杂性和方差的阶段。输出阶段位于右下角，其中选择代表性的网页进行可访问性审查。
(1) 复杂性。我们在第3.1节中定义了复杂性，并对网页组件进行了客观和量化的测量，特别关注丰富和交互式内容，如表1所示。
(2) 可访问性。自动化工具可以提供关于人群可访问性的指示。具体来说，我们可以利用自动化工具来了解存在哪些障碍，并提供一种优先考虑页面进行手动评估的方法。这种方法结合代表性页面和聚类，使得可以从每个集群中选择更具代表性的页面进行手动评估。通过从集群中抽样一部分页面（称为代表性页面），我们可以通过节省资源来减少总体手动测试负担。

表1. HTML元素集包含的元素
| 元素（??） | 内容类型 | 条件 |
| --- | --- | --- |
| button | 交互式 | 如果controls属性存在 |
| canvas | 交互式 | 嵌入式 | 通常用于位图内容 |
| img | 交互式 | 嵌入式 | 如果usemap属性存在 |
| input | 交互式 | keygen | 交互式 |
| label | 交互式 | math | 嵌入式 |
| object | 交互式 | 如果usemap属性存在 |
| select | 交互式 | svg | 嵌入式 |
| textarea | 交互式 | video | 嵌入式 |
| iframe | 交互式 | 如果controls属性存在 |

这些指标旨在支持多种用例。因此，并非所有的OPTIMAL-EM指标都适用于所有情况。例如，本文关注的是复杂性和可访问性指标。我们的方法论的目标是可扩展的：其他指标可能适用于不同的评估：
(1) 覆盖范围。在考虑数据源获取和抽样时，这个指标是相关的。我们通过选择策略[31]和异质性[21]来定义这个指标。
(2) 代表性。该指标与覆盖范围相关；它们共同通过“尽可能多地抽样人群的各个部分”来定义异质性[21]。我们在参考文献[14]中进一步阐述了覆盖范围和代表性作为指标的意义。
(3) 流行度。这可以用来优先考虑评估的页面。有些网页被用户访问的频率高于其他网页：这就是网页的点击率。这可以通过一些数据源获取方法获得，例如服务器日志文件。
(4) 新鲜度。这表示目标人群、集群或选定页面的更新程度。

3.1 复杂性
复杂性是多维的，可以有多种定义和评估方法，既有客观的也有主观的。虽然对网站复杂性的客观和主观感知是相关的，但用户的复杂性感知受到网站熟悉度的影响[11]。WCAG-EM确定了几个影响网站复杂性的因素。这些因素包括网页上的交互程度、内容生成、聚合和传递的方法，以及网页内容呈现的多样性，例如不同的呈现格式[45]。

3.1.1 作为指标的复杂性
我们采用了一种与WCAG-EM中概述的原则紧密对齐的客观复杂性测量方法。客观测量方法是必要的，因为不同人群的视觉偏好和感知到的复杂性可能会有显著差异[34]。我们对复杂性的定义集中在丰富内容上，如W3C所定义的[44]。具体来说，我们关注嵌入式和交互式内容。嵌入式内容指的是将其他资源导入网页的材料，从而可能通过增加用户需要导航的信息层次来增加其复杂性。例如，包含嵌入视频或动态更新图表的网页。交互式元素是指能够根据用户交互改变状态或行为的元素，例如点击时会改变视觉效果的按钮。这为网页的复杂性引入了动态方面[44]。我们在表1中列出了我们评估中包含的交互式和嵌入式元素。这些元素是那些（i）引入交互行为的元素。

联系信箱：

粤ICP备09063491号

热点排行