机器学习赋能石原氏色觉检查与教育图像增强:面向色盲人群的无障碍学习新策略

《Frontiers in Artificial Intelligence》:Enhancing Ishihara and educational images using machine learning: toward accessible learning for colorblind individuals

【字体: 时间:2025年10月18日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  本综述系统探讨了机器学习(ML)技术在色觉缺陷(CVD)分类与图像增强中的应用。研究通过融合ResNet-50、EfficientNet-B0和DenseNet-201的特征嵌入,结合主成分分析(PCA)降维与一对多(OvA)策略,实现了对正常视觉、红色盲(protanopia)及绿色盲(deuteranopia)石原氏图的高精度(>99.7%)分类。进一步,基于sRGB至长中短波锥细胞(LMS)色彩空间的转换模型,采用优化的道尔顿化(daltonization)算法(增强强度αDe=0.54,αPr=0.64),显著提升了图像在CVD患者中的对比度(ΔCCVD达69.6/64.3)同时保持色彩保真度(ΔE≈4.9)。通过对15例确诊学生的调查验证,增强后图像的数字/符号识别率从不足20%提升至完全可见,平均评分超4/5分。该ML驱动框架为实时分类与增强教育图像(如NCERT教材图表)提供了可行方案,有望降低CVD学生的学术障碍。

  
引言
色觉缺陷(Color Vision Deficiency, CVD)全球影响超过3亿人,其中红色盲(protanopia)和绿色盲(deuteranopia)作为最常见的亚型,导致红-绿色混淆。这不仅源于生物学基础的视锥细胞功能异常,还引发社会心理负担,包括职场歧视和日常活动受限。研究团队在印度古吉拉特邦28所学校的实地筛查(2023年12月至2025年7月)中,发现121例此前未确诊的CVD病例,凸显了实时分类方法的迫切需求。机器学习(ML)模型在CVD检测与图像增强领域展现出潜力,但现有研究多局限于单一功能(分类或增强),且存在色彩失真(如ΔE值过高)问题。本研究提出一种集成框架,首先基于石原氏图分类CVD类型,继而根据模拟感知图像生成实时增强版本,旨在为CVD学生提供更友好的教育图像资源。
方法论
数据集与图像处理
研究采用Kaggle开源数据集中的1,400张石原氏参考图像(531×531像素),每张图像包含嵌入随机分布多色点阵中的单数字(0-9)。所有图像均通过标准红绿蓝(sRGB)至长中短波锥细胞(LMS)色彩空间转换进行预处理,具体包括sRGB至线性RGB的转换(使用IEC 61966-2-1标准的光电转换函数)、线性RGB至LMS的矩阵变换(Machado等人,2009年模型),以及应用红色盲/绿色盲特异性模拟矩阵生成模拟感知图像。
增强图像生成与优化
增强过程基于道尔顿化算法,通过计算参考图像与模拟缺陷图像之间的误差信号(E),以优化后的增强强度参数(α)进行误差补偿。目标函数S(α)最大化对比度增益(ΔCCVD),同时最小化正常视觉下的色彩差异(ΔEnorm)和通道裁剪比例(fclip)。经网格搜索与Brent-Dekker有界最小化算法确定,绿色盲与红色盲的最优α值分别为0.54和0.64,对应对比度增益达69.57和64.28,ΔE保持在约4.9,裁剪比例低于0.002。
特征提取与分类模型
特征提取采用三种预训练卷积神经网络(CNN)架构:ResNet-50(2,048维特征)、EfficientNet-B0(1,280维特征)和DenseNet-201(1,920维特征)。通过拼接这些特征形成5,248维融合向量,再经PCA降维(保留95%方差)后输入分类器。分类任务采用一对多(OvA)策略,分别训练线性支持向量机(SVM)、逻辑回归和决策树分类器,并对比随机森林、梯度提升、径向基函数SVM(SVM-RBF)和多层感知机(MLP)的性能。
结果
机器学习性能评估
OvA分类器在测试集上达到99.7%准确率,MLP模型更实现100%的全面指标满分。混淆矩阵显示,3,360张训练图像中仅11例误分类,840张测试图像中仅1例绿色盲图像被误判为红色盲。增强算法在绿色盲和红色盲中分别实现69.57和64.28的对比度提升,色彩失真度(ΔE)控制在4.9左右,且裁剪可忽略不计(<0.002%。错误分析案例(图像157)表明,即使误分类,增强后图像与原图的RGB差异热图最大偏差仅0.20,证明增强效果的稳定性。
增强图像视觉验证
通过对15名确诊学生(8名绿色盲,7名红色盲)的两轮调查,验证了增强图像的有效性。在五张高红-绿混淆风险的图像中,数字识别率从增强前的低于20%提升至完全可见。例如,图像153的数字“1”识别率从绿色盲2/6、红色盲1/5增至全部识别;结构细节(如水平线)可见性从1-2人提升至6人。平均改善评分超过4/5分(绿色盲4.08±0.64,红色盲4.2±0.45)。教育图像(如印度物理地图、元素周期表、真核细胞图)的增强版本在色彩区分度和细节辨识度上均获学生肯定,特别是对易混淆色区(如非金属与镧系元素)的优化效果显著。
讨论
本研究通过ML驱动的分类-增强一体化框架,为CVD学生提供了实时的图像无障碍解决方案。与现有研究相比,该方法在保持低计算复杂度(基于优化α值的线性道尔顿化)的同时,实现了高分类精度与可控的色彩保真度。调查结果证实增强图像在真实教育场景中的实用性,如地图区域边界、图表色区区分度的提升。然而,研究仍存在局限性:数据集限于计算机生成图像;未涵盖蓝色盲(tritanopia)及严重度分级;样本量较小(15人);对有机图形(如袋鼠轮廓)的增强效果不均。未来工作需扩展至自然场景图像,开发自适应增强算法,并探索移动端集成,以推动CVD教育包容性的实质进展。
结论
基层学校调查揭示了CVD认知与职业指导的系统性缺失。本研究验证了OvA-ML模型在CVD分类与图像增强中的可靠性,为早期筛查与教育适配提供了技术基础。结合调查见解,未来需构建计算工具与政策指导双轨并进的解决方案,赋能CVD学生跨越学术与职业壁垒。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号