《Analytical Methods》:Smartphone-based colorimetric analysis of pH strips using machine learning
编辑推荐:
本研究介绍了一种经机器学习(ML)增强的智能手机应用程序,用于pH试纸的精确比色定量测定。为确保系统对环境变化的鲁棒性,研究人员通过在多种光照条件和拍摄角度下采集pH试纸图像构建了综合数据集。经感兴趣区域(ROI)提取后,利用初始的33个比色特征对15种不同回
本研究介绍了一种经机器学习(ML)增强的智能手机应用程序,用于pH试纸的精确比色定量测定。为确保系统对环境变化的鲁棒性,研究人员通过在多种光照条件和拍摄角度下采集pH试纸图像构建了综合数据集。经感兴趣区域(ROI)提取后,利用初始的33个比色特征对15种不同回归模型进行训练和评估。为保障模型可解释性与计算效率,研究人员实施了基于SHapley Additive exPlanations(SHAP)的分析,成功识别出六个关键描述符(包括颜色通道偏度、熵及强度指标),这些描述符主导pH预测结果。表现最优的模型(决定系数R2= 0.99)随后被集成至用户友好的Android应用程序pHScoper中。该应用程序支持图像采集、交互式裁剪及无需云端依赖的离线设备上定量分析。总体而言,所开发的平台在资源受限环境中展现出了可靠、低成本pH测量的巨大潜力。
基于机器学习增强智能手机比色法的pH试纸定量检测系统研究解读
研究背景与意义
传统台式pH计虽精度高,但成本高昂、需定期维护且电极易老化降解,限制了其在现场及床旁检测(point-of-care testing, POCT)中的应用。pH指示试纸及纸基微流控器件(μPADs)虽成本低廉、操作简便,但通常依赖肉眼比对标准比色卡进行半定量或定性判读,主观性强且易受使用者感知及环境光照条件干扰。智能手机凭借其内置的高分辨率摄像头与强大算力,成为将比色信号数字化处理的理想平台,可将简单的pH试纸转化为定量POCT分析平台。然而,多段pH试纸的颜色响应具有高度非线性与非单调特性,传统基于规则的简单算法难以建模;此外,多数人工智能(AI)模型为"黑箱"结构,缺乏可解释性,且直接在移动端运行复杂模型面临算力与功耗瓶颈。为此,研究人员开展本研究,结合可解释人工智能(XAI)中的SHAP分析与机器学习回归算法,开发名为pHScoper的Android应用程序,实现在多变环境下对pH试纸的精确定量分析及轻量化移动端部署。该论文发表于《Analytical Methods》。
主要关键技术方法
研究人员使用pH 0–14的标准缓冲溶液及MQuant? pH试纸构建样本,使用iPhone 11在室光、室外光及开启/关闭闪光灯四种照明条件、五种拍摄角度下采集1035张图像构成数据集,另用华为Mate 10 Lite采集独立测试集验证跨设备泛化性。图像预处理中提取含四指示段的感兴趣区域(ROI),将RGB转换至HSV及CIELAB颜色空间,计算各通道均值、偏度(skewness)、峰度(kurtosis)及灰度共生矩阵纹理特征(对比度、相关性、能量、熵、同质性、平均强度),共33个比色描述符。数据集按8:2划分为训练集与测试集,采用10折交叉验证训练并评估15种回归模型(线性回归、决策树、核支持向量机(SVM)、集成方法、神经网络等)。对最优模型使用SHapley Additive exPlanations(SHAP)进行特征重要性排序,筛选关键特征重新训练轻量化模型。最终将最优模型转换为TensorFlow Lite(.tflite)格式嵌入Kotlin开发的Android应用中,实现本地离线推理。
研究结果
Introduction
研究人员指出常规目视比色法存在主观偏差,智能手机数字图像处理可消除人为偏见;AI架构擅长映射复杂的比色特征交互,而SHAP分析可揭示"黑箱"模型中物理意义明确的关键颜色描述符,从而兼顾透明度与特征降维,利于移动端轻量化部署。
Materials and methods
材料为pH 0–14的HCl/NaOH滴定溶液及MQuant?试纸,参考pH值经校准台式pH计验证。数据集采集涵盖室内荧光灯(~4000 K)、室外散射日光(~5000–6500 K)及手机LED补光组合,故意省略硬件色彩校准以模拟真实使用场景。图像ROI手动框选后提取RGB/HSV/CIELAB三色空间的33个统计量及纹理特征。15种回归模型经10折交叉验证筛选,以决定系数(R2)、均方误差(MSE)、均方根误差(RMSE)及平均绝对误差(MAE)评价。SHAP值量化各特征贡献并指导特征子集选取。Android应用pHScoper使用TensorFlow Lite解释器本地执行推理,工作流程含拍照/导入、交互式ROI裁剪、设备上特征提取及pH值显示。
Results
研究人员评估15种模型后发现高效线性回归与粗树模型R2最低予以排除;SVM与集成方法表现较好,宽神经网络(Wide Neural Network, WNN)取得最高预测性能(R2= 0.99)且交叉验证误差条最窄,表明其抗过拟合能力强、预测稳定。SHAP特征重要性分析从33个特征中确定绿通道偏度(G-skewness)、a*通道偏度(a-skewness)、HSV的V(明度)通道值(V)、V通道峰度(V-kurtosis)、红通道偏度(R-skewness)及熵(entropy)为六大关键描述符。特征约简实验显示:仅用V通道描述符或仅用纹理特征时代码R2< 0.60显著退化;仅用偏度特征子集R2= 00.948(相对重要性RI 37.7%);前4重要特征子集R2= 0.920(RI 29.9%);前6重要特征子集R2= 0.969(RI 39.6%);全33特征模型R2= 0.988(MAE = 0.35, RI = 100%)。表明降维后模型仍保留主要预测信息。跨设备测试集(WNN+6特征)上R2= 0.97, MAE = 0.48, RMSE = 0.59,证实对不同手机摄像头传感器及内建图像处理管线具良好泛化性。移动端基准测试中,SHAP优化6特征模型相较33特征模型输入维度降低81.8%,TensorFlow Lite模型文件由16 KB减至6 KB(缩小62.5%),平均推理时间0.06 ± 0.02 ms,满足实时应用需求。
Discussion
pH依赖的六大关键特征呈非线性关系,解释了传统单色空间或简单线性校准之局限,佐证ML回归之必要性。pH极值区预测方差略增源于指示剂染料质子化/去质子化平衡达化学饱和导致颜色区分度下降,属化学本身限制。ROI含四块具不同pH响应之指示垫,纹理描述符实际量化垫间空间颜色梯度与过渡,具有物理意义而非单纯噪声。多样光照与角度引入的数据变异使WNN表现出较粗决策树更优的稳定性。本研究覆盖全pH 0–14范围、数据集含非校准多变光照、通过SHAP显式解析各比色特征沿连续pH范围的响应,并将推理完全置于移动端本地,相比需固定成像系统或定制硬件之方法更具便携性与低成本和可扩展性。局限性包涵模型仅基于MQuant?品牌试纸、当前ROI提取依赖手动或预设几何未集成透视校正与自动ROI检测,未来拟通过迁移学习适配不同品牌试纸,并加入几何校正与自动检测算法。
Conclusion
研究人员成功开发了集成ML的智能手机pH试纸比色定量分析法。通过在非校准多变光照与多角度下采集图像训练回归模型,框架对真实成像变异具高鲁棒性。基于SHAP的特征重要性分析将特征空间降维81.8%(33降至6个特征)同时维持强预测性能(R2= 0.99)。优化模型通过TensorFlow Lite高效嵌入Android应用pHScoper,支持离线本地ROI特征提取与连续pH预测,无需云端依赖。尽管需进一步解决自动几何校正与跨品牌试纸通用性问题,当前pHScoper框架展现出良好可扩展性,适用于偏远及资源受限环境中的可靠化学分析。