基于家庭视频与人工智能的自动化自闭症谱系障碍早期筛查模型开发及验证研究
【字体:
大
中
小
】
时间:2025年10月11日
来源:npj Digital Medicine 15.1
编辑推荐:
本期推荐一项创新研究:为解决自闭症谱系障碍(ASD)早期诊断资源密集、延迟严重的问题,研究人员开发了基于家庭短视频的人工智能自动化筛查系统。通过姓名反应、模仿和球类游戏三项任务视频(每段<1分钟),结合深度学习特征提取与机器学习分类,模型AUC达0.83,准确率75%。该技术为资源有限地区提供了可扩展的早期筛查方案,对推动神经发育障碍的数字化诊断具有重要意义。
在全球范围内,自闭症谱系障碍(Autism Spectrum Disorder, ASD)是一种常见的儿童期发病的神经发育状况,其特征包括社交沟通和互动差异以及早期出现的限制性和重复性行为模式。据最新meta分析估计,全球约0.6%的人口处于自闭症谱系中,而2021年全球疾病负担研究数据显示,ASD影响了约6180万人——相当于每127人中就有1人患病,使其成为20岁以下儿童和青少年非致命健康负担的主要原因之一。ASD对个体终生的认知和社会情感功能产生深远影响,早期识别对于增强适应功能和社交结果至关重要。研究表明,在2.5至3岁之间开始个性化干预与一年后认知功能的最大增益相关,年龄越小,预测改善结果的可能性越大。
然而现实情况严峻:全球范围内ASD通常被诊断的平均年龄在3.5-4岁之间,明显晚于早期干预的理想窗口期(一般认为在2岁之前)。这种诊断延迟在低收入和中等收入国家更为显著,亚洲和非洲一些地区的平均诊断年龄超过5岁,这主要源于系统障碍和专业化服务的可及性有限。根据美国疾病控制与预防中心(CDC)的数据,大多数美国ASD儿童直到约54个月才被诊断,70%的儿童在51个月后才被确诊。在韩国,尽管在4个月至5岁之间定期进行发育筛查,但即使家长早期存在担忧,诊断和干预的显著延迟仍然存在。在三级医院,诊断评估的等待时间可能长达1-2年。鉴于全球患病率及广泛的诊断延迟,国际社会迫切需要可扩展的自动化筛查工具以支持早期识别和干预。
传统诊断工具如自闭症诊断观察计划(Autism Diagnostic Observation Schedule, ADOS)和自闭症诊断访谈修订版(Autism Diagnostic Interview-Revised, ADI-R)虽然被视为金标准,但存在资源密集、依赖训练有素的专业人员、可能引入观察者偏差等问题。这些标准化工具需要亲自实施,耗时且由于高成本和专业培训需求而可及性有限。与ADOS-2相比,家长报告的ASD筛查工具如M-CHAT和Q-CHAT准确性有限,敏感性和阳性预测值不足。而像SRS-2和SCQ-2这样的照顾者报告工具在区分ASD与其他发育或精神疾病方面特异性有限,表明在没有临床医生评估的情况下使用可能存在过度识别的风险。照顾者报告筛查工具准确性降低可能源于照顾者回忆和行为主观解释的变异性,这会影响项目反应并损害诊断精确性。相反,尽管临床医生管理工具如ADOS和ADI-R提供更高的诊断效度,它们可能无法完全捕捉在自然家庭或社区环境中表现的行为,因为儿童的行为可能因情境和时间而异。
相比之下,家庭视频通过捕捉儿童在熟悉日常环境中的行为,具有高生态效度。儿童大部分时间在家中度过,在那里他们通常更放松,更可能展示典型行为。相反,临床或实验室环境可能因陌生感而引发非典型行为。例如,自闭症谱系幼儿在临床环境中比在家中表现出更多的重复行为。在自然环境中观察儿童的自发互动可以更代表性和情境敏感地评估其发育功能,这也与神经多样性范式相一致。然而,家庭视频的手动编码劳动密集且容易产生评分者间变异性,这降低了基于视频评估的可扩展性和可靠性。
近期研究聚焦于人工智能(AI)和机器学习(Machine Learning, ML)用于家庭视频的自动化分析,提供了可扩展和客观的替代方案。尽管前景广阔,大多数AI研究面临局限,如小样本量、依赖问卷与家庭视频整合及手动注释(引入主观性并限制泛化能力)等。一些研究采用自动化特征提取方法,但通常仅关注特定特征如自我刺激行为或面部分析,且常需要受控实验室环境等陌生场景。许多方法依赖特定行为类别或受限协议,可能无法捕捉自然行为的变异性与复杂性。这些方法学约束降低了自动化筛查系统的可扩展性、客观性和生态效度,从而限制了其在现实世界早期ASD筛查背景中的效用。
为克服这些局限,本研究开发了简短、结构化的家庭视频协议,父母可在熟悉环境中录制,以自然引发每个儿童独特的ASD相关行为。与基于手动视频编码的方法不同,我们的全自动化AI流程从这些视频中客观提取具有临床意义的行为指标。通过结合家长友好的自然行为引发与基于AI的客观特征提取,我们的方法解决了先前研究在客观性、可扩展性和生态效度方面的差距,为更早、更可及的ASD筛查提供了实用解决方案。
关键技术方法概述:研究招募510名18-48个月儿童(253名ASD,257名典型发育)来自韩国9家医院,通过移动应用录制三项结构化家庭视频任务(姓名反应、模仿、球类游戏)。采用深度学习模块包括Whisper语音转文本、COCO姿态估计和YOLOv8球体检测,提取任务特异性特征(如反应延迟、注视行为)和共同临床特征(缺乏目光接触、非参与运动),输入机器学习分类器(LightGBM、逻辑回归等)训练,最终通过集成模型输出ASD风险概率。
如表1所示,我们呈现了每个类别中的幼儿总数及相应的(训练/测试)分配,以确保跨视频的模型评估一致性。值得注意的是,观察到男性 predominance,男性参与者数量是女性的两倍以上,这与ASD在男性中更高的患病率一致,反映了数据集的构成。
此外,参与者数量在视频间存在差异。测试数据集中包含90名儿童。10名儿童录制了两段视频,两名儿童录制了全部三段视频,其余78名儿童仅录制了一段视频。对于最终集成模型,我们通过平均每个儿童在一段或多段视频中的模型预测置信度分数来整合预测,以确保跨场景预测的全面整合。
为评估训练集和测试集在人口统计学和行为变量上是否可比,我们对每个特征进行了独立双样本t检验。该分析旨在确认模型评估中观察到的性能差异不会归因于混杂人群差异。如补充表1所示,所有p值均大于0.05,表明训练集和测试集之间无统计学显著差异。
表2总结了姓名反应、模仿和球类游戏任务的分类结果,报告了每个模型的受试者工作特征曲线下面积(AUROC)、准确度(ACC)、精确度(PRE)和敏感性(SEN)。每个模型通过逐步纳入任务特异性特征、共同临床特征和人口统计学元数据(年龄和性别)进行评估,以评估特征整合的增量价值。
- •对于针对ASD特征性社交定向行为的姓名反应任务,LightGBM在没有附加特征的情况下实现了0.72的AUROC。纳入元数据将性能提升至AUROC 0.81,准确度从0.69增至0.73。
- •对于旨在评估社交模仿差异的模仿任务,逻辑回归模型从AUROC 0.65(基线)改善至0.75(含共同特征),进一步至0.78(含共同特征和元数据)。
- •对于测量交替互动的球类游戏任务,LightGBM从AUROC 0.62改善至0.78(含共同特征),最终至0.81(全特征整合)。
这些发现表明,纳入多领域社交行为特征增强了分类性能,反映了ASD症状学的多面性。
集成模型通过整合跨多个任务视频的预测,在基线时实现了0.80的AUROC,纳入元数据后增至0.83。这种集成方法提供了最稳健和可泛化的分类性能,强调了聚合多样行为维度的益处。在嘈杂视频样本上的外部验证实现了0.73的AUROC,支持了在可变家庭录制条件下应用模型的可行性。详细性能指标见补充表2。
进行SHapley Additive exPlanations(SHAP)分析以识别与临床认可ASD行为一致的关键特征贡献:
- •姓名反应任务(图1b):较长的反应延迟和父母呼叫尝试的变异性升高与ASD预测强相关,反映了对社交刺激的定向能力。
- •模仿任务(图1d):减少的目光接触持续时间、减弱的身体参与和延迟的模仿反应是ASD分类的关键驱动因素,与运动模仿和联合注意中的行为一致。
- •球类游戏任务(图1f):延长的交替持续时间和减少的目光接触有助于ASD预测,反映了参与互惠社交互动和协调的能力。
在任务特异性和共同临床特征中观察到ASD与典型发育(TD)儿童之间的显著组水平差异(表3和表4)。
- •对于任务特异性特征(表3):ASD儿童在姓名反应中表现出显著更长的反应延迟(5.29±5.66 vs. 3.62±3.25秒;p=0.017)。尽管在模仿和球类游戏任务中观察到类似趋势,但这些差异未达到统计学显著性(p=0.064和p=0.116)。
- •对于共同临床特征(表4):ASD儿童表现出更大的目光接触缺乏(4.5±6.47 vs. 1.30±3.78秒;p<0.001)、增加的非参与运动(2.59±9.23 vs. 0.69±5.94秒;p<0.001)和延长的身体接触持续时间(3.78±7.69 vs. 0.69±2.52秒;p=0.026)。
这些结果统计上支持了任务特异性和共同行为特征的判别效用,反映了ASD中延迟和 disrupted 社交参与的一致特征。
为进一步检查模型行为,临床专家审查了误分类测试视频(104名参与者:52名ASD,52名TD),分类为真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)组。TD儿童(TN和FP)在心理评估中一致优于ASD儿童(TP和FN)。值得注意的是,在ASD组内,FN病例表现出比TP更轻微的症状特征,特别是在评估退缩和内化问题的CBCL领域上。这些发现提示模型当前可能针对识别高风险病例进行了优化,但对较轻微或边界ASD表现较不敏感。误分类分析详细结果见补充说明1和补充表3-5。
本研究展示了一种全自动化AI模型,用于使用简短家庭视频早期识别ASD,基于大型幼儿队列,不依赖手动编码或家长报告措施。我们开发了结构化视频协议,每段少于1分钟,由父母在熟悉环境中录制,以引发与ASD筛查相关的核心社交行为。研究团队预定义了关键特征——如反应延迟、父母尝试、顺序交替和注视——这些特征从三种视频任务(姓名反应、模仿和球类游戏)中使用深度学习提取,然后在机器学习分类器中用于构建ASD分类模型。跨这些任务的特征整合捕捉了ASD的关键行为维度,包括反应延迟、目光接触减少和模仿延迟。基于SHAP的特征归因分析确认反应延迟和注视行为差异跨任务一致作为关键判别因子,强化了其临床相关性。
除判别性能外,我们的方法展示了强大的实际可行性,用于现实世界部署,在标准GPU配备系统(RTX 3090 Ti, 24 GB VRAM)上每视频平均推理时间约14.2秒。该流程完全依赖开源模型——包括基于COCO的姿态估计、YOLOv8用于物体检测和Whisper用于语音转文本——实现快速、免费和许可独立的ASD风险估计。与ADOS或ADI-R等传统诊断路径(需要在临床环境中进行数小时专家管理测试)相比,我们的模型在大约14秒每视频内提供全自动化ASD风险估计,显著改善了可及性和可扩展性。
与先前研究相比,我们的研究提供了几个 distinct 方法学改进,可为早期ASD风险检测提供客观、低成本和生态有效的方法。不同于早期研究常依赖主观评估如家长报告问卷或视频手动注释,我们的方法实施了全自动化特征提取流程,显著减少了人类偏差和评分者间变异性,同时保持可解释性和临床基础。此外,尽管近期自动化方法主要针对特定身体特征或依赖受控实验室设置,我们的方法利用深度学习全面分析在自然家庭环境中捕获的丰富全身行为指标。通过整合多个任务,我们的模型成功捕捉了ASD相关行为,从而显著增强了生态效度和可及性。这些创新实现了在多样现实环境中成本效益高、可扩展的部署,并通过将可解释、临床基础的AI工具扩展到专业资源有限的设置,推进了神经发育筛查的民主化。
本研究的另一个关键优势是使用标准化视频录制协议和大规模数据收集。我们的样本包括510名18-48个月儿童(253名ASD和257名典型发育),从韩国9家医院和社区站点系统招募,提供了相对多样化的队列,增强了我们发现的泛化能力。不同于使用现存数据集的研究(小样本量、广泛年龄范围或组间年龄不平衡),我们的协议确保了数据质量和人口统计学的一致性。通过移动应用交付的详细视频录制指令进一步改善了数据 uniformity。尽管一些研究仅提供一般指南(如保持儿童面部可见、使用玩具和包括社交互动),我们的研究强调了结构化、标准化指令的重要性,以减少家庭视频环境中的变异性。
本研究有几个局限性,应在未来研究中解决。首先,样本仅包括ASD和TD儿童,临床多样性和人口统计学代表性有限(如主要为男性和四岁以下)。这可能限制发现的泛化能力,因为早期诊断儿童常表现出更 pronounced 症状,且表现不同的女性ASD代表不足。未来研究应旨在招募更异质样本,包括语言延迟、注意力困难或早期焦虑症状儿童,并确保跨性别和年龄组更好平衡。其次,尽管ASD诊断基于ADOS等标准化评估,但缺乏临床医生共识可能降低诊断确定性。此外,TD组未进行纵向随访,增加了部分参与者 later 接受ASD诊断的可能性。纳入所有组的长期随访将改善未来模型的可靠性和临床适用性。第三,在数据收集方面,尽管为视频收集提供了标准化指令,家庭环境中的未控制变量可能引入了变异性。未来研究应考虑更标准化或半结构化录制环境以减少噪声和提高可靠性。此外,并非所有儿童都有所有三个视频任务可用。因此,集成模型利用了每个儿童1-3段视频,可能影响一致性。确保每个主题完整多模态输入的更统一数据收集协议将加强比较分析。第四,关于AI分析,注意到几个技术和性能相关限制。将心理评估结果与AI模型预测比较显示,被模型正确分类为ASD的儿童(真阳性)比被误分类为TD的儿童(假阴性)表现出更严重症状。这表明模型当前可能针对识别高风险病例进行了优化,但对较轻微或边界ASD表现较不敏感。纳入跨ASD特征全谱的数据可能改善未来模型的准确性和泛化能力。此外,观察到几个任务特异性限制。在姓名反应视频中,STT模型由于照顾者语音变异性显示响应时间不精确。在模仿任务中,关键点检测错误降低了检测手势的可靠性。在球类游戏任务中,物体检测由于球变异性而不一致。手动审查还揭示了系统高估任务持续时间和偶尔误分类。未来研究应考虑使用照顾者-儿童互动数据训练领域适应STT模型。通过儿童特定手势数据集增强姿态估计,标准化任务材料,并实施物体识别的自动化质量控制。在未来研究中解决这些限制对于推进临床适用的基于AI的ASD诊断工具至关重要。
总之,本研究证明了使用简短家庭视频进行自动化、基于视频的AI模型早期ASD筛查的可行性。通过利用深度学习从三种任务视频中提取具有临床意义的行为,我们的机器学习模型提供了可扩展和可及的传统评估替代方案。在未来研究中增强诊断效度和样本代表性可能增加AI驱动视频分析作为有前景工具的实际适用性,以协助在现实世界中早期识别ASD,特别是在临床资源有限的 settings。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号