《Bioengineering》:Centralized Review of Alzheimer’s Disease and Related Dementias Biomedical Repositories and Computational Methods
阿尔茨海默病及相关痴呆症(Alzheimer’s disease and related dementias, ADRD)是一类以进行性认知和功能衰退为特征的神经退行性疾病。AD病理改变与细胞外β淀粉样蛋白(amyloid-β, Aβ)斑块、细胞内tau蛋白神经原纤维缠结、突触功能障碍及神经元丢失密切相关。AD约占全球痴呆病例的60%–80%。2022年,AD是美国第七大死因,预计到2060年美国65岁及以上阿尔茨海默病痴呆患者数量将大幅增加。尽管经过数十年研究,AD/ADRD数据资源在临床、影像、遗传、基因组及治疗等领域仍呈碎片化分布。本文旨在弥补这一空白,对广泛使用的AD/ADRD数据库与计算方法进行集中综述。研究人员首先总结了用于分析此类数据集的计算策略,涵盖机器学习(machine learning, ML)、自然语言处理(natural language processing, NLP)和生物医学成像技术。随后回顾了八类数据库,将其分为三类:临床与人群数据、遗传与基因组数据、药物发现与治疗数据。最后讨论了实际应用场景,包括早期诊断、临床决策支持、精准医疗及药物机制解析。本综述指出了未来在数据标准化整合、跨数据库兼容性及稳健可泛化的AD/ADRD人工智能模型方面的研究方向。
本文主体部分系统梳理了AD/ADRD领域的关键数据库与计算方法,整体结构如下:
- 1.
Introduction
阿尔茨海默病(Alzheimer’s disease, AD)是一种以进行性认知与功能衰退为特征的神经退行性疾病,其典型病理特征为β淀粉样蛋白(Aβ)斑块与tau蛋白神经原纤维缠结。这些病理变化破坏神经功能与突触通讯,导致广泛的神经元功能障碍与丢失,最终表现为记忆力减退、日常生活能力下降及死亡率升高。AD是全球最常见的痴呆病因,占所有痴呆病例的60%–80%。据美国疾病控制与预防中心(Centers for Disease Control and Prevention, CDC)统计,2022年AD位列美国死因第七位,对老龄化社会构成重大挑战。预计到2025年美国将有720万65岁及以上人群罹患阿尔茨海默病痴呆,到2060年这一数字可能增至1380万。尽管美国国家衰老研究所(National Institute on Aging, NIA)已资助大量研究以识别AD相关的基因变异与脑细胞亚型分子特征,但分子与遗传改变如何导致脑细胞功能障碍的机制仍未完全阐明。当前研究聚焦于载脂蛋白E(apolipoprotein E, APOE)等遗传变异、多模态生物标志物及诊断与预后计算模型。未来的AD/ADRD数据库应整合多源模态数据、AI就绪流程、单细胞组学、先进影像及高通量测序技术,以支持研究人员验证现有计算模型并开发适配神经退行性疾病复杂性的新方法。本文按PRISMA式筛选流程从20个候选数据库中最终纳入8个,分别为NACC、OASIS、ADNI、UK Biobank、dbGaP、NIAGADS、ChEMBL与DrugBank,并通过官方数据库网站与NIH/NIA资源进行准确性核验。
- 2.
Computational Methods for AD/ADRD
AD/ADRD数据库的扩展为开发计算分析方法提供了基础。自然语言处理(NLP)、机器学习(ML)与生物医学成像技术能够从复杂数据库中提取具有临床意义的信息。
2.1 Machine Learning (ML)
多种ML技术在AD诊断中展现出潜力,常用分类算法包括支持向量机(support vector machines, SVM)、人工神经网络(artificial neural networks, ANN)、深度学习(deep learning, DL)、随机森林(random forests, RF)、AdaBoost、K近邻(K-nearest neighbors, KNN)与逻辑回归(logistic regression, LR)。SVM通过识别分离超平面,已应用于基于脑体积与临床特征的诊断研究;RF通过集成多棵决策树,适用于高维或多模态AD数据集;AdaBoost通过迭代重加权整合弱学习器,常与RF和SVM在诊断研究中比较;KNN依据最相似的训练样本对新病例进行分类,应用于AD预测、轻度认知障碍(mild cognitive impairment, MCI)亚型分类、基于磁共振成像(magnetic resonance imaging, MRI)的特征研究及ADNI多模态分析;LR因其可解释性,常作为二元结局分析的基线模型。AD的典型特征为轴突与神经元逐渐丢失导致的白质完整性下降,且高血压、高胆固醇血症、糖尿病及脑小血管病(cerebral small vessel disease, CSVD)等合并症会加速认知恶化。为区分AD特异性病理,美国国立衰老研究院-阿尔茨海默病协会(National Institute of Aging and Alzheimer’s Association, NIA-AA)提出了ATN框架,依据tau(T)、β淀粉样蛋白(A)、神经变性(N)、血管因素(V)及炎症(I)等生物标志物对个体进行分类。梅奥诊所衰老研究、澳大利亚影像、生物标志物与生活方式(Australian Imaging Biomarkers and Lifestyle, AIBL)研究及阿尔茨海默病神经影像学计划(Alzheimer’s Disease Neuroimaging Initiative, ADNI)等大型纵向研究收集了生物学、认知、神经影像及生活方式数据,但高维特征选择仍是主要挑战。多数研究将每个神经心理测试指标视为独立变量或限制分析结局数,易导致多重比较假阳性率升高,因此AD/ADRD分析流程常引入特征选择与降维方法(过滤式、包裹式及嵌入式)以减少冗余、提高泛化能力并保持可解释性。AD早期检测至关重要,传统评估工具如简易精神状态检查(Mini-Mental State Examination, MMSE)虽有效,但耗时且对早期细微认知变化敏感性不足。视网膜成像作为一种新兴辅助手段,可检测MCI与AD患者的视网膜神经纤维层(retinal nerve fiber layer, RNFL)与神经节细胞-内丛状层(ganglion cell-inner plexiform layer, GCIPL)变薄,结合光学相干断层扫描(optical coherence tomography, OCT)与深度学习算法,已在部分队列中显示出跨种族预测潜力,但仍需进一步验证。血液磷酸化tau217(phosphorylated tau217, pTau217)等新型生物标志物也正在被评估为可扩展的早期检测方法。
2.2 Behavioral and Cognitive Assessment Procedures
痴呆研究中的行为测试结合了简短筛查、领域特异性神经心理测验、临床评定量表及功能或神经精神症状量表。常用筛查与分期工具包括MMSE、蒙特利尔认知评估(Montreal Cognitive Assessment, MoCA)、临床痴呆评定量表(Clinical Dementia Rating, CDR)及其分项总分(CDR Sum of Boxes, CDR-SB)。领域特异性测试涵盖记忆力(词语学习、延迟回忆、ADAS-Cog记忆项目)、执行功能与处理速度(连线测试、数字广度)、语言(命名测试、语义流畅性、类别流畅性)及视空间功能(图形临摹、画钟试验)。行为与功能问卷如日常认知(Everyday Cognition, ECog)、功能活动问卷(Functional Activities Questionnaire, FAQ)、神经精神量表(Neuropsychiatric Inventory, NPI/NPI-Q)、老年抑郁量表(Geriatric Depression Scale, GDS)及日常生活能力量表,可捕捉情绪、激越、淡漠、睡眠等非认知症状。标准测试流程包括知情同意、人口学与病史采集、感官与语言筛查、标准化施测及评分,并由知情者或研究伙伴提供功能变化信息。重复测量与计算机化测试平台(如NIH toolbox认知电池、剑桥神经心理自动化测试电池(Cambridge Neuropsychological Test Automated Battery, CANTAB))可减少人工误差、支持远程筛查并便于机器学习流程的数据导入。
2.3 Natural Language Processing (NLP)
预训练显著提升了NLP任务性能。适配预训练语言表征的两种常见策略为微调与特征提取。微调(如Chat GPT)在下游任务中添加特定参数并更新预训练权重;基于特征的模型(如ELMo)则将预训练上下文表征作为附加特征输入特定任务架构。BERT(Bidirectional Encoder Representations from Transformers)采用掩码语言模型(masked language model, MLM)与下一句预测(next sentence prediction, NSP)两个无监督目标,利用多层双向Transformer架构克服单向上下文限制。由于通用语料训练的BERT在医学术语上存在局限,衍生出ClinicalBERT、BlueBERT、BioBERT及AD-BERT等面向生物医学领域的变体,以适应临床与AD相关文本分析需求。
2.4 Biomedical Image Processing
卷积神经网络(convolutional neural networks, CNN)是医学影像分析的核心。多模态神经影像分析需结合结构MRI(T1加权、T2加权)、扩散张量成像(diffusion tensor imaging, DTI)与正电子发射断层扫描(positron emission tomography, PET,包括Aβ-PET与tau-PET)等技术。Vision Transformer(ViT)直接将图像切分为序列进行建模,但在小规模数据集上泛化能力有限。针对多模态数据缺失问题,研究者开发了基于三维CNN的生成模型以补全影像模态。功能MRI(functional MRI, fMRI)通过测量血氧水平依赖(blood oxygen level-dependent, BOLD)信号,可评估默认模式网络等功能连接特征,结合CNN或混合CNN-循环架构,已用于AD分类研究,但需严格预处理与外部验证以确保稳定性。
- 3.
AD/ADRD Databases
本文详细评述了八类数据库:
3.1 Clinical and Population Data
临床数据涵盖患者诊疗全程的结构化与非结构化信息,是循证医学与流行病学研究的基础。人群数据则提供群体层面的统计特征,用于探索疾病风险与卫生政策关联。
3.1.1 National Alzheimer’s Coordinating Center (NACC)
由NIA于1999年建立,是美国阿尔茨海默病研究中心(ADRC)项目的核心数据枢纽,收录超过5万名参与者的标准化多模态数据,包括临床评估、神经影像、遗传信息与神经病理数据。其统一数据集(Uniform Data Set, UDS)包含CDR、FAQ、NPI-Q等量表及神经心理测试,神经病理数据集(Neuropathology Data Set, NPDS)提供Thal分期、Braak分期及神经炎斑评分等信息。NACC通过REDCap系统进行合规数据管理,并提供快速访问文件请求系统、网络查询系统与多模态查询工具(Multimodal Query Tool, MQT)等多种访问途径。
3.1.2 Open Access Series of Imaging Studies (OASIS)
致力于免费开放脑影像数据集,包含OASIS-1至OASIS-4四个系列,涵盖从青年到老年人群的横断面与纵向结构MRI、功能MRI、DTI、PET及临床认知数据,支持BIDS格式,广泛应用于神经影像算法开发与验证。
3.1.3 The Alzheimer’s Disease Neuroimaging Initiative (ADNI)
自2004年启动,采用公私合作模式,分阶段(ADNI-1、ADNI-GO、ADNI-2、ADNI-3、ADNI-4)扩展队列规模与数据类型,重点发展Aβ-PET、tau-PET及血浆生物标志物,并新增远程队列与社会决定因素评估,以解决历史多样性不足问题。所有数据通过实验室神经影像(Laboratory of Neuro Imaging, LONI)平台管理并对外开放申请。
3.2 Genetics and Genomics Data
遗传与基因组学数据揭示了AD约70%的风险来源,涉及脂质代谢、内吞作用及炎症等关键通路。
3.2.1 UK Biobank
包含约50万英国参与者长达数十年的健康数据,涵盖全基因组基因型、全外显子测序、全基因组测序、影像数据、生化指标、活动监测及电子健康记录(electronic health record, EHR),并通过逆概率加权减少健康志愿者偏倚,是大规模遗传关联研究的基石。
3.2.2 Database of Genotypes and Phenotypes (dbGaP)
NIH下属的基因型-表型关系存储库,支持全基因组关联研究(genome-wide association studies, GWAS)等数据共享,采用两级访问制度(开放元数据与受控个体数据),并严格执行机构审查与数据使用认证流程。
3.2.3 The National Institute on Aging Genetics of Alzheimer’s Disease Storage Site (NIAGADS)
NIA指定的AD遗传学数据存储站点,支持阿尔茨海默病测序计划(Alzheimer’s Disease Sequencing Project, ADSP)数据管理与分发,整合了2万余例全外显子与5.8万余例全基因组数据,并与NACC等数据库实现跨平台关联。
3.3 Drug Discovery and Therapeutics Data
药物发现与疗法研究聚焦于Aβ、tau及突触功能障碍等靶点,推动单抗、小分子及基因疗法开发。
3.3.1 Chemical Entities of Biological and Medicinal Interest (ChEMBL)
欧洲生物信息学研究所维护的生物活性分子数据库,涵盖化合物结构、理化性质、靶点信息及实验活性数据,支持化学结构检索、批量下载及RESTful API访问,并配套Kinase SARfari、GPCR SARfari等专用工具。
3.3.2 DrugBank
整合药物化学、药理学、靶点及通路信息的综合数据库,每条药物条目(DrugCard)包含200余项字段,覆盖批准药物、实验药物及非冗余蛋白靶标,并提供临床API以支持医疗系统集成。
- 4.
Potential Real-World Applications
多模态数据库支撑了AD/ADRD的早期诊断与风险分层、AI/ML临床决策支持模型开发、精准医疗及药物机制解析。主观认知下降(subjective cognitive decline, SCD)作为潜在前临床阶段,已被纳入多模态研究框架。遗传与蛋白质组数据有助于预测药物反应与优化个体化治疗方案。ChEMBL与DrugBank则为药物靶点验证与脱靶效应评估提供了关键资源。
- 5.
Conclusions
AD/ADRD数据库的集中整合与标准化是推动疾病机制研究与干预开发的关键。未来数据库设计应进一步适配AI分析需求,纳入代表性不足的群体,嵌入标准化元数据并保证长期随访,以加速实现精准医疗与早期干预目标。