综述：从病例对照平均值到验证亚组：解读精神分裂症和重性抑郁障碍中的炎症与神经轴突损伤生物标志物——一项转化方法学综述

《Brain, Behavior, & Immunity - Health》：From Case-Control Averages to Validated Subgroups: Interpreting Inflammatory and Neuroaxonal-Injury Biomarkers in Schizophrenia and Major Depression A Translational Methodological Review

【字体：大中小】 时间：2026年06月09日 来源：Brain, Behavior, & Immunity - Health 3.7

编辑推荐：

　　精神科生物标志物研究的特征是存在微弱但可能具有信息性的生物学信号，这些信号通常接近方法学噪声。与神经退行性或感染性疾病相比，主要精神障碍中的候选血液和脑脊液（CSF）标志物通常显示小到中等的组间差异、显著的患者-对照重叠，以及更艰巨的临床应用路径。尽管如此，此

精神科生物标志物研究的特征是存在微弱但可能具有信息性的生物学信号，这些信号通常接近方法学噪声。与神经退行性或感染性疾病相比，主要精神障碍中的候选血液和脑脊液（CSF）标志物通常显示小到中等的组间差异、显著的患者-对照重叠，以及更艰巨的临床应用路径。尽管如此，此类信号可能有助于识别具有生物学意义的亚组，并推动从基于症状的诊断向神经-免疫-内分泌分层框架的转变。本综述探讨了为何会出现此类发现，并总结了可能产生假阳性生物标志物主张的技术噪声来源，包括有限的检测灵敏度、对检测限的错误解读、多重检测的权衡以及预分析因素（如采集时间、季节、溶血、冻融循环和批次效应）。研究人员还讨论了当通过经过验证的多变量方法整合时，微小的效应如何可能变得更具信息性。为校准解读，研究人员将精神障碍（如中性粒细胞、细胞因子、神经丝轻链、S100B的改变）与感染和神经退行性疾病的基准进行了比较，并通过实验室和临床案例说明了常见陷阱。研究人员还概述了一条从分析到合成的路径，其中生物标志物较少被评估为广泛综合征的诊断测试，而是作为生物学分层的工具。最后，研究人员讨论了发表偏倚和结果转换，并为研究人员提供了一个简洁的质量检查清单。研究人员认为，进展更可能来自前瞻性验证的亚组策略，而非仅靠平均病例对照差异，这有助于将精神神经免疫学推向具有经过验证的使用背景的可重复生物标志物。

**1. 引言：从微弱信号到生物分层**
**1.1. 微弱信号与精神科生物标志物问题**
本叙述性方法学综述探讨了如何解读、验证微弱生物学信号并将其转化为临床有意义的分层框架。除痴呆中已确立的脑脊液（CSF）生物标志物以及精神药理学治疗中的常规安全性监测外，大多数主要精神障碍在常规实践中仍缺乏经临床验证的诊断、预后或治疗选择生物标志物（Abi-Dargham et al., 2023; Ioannidis, 2005）。核心挑战或许并非缺乏生物学相关信号，而是异质性障碍与主要围绕临床综合征构建的诊断工具之间的不匹配。新兴的免疫、内分泌和神经标志物，与其作为广泛症状定义类别的诊断测试，可能在识别临床相关亚组方面最为有用，从而为将患者子集重新分类为生物学定义的疾病实体奠定基础。与医学其他领域不同，精神科生物标志物研究通常发现微小的免疫或神经生物学扰动，这些扰动难以与背景变异区分，因此统计显著的病例对照差异往往显示出小到中等的效应量、显著分布重叠以及有限的可重复性（Abi-Dargham et al., 2023）。在常规实践中，精神分裂症等诊断基于特征性临床综合征和最短病程标准阳性确立，而针对性医学检查（如血液检测、脑成像、CSF分析）旨在排除其他原因或识别需要不同管理的生物学定义亚组。当此类检查无异常时，这反映了当前可用方法的局限性，而非生物学基础的缺失。从Griesinger（1845）经Kraepelin（1899）到Andreasen（1984）的精神病学长期传统将这些疾病概念化为大脑障碍，而经过验证的生物标志物相对匮乏反映了方法学困难，而非生物学缺失。在精神科病例对照研究中，统计显著的均值差异通常与广泛的个体重叠共存。因此，研究人员区分了组效应指标（如Cohen's d或Hedges' g）与个体层面区分指标（如接受者操作特征曲线下面积（AUC）或超过临床意义参考阈值的比例）。例如，中等标准化效应（d=0.5）对应仅中等区分度（AUC约0.64），不支持个体分类。然而，许多研究仍以可能被误认为个体适用性的语言讨论组水平效应。这一区分推动了后续发展的亚组框架。抗N-甲基-D-天冬氨酸受体（anti-NMDAR）脑炎说明了这一动态：患者最初可能表现为精神病，但一旦确定因果自身抗体便被重新分类（Kayser and Dalmau, 2016; Meng et al., 2016），凸显了诊断边界如何随机制知识而调整。诊断异质性可进一步掩盖信号。精神科诊断是行为定义的且生物学多样（Garcia-Gutierrez et al., 2020）。共享诊断的患者可能具有不同的病理生理学，而不同诊断可能共享共同特征。这种重叠是否反映共享机制部分取决于分析层次。外周炎症标志物在不同疾病中通常表现相似，而更精细的分子分析可能揭示更特异的特征。低度炎症已在重性抑郁障碍（MDD）、精神分裂症、双相障碍及相关疾病中被报道（Goldsmith et al., 2016; Osimo et al., 2020; Yuan et al., 2019）。一项涵盖162种跨精神障碍外周生物标志物的伞状综述发现，大多数关联效力不足且非特异性，即它们不映射到个体诊断类别（Carvalho et al., 2020）。研究常问及生物标志物是否对精神分裂症等诊断具有特异性，尽管炎症标志物在多种医学状况中均发生改变，可能对于识别临床相关亚组比诊断类别更有用。因此，进展需解决信号-噪声问题以及历史上“器质性/非器质性”的二分法，后者可能阻碍对精神科患者中具有生物学信息性的发现进行探究。

**1.2. 生物标志物是什么与不是什么**
美国食品药品监督管理局（FDA）-国立卫生研究院BEST资源将生物标志物定义为客观测量特征，指示正常或病理过程或对暴露或干预的反应，区别于临床结局评估（Califf, 2018; Group, 2016）。在精神病学中，该术语常未经临床验证使用。严格来说，生物标志物服务于不同的临床目的，这对解读研究主张至关重要（Califf, 2018; Sechidis et al., 2018）：诊断性（如心肌梗死的肌钙蛋白）——目前尚无生物标志物经临床验证可用于广泛、症状定义的精神科综合征的常规诊断；预后性，独立于治疗——某些炎症标志物可能在精神病中具有价值；预测治疗反应（如肿瘤学中的HER2）——这在精神病学中基本是展望；监测疾病进程（如糖尿病中的HbA1c）——提出的炎症标志物需验证；药效学指标指示生物治疗反应（如受体占有率）；安全性生物标志物指示毒性风险——常规精神药理学监测包括白细胞分类计数（血液学效应）、肝酶和胆红素（肝毒性）、肌酐和估算肾小球滤过率（肾毒性）、心电图、体重/身体质量指数（BMI）、腰围以及空腹血糖和血脂（American Diabetes et al., 2004）。大多数精神科生物标志物研究未指定预期用途。患者中升高的分析物可能代表短暂状态、稳定特质或无关混杂关联。混淆这些会导致过早主张（Garcia-Gutierrez et al., 2020）。表1提供了正文讨论的核心标志物的简明基准导向总结，而补充表提供了扩展证据和临床就绪矩阵，包括其他广泛研究的候选标志物如脑源性神经营养因子（BDNF）。注：效应量基于荟萃分析报告；数值为近似值且依赖背景。所列标志物均未经验证可用于所讨论精神障碍的常规诊断、预后或预测用途。在全表中，精神科信号指疾病水平数据，而基准比较代表更生物学定义的状态。表1列出了标志物（基质）、领域、典型精神科信号、基准背景（大信号比较）、关键混杂因素/陷阱以及临床就绪性。例如，中性粒细胞计数（血液）在急性精神病中：首发精神病（FEP）4.70（3.64–6.26; n=128）和慢性精神分裂症（Sz）4.74（3.57–6.75; n=122）vs对照3.19（2.62–3.99; n=293）×10⁹/L；23%和30%高于参考范围 vs 6%对照（Steiner et al., 2020a）。荟萃分析：g≈0.69总体；在首发/抗精神病药初治队列中更大（Dudeck et al., 2025）。本综述聚焦探索阶段生物标志物，从病例对照差异到临床效用的转化需要分析验证、可重复性、生物学知情亚组划分、前瞻性测试以及临床效用证明（Califf, 2018; Group, 2016）。研究人员认为，许多精神科生物标志物最具信息性的角色可能是生物分层，而非广泛症状定义综合征的诊断。从探索性关联到临床实施的路径是顺序性的：分析验证、可重复性、生物学知情亚组划分、前瞻性测试以及临床效用证明。目标不是取代症状引导的治疗，而是完善它。这种阶段性路径总结于图2。相应地，候选标志物应关联明确的使用背景（CoU）声明，定义生物标志物类别、目标人群、临床决策和预期行动。在本综述中，现实的近期CoU例子包括：NfL作为鉴别诊断或排除辅助手段，当精神病伴有非典型认知或神经特征时；CRP/IL-6作为免疫调节干预试验的预测性富集标志物。这些例子并非作为精神分裂症或重性抑郁障碍的独立诊断测试提出。

**1.3. 从微弱信号到生物分层**
在精神科生物标志物研究中，辨别信号与噪声是一个核心挑战，因为报告的效应通常小于感染、自身免疫或神经退行性疾病中观察到的效应，但仍可能包含临床有意义的信息。因此，区分方法学伪差、非特异性生理学与真实分层信号，需要严谨的研究设计、关注分析局限性以及当结果与预期矛盾时修正解释的意愿（Feynman, 1974）。没有下游分析能弥补不充分的组匹配、缺乏预注册或未控制的混杂因素。本综述探讨了为何精神科中生物学相关信号相对于方法学噪声往往显得微弱，以及它们如何可能仍有助于临床有意义的分层。研究人员将精神科生物标志物读数与感染和神经退行性疾病中的进行比较，检查预分析和分析变异性的来源，并通过实验室和临床案例说明常见陷阱。在整个过程中，生物标志物发展被构建为一个迭代过程，在个体信号分析与合成生物学一致亚组之间循环（图2）。该综述还提供了区分稳健发现与伪差以及优先考虑可重复性而非过早生物标志物主张的实用工具。

**1.4. 本综述的新贡献**
在先前编目炎症信号和生物标志物验证差距的综述基础上（Abi-Dargham et al., 2023; Carvalho et al., 2020; Goldsmith et al., 2016），本综述贡献了先前概述中未强调的四个要素：（i）针对感染、自身免疫和神经退行性疾病的基准校准（图1）；（ii）将生物标志物发现与亚组划分和前瞻性验证联系起来的决策导向路径（图2）；（iii）整合预分析和检测相关失败与实验室案例；（iv）考虑基于生物标志物的成功分层如何有助于生物学表征的疾病重新分类。图1展示了信号背景：精神障碍中的生物标志物变化相对较小，与健康对照有大量重叠，与由更清晰生物学机制定义的疾病（如感染或神经退行性变）相比。（A）健康对照（HC; n=293）、首发精神分裂症（FE-SCZ; n=128）和首发重性抑郁障碍（FE-MDD; n=81）的中性粒细胞计数，与社区获得性肺炎（CAP; n=1027）和革兰阳性菌脓毒症（n=18）基准对比（Murakami et al., 2022; Singh et al., 2022; Steiner et al., 2020a; Sumardi et al., 2021）。（B）健康对照（n=27）、双相障碍（BD; n=11）、精神分裂症（SCZ; n=11）、重性抑郁障碍（MDD; n=28）和行为变异型额颞叶痴呆（bvFTD; n=20）的血清神经丝轻链（NfL）（Al Shweiki et al., 2019）。（C）健康对照（n=22）、首发精神分裂症（n=11）和复发性精神分裂症（n=6）的血清S100B（Milleit et al., 2016），以及急性缺血性卒中良好结局（mRS 0-1; n=60）与不良结局（mRS 2-6; n=109）的对比（Luger et al., 2021）。注意：图A-C使用了不同研究和检测平台已发表数据；它们是说明性基准比较，非头对头测量。这是一篇叙述性方法学综述，非系统综述或荟萃分析。定量估计优先选自已发表系统综述、荟萃分析、监管资源和示例试验。额外说明性例子通过有针对性的非系统化PubMed和参考文献列表检索至2026年6月。因此，综合旨在校准解读并定义转化逻辑，而非提供详尽证据图谱。一些实验室案例源自作者自身工作并明确标注。

**2. 分析灵敏度与检测限**
虽然单分析物灵敏度和特异性仍是基础（第2.3节多标志物方法），但许多检测是为具有大生物学变化的疾病开发的。因此，单分析物测量中的弱生物学效应难以与噪声分离。在将微小效应解读为有意义的之前，对分析灵敏度、检测限和检测验证进行仔细评估至关重要。

**2.1. 用于低水平生物标志物的超灵敏检测**
直到最近，大多数脑源性蛋白在精神科患者血液中存在的低浓度下几乎无法检测。NfL是一种在神经轴突损伤时释放的细胞骨架蛋白，在神经退行性疾病中显著升高（Bavato et al., 2024）。在CSF中，标准ELISA平台已允许识别神经炎症状况。相比之下，精神障碍中血液NfL差异是微妙的：只有超灵敏免疫检测如单分子阵列（SIMOA）才能量化精神分裂症及相关疾病中报道的微小波动（Bavato et al., 2024）。即便如此，这些差异仅为每毫升几皮克，处于可检测性边缘，使得严格验证必不可少。尽管血清测量方便，但这些平台可能昂贵。

**2.2. 检测限与定量限**
当解读弱检测信号时，区分检测限（LOD），即能与零区分的最低浓度，与定量限（LOQ），即能以可接受精度测量的最低浓度，至关重要（Andreasson et al., 2015）。重要的是，大多数免疫检测的变异系数（CoV）在接近LOQ时急剧增加，意味着精神科生物标志物研究相关的浓度范围正是测量不精密度最大的范围。在许多精神科细胞因子研究中，报告浓度位于或低于LOQ，使其与噪声无法区分。这适用于CSF和血清/血浆分析物。因此，在精神分裂症患者CSF的细胞因子面板中，大多数被发现不可检测或勉强高于LOD（Singh et al., 2023）。作者透明地报告了这些限制，而非过度解读，体现了通过阴性发现的严谨性，如Niculescu et al.（2015）所述。当报告生物标志物数据时，应披露接近或低于LOD和/或LOQ的病例百分比，以及使用的插补方法，因为不同策略（如LOD/2、LOD/√2或多重插补）在相当比例数值低于上述限值时可能实质性改变组比较（Herbers et al., 2021）。如果数值聚集在LOQ附近或以下，接受零结果而非通过激进插补或阈值调整强行获得显著性，既反映了科学诚信，也体现了良好的分析实践。

**2.3. 多重检测：便利但有所牺牲**
多重检测允许同时测量数十种分析物，但通常以牺牲灵敏度、准确性或动态范围为代价（de Koning et al., 2012）。许多多重免疫检测对单个分析物的LOD高于相应的单分析物检测。检测多种分析物也增加了未使用多重比较校正（如控制错误发现率（FDR））时假阳性的风险（Menyhart et al., 2021）。选择适当方法需要平衡研究目标与实际限制。传统上，这意味着聚焦于少数充分论证的分析物，使用最灵敏的可用检测。然而，系统免疫学和现代机器学习方法越来越能够处理更大的蛋白质组学和代谢组学数据集作为集成系统，按生物学通路而非孤立变量聚类分析物。这可以增加解读的稳健性，尤其是当组由生物学变量而非基于症状的精神科诊断定义时。多组学分析整合转录组学、蛋白质组学和代谢组学层，可能比任何单一分析物更有信息，因为精神病理生理学不太可能简化为单一分子信号。但应注意，多标志物方法并非自动解决信号-噪声问题，因为样本内准确性可能反映过拟合。

**2.4. 检测对照、可重复性与方法选择**
处理弱信号需要严格对照和可重复性。在批次内和批次间包含盲法复制样品可以揭示变异性反映生物学差异还是检测不稳定性（Valentin et al., 2011）。复制之间的巨大差异应使人怀疑微小组差异。阳性对照样品（如急性感染或自身免疫性疾病个体的血清）应确认检测在整个动态范围和批次间一致表现（Valentin et al., 2011）。在多中心研究中，系统性位点效应可能引入方差，模仿或掩盖组差异，可通过跨位点的质量控制样品和将位点作为协变量建模来解决。此类质量控制步骤在内分泌学等领域是常规，但在受压发表压力的探索性精神科生物标志物研究中有时被忽视（Abi-Dargham et al., 2023）。极端值不应自动丢弃。它们应首先触发检测验证和预分析因素审查。如果确认，应作为候选生物学亚组进行检查并透明报告。最后，检测选择可决定测量准确性，如NMDAR自身抗体在精神科患者中的测量所示（案例1）。由于低滴度下分析灵敏度的差异，或因为可能靶向不同表位或采用不同细胞固定方法，不同检测格式可产生惊人不同的结果。因此，一个发现可能在一个研究平台上看似稳健，而在另一个检测上无法检测，即使两种检测技术上都符合各自规格。

**3. 预分析陷阱与隐藏混杂因素**
即使在生物标志物研究中应用了适当检测，上游样品采集和处理也可能产生虚假信号。这些预分析因素常被忽视，却可能掩盖弱生物学效应，尤其是在多中心研究中。

**3.1. 样品采集变量**
许多血液生物标志物的浓度受采集条件影响。细胞因子水平随进食状态变化，反映代谢和激素变化，并遵循与免疫调节相关的昼夜节律。在女性中，免疫和激素标志物在月经周期中波动（Oertelt-Prigione, 2012; Whitcomb et al., 2014），且两性在冬季与夏季相比显示更高的炎症标志物（如IL-6、CRP）和中性粒细胞计数，可能由于感染增加、激素变化和日照减少（Dopico et al., 2015; Liu and Taioli, 2015）。如果精神科患者在冬季招募而对照在夏季，IL-6或CRP的明显病例对照差异可能反映与病理无关的季节变化。

**3.2. 处理与加工伪差**
采集后处理可引入额外噪声。延迟处理、离心差异或储存温度变化可扭曲生物标志物信号（Betsou et al., 2010）。因困难静脉穿刺或不良处理导致的溶血可破裂红细胞，引起细胞内内容物泄漏并改变多种分析物水平，包括细胞因子（Marques-Garcia, 2020）。如果一组的样品更频繁溶血（如更难抽血或处理前放置更长时间的患者），可能产生虚假组差异。冻融循环会降解一些生物标志物，因此组间不均等处理（如一次融冻 vs 两次）可造成人为差异（Lee et al., 2015; Mitchell et al., 2005）。如案例2所示，即使统计上稳健的生物标志物信号也可能源于未识别的系统性混杂因素（如BMI）而非脑病理。解决方案是根据生物样本库最佳实践标准化预分析协议（Betsou et al., 2010; Vaught, 2016）。在流程中包含质量控制样品有助于检测位点或实验室特异性伪差。此外，预分析变量应记录在数据集中并在分析中作为潜在混杂因素处理。

**4. 信号背景：校准科学判断**
以下比较并非旨在表明精神科标志物因效应较小而“失败”，而是阐明为何广泛诊断平均会掩盖临床有意义的亚组。如第1.1节所述，这些比较也存在部分循环：由生物学标准定义的疾病将固有地显示比症状定义综合征更大且更一致的生物标志物效应，且促使生物学重新分类的发现进一步扩大了领域间的表观分离。基于共享分子模式或病理生理学选择的组将比由症状模式定义的组更同质。基于亚组的生物标志物研究目标是识别其中可能对应疾病相关机制的生物学特征。研究人员在此呈现单标志物示例，因为解释能力始于理解个体分析物。理解其参考范围、混杂因素和动态行为是多标志物和系统水平方法（第2.3节讨论）的先决条件。

**4.1. 中性粒细胞计数：精神病和重性抑郁 vs 感染**
一项包含26,349名精神分裂症患者和16,379名对照的荟萃分析报告组水平中性粒细胞计数显著升高（Hedges' g=0.69），在首发（g=0.85）和抗精神病药初治（g=1.17）患者中组效应更大（Dudeck et al., 2025）。在首发和复发性MDD中也报道了类似但更温和的升高（Singh et al., 2022）。然而，这些组水平统计掩盖了一个更有信息性的模式。在研究人员的实验中，23%首发和30%复发性精神分裂症患者超过参考范围，而对照为6%（Steiner et al., 2020a）。中位值仍在正常范围内（精神分裂症4.70×10⁹/L；抑郁4.2–4.5×10⁹/L），与对照无明确分离（Singh et al., 2022）。关键的是，尽管存在显著组差异，大多数患者未显示升高，表明一个可定义的值高于参考的亚组驱动了统计信号。相比之下，肺炎（Murakami et al., 2022）和脓毒症（Sumardi et al., 2021）均为生物学定义疾病，通常产生约9–20×10⁹/L的中性粒细胞计数，是精神科队列观察值的两到四倍（图1A）。因此，期望广泛、症状定义的精神障碍具有可比效应量是不合理的。与其将温和的中性粒细胞升高视为副现象，不如将患者分层为值高于和低于参考的亚组，并询问这些亚组在临床上如何不同，这可能更有成效。即使少数患者有升高，也可能代表生物学上最具信息性的子集。

**4.2. NfL和S100B：以神经学基准为背景的精神障碍**
作为神经轴突损伤的标志物，NfL在生物学定义疾病（阿尔茨海默病、额颞叶痴呆、肌萎缩侧索硬化）的CSF和血液中显示稳健升高，水平常与疾病严重程度相关（Khalil et al., 2024）。例如，一项SIMOA研究展示了行为变异型额颞叶痴呆患者与对照的明确分离，疾病组血清NfL水平高出数倍（Al Shweiki et al., 2019）。在阿尔茨海默病和肌萎缩侧索硬化中也观察到类似大幅升高（Lu et al., 2015; Mattsson et al., 2017）。相比之下，在症状定义精神障碍如精神分裂症、双相障碍或MDD中，血液NfL水平通常保持在个位数到低十几pg/mL范围，并与对照大量重叠，尤其是年龄调整后（Bavato et al., 2024）。已发表研究中，原发性精神障碍的血液NfL发现较小、年龄敏感、异质且与对照分布大量重叠，而在神经退行性疾病中观察到更大升高（Lu et al., 2015; Mattsson et al., 2017）。血液NfL发现的解读因强年龄依赖性以及BMI、肾功能、神经合并症或头部损伤等额外影响而进一步复杂化（Bavato et al., 2024）（图1B）。S100B显示类似模式，精神科队列仅显示温和的血清变化（约1.5–2倍正常），而急性缺血性卒中使血清S100B升高至约2–5倍正常，严重创伤性脑损伤可升高达约100倍，取决于损伤负荷和结局（Kozlowski et al., 2023; Luger et al., 2021; Rothermundt et al., 2003）（图1C）。这些例子表明，与生物学定义疾病不同，精神障碍中的生物标志物不太可能作为独立诊断截断值。相反，其临床价值更可能在于识别具有不同生物学、临床轨迹或诊断需求的亚组。例如，首发精神病患者中显著升高的血清NfL可作为红旗，提示进行诊断检查以排除神经退行性变或其他神经轴突损伤，或为预后提供信息（Al Shweiki et al., 2019; Eratne et al., 2024）。图2展示了这一方法。类似地，S100B与BMI和胰岛素抵抗的强相关性（Steiner et al., 2010a; Steiner et al., 2010b）表明，理解外周混杂因素可将临床注意力转向代谢合并症，这是严重精神疾病中发病率和死亡率的关键决定因素。

**4.3. 生物分层可指导治疗的证据**
在MDD中，基于生物标志物分层的证据已出现。在难治性抑郁中，英夫利西单抗未显示总体获益，但基线CRP>5 mg/L的患者改善显著优于接受安慰剂者，而低CRP患者无获益（Raison et al., 2013）。类似地，GENDEP研究发现CRP预测对抗抑郁药类别的差异反应，高CRP倾向于去甲替林优于艾司西酞普兰（Uher et al., 2014）。在精神分裂症中观察到类似模式。靶向炎症通路的试验，包括托珠单抗和其他抗IL-6方法，在非选择队列中通常为阴性，但提出了在炎症亚组中获益的可能性（Girgis et al., 2018; Miller et al., 2016）。此外，抗炎增效的荟萃分析报告了温和且异质的效果，与免疫机制在部分患者中临床相关的观点一致（K?hler-Forsberg et al., 2019）。这些研究尚未确立临床验证的生物标志物。然而，它们表明生物分层可产生治疗相关信号，这些信号在异质患者群体被作为单一诊断组分析时会被掩盖。

**4.4. 细胞因子与急性期蛋白**
荟萃分析显示，IL-6是精神障碍中最一致的炎症信号之一，最高水平见于首发精神分裂症，其次是急性复发性精神分裂症、双相躁狂和急性MDD（Goldsmith et al., 2016; Haapakoski et al., 2015; Osimo et al., 2020）。TNF-α效应较小且较不稳定（Goldsmith et al., 2016; Haapakoski et al., 2015; Osimo et al., 2020）。绝对而言，精神科IL-6浓度通常保持在2-4 pg/mL范围（Roohi et al., 2021）。相比之下，Damas et al.（1992）报告无休克脓毒症中IL-6中位数为788 pg/mL，脓毒性休克为10,049 pg/mL。一项包含1,669名严重脓毒症或脓毒性休克患者的最新队列报告IL-6中位数为772 pg/mL，非幸存者为2,137 pg/mL，以及约15,000 pg/mL的死亡率相关阈值（Ruiz-Rodriguez et al., 2026）。因此，典型精神科IL-6值与脓毒症之间的数量级差距在当代数据中仍然稳健。CRP在精神分裂症和抑郁的荟萃分析中显示类似的中等升高，值通常保持在低单位数mg/L范围（Fernandes et al., 2016; Haapakoski et al., 2015; Osimo et al., 2020）。这远低于急性细菌感染中看到的水平（常>100 mg/L），也低于许多活动性全身炎症性疾病，而与慢性低度炎症范围重叠。对于心血管风险分层，CDC/AHA高敏CRP带将<1 mg/L定义为低风险，1-3 mg/L为中等，>3 mg/L为高风险（Pearson et al., 2003）。因此，精神科队列中常观察到的2-4 mg/L范围在生物学定义背景下可能在临床上具有意义，尽管它不诊断精神分裂症或抑郁。如同NfL和S100B，临床价值不太可能在于独立诊断截断值，而在于个体水平分层。已有报告基线CRP为抗抑郁药选择提供信息（Jha et al., 2017）。IL-6或TNF-α能否发挥类似功能尚待确定。额外基于血液的生物标志物候选总结于补充表。

**4.5. 信号特异性**
精神障碍中研究的大多数炎症生物标志物显示跨诊断而非疾病特异性表现。例如，IL-6升高的患者可能符合精神分裂症、严重抑郁、双相障碍或与炎症相关的医学状况标准。这种跨诊断信号可能反映共享的病理生物学。这一模式与明确定义疾病中的标志物形成对比，其中显著升高的NfL提示神经退行性变，极端中性粒细胞增多提示感染（Al Shweiki et al., 2019; Eratne et al., 2024）。症状定义精神障碍中的生物标志物升高通常较温和，且在组水平看似非特异性。然而，这并不排除其在亚组中的相关性，其中相同标志物可能反映不同且临床有意义的生物学过程。跨诊断信号并不否定临床效用。例如，CRP触发进一步诊断检查而非确认单一诊断，并因此被广泛使用。个体炎症标志物的跨诊断性质支持多标志物分析方法（见第2.3节），但此类方法仅与其所基于的个体检测同样可靠，这强调了第2节和第3节概述的单分析物质量标准的重要性。

**4.6. 情境判断**
重要的是将主张与效应量匹配，避免过度推销微小差异。精神科生物标志物效应通常在组水平为小到中等。IL-6或CRP增加20%等变化可能在生物学上具有信息性，但若无额外证据，很少支持诊断或个体化护理。跨学科合作有助于这种判断。例如，在精神障碍中2 pg/mL的IL-6增加可能微不足道，而同一增加对NfL参考值为5-10 pg/mL的年轻患者来说可能代表有意义的变化。与神经科、免疫科或检验医学专家一起评估这些发现可能有助于准确解读（Slade et al., 2023）。

**5. 发表偏倚与研究韧性**
发表偏倚，即阳性发现比阴性或不确定结果更频繁发表的趋势，扭曲了整个科学的证据基础，并在精神科生物标志物研究中构成特定风险，因为许多研究是探索性的，效应量小，且信号与噪声边界狭窄（Ioannidis, 2005, 2011; Mlinaric et al., 2017）。在此背景下，选择性发表可使脆弱的生物标志物叙事看似比实际更有说服力。

**5.1. 精神病学中发表偏倚的证据**
在科学领域，已发表论文中确认假设的比例从1990年的约70%增加到2007年的约85%（Mlinaric et al., 2017）。在精神病学中，在由Stanley医学研究所资助的238项已完成试验中，86项阳性，152项阴性，且阳性研究发表率为86%，阴性为53%（Bowcut et al., 2021）。这种不平衡夸大了表观疗效，并可能维持假阳性生物标志物叙事。一项里程碑式的FDA分析强化了这一担忧（Turner et al., 2008）。在74项FDA注册的抗抑郁药研究中，31%从未发表，所有37项阳性研究均进入期刊，而36项阴性中仅11项。已发表文献显示94%阳性结果，而FDA重新分析显示仅51%，效应估计膨胀了32%。结果转换和选择性报告可加剧问题。一项审计发现，约70%的精神科研究与其原始方案存在重大差异，包括选择性强调次要或事后发现（Bowcut et al., 2021）。

**5.2. 漏斗图、小研究效应及其后果**
漏斗图为发表偏倚提供视觉诊断（Egger et al., 1997）。不对称图，特别是缺失小型阴性研究的，提示选择性报告（Sterne and Egger, 2001）。一项涵盖五种精神疾病162种外周生物标志物的伞状综述发现，大多数荟萃分析具有高异质性和偏倚证据（Carvalho et al., 2020）。当应用偏倚调整方法如剪补法（Duval and Tweedie, 2000）或Egger回归（Egger et al., 1997）时，许多假设的效应变得较小或不显著。累积后果是假阳性效应的放大和经典化，引导资源和职业朝向误导性假设。案例3说明了假设依恋和非发表零结果如何加剧这一动态。

**5.3. 研究文化作为方法学保障**
当实验室和机构将零结果视为个人或职业失败时，发表偏倚被放大。健康的研究文化将严谨的阳性和阴性发现视为同等信息性，鼓励预注册和透明报告，并保护研究者不过度解读脆弱的效应，仅因为阳性叙事更容易发表（Edmondson, 1999; Nosek et al., 2019）。

**5.4. 关键阴性结果：病毒持续存在研究**
关于持续脑病毒感染促成严重精神疾病的长期假设说明了明确阴性证据的价值，这需要大型队列和适当推断框架（Dienes, 2014）。2023年一项研究对1,569名精神分裂症、双相障碍、自闭症谱系障碍患者和对照的死后脑组织进行了全基因组和RNA测序（Min et al., 2023）。病毒物质以低水平检测到，但无诊断差异，表明慢性脑病毒感染不太可能在这些障碍中起主要作用。发表这一结果并附有编辑评论（Steiner et al., 2023）体现了阴性证据如何推动领域前进。注册报告、预印本和支持性期刊政策为更广泛减少发表偏倚提供了实用工具（Nosek et al., 2019）。

**6. 质量检查清单：稳健生物标志物研究的保障**
稳健的精神科生物标志物研究需要明确指定预期用途、严格的分析验证，以及仔细控制设计、预分析和统计偏倚来源（见方框1）。方框1列出质量保障措施：1. 定义使用背景（CoU）：说明生物标志物是用于诊断、预后、预测、监测、药效学还是安全性相关目的。定义目标人群和其所告知的临床决策，并预注册CoU和分析计划以防止事后重新解读（Nosek et al., 2019）。2. 验证分析性能：在相关浓度范围内建立检测有效性，包括LOD和LOQ（例如CLSI EP17）。使用空白、低浓度对照和正交验证（Pierson-Perry et al., 2017）。3. 确保可重复性和盲法：实验室工作人员对组状态设盲，包含技术复制，并在独立批次或队列中确认发现（Gavrielides et al., 2011; Hrobjartsson et al., 2013）。4. 控制设计和混杂：在可能情况下使用充分效力、多中心设计，假设小效应。匹配或调整关键混杂因素（年龄、性别、BMI、吸烟、社会经济状态），并标准化病例对照采集（Simmons et al., 2011）。5. 标准化预分析处理：记录并协调跨位点的采集、处理、储存和样品质量控制协议（Thachil et al., 2024; Toth et al., 2020）。6. 管理批次效应：随机化样品跨批次和试剂批号，并使用内部控制检测漂移和变异（Buhule et al., 2014; Stopsack et al., 2021）。7. 应用适当统计推断：预先定义假设，校正多重比较，报告效应量与置信区间，并使用适合分布特性的模型。谨慎处理异常值，并在排除前调查生物学合理性。8. 避免过度解读：使用精确语言，避免无支持的因果或诊断主张。评估可能混杂和反向因果。9. 确保透明和可重复性：尽可能共享数据和代码，并支持独立复制和荟萃分析（Krauss et al., 2023）。10. 发表阴性及零发现：报告实施良好的阴性研究以减少发表偏倚。注册报告和预印本改善对领域的纠正反馈。这些保障措施并非详尽无遗，但针对了不可重复性和虚假发现的常见来源。共同应用可帮助精神科生物标志物研究更接近医学其他领域建立的标准。

**7. 结论**
在精神科生物标志物研究中区分微妙的生物学信号与噪声既是技术挑战也是转化挑战。分析极限、预分析混杂因素、小效应量和发表偏倚持续塑造着领域。精神科生物标志物发现中许多看似弥散的特征反映了基础生物学的复杂性以及所研究综合征类别的异质性，而非生物学基础的缺失。关键的转化步骤是停止将微弱的平均差异视为失败的诊断，而是测试可重复标志物定义的亚组是否在机制、预后、鉴别诊断或治疗反应上有所不同。多标志物和多模式方法可能改善亚组识别，但前提是它们经过分析验证、独立复制并在定义的使用背景下进行样本外前瞻性测试。试点多模式研究说明了这一前沿，包括血清神经生长因子与区域灰质差异以及血清BDNF与精神分裂症白质微结构的关系（Hammans et al., 2020; Neugebauer et al., 2019）。临床有用的生物标志物将仅通过协调的多中心研究、可重复方法、明确的使用背景和临床可解释的阈值而出现。如果准确性被置于吸引力之上，且阴性证据被视为知识，那么微妙且最初不确定的发现可以汇聚成可靠的知识，并最终为患者提供更好的护理。

热点排行