
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:生物制造工艺开发中的微流控技术
【字体: 大 中 小 】 时间:2025年09月19日 来源:Biotechnology Advances 12.5
编辑推荐:
本综述系统介绍了耦合可解释人工智能递归(CEAIR)学习框架,该框架整合计算机视觉与合作博弈论(SHAP),从高维小样本血清表面增强拉曼光谱(SERS)数据中提取可解释的数字生物标志物(Digital Biomarkers),显著提升肝细胞癌(HCC)早期诊断的准确性与泛化能力,曲线下面积(AUC)持续超过0.97,为复杂疾病无创诊断提供新范式。
Abstract
in vitro诊断生物传感器在早期癌症检测中的应用因少数分子生物标志物的代表性不足而面临挑战。数字生物标志物有望实现全面疾病表型分析,但受限于临床数据稀缺和泛化能力不足。本研究引入耦合可解释人工智能递归(CEAIR)学习框架,整合计算机视觉与合作博弈论,通过可解释的少样本学习从有限血清样本的高维表面增强拉曼光谱(SERS)数据中提取领域相关的数字生物标志物。应用于肝细胞癌(HCC)检测时,CEAIR衍生的数字生物标志物显著优于循环分子生物标志物,在基于经典机器学习算法构建的多个独立分类器中曲线下面积(AUC)持续超过0.97,并在外部验证中表现出强大泛化能力。该研究凸显了CEAIR在克服高维小样本生物传感器数据生成临床有意义诊断知识方面的根本性限制,为复杂疾病提供可靠、无创且及时诊断的数字生物标志物。
Introduction
复杂疾病(尤其是癌症)的早期检测显著改善预后和生存结局(Crosby et al., 2022; Fitzgerald et al., 2022)。然而,及时准确诊断常因生物传感数据对多样疾病状态的表征学习或“感知”不足而受阻。诊断生物传感器应用的核心挑战在于从高维组学数据中处理有意义且具代表性的信息,且早期癌症标本的可用性有限。液体活检虽通过检测循环分子生物标志物(如循环肿瘤DNA(ctDNA))提供微创监测疾病进展的手段(Bratman et al., 2020; Cohen et al., 2023),但其诊断效能受限于识别稳健且代表性分子特征的挑战。现有方法通常优先选择通过多组学研究识别的高方差分子特征作为分子生物标志物(Li et al., 2023; Xiao et al., 2022),无意中忽略了更细微但具临床意义的指标。因此,基于方差驱动优先级筛选的少量分子生物标志物仅能代表多因素复杂疾病进展全谱的一小部分,从而限制诊断准确性(Smelik et al., 2024)。尽管这些分子生物标志物提升了诊断能力,但其敏感性和特异性不足,尤其对早期癌症,其中细微病理变化可能无法被孤立分子信号充分捕获。
数字生物标志物(亦称数字表型)是计算衍生的健康或疾病指标(Bent et al., 2021)。与分子生物标志物不同,数字生物标志物利用计算模型提供全面疾病表征,并捕获嵌入广泛高维数据集中的细微生物学变化,可能在临床诊断(尤其是早期疾病检测)中提供更优的敏感性和特异性。此外,其固有优势(包括成本效益、可及性和可扩展性)使数字生物标志物成为精准医学和大规模诊断应用的有前景工具(Coravos et al., 2019; Weiss et al., 2020)。然而,从复杂分子谱数据(如生物医学光谱)中学习有意义的数字生物标志物仍存在方法论挑战。在此背景下,内在高维性和有限样本量加剧过拟合风险并阻碍发现结果的泛化能力。光谱数据中常见的强特征间相关性使判别性特征识别复杂化,因冗余或共线变量可能掩盖个体特征对疾病特异性模式的真实贡献。此外,标注良好临床病例的稀缺进一步复杂化此过程,使从个体间变异或噪声中稳健区分细微但一致的光谱特征变得困难。因此,亟需能够学习代表性和判别性特征以发现数字生物标志物的计算策略。
已有若干计算方法被提出以管理高维少样本光谱特征学习。然而,降维技术主要聚焦高方差特征,可能忽略临床相关的低方差特征(Berisha et al., 2021)。数据增强技术如合成少数类过采样技术(SMOTE)(Chawla et al., 2002)和生成对抗网络(GAN)(Goodfellow et al., 2020)可能扭曲有生物学意义的光谱模式,从而削弱其临床相关性。自监督学习通常依赖预定义任务学习数据表示,可能不足以捕获生物医学光谱中存在的细微但具临床意义的变异(Krishnan et al., 2022)。对比学习需定义正负样本对,这在光谱特征学习中尤其模糊且易错(Wang et al., 2022)。元学习需要临床队列中不易获得的任务多样性(Hospedales et al., 2022)。尽管有这些进展,从高维光谱数据中稳健识别数字生物标志物仍具挑战。
为应对这些多层面挑战,我们提出耦合可解释人工智能递归(CEAIR)学习,一种可解释计算框架,明确设计用于从高维小样本生物医学光谱数据集中识别稳健数字生物标志物。CEAIR战略性地整合两种不同计算方法的可解释性聚焦机制,即基于计算机视觉的注意力和合作博弈论,以系统识别重要光谱特征,通过迭代去冗余顺序细化关键光谱特征,实现增强的可解释性、泛化性和稳健性。如此,CEAIR成功找到紧凑但高代表性的临床相关光谱特征集合,作为数字生物标志物。通过对从肝细胞癌相关队列获取的血清表面增强拉曼光谱(SERS)数据分析验证时,CEAIR衍生的数字生物标志物表现出优于传统分子生物标志物的预测性能,凸显了推进早期癌症无创诊断的潜力。
Dataset description
本研究策划两个独立光谱数据集:核心数据集(用于数字生物标志物提取和内部验证)和当代数据集(用于外部验证)。核心数据集包含从102个体血清样本获得的612个表面增强拉曼光谱(SERS),平均分为三个临床定义组:34名健康对照(正常)、34名诊断为肝细胞癌(HCC)的患者和34名高风险个体(如肝硬化或慢性肝炎患者)。当代数据集包含从45个体获得的225个SERS光谱,包括15名健康对照、15名HCC患者和15名高风险个体。所有光谱在相同实验条件下使用商用SERS基底采集,并经过标准预处理(包括背景减除和光谱归一化)以确保数据质量一致性。
CEAIR architecture and implementation
CEAIR框架专为克服从复杂小样本生物医学光谱数据识别数字生物标志物的挑战而开发。该框架包含三个关键学习模块:视觉注意力模块、SHapley可加性解释(SHAP)模块和去冗余模块。如图1a所示,血清样本从分为三组的受试者收集:正常、高风险和肝细胞癌(HCC)。原始SERS光谱首先输入视觉注意力模块,该模块采用基于卷积神经网络(CNN)的架构学习光谱特征的空间依赖关系,生成注意力权重图以突出信息丰富的光谱区域。随后,SHAP模块应用合作博弈论原理量化每个光谱特征对模型预测的贡献,通过计算Shapley值提供特征重要性的可解释度量。最后,去冗余模块迭代移除冗余或高度相关特征,基于预定义相似性阈值精炼特征集合。此过程重复直至获得紧凑且判别性特征集,作为数字生物标志物。CEAIR在Python中实现,使用TensorFlow和SHAP库,并通过五折交叉验证严格评估以确保稳健性。
Discussion
本研究引入CEAIR,一个耦合可解释人工智能(XAI)框架,整合计算机视觉与合作博弈论原理,从复杂小样本生物医学光谱数据集中提取稳健数字生物标志物。CEAIR框架包含视觉注意力模块、SHAP模块和去冗余模块,协作从表面增强拉曼光谱(SERS)中识别高信息量数字生物标志物。数字生物标志物源自CEAIR,在肝细胞癌(HCC)检测中表现出卓越性能,多个独立分类器的曲线下面积(AUC)值持续超过0.97,显著优于传统循环分子生物标志物。此外,这些数字生物标志物在外部验证队列中保持强泛化能力,凸显其临床适用性。该框架成功解决高维小样本学习的关键挑战,包括过拟合、特征冗余和可解释性不足,为从复杂生物医学数据生成临床有意义诊断知识提供新途径。
Conclusions
总之,本研究呈现CEAIR,一个耦合可解释AI框架,擅长从高维小样本循环SERS数据集中提取生物学相关且可泛化的数字生物标志物。利用基于计算机视觉的注意力机制与合作博弈论(SHAP)的协同整合,CEAIR持续识别出稳健、临床有意义的数字生物标志物,其在预测性能上优于传统循环分子生物标志物,并表现出强大泛化能力。该框架为早期癌症检测提供可靠、无创且及时诊断工具,有望推进精准医学发展。未来工作将探索CEAIR在其他疾病领域和数据类型中的应用,以进一步验证其通用性和效用。
CRediT authorship contribution statement
Junhan Yang: 撰写初稿、可视化、软件、调查、形式分析。
Chen Shen: 撰写初稿、可视化、调查、形式分析、数据策管。
Ningtao Cheng: 撰写审阅与编辑、初稿、监督、资源、项目管理、方法论、资金获取、概念化。
Declaration of competing interest
作者声明无已知可能影响本工作的竞争性财务利益或个人关系。
Acknowledgments
本工作得到国家自然科学基金(82202628)支持。
生物通微信公众号
知名企业招聘