编辑推荐:
多重组织成像(MTI)受限于分子谱不全等问题。为此,研究人员应用机器学习对乳腺癌队列的 t-CyCIF 数据进行单细胞蛋白丰度填补,评估多种模型并引入空间信息。结果显示模型准确性高,填补数据具生物学相关性,为 MTI 数据优化提供新工具。
在生命科学研究中,对组织微环境的精细解析是理解疾病发生发展机制的关键。多重组织成像(Multiplex Tissue Imaging, MTI)技术如循环免疫荧光(t-CyCIF)等,虽能实现单细胞水平的空间蛋白质组和转录组分析,可同时检测 10-150 种蛋白质及 500-2000 种 RNA,但实际应用中面临诸多挑战。组织样本制备过程中的组织丢失、折叠,探针失效,以及下游图像处理误差等技术问题,常导致分子谱数据不完整,极大影响数据质量和分析的可靠性。此外,单次实验可检测的分子数量有限,难以全面捕捉复杂的生物信息,这使得如何从现有数据中挖掘更多有效信息成为亟待解决的难题。
为突破这些瓶颈,美国俄勒冈健康与科学大学(Oregon Health & Science University)的研究人员开展了一项具有创新性的研究。他们利用机器学习(Machine Learning, ML)和深度学习(Deep Learning, DL)方法,对乳腺癌组织的 t-CyCIF 单细胞数据集进行蛋白质丰度填补(Imputation),旨在通过计算手段弥补数据缺失,提升 MTI 数据的实用性。该研究成果发表在《Nature Communications》上,为 MTI 技术的发展和应用开辟了新的方向。
研究人员主要采用了三种关键技术方法:弹性网络(Elastic Net, EN)正则化线性回归、轻梯度提升机(Light Gradient-Boosting Machine, LGBM)和神经网络自编码器(Autoencoders, AE)。实验使用了来自 4 名激素受体阳性(HR+)、HER-2 阴性转移性乳腺癌患者的 8 份活检样本,这些样本属于 NCI 癌症登月计划人类肿瘤图谱网络(Human Tumor Atlas Network)数据集,包含治疗前和治疗进展后的配对样本,共涉及 20 种蛋白质的检测。研究通过留一患者交叉验证(Leave-One-Out Cross-Validation, LOOCV)方法评估模型性能,并引入细胞空间坐标信息,计算不同半径内邻近细胞的蛋白质丰度均值,以探索空间背景对填补准确性的影响。
研究结果
蛋白丰度填补性能评估
基线模型(均值填补)表现较差,而 EN 模型显著优于基线,平均绝对误差(Mean Absolute Error, MAE)降低 0.078,其中 CK17 和 Ki67 的 MAE 低至 0.05。LGBM 模型进一步提升了准确性,其平均 MAE 为 0.10,优于 EN 的 0.11 和 AE 的 0.13。AE 虽在单蛋白和多蛋白填补中表现稍逊,但能同时处理多个蛋白质,具备计算效率优势。空间信息的加入显著改善了填补效果,尤其对高变异性蛋白质如 CK19、ER 和 PR,使用 60μm 半径时,LGBM 和 AE 模型的 MAE 均有明显下降,表明细胞微环境的空间关联对数据填补至关重要。
生物学应用验证
通过填补数据对单细胞进行治疗时间点分类,使用 LGBM 模型构建的分类器显示,基于填补数据的预测准确性比真实数据提高 8.93%。研究推测,这可能是由于填补过程去除了原始数据中的噪声,或通过上采样增强了数据模式。表型分析显示,真实数据与填补数据的调整兰德指数(Adjusted Rand Index, ARI)达 0.72,表明两者在细胞表型分类上高度一致,验证了填补数据的生物学相关性。
模型泛化能力验证
在另一独立的乳腺癌组织微阵列(Tissue Microarray, TMA)数据集(包含 26 例肿瘤样本)中,EN 和 LGBM 模型表现稳定,而 AE 模型准确性下降,提示不同模型在不同数据分布下的适应性差异。这一结果表明,LGBM 和 EN 模型具有较好的泛化能力,可推广至更广泛的 MTI 数据集。
结论与讨论
该研究首次将机器学习应用于 MTI 单细胞蛋白丰度填补,证明了其可行性和有效性。研究发现,空间信息的整合能显著提升填补准确性,揭示了细胞微环境在数据建模中的重要性。尽管不同模型各有优劣(LGBM 准确性最高,AE 适合多蛋白填补),但均为 MTI 数据优化提供了实用工具。此外,填补数据在生物学分类中的出色表现,表明其可用于肿瘤微环境异质性分析、治疗响应预测等领域,为深入理解肿瘤演化和精准医疗提供了新途径。
研究的局限性包括仅针对蛋白质(未涉及 RNA)、样本类型局限于转移性乳腺癌、蛋白质数量较少等。未来需在更大规模、更多样化的数据集及不同 MTI 平台上进一步验证模型,以拓展其应用范围。总体而言,这项研究为 MTI 技术与机器学习的结合奠定了基础,有望推动单细胞空间组学在疾病研究和临床实践中的发展。