《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:High confidence Raman spectroscopy of tumor biomarker proteins through experimental and theoretical cross-validation
编辑推荐:
本研究通过实验与理论交叉验证,获取了乳腺癌四个生物标志蛋白(HER2、ER、PR、Ki67)的高信頼拉曼光谱,结合密度泛函理论计算验证了光谱差异峰的可靠性,并显著提升AI分类准确率至7.62%,为构建肿瘤生物标志物拉曼光谱数据库及AI诊断模型奠定基础。
莫文波|倪双|周明杰|齐道建|王新明|唐峰|黄敬林|文家兴|杨月|赵宗清
中国工程物理研究院激光聚变研究中心材料科学与技术系,中国绵阳621900
摘要
癌症对人们的健康和安全构成了重大威胁。肿瘤生物标志物的检测在癌症的精准诊断中发挥着至关重要的作用,并在癌症筛查和病理诊断中得到广泛应用。现有的肿瘤生物标志物检测方法存在一些缺点,如容易产生假阳性结果、操作复杂以及成本高昂。拉曼光谱作为一种分子级别的“指纹”技术,有望成为一种快速且准确的肿瘤生物标志物蛋白质检测方法。本文提出了一种基于实验和理论交叉验证的高置信度拉曼光谱收集方法用于肿瘤生物标志物蛋白质的检测。一方面,通过超滤纯化蛋白质样品,实验获得了四种乳腺癌生物标志物蛋白质的高置信度光谱;另一方面,利用第一性原理密度泛函理论(DFT)计算了这些蛋白质的拉曼光谱。实验和理论光谱相互验证,确认了这四种生物标志物蛋白质的光谱峰特征及其归属的差异。我们还通过理论-实验交叉验证展示了基于人工智能的蛋白质分类能力的提升,准确率提高了7.62%。本文提出的方法非常适合与基于人工智能的高通量光谱分析算法集成,未来在癌症筛查和组织活检病理诊断领域具有开发深度学习模型的潜力。
引言
癌症是当今社会对人类生命最严重的威胁之一。据统计,2022年全球新增癌症病例约为2000万例,近970万人因此死亡。预计到2050年,全球癌症负担将增至3500万例[1]、[2]、[3]。癌症预防已成为21世纪最重要的公共卫生挑战之一,在抗击癌症方面发挥着关键作用[4]。
准确的癌症诊断对于癌症的预防、治疗和监测至关重要。蛋白质执行多种细胞功能,因此与蛋白质相关的生物数据有助于识别和临床应用新的生物标志物[5]。一方面,早期癌症筛查受到越来越多的关注,其基本原理是通过检测体液中的某些肿瘤生物标志物的存在和数量来评估癌症的发展情况,从而实现早期治疗,提高患者的生存率[6]、[7]、[8]。在癌症早期筛查中使用的生物标志物中,以蛋白质为主要成分的细胞外囊泡起着重要作用[8]、[9]。另一方面,患者癌组织的组织病理学诊断是临床实践中的金标准。最常用的免疫组化方法是通过抗原-抗体免疫反应和染色来显示组织切片上特定生物标志物蛋白质的分布[10]、[11]。因此,从多个角度来看,准确检测肿瘤生物标志物蛋白质在癌症诊断中起着关键作用。总之,精确检测蛋白质生物标志物在癌症诊断、治疗和疾病进展监测方面具有巨大潜力[12]。
在癌症早期筛查和病理诊断中,目前主流的蛋白质检测方法基于抗原-抗体免疫反应,例如液体活检中的酶联免疫吸附测定(ELISA)和组织切片中的免疫组化(IHC)[13]、[14]。然而,依赖免疫学原理的方法存在一些问题,包括容易产生假阳性结果、程序相对耗时以及抗体和染色试剂的成本较高[15]、[16]。此外,细胞的生理状态可能受到染色技术和不同抗体试剂的影响[17]、[18]。因此,需要开发一种快速且准确的肿瘤生物标志物蛋白质检测方法。
拉曼光谱是一种能够捕获与分子化学键相关的振动信息的检测技术。每种分子的化学键振动都是独特的,这使得拉曼光谱能够反映分子的“指纹”特征。因此,它有望用于肿瘤生物标志物蛋白质的检测。目前已有许多关于使用拉曼光谱检测肿瘤生物标志物蛋白质的研究,其中许多研究结合了表面增强拉曼光谱技术以提高蛋白质检测的灵敏度。然而,大多数研究仍然基于带有拉曼标签的免疫学反应[19]、[20]、[21]、[22]。尽管这些方法可以达到低至pg/mL甚至fg/mL的检测限,但仍存在上述问题。无标记拉曼光谱可以直接获取蛋白质本身的拉曼光谱,但相关研究相对较少。无标记拉曼研究的检测目标主要是体液和组织,而非单个蛋白质分子[23]、[24]、[25]、[26]。这些检测目标更为复杂,将获得的光谱差异归因于肿瘤生物标志物蛋白质表达水平的变化较为困难。为了有效应用无标记拉曼光谱进行蛋白质水平检测,获得高置信度的肿瘤生物标志物蛋白质光谱至关重要,这对于确保癌症诊断的准确性和可靠性至关重要。
此外,基于人工智能的高通量光谱分析技术也在重塑拉曼光谱分析的范式[27]、[28]。这包括新的机器学习(ML)和深度学习(DL)算法,旨在提供所需的准确度以进行有意义的临床解释[29]、[30]。将人工智能(AI)应用于生物医学问题是最具挑战性的领域之一,需要建立既可解释又可靠的精确模型。尽管拉曼光谱在基于组织、细胞和生物流体的整体光谱特征进行疾病诊断方面显示出强大潜力,但大多数诊断研究主要依赖于复杂光谱的统计分离性,而非对区分性光谱特征的明确分子解释[28]、[31]。由于生物样本包含蛋白质、脂质、核酸和代谢物的混合物,分类模型中使用的光谱标记通常来源于多种分子物种的叠加贡献[28]。因此,诊断相关光谱特征的生化起源往往不明确[31]。这一限制可能会影响光谱诊断模型的稳健性和可解释性,特别是在将模型应用于不同患者群体、仪器或样本制备协议时[31]。在这种情况下,对纯化生物分子进行详细的光谱表征为解释复杂生物光谱提供了重要的分子参考[32]。蛋白质是许多生物系统中拉曼信号的主要贡献者,许多临床相关的生物标志物都是蛋白质[33]、[34]。因此,确定特定蛋白质生物标志物的特征性拉曼特征有助于将生物样本中观察到的宏观光谱特征与其潜在的分子来源联系起来,从而支持开发更具解释性和稳健性的基于光谱的诊断方法[27]。此时,获得高置信度的蛋白质拉曼光谱至关重要。这有助于以原则性方式约束训练数据集的组成,并将基于生物知识的约束整合到模型中,从而提高模型的准确性和可解释性[35]。
本文以四种与乳腺癌相关的生物标志物蛋白质为例:人表皮生长因子受体2(HER2)、雌激素受体(ER)、孕酮受体(PR)和增殖细胞抗原(Ki67)。分析这些生物标志物蛋白质有助于确定乳腺癌的分子亚型,指导治疗选择和预后评估。根据它们的表达水平,乳腺癌在病理学上可分为四种主要分子亚型:Luminal A、Luminal B、HER2过表达型和三阴性(TNBC)。不同亚型可能需要不同的治疗策略,因此准确检测这些蛋白质在乳腺癌患者管理中起着关键作用。
实验收集了这四种生物标志物蛋白质的高置信度拉曼光谱,并使用第一性原理方法计算了它们的理论拉曼光谱。实验和理论光谱进行了交叉验证,确认了蛋白质拉曼光谱的可靠性,并分析了四种蛋白质拉曼光谱差异的来源。本文的结果可用于建立肿瘤生物标志物蛋白质的拉曼光谱数据库,并开发基于AI的分析方法和模型。未来,这项研究可以进一步应用于癌症早期筛查和病例诊断,促进拉曼光谱在生物医学领域的应用和发展。
章节片段
蛋白质的纯化和预浓缩
本研究中使用的四种肿瘤生物标志物蛋白质(HER2、ER、PR和Ki67)是从经过认证的生化供应商处购买的重组人蛋白质,并附有分析证书。HER2蛋白质购自中国北京的中生生物公司(Sino Biological Inc.)。ER和PR蛋白质购自中国上海的Seebio Biotech Corporation。Ki67蛋白质购自中国武汉的Fine Biotech Co., Ltd。HER2和Ki67的纯度
四种生物标志物蛋白质的实验拉曼光谱
氨基酸是蛋白质的构成单元,人类蛋白质由20种必需氨基酸组成。氨基酸组成的差异是导致蛋白质拉曼光谱变化的重要因素。我们统计了四种标志物蛋白质中20种氨基酸的相对含量(每种氨基酸的数量除以该蛋白质中的总氨基酸数量),如图1所示。
最显著的差异在于亮氨酸的含量。
结论
本研究采用实验和理论交叉验证的方法获得了四种乳腺癌生物标志物蛋白质的高置信度光谱。分析确定了这四种蛋白质的光谱峰特征及其归属的差异。这种方法为建立肿瘤生物标志物的拉曼光谱数据库奠定了基础,有助于提高基于AI的拉曼光谱在生物医学领域的置信度和准确性。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
本工作得到了国家自然科学基金(编号:12505245)和中央政府地方科技发展引导基金(编号:2023ZYDF009)的支持。
CRediT作者贡献声明
莫文波:概念构思、数据管理、方法学、可视化、初稿撰写、审稿和编辑。倪双:概念构思、数据管理、方法学、审稿和编辑。周明杰:形式分析、项目管理。齐道建:实验研究。王新明:数据管理、方法学。唐峰:审稿和编辑。黄敬林:实验研究。文家兴:数据管理、软件应用。杨月:数据管理。赵宗清: