《Microchemical Journal》:Multivariate curve resolution–discriminant analysis for robust classification of breast Cancer cells by Raman microspectroscopy
编辑推荐:
Raman光谱结合MCR-DA方法实现乳腺癌细胞高精度分类,发现背景信号干扰影响分类准确性,生物分子特征独立贡献达91.7%准确率,为非侵入性诊断提供新方法。
Sarwar Hossain | Ajinkya Deepa Deepak Anjikar | Keita Iwasaki | Hidetoshi Sato | Tatsuyuki Yamamoto | Hemanth Noothalapati
鸟取大学联合研究生院农业科学系,日本鸟取680-8550
摘要
对癌细胞的可靠分类需要采用能够关注生物分子信息的同时最小化背景信号干扰的分析方法。在本研究中,我们应用拉曼显微光谱技术对正常人乳腺上皮细胞(HMEpC)和乳腺癌细胞(MCF-7)进行了分析,并结合了多变量曲线分解-交替最小二乘(MCR-ALS)分析方法。MCR-ALS将光谱分解为六个具有不同生物化学成分和背景贡献的纯组分。我们首次引入了多变量曲线分解-判别分析(MCR-DA)方法,其中直接使用MCR得到的浓度谱作为判别特征。利用所有六个组分,MCR-DA的准确率达到100%;然而,在排除与背景相关的组分后,分类准确率稳定在91.7%。这表明细胞介质的背景贡献可能会提高判别效果,而仅基于生物分子组成的谱图则能够产生稳健且可解释的结果。我们的发现表明,MCR-DA不仅能够实现对乳腺癌细胞的可靠分类,还能揭示不同分子组分的贡献。这一新框架增强了拉曼光谱的诊断潜力,并为其与先进机器学习方法的结合开辟了途径,从而实现具有临床意义的应用。
引言
乳腺癌仍然是全球女性中最常见的恶性肿瘤,每年新增病例超过230万例,死亡人数接近70万例[1]。早期检测对于降低死亡率至关重要,但目前现有的诊断方法仍存在局限性。基于成像的技术如乳腺X线摄影、超声波和MRI虽然被广泛使用,但可能会使患者暴露于辐射或造影剂中,并且常常无法在疾病最早期阶段发现病变。组织病理学作为临床金标准,需要侵入性取样、耗时准备,并且部分依赖于主观的人类解读[2,3]。这些限制凸显了开发快速、客观、无创且能够检测到形态变化之前细微生化改变的诊断工具的迫切需求。
拉曼光谱技术因其在无标记、非破坏性条件下探测体液、细胞和组织的生化成分的能力而受到广泛关注[4][5][6][7]。通过测量蛋白质、核酸和脂质等生物分子的振动特征,拉曼显微光谱具有高分子特异性,并适用于体外和体内环境。多项研究已经证明了其在癌症检测、手术引导甚至代谢分析中的实用性[8][9][10]。然而,临床应用受到持续挑战的阻碍:生物拉曼光谱常常受到自荧光、周围介质的干扰或不需要的生物基质的干扰,这些因素可能主导数据集中的变异[11,12]。同时,大多数化学计量方法(如主成分分析(PCA)、线性判别分析(LDA)和支持向量机(SVM)等仅从数学角度处理数据。尽管这些传统方法可以有效区分正常细胞和癌细胞,并通过载荷谱提供分子层面的信息,但这些载荷通常代表了来自多个生物化学来源的重叠或符号不同的贡献,使得直接解释变得困难。因此,它们无法为判别提供直接的分子依据,导致结果难以解释且容易受到背景因素的影响而产生误分类。
为克服这些限制,多变量曲线分解-交替最小二乘(MCR-ALS)[13,14]这一成熟的化学计量技术被越来越多地应用于拉曼光谱数据中。与传统降维方法不同,MCR-ALS施加了非负性约束,并将光谱分解为具有化学意义的纯组分及其相应的丰度[15][16][17]。该方法能够直接从复杂光谱中提取蛋白质、核酸和脂质组分,既提高了可解释性,又提供了生物学见解。在我们之前使用632.8纳米激光波长的研究中,我们利用MCR-ALS鉴定了正常人乳腺上皮细胞(HMEpC)和乳腺癌细胞(MCF-7)的拉曼光谱中的分子组分[18]。研究发现了富含亚油酸的甘油三酯等独特的脂质特征,这些特征可作为客观区分癌细胞的拉曼光谱标志物。虽然这为基于拉曼的乳腺癌诊断提供了首个明确的分子依据,但分类仍依赖于PCA-LDA和SVM,尽管这些方法准确,但与光谱的生化意义脱节。
多变量曲线分解技术与判别分析方法的结合已在多种分析应用中得到探索。最近的研究展示了将MCR方法与LDA[19]、软独立模型类比(SIMCA)[20]、偏最小二乘判别分析(PLS-DA)[21]和感兴趣区域(RIO)[22]等分类工具相结合的实用性。
为了解决这一问题,我们采用了多变量曲线分解-判别分析(MCR-DA)这一具有化学可解释性的框架[23]。在本研究中,我们证明了多变量曲线分解-判别分析(MCR-DA)在乳腺癌和正常上皮细胞拉曼光谱分类中的适用性。尽管MCR-DA已在其他分析领域得到成功应用[20][21][22],但据我们所知,这是其首次用于乳腺癌诊断的拉曼显微光谱研究。通过将光谱分解为纯组分,我们能够分析每个组分对分类的贡献。结果表明,虽然细胞介质的背景组分可能会人为提高准确率,但仅基于生物分子组分的分类仍然稳健可靠。重要的是,我们的方法不仅提供了强大的诊断性能,还通过将判别结果直接与有意义的分子信息联系起来,为基于拉曼的诊断提供了一种可靠的方法。
细胞培养
MCF-7乳腺癌细胞系在不含酚红的Dulbecco改良Eagle培养基(DMEM)中培养(Thermo Fisher Scientific,日本东京),培养基中添加了0.1 mM丙酮酸、2 mM L-谷氨酰胺、1%(体积比)抗生素和5%(体积比)胎牛血清。
HMEpC细胞来自正常乳腺组织(Cell Applications, Inc.,美国加州圣地亚哥),作为对照细胞,在人乳腺上皮细胞培养基(TOYOBO)中培养。
HMEpC和MCF-7细胞的平均拉曼光谱
本研究共分析了60个细胞。每个组(正常细胞和癌细胞组)包含30个细胞,每个细胞有5个随机空间分辨的拉曼光谱点。这5个随机点的平均值用于获得最佳信噪比(SNR)的拉曼光谱,图1显示了每个组30个拉曼光谱的平均值及其标准差。721 cm^-1处的拉曼峰(C

结论
在本研究中,我们首次证明了多变量曲线分解-判别分析(MCR-DA)在乳腺癌和正常上皮细胞拉曼光谱稳健分类中的适用性。通过将复杂的细胞光谱分解为纯生物分子组分和背景组分,我们直接评估了每个组分对分类的贡献。结果表明,包含背景(细胞介质)信号可能会导致准确率被高估。
CRediT作者贡献声明
Sarwar Hossain:撰写——原始草稿、实验设计、数据分析。
Ajinkya Deepa Deepak Anjikar:撰写——原始草稿、数据可视化、实验设计、数据分析。
Keita Iwasaki:验证、实验设计。
Hidetoshi Sato:撰写——审稿与编辑、研究监督。
Tatsuyuki Yamamoto:撰写——审稿与编辑、研究监督、资金获取。
Hemanth Noothalapati:撰写——审稿与编辑、研究监督、项目管理、资金获取、概念构思。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本研究部分由JSPS的科学研究资助(编号:25K03481、25K15935),部分由WNI WxBunka基金会(针对H.N.)以及日本岛根大学生命与环境科学学院的支持资助。