《Computer Methods and Programs in Biomedicine》:Machine learning classification of normal and malignant cells on the basis of their viscoelastic properties
编辑推荐:
本研究针对传统原子力显微镜(AFM)在细胞力学特性研究中通量低、数据稀疏的问题,创新性地结合动态力学分析(DMA)提取高密度粘弹性特征谱,并运用基于模糊逻辑的机器学习(ML)算法LAMDA,成功实现了对正常(RWPE-1)与高级别恶性(PC3-GFP)前列腺细胞的单细胞水平分类,准确率达79%,为基于“力学组”的无标记癌症诊断提供了新框架。
在微观的生命世界里,细胞的“软硬”程度——也就是它的力学特性,正日益成为科学家们解读其健康状况,尤其是判断其是否癌变的一把关键“钥匙”。越来越多的研究表明,癌细胞通常比正常细胞更“柔软”、更具可变形性,这种物理特性的改变与肿瘤的侵袭和转移能力密切相关。为了精确测量这些微乎其微的力学差异,原子力显微镜(AFM)成为了主力工具,它像一根极其精细的“探针”,可以探测单个细胞的弹性、粘性等属性。然而,这项强大技术的一个致命弱点限制了它的广泛应用:效率太低。传统AFM测量速度慢,一次实验只能分析少量细胞,产生数据稀疏,难以支撑需要海量数据训练的现代人工智能(AI)算法,更无法实现快速、可靠的单个细胞诊断。
那么,是牺牲信息量来追求测量更多细胞,还是从每个细胞中“榨取”更多信息以弥补数量的不足?法国图卢兹LAAS-CNRS的研究团队选择了后一条富有挑战性的道路。他们猜想,细胞的力学奥秘不仅在于静态的“软硬”(如杨氏模量),更蕴含在其动态的“粘弹性”行为中——即细胞对外界刺激既像弹簧一样弹性响应,又像蜂蜜一样粘性迟滞的特性。这种粘弹性随测量频率变化,可能携带了更丰富的、与恶性状态相关的生物物理指纹。如果能为每个细胞绘制一张多频率的粘弹性“特征谱”,即便测量的细胞总数不多,其信息密度也足以训练机器学习模型进行精准分类。
为了验证这一设想,研究人员在《Computer Methods and Programs in Biomedicine》上发表了一项创新研究。他们以正常前列腺上皮细胞(RWPE-1)和晚期转移性前列腺癌细胞(PC3-GFP)为模型,开展了一项融合先进生物物理测量与人工智能分析的交叉研究。
研究主要技术方法
本研究核心技术为动态力学分析(DMA):通过原子力显微镜(AFM)的球形探针,在接触细胞并施加恒定微小压痕(约1 μm,对应1 nN力)的基础上,叠加多个频率(1, 10, 20, 50, 100, 200 Hz)的微小正弦振荡(20 nm),并同步记录力与压痕的响应。通过分析两者间的相位差和振幅比,计算出每个频率点对应的储能模量(G‘,反映弹性)、损耗模量(G’’,反映粘性)及损耗因子(G’’/G‘)。每个细胞在10×10 μm2区域内进行4×4点测量,每次测量提取6个频率点的G‘、G’’、G’’/G‘及粘弹性转变频率(fT,即G’’开始大于G‘的频率),共19个特征,整张图共304个特征。使用PC3-GFP细胞(n=94)和RWPE-1细胞(n=77)。数据分析后,采用基于模糊逻辑的机器学习算法LAMDA,以40个RWPE-1和40个PC3-GFP细胞(共1280个DMA测量,含24320个特征)的数据集进行训练,构建分类模型。
研究结果
3.1. 基于DMA的力学组特征
研究人员首先描绘了两种细胞的粘弹性图谱。结果清晰显示,两种细胞都表现出频率依赖性:低频时弹性主导(G‘ > G’’),高频时粘性主导(G’’ > G‘)。但关键差异在于:PC3-GFP癌细胞的粘弹性转变频率(fT= 56 Hz)显著低于RWPE-1正常细胞(fT= 111 Hz),意味着癌细胞在更低的频率下就表现出类似流体的行为。同时,在所有频率下,癌细胞的损耗因子(G’’/G‘)都更高,表明其整体上比正常细胞更“粘”、更易变形。此外,癌细胞群体的G‘和G’’值分布更广,表现出更高的力学异质性。
3.2. 单细胞分类的挑战:DMA值在不同细胞系间存在重叠
尽管群体平均值存在显著差异,但当观察单个特征时,两种细胞的值域存在大量重叠(52%-98%)。例如,即使是区分度相对较好的G’’在200 Hz的特征,也有52%的癌细胞值与正常细胞值重叠。这意味着,仅凭任何一个单一特征,都无法可靠地将一个未知细胞归类,凸显了传统统计比较在单细胞诊断中的局限性。
3.3. 粘弹性特征的主成分分析
主成分分析显示,基于19个粘弹性特征,两种细胞在降维空间中有部分分离,但仍有大量重叠区域。前两个主成分解释了80.19%的方差,其中PC1主要由中频段(10-50 Hz)的G‘和G’’贡献。这证实了粘弹性特征包含区分信息,但需要更强大的模式识别工具来实现清晰分类。
3.4. 使用机器学习进行分类
研究的核心是利用基于模糊逻辑的LAMDA算法进行分类。通过优化,确定使用40个细胞/系(共80个细胞)的数据集训练效果最佳。在独立的测试集(54个PC3-GFP和37个RWPE-1细胞)上,模型达到了整体约75%-79%的分类准确率。为了模拟临床诊断中“宁可错杀,不可放过”的原则以降低漏诊(假阴性)风险,研究者设定阈值:如果一个细胞的16次DMA测量中有8次以上被判定为癌细胞,则该细胞被判为癌。在此阈值下,模型对癌细胞的识别灵敏度(真阳性率)为79%,对正常细胞的特异性(真阴性率)为70%。分析还发现,增加特征数量(从19个到26个,加入刚度、粘附力等传统力谱特征)可提升性能,且机器学习模型赋予中低频段(1-50 Hz)的损耗模量(G’’)最高的分类权重,表明粘性耗散是区分两类细胞的关键力学因素。
研究结论与意义
本研究成功证明,将高信息密度的AFM-DMA粘弹性分析与机器学习相结合,能够有效区分正常与恶性前列腺细胞。其重要意义在于:
- 1.
提出了“高密度数据”新范式:面对AFM低通量的固有限制,本研究没有选择追求测量更多细胞(高通量),而是选择从每个细胞中提取多达304个特征(高密度)。这种策略用信息的“深度”弥补了样本的“广度”,使得用相对较少的细胞(本研究训练集仅80个细胞)构建有效的机器学习分类模型成为可能。这对于样本稀缺的应用场景(如循环肿瘤细胞检测)具有独特价值。
- 2.
确立了粘弹性作为关键的生物物理标志物:研究超越了传统的静态弹性(杨氏模量)分析,揭示了频率依赖性粘弹性,特别是粘弹性转变频率(fT)和损耗模量(G’’),是更敏感、信息更丰富的恶性肿瘤标志物。癌细胞在更低频率下向流体行为转变,这与其侵袭性增强的细胞骨架重构的生物学认知相符。
- 3.
实现了可解释的AI驱动分类:采用的LAMDA模糊逻辑算法不同于“黑箱”深度学习,能提供特征权重,使分类决策过程更透明。研究发现G’’(尤其是1-50 Hz)是最具判别力的特征,这为理解癌细胞的力学本质提供了直接线索。
- 4.
为无标记“力学组”诊断奠定了基础:该工作展示了一个完整的框架:从标准化的DMA测量,到可解释的粘弹性特征提取,再到基于机器学习的自动分类。这为开发基于细胞力学特性的、无需染色或标记的新型诊断工具提供了概念验证,在癌症早期诊断、疗效评估及干细胞研究等领域具有广阔潜力。
尽管当前研究针对特定前列腺癌细胞系,且DMA测量耗时(约10分钟/细胞)仍是迈向临床应用的挑战,但这项工作指明了重要方向:通过优化测量频率方案(如省略低频点可缩短至4分钟/细胞且保持性能)、整合更多力学模态特征、并扩展至更多细胞类型和患者样本进行验证,这种基于粘弹性力学组与人工智能融合的策略,有望在未来成为病理学家的强大辅助工具,从物理维度揭示疾病的新奥秘。