一种基于知识引导的特征选择方法,用于通过病理图像分析预测肺癌免疫治疗的反应
《Expert Systems with Applications》:A knowledge-guided feature selection method for lung cancer immunotherapy response prediction via pathology image analysis
【字体:
大
中
小
】
时间:2026年01月05日
来源:Expert Systems with Applications 7.5
编辑推荐:
针对癌症免疫疗法中治疗反应预测的挑战,本研究提出混合特征选择框架mRMR-MOBSTA。该方法结合mRMR过滤高维病理图像特征,利用MOBSTA多目标优化算法动态平衡探索与利用,有效筛选出紧凑、可解释的特征子集,并在468例肺癌患者队列中验证其临床转化潜力。
Xuyun Chen|Zhe Huang|Fang Tian|Renzhi Zhang|Xiaojun Zhou|Qian Gao|Yongchang Zhang
中南大学自动化学院,中国湖南省长沙市410083
摘要 在癌症免疫治疗中,准确预测治疗反应具有特别重要的意义,但由于肿瘤微环境的复杂性(这体现在病理图像中),这一目标仍然具有挑战性。虽然计算病理学能够从苏木精和伊红(H&E)染色的全切片图像(WSIs)中提取出数千个描述肿瘤形态模式的定量特征,但由此产生的高维度阻碍了生物学意义上的模式识别和临床解释。为了解决这个问题,本文提出了一种混合特征选择方法mRMR-MOBSTA,该方法在过滤阶段整合了最小冗余最大相关性(mRMR)算法,在包装阶段整合了多目标二进制状态转换算法(MOBSTA)。在过滤阶段,mRMR对特征进行评分,并通过消除不相关和冗余的特征来快速降低维度。在包装阶段,MOBSTA通过三种新颖机制进行细粒度的多目标特征选择:(1)基于知识的种群初始化,利用mRMR得出的概率生成高质量解决方案;(2)由特征分数驱动的知识引导的状态转换操作符;(3)一种自适应的操作符选择策略,动态平衡全局探索和局部利用。该方法在468名患者的队列中进行了验证,并在识别用于免疫治疗反应预测的紧凑特征子集方面显示出统计学上的显著优势。这项工作建立了一个可临床转化的流程,通过高效的病理组学特征选择来实现精准生物标志物的发现。
引言 肺癌仍然是全球癌症相关死亡的主要原因之一。尽管免疫治疗已成为一种突破性治疗方法,但准确预测患者的反应仍然具有挑战性(Bray等人,2024年;Lahiri等人,2023年)。如今,计算病理学通过从全切片图像(WSIs)中提取数千个定量组织形态测量特征(称为“病理组学”特征)来表征肿瘤模式(Grilley-Olson等人,2013年;Gupta、Kurc、Sharma、Almeida和Saltz,2019年;Stang等人,2006年),为这一问题提供了解决方案。然而,这些特征的临床转化受到了“维度灾难”的阻碍,即高维的、冗余的特征空间掩盖了生物学上有意义的生物标志物。为了解决这个问题(Hao等人,2020年;Jiao、Nguyen、Xue和Zhang,2023年;Mhiri和Rekik,2020年;Zhu等人,2017年;Demircio?lu,2022年;Pontabry、Rousseau、Studholme、Koob和Dietemann,2017年;Remeseiro和Bolon-Canedo,2019年),强大的特征选择(FS)策略对于平衡准确性、可解释性和计算效率至关重要。
特征选择被认为是一个NP难优化问题(Jiao等人,2023年)。虽然像遗传算法(GA)(Mirjalili,2019年)、粒子群优化(PSO)(Wang、Tan和Liu,2018年)、差分进化(DE)(Qin、Huang和Suganthan,2008年)、人工蜂群(ABC)(Karaboga、Gorkemli和Ozturk,2014年)以及灰狼优化器(GWO)(Mirjalili、Mirjalili和Lewis,2014年)这样的元启发式算法已被广泛应用(Song等人,2024年),但传统的单目标方法往往以牺牲特征简洁性为代价来优先考虑准确性,从而可能导致模型过拟合。多目标特征选择(MOFS)通过帕累托优势(Al-Tashi、Abdulkadir、Rais、Mirjalili和Alhussian,2020年;Deb、Pratap、Agarwal和Meyarivan,2002年;Zhang和Li,2007年)来解决这个问题。然而,标准的MOFS框架在高维布尔空间中往往效率低下,并且无法利用先验知识进行初始化,导致收敛速度慢(Deniz和Kiziloz,2019年)。
混合过滤-包装方法旨在结合基于过滤的特征排序的效率和基于包装的子集优化的准确性。首先通过统计过滤器降低维度,然后通过元启发式搜索细化子集,这些方法提供了平衡的解决方案。然而,当前的实现通常将过滤阶段和包装阶段严格分开,未能动态调整基于过滤器的特征重要性分数以指导进化搜索。这限制了它们利用病理组学特定先验知识的能力,例如在预测免疫治疗抵抗性时形态特征的层次相关性。
总之,当前的FS策略面临三个主要挑战。首先,许多元启发式算法在高维布尔空间中的搜索效率不佳,因为未能充分利用特征相关性和先验知识。其次,尽管现有方法在全局探索方面表现出能力,但它们缺乏适应性机制,无法在优化过程中动态调整探索-利用比率,或在后期迭代中围绕有希望的区域加强局部搜索。第三,进化算法中的种群初始化策略通常优先考虑多样性而非解决方案质量,导致收敛速度慢和计算成本高。
在这项工作中,引入了一种基于状态转换算法的新颖混合特征选择框架,专门用于肺癌病理组学分析,以解决上述限制。本文的主要贡献总结如下:
(1) 设计并验证了一个从WSI补丁选择到平衡多类分类的全面流程。该框架在识别与RECIST定义的肺癌免疫治疗结果相关的紧凑、可解释的特征子集方面表现出优越的性能。
(2) 提出了一种改进的多目标二进制状态转换算法(MOBSTA),该算法具有引导的种群初始化和自适应的全局-局部搜索操作符,用于包装特征选择。全局搜索利用了过滤阶段的特征重要性分数,而局部操作符利用了种群级别的特征出现模式。
(3) 提出了一种知识引导的混合特征选择架构,该架构结合了最小冗余最大相关性(mRMR)过滤阶段和基于MOBSTA优化的包装阶段。过滤阶段有效地过滤了不相关和冗余的特征,并提供了特征重要性的先验知识,而包装阶段通过上下文感知的搜索操作符细化了特征子集,平衡了探索-利用之间的权衡。
本文的其余部分组织如下:第2节回顾了计算病理学、元启发式特征选择及其临床应用的相关工作。第3节介绍了本工作的基本理论。第4节详细介绍了肺癌数据集和预处理流程。第5节介绍了MOBSTA混合框架。第6节分析了实验结果和临床相关性。第7节总结了本文并讨论了潜在的未来研究方向。
章节片段 计算病理学中的机器学习 尽管深度学习主导了计算病理学的最新进展,但传统的机器学习(ML)方法对于假设驱动的生物标志物发现仍然不可或缺,尤其是在可解释性、小数据鲁棒性和计算效率方面。尽管临床目标有所不同,现代病理组学研究已趋向于一个标准化的四阶段分析框架:(1)全切片图像(WSI)预处理,(2)定量形态测量特征
多目标特征选择公式 考虑一个包含个样本和{n}个特征的数据集。D是一个包含所有特征的集合。然后,D的一个子集可以使用一个n维二进制向量来描述:
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号