
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自动修剪与稀疏聚类的生物医学数据分析优化方法研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Computers in Biology and Medicine 7.0
编辑推荐:
本研究针对生物医学高维数据聚类分析中参数调优困难的问题,开发了自动修剪稀疏聚类方法(ATSC),通过自动确定最佳聚类数k、修剪系数α和稀疏参数s,显著提升了白血病、NCI-60和脑肿瘤数据集分类准确率(CER最低达0%),为复杂生物医学数据分析提供了高效工具。
在生物医学研究领域,高维数据分析一直是个巨大挑战。基因表达谱、代谢组学等复杂数据集常常包含大量噪声、冗余特征和异常值,传统聚类方法如k-means在处理这类数据时表现欠佳。更棘手的是,确定最佳聚类数k和调整修剪参数α、稀疏参数s往往需要反复试验,这个过程既耗时又依赖研究者经验。这种现状严重制约了生物标记物发现、患者分层等关键研究的进展。
针对这一系列难题,研究人员在《Computers in Biology and Medicine》发表了创新性解决方案。他们开发了自动修剪稀疏聚类方法(Automated Trimmed and Sparse Clustering, ATSC),该方法整合了修剪聚类(剔除异常值)和稀疏聚类(特征选择)的优势,能自动确定最优参数组合。研究团队将这一方法集成到R/Bioconductor软件包evaluomeR中,使其更便于生物医学研究者使用。
研究采用了三项关键技术:1)基于稳定性(Jaccard系数)和质量(Silhouette宽度)指标的自动k值确定算法;2)通过置换检验确定LASSO惩罚项边界s;3)迭代优化确定修剪比例α(默认αmax
=0.1)。所有分析均在预处理后(包括PCA和高度相关特征去除)的基因表达数据集(白血病、NCI-60和脑肿瘤)上进行验证。
【ATSC方法设计】
研究提出的ATSC工作流包含六个关键步骤:数据预处理→初始k值确定→最优s值计算→最佳α选择→执行修剪稀疏聚类→最终k值确认。方法创新性地将Witten和Tibshirani的稀疏聚类(通过L1
惩罚选择特征)与Cuesta-Albertos的修剪聚类(通过α参数排除异常值)相结合,采用CLARA作为默认聚类算法。
【白血病数据集验证】
在包含B-ALL、T-ALL和AML三类样本的白血病数据中,ATSC自动确定s=7.24,α=0.07(αmax
=0.1时),识别出真实类别数k=3,CER仅3.94%。当放宽至αmax
=0.25时,α自动调整为0.2,CER降至0%,所有类别灵敏度达100%。相比之下,Clest和WRSK的CER分别为3.76%和25.23%。
【NCI-60数据集表现】
在8类癌症细胞系数据中,ATSC(αmax
=0.1)准确识别k=7(接近真实类别数),CER为14.14%;当αmax
增至0.25时,k=8与金标准完全匹配,CER降至11.82%。Clest和WRSK分别错误识别k=4和k=6,CER高达28.42%和18.96%。
【脑肿瘤数据分析】
对四种脑肿瘤类型(室管膜瘤、胶质母细胞瘤等)的数据,ATSC和Clest均识别k=3(真实k=4),CER分别为11.21%和12.64%,而WRSK错误识别k=8导致CER升至19.75%。值得注意的是,ATSC将胶质母细胞瘤和毛细胞星形细胞瘤归为一类,这具有生物学合理性——两者均源自胶质细胞。
这项研究的重要意义在于:1)首次实现了修剪和稀疏聚类参数的自动优化,将复杂参数调整过程从数小时缩短至分钟级;2)在保持方法严谨性的同时大幅提升了可用性,使不具备深厚计算背景的生物医学研究者也能进行高级聚类分析;3)通过三个真实数据集验证,证明ATSC在识别真实生物类别方面优于现有方法(Clest和WRSK)。特别是当调整αmax
时,ATSC在白血病和NCI-60数据集中均达到与金标准完全一致的分类效果。
研究也存在一定局限:计算复杂度较高,处理超高维数据时可能面临性能挑战;初始k值的选择会影响后续参数优化;对特殊分布数据的适应性有待验证。未来研究可探索并行计算加速、集成更先进的离群值检测算法,以及扩展支持更多聚类验证指标。这些改进将进一步提升ATSC在精准医学和转化研究中的应用价值。
生物通微信公众号
知名企业招聘