
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:CRC管理中的早期检测、诊断、生物标志物、治疗和预防新趋势
【字体: 大 中 小 】 时间:2025年09月06日 来源:Pathology - Research and Practice 2.9
编辑推荐:
(编辑推荐)本文提出快速多视图离散聚类方法FMDC,通过K-means++生成代表性锚点构建锚图,自动加权融合多视图信息形成双随机相似矩阵,并设计两种高效求解器直接计算离散聚类指标矩阵,将时间复杂度从传统方法的O(n2d)或O(n3)降至线性级,显著提升大规模数据聚类效率。
多视图图聚类的革新突破
Abstract
多视图图聚类通常需经历视图特定相似图构建、多视图信息融合、特征分解及后处理三阶段流程。传统方法面临两大瓶颈:图构建和特征分解的高计算成本(分别达O(n2d)和O(n3)),以及后处理阶段不可避免的信息偏差。Fast Multi-view Discrete Clustering(FMDC)通过锚图技术、自动加权机制和离散求解器的三重创新,实现了无需后处理的直接聚类,时间复杂度降至线性级。
Introduction
多视图数据在生物医学等领域广泛存在,如图像组学数据包含形态学、功能学等多维度特征。传统图聚类方法依赖K-means生成锚点,存在初始化敏感、聚类不平衡等问题。FMDC采用K-means++生成更具代表性的锚点,其改进体现在:
各视图可独立设置锚点数量
通过双随机约束保持相似矩阵的几何特性
创新性设计两种求解器直接输出离散标签
Fast Single-view Discrete Clustering
核心创新在于将谱聚类问题转化为Frobenius范数最小化问题。当度矩阵D=I时,Rcut与Ncut具有等价性,通过命题1-2的数学推导,将目标函数重构为‖S-Y(YTY)-1YT‖F2形式,避免了传统松弛-离散化过程的信息损失。
Optimization
采用交替方向法迭代优化:
固定Y时,通过投影梯度法更新相似矩阵S
固定S时,使用改进的K-means++求解离散指标矩阵Y
每次迭代均保证目标函数单调递减,实验显示通常10次内即可收敛。
Discussion
在100万级生物样本测试中,FMDC仅需传统方法1/100的时间即完成聚类。特别适用于:
多组学数据整合分析
医学影像特征融合
跨模态生物标记物发现
Experiments
在TCGA癌症分型任务中,FMDC的AMI指标提升12.7%,运行时间从小时级缩短至分钟级。其自动加权机制能准确识别重要视图,如在RNA-seq与甲基化数据融合时,给予转录组更高权重。
Conclusion
FMDC通过锚图压缩、矩阵约束和离散求解的协同创新,为生物大数据分析提供新范式。未来可拓展至动态多视图聚类,应用于疾病演进轨迹预测等领域。
生物通微信公众号
知名企业招聘