
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于区块链的可信分布式机器学习框架TDML:实现隐私保护与高效协同训练的新范式
【字体: 大 中 小 】 时间:2025年06月17日 来源:Future Generation Computer Systems 6.2
编辑推荐:
【编辑推荐】面对大模型(LM)训练中GPU资源垄断与分布式优化难题,中国科学院研究人员提出融合区块链技术的可信分布式机器学习框架TDML。该研究通过区块链协调远程训练节点、验证工作负载,解决了传统联邦学习(FL)中心化聚合风险及模型/数据并行(如DeepSpeed)的复杂性问题。实验表明TDML在ResNet50/CIFAR-10任务中匹配单节点性能,其梯度检测机制可有效识别恶意节点,为开放环境下的安全分布式训练提供了新方案。
随着OpenAI的SORA、Meta的LLAMA系列等天价生成式模型的涌现,大模型(LM)训练已陷入"算力军备竞赛"的困局——NVIDIA H100 GPU集群动辄数万张的采购规模,让中小机构在AI竞赛中彻底失语。这种资源垄断背后,是传统分布式机器学习(DML)方法难以克服的信任危机:联邦学习(FL)依赖中心化聚合服务器存在单点故障风险,而模型并行(如DeepSpeed的pipeline parallelism)又需繁琐的手动调优。更棘手的是,在开放网络环境中,恶意节点可能通过伪造梯度破坏训练过程。
针对这一系列挑战,Data61 CSIRO的Zhen Wang团队在《Future Generation Computer Systems》发表的研究中,提出了名为TDML的区块链赋能的分布式训练框架。该框架创新性地将区块链的不可篡改性融入训练流程,通过智能合约自动验证节点贡献,同时结合梯度异常检测算法识别拜占庭节点。关键技术包括:(1)基于分区块链结构的训练记录存证;(2)融合数据并行与模型并行的混合训练策略;(3)面向ResNet50模型的动态负载均衡机制。实验采用CIFAR-10数据集,对比FedAvg等基线方法。
【DNN training parallelism】
研究首先剖析了大模型训练的内存墙问题:Llama2 70B模型单个批次就需150GB显存,远超单卡容量。TDML通过分层分区策略,将模型参数分散到多个GPU节点,同时保持区块链对参数更新的全程追溯。
【Identified challenges】
量化分析显示,在7台配备NVIDIA 4090(24GB显存)的服务器集群中,传统方法因缺乏信任机制导致30%算力浪费在重复验证上。TDML通过 Merkle树验证将无效计算降低至5%以下。
【Experiments】
在ResNet50/CIFAR-10的对比实验中,TDML达成三项突破:1) 准确率98.7%媲美单节点训练;2) 较FedAvg提升23%收敛速度;3) 梯度检测系统对投毒攻击的识别率达99.2%。
【Conclusion】
该研究证实,TDML框架成功构建了去中心化、抗攻击的分布式训练生态。其创新点在于:1) 首次实现区块链对模型并行的全程审计;2) 提出基于贡献证明(PoW)的动态激励模型;3) 开发轻量级梯度签名算法。这些突破为构建开放科学社区的大模型训练平台提供了关键技术支撑,尤其有利于医疗等隐私敏感领域的跨机构协作。
值得注意的是,作者团队包含多位华裔学者(如Qin Wang、Guangsheng Yu),但主要依托澳大利亚联邦科学与工业研究组织(CSIRO)开展研究。文中特别致谢Shiping Chen教授在密码学方面的指导,暗示未来可能拓展至同态加密等隐私计算技术。这项研究为破解"算力霸权"提供了新思路,但其商业落地仍需解决区块链固有的吞吐量瓶颈问题。
生物通微信公众号
知名企业招聘