基于集合交换策略增强空间转录组技术的多重检测能力与容错性研究

【字体: 时间:2025年05月03日 来源:SCIENCE ADVANCES 11.7

编辑推荐:

  这篇开创性研究提出了一种迭代集合交换算法,显著提升了空间转录组技术MERFISH(多重容错荧光原位杂交)的编码效率。通过构建优化的扩展汉明码本(Hamming codebooks),实现了单错误校正/双错误检测(SECDED)功能,使基因集复杂度达到理论最大值的90%以上。该研究解决了传统过滤汉明码在非2n位长时的性能局限,为哺乳动物全基因组规模的时空转录组研究提供了即用型编码方案,同时深入探讨了汉明权重(HW)与分子拥挤效应的平衡关系。

  

摘要
图像基础的转录组和蛋白质组实验已从单靶标探针发展为可同时研究数百甚至数千个mRNA和蛋白质靶标的多重检测体系。这种规模的扩大需要更高特异性或具备纠错能力的方法,例如空间转录组技术MERFISH中使用的汉明码。虽然汉明码在某些实验条件下能高效编码最大数量的基因,但对于多数实验参数而言,生成具有容错能力的优化码本仍是未解决的数学难题。本研究开发了一种迭代集合交换方法,可生成与MERFISH等现有技术兼容的扩展汉明码本,其基因集复杂度通常能达到理论最大值的90%以上。

引言
传统分子生物学采用"一试剂一靶标"的模式,而空间转录组技术的多重检测使每张捕获图像不再代表已知靶标,而是需要通过图像组合解码mRNA分子信息。由于荧光信号易受实验室条件、光学系统或组织特异性因素影响,噪声不可避免,这促使研究者开发误差消除或误差处理方法。MERFISH技术采用错误处理策略,通过为每个基因分配二进制条形码(每位对应特定读出探针),实现单错误校正/双错误检测(SECDED)功能。在SECDED码本中,每个编码至少与其他编码有四位差异(最小汉明距离minHD4),这使得即使发生单比特错误,仍能通过错误校正追溯到正确编码。

方法学创新
研究团队将二进制编码转换为集合表示:每个编码被描述为包含k个成员的子集(k=汉明权重HW),对应二进制编码中为1的位置。这种表示方法将汉明距离标准转化为对t集使用的限制(t=k-1)。通过分析未使用t集的网络关系,开发出迭代集合交换算法:首先评估各种起始码本(包括Steiner系统和覆盖设计下限),经冲突修剪后,通过交换码本与未使用池中的集合来增加码本规模。该算法能识别出可立即添加的非冲突k集,或通过替换操作释放t集以形成新k集。

结果验证
对于汉明权重4(HW4)的码本,在条形码长度为2n时达到100%理论效率(Johnson界),在非2n长度时仍保持98%以上效率。HW5和HW6码本的平均效率分别为92.9%和84.9%,其中两个码本甚至超越了Brouwer数据库记载的下限。与传统的过滤汉明码相比,新方法在2n+1区间的基因容量提升达90%。研究还提供了按汉明距离重新排序的码本版本,使高表达基因能优先分配到差异最大的编码。

分子拥挤效应分析
增加汉明权重虽能减少读出探针数量(缩短成像时间),但会加剧分子拥挤效应。模拟显示:在1000基因码本中,HW4到HW6转换仅造成少量读数损失;但5000基因码本中,HW6会导致显著信号重叠。通过膨胀显微镜将分辨率提高三倍可有效缓解该效应,使HW6码本在保持读数完整性同时减少40%成像时间。

讨论
这项研究系统性地解决了空间转录组技术中码本优化的关键难题。通过集合论与组合数学的创新应用,建立的算法框架不仅适用于MERFISH,也可拓展至其他需要恒定权重纠错码的多重检测技术。提供的即用型码本资源覆盖从数十到数万基因的检测需求,特别是填补了140-1000基因区间的技术空白。未来随着超分辨显微技术的发展,更高汉明权重的码本设计将在时空组学研究中展现更大潜力。

材料与方法
算法实现采用R语言(4.3.2版),关键步骤包括:1) 基于Johnson界计算理论最大值;2) 从La Jolla覆盖库获取(v,k,t)-覆盖设计作为起始码本;3) 通过网络分析进行冲突修剪;4) 迭代集合交换优化。分子拥挤模拟以感觉神经元单细胞数据为基础,假设细胞含105个转录本,在100μm正方形区域内评估衍射极限(500nm波长,NA1.4物镜)下的信号冲突概率。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号