编辑推荐:
传统 SSR 分子标记开发依赖实验方法,耗时费钱。本研究开发计算框架 SSR_VibraProfiler,利用测序数据中 SSR 的存在 / 缺失作为数值特征,筛选具品种内特异性和间多态性的 SSR,构建模型。在杜鹃数据集上准确率达 100%,为品种鉴定等提供新工具。
在生命科学研究领域,品种鉴定是一项基础且关键的工作,对于生物资源的开发、利用和保护至关重要。简单序列重复(Simple Sequence Repeats,SSRs),又称微卫星,是由 1-6 个碱基组成的基序多次重复形成的序列,因其高度多态性,被广泛用作分子标记,在物种、品种和种群结构等研究中发挥着重要作用。然而,传统的 SSR 分子标记开发严重依赖实验方法,如引物合成和凝胶电泳等,这些过程不仅耗时费力,还需要较高的成本。
随着现代测序技术和生物信息学的快速发展,直接从测序数据中提取 SSR 特征并用于品种鉴定成为可能。但目前大多数基于计算机的方法(in silico-based methods)要么依赖单个参考基因组及相应的重测序数据集,要么依赖多个参考基因组,其主要目标是识别具有明确位置和明显多态性的 SSR,而且利用这些 SSR 确定个体标签仍需实验验证,在没有参考基因组的情况下难以应用。因此,开发一种不依赖参考基因组、能直接从测序数据中高效提取 SSR 特征用于品种鉴定的方法,成为该领域亟待解决的问题。
为了攻克这一难题,浙江农林大学等机构的研究人员开展了相关研究。他们开发了一种新的计算框架,并将其封装成 Python 软件包 SSR_VibraProfiler。该研究成果发表在《Plant Methods》上,为品种鉴定提供了新的思路和工具。
研究人员主要采用了以下关键技术方法:首先,利用 Minia 软件对多个品种个体的短读测序数据进行组装,得到 contigs;然后使用 MISA 工具检测每个个体中的 SSR,仅保留简单完美型 SSR 用于后续分析,将 SSR 在个体中的存在(1)或缺失(0)作为数值特征,构建初始特征矩阵;接着通过计算品种内(Sin)和品种间(Sout)的标准差,筛选出具有品种内特异性和品种间多态性的 SSR,形成新的 0,1 矩阵;之后利用 t-SNE(t - 分布随机邻域嵌入)算法将矩阵降维到二维平面,再进行 K-means 聚类,通过比较聚类标签与真实标签评估分类性能;最后基于 K 最近邻(K-Nearest Neighbors,KNN)算法构建识别模型,用于品种鉴定。研究选取了来自中国科学院昆明植物研究所的 8 个杜鹃品种 40 个个体作为实验对象,还对该杜鹃数据集进行了降采样,并在公开的水稻数据集上进行了评估。
研究结果
SSR_VibraProfiler 的架构与性能
研究人员将方法封装成包含四个 Python 脚本的 SSR_VibraProfiler 软件包。在杜鹃数据集上,利用该软件包从 8796 个 SSR 中筛选出具有分类能力的 SSR。当阈值设为 0.375 时,筛选出的 SSR 在 t-SNE 降维和 K-means 聚类中分类准确率达 100%,留一法交叉验证结果显示同一品种个体始终紧密聚类,表明模型能准确预测个体品种。
测序深度的影响
对杜鹃数据集进行 75% 和 50% 的降采样(对应约 12x 和 8x 测序深度)后,基于 t-SNE 和 K-means 的聚类 ARI 值仍为 1,但交叉验证准确率略有下降,分别为 97.5% 和 92.5%,说明测序深度会影响品种鉴定性能,但影响程度有限。
在水稻数据集上的应用
在公开水稻数据集上评估时,尽管 t-SNE 降维和 K-means 聚类的最佳 ARI 为 0.87,但交叉验证准确率仅 76%,推测是水稻品种内部 SSR 多态性较高,该方法未能有效捕捉,显示出该方法在处理高内源性多态性品种时的局限性。
研究结论与讨论
SSR_VibraProfiler 是一种无需参考基因组,通过从下一代测序数据中提取 SSR 数值特征来区分和预测个体品种的 Python 工具。其核心在于利用 SSR 的存在 / 缺失作为特征,筛选出具有品种内特异性和品种间多态性的 SSR,构建模型实现品种鉴定。该工具在杜鹃品种鉴定中表现出色,为缺乏参考基因组的物种品种鉴定提供了有效解决方案,有助于新品种的开发、鉴定和保护。
与现有方法相比,SSR_VibraProfiler 无需参考基因组,计算效率更高,且操作流程自动化程度高,从测序数据处理到模型构建和评估均可通过软件包的脚本完成,大大降低了实验成本和时间投入。然而,该方法对数据集组成和测序深度有一定要求,每个品种至少需要 3 个个体,推荐测序深度约 10x,且在处理高内源性多态性品种时效果有限。
总体而言,SSR_VibraProfiler 的开发为品种鉴定领域带来了新的技术突破,拓展了 SSR 在分子标记研究中的应用场景,尤其为非模式物种和缺乏基因组资源的物种的品种鉴定提供了有力工具,具有重要的科学意义和实际应用价值。