高密度'Amahysnp'基因分型芯片的开发与验证:推动籽粒苋分子育种与遗传改良的新工具

【字体: 时间:2025年10月03日 来源:BMC Plant Biology 4.8

编辑推荐:

  本研究针对籽粒苋(Amaranthus hypochondriacus)基因组资源开发不足的问题,开发了首款64K高密度SNP芯片"AmahySNP"。该芯片包含64,069个高质量SNP标记,成功应用于917份种质的群体结构分析、核心种质构建及开花期性状的全基因组关联分析(GWAS),鉴定到13个与开花时间相关的数量性状核苷酸(QTNs)。该研究为籽粒苋的分子育种和遗传改良提供了重要工具,对促进这种营养作物的可持续种植具有重要意义。

  
在追求全球粮食安全和营养安全的今天,一种被称为"未来黄金作物"的籽粒苋正受到越来越多的关注。这种C4双子叶假谷物不仅营养价值出众,含有丰富的蛋白质、维生素和矿物质,还具有出色的环境适应性,能够在干旱和半干旱地区茁壮成长。然而,尽管种质基因库保存了大量苋菜种质资源,但这些资源的基因组和表型特征研究仍然有限,严重阻碍了其在育种计划中的充分利用。
最大的挑战在于缺乏高通量基因分型检测技术,而这对于全面的基因组表征和性状定位至关重要。虽然之前的研究尝试使用随机扩增多态性DNA(RAPD)、限制性片段长度多态性(RFLP)、扩增片段长度多态性(AFLP)和简单重复序列(SSR)等分子标记,但这些低密度PCR标记往往难以与性状位点保持连锁。基因分型测序(GBS)方法虽然成本较低,但在等位基因数据生成、计算需求和重现性方面存在局限性。
为了解决这些问题,Singh等人开展了一项创新性研究,开发了名为"AmahySNP"的64K高通量SNP基因分型芯片,为籽粒苋研究和育种提供了强有力的基因组工具。这项研究发表在《BMC Plant Biology》期刊上,展示了该芯片在群体结构分析、遗传多样性研究、核心种质开发和全基因组关联研究(GWAS)中的有效应用。
研究人员采用了多项关键技术方法:利用来自印度、尼泊尔、巴基斯坦和墨西哥的9个苋菜基因型的重测序数据进行SNP识别;使用Affymetrix? Axiom?技术开发包含64,069个SNP的芯片;对917份苋菜种质进行基因分型并利用24,203个高质量SNP进行群体结构和遗传多样性分析;基于SNP数据开发核心种质集合;对540份基因型进行开花时间(DTF)性状的GWAS分析,使用单 locus(SL-GWAS)和多 locus(ML-GWAS)方法;对显著关联位点进行功能注释和候选基因鉴定。
Design and characterization of the Amaranth 64 K array
研究人员开发了名为AmahySNP的64K SNP芯片,基于高质量的光苋(A. hypochondriacus)基因组序列(v2.1)和来自九个地理来源不同的苋菜基因型的重测序数据。芯片包含64,069个非冗余SNP,其中55.17%(35,347)为基因区SNP,44.83%(28,722)为基因间区SNP,分布在16个scaffold上。基因区SNP中,10.5%(6,712)位于外显子,40.1%(25,724)位于内含子,1.6%(1,034)位于5'UTR,2.9%(1,877)位于3'UTR。SNP在所有16个scaffold上均匀分布,相邻SNP之间的平均距离为6.17Kb,每个基因平均有3.98个SNP。
转换SNP(31,625个等位位点,49.36%)的比例高于颠换SNP(20,768个等位位点,32.41%),转换/颠换比为1.52,表明存在偏向性突变过程。最常见的转换变异是A:G(9,048个位点,14.12%),而最不常见的颠换变异是C:G(1,806个位点,2.82%)。
通过功能注释数据,将含SNP的基因分为细胞组分、分子功能和生物过程三类。约42%的SNP与细胞组分相关,包括细胞核(887个基因)、细胞质(525个基因)、膜(503个基因)等。鉴定出具有多种分子功能的基因,如ATP结合(750个基因)、金属离子结合(453个基因)、DNA结合(264个基因)等。在生物过程方面,这些基因参与蛋白质磷酸化(257个基因)、转录调控(229个基因)、跨膜运输(189个基因)等过程。
Fabrication and validation of the 64 K SNP chip
所有64,069个过滤后SNP的探针序列使用Affymetrix Power Tool(APT) Axiom GTv1算法进行硅片评估,以优化高质量SNP芯片的探针选择。p-convert值是由APT软件生成的预测分数,估计SNP在Axiom平台上成功转换为可靠基因分型检测的概率。超过此阈值的SNP被保留用于芯片制备,以确保稳健和可重现的基因分型性能。芯片性能通过使用Affymetrix Gene Titan平台对917份不同的光苋种质进行基因分型来实验验证。所有样品均通过DQC(>0.85)和检出率(>95%)阈值,平均QC检出率为99.3%,证实了芯片的高可靠性。
Population stratification and genetic diversity analysis
对917份光苋种质的遗传多样性和群体结构使用24,203个修剪后的SNP(MAF≥0.05)进行分析。该小组包括875份印度本土收集(IC)和42份来自世界各地区的异域收集(EC)。使用基于结构的聚类方法和Evanno的ΔK方法确定最佳遗传簇数(K),峰值ΔK出现在K=2,表明研究中最可能的群体数为2。概率得分≥80的种质被认为是遗传纯合,而得分≤80的则被分类为混合。亚群P1(红色)由874份种质组成,包括788份本土和29份异域纯合种质,以及57份混合种质。亚群P2(绿色)包括43份种质,其中35份为纯合,8份为混合,83.72%为本土,16.28%为异域。
使用TASSEL v5中的邻接算法进行系统发育分析,将917个基因型分为三个簇:I、II和III。簇I包含一份来自喜马偕尔邦Banera的种质IC0038406。簇II包括三个本土基因型:来自北阿坎德邦的IC0448747,以及来自古吉拉特邦的IC0398237和IC0035593。簇III由913份种质组成,包括地方品种、优良品系和已发布品种。基于24,203个SNP的PCA分析显示,第一和第二主成分分别解释了28.1%和5.9%的方差。PCA将种质分为两个主要簇,对应于P1和P2亚群,有八个亚簇表明跨地理区域的混合。
计算了几个遗传多样性指数。Nei氏遗传多样性(GD)范围从0.1到0.5,平均为0.23。次要等位基因频率(MAF)范围从0.05到0.5,平均为0.15,37.49%的标记中观察到MAF>0.5。SNP标记间的杂合度从0.04到0.62不等,平均为0.11。平均多态信息含量(PIC)为0.20,最高和最低值分别为0.38和0.09。
Application of AmahySNP in core collection development
使用AmahySNP芯片的SNP基因分型数据开发了苋菜种质核心集。使用Core Hunter 3软件选择不同采样比例的核心种质,以确保代表整个种群中存在的遗传多样性。比较了包含总种质12%和15%的两个核心集。15%核心集显示遗传多样性(GD)和次要等位基因频率(MAF)降低,而包含112份种质的12%核心集基于这些参数被认为更能代表整个917份种质。12%核心集包括两个选育品种(Annapurna和Suvarna)和来自12个地区的100份种质。数据集中的24,203个SNP标记产生了十种类型的等位基因,四种纯合和六种杂合(包括2种转换和4种颠换)。核心集保留了几乎相同频率的等位基因(99.9%相似性),与整个收集相比没有等位基因丢失。
核心集的亲缘关系分析显示遗传相关性低,表明它是分子和遗传研究的理想核心集。通过比较核心集和整个收集的多样性参数(GD、Ho、PIC和MAF)评估了核心集的可靠性,结果显示核心集和整个收集之间的值相似,证实选择的112份种质准确代表了整个种群。STRUCTURE分析将核心集分为两个群体,最大似然估计在(k=2)时更大。种群1和种群2,分别指定为C1和C2,包括C1中的10份纯合和2份混合种质,C2中的94份纯合和6份混合种质。系统发育分析进一步将核心集分为三个簇:簇I(1个基因型)、簇II(3个基因型)和簇III(108个基因型)。PCA分析显示PC1和PC2分别解释了总变异的26.3%和7.2%,与STRUCTURE分析中确定的亚群一致。核心集的多样性模式密切反映了整个种群的多样性模式,证实了其作为917份种质代表性亚集的可靠性。
Utility of the AmahySNP assay in GWAS analysis for DTF
为了评估AmahySNP芯片在全基因组关联分析中的有效性,研究人员分析了从917份种质初始池中选出的540份种质的64K-SNP基因分型数据,这些种质在Kharif(E1)和Rabi(E2)季节对DTF性状进行了表型鉴定。观察到显著的表型变异,E1中DTF范围从26到64天,平均38天;E2中从30到64天,平均34天。由于DTF误差方差的显著异质性,对每个环境进行了独立分析。评估了两个环境之间的相关性以了解性状表达的基因型响应,观察到 statistically显著正相关,Pearson相关系数(PCC=0.25, p<0.001),表明跨环境对DTF性状的基因型响应一致。
苋菜基因组中的全基因组LD衰减随物理距离呈非线性趋势,LD衰减距离为695.72kb,r2降至其最大值的一半。scaffold间的平均LD为r2=0.68;2.32%的SNP对完全LD(r2=1),74.2%表现出强LD(r2值>0.5)。亲缘关系分析显示540份种质间遗传相关性低,表明该小组适合GWAS。使用TASSEL软件计算22,763个SNP的平方相关系数(r2)进一步评估了LD衰减。使用邻接算法对540份种质进行系统发育分析,确定了三个簇:簇I(4份种质,0.74%),包括三份本土和一份异域基因型;簇II(6份种质,1.11%),全部为本土;簇III(530份种质,98.15%),是最大的簇。
使用两种SL-GWAS方法(MLM和CMLM)和四种ML-GWAS方法(mrMLM、FASTmrMLM、FASTmrEMMA和pLARmEB)来鉴定与E1和E2环境中DTF性状相关的基因组区域/QTNs。稳定SNP定义为至少两种方法同时检测到的SNP。在E1中,SL-GWAS鉴定出34个显著SNP,而ML-GWAS鉴定出31个。对于E2,SL-GWAS鉴定出76个显著SNP,ML-GWAS鉴定出30个。跨两个环境,使用至少两种ML-GWAS方法鉴定出22个显著QTNs(LOD≥3)。在E1中,11个与DTF相关的QTNs(qDTF-1-1、qDTF-1-2、qDTF-1-3、qDTF-4-1、qDTF-4-2、qDTF-5-1、qDTF-7-1、qDTF-7-2、qDTF-8-1、qDTF-14-1和qDTF-16-1)位于scaffold 1、4、5、7、8、14和16上。在E2中,11个QTNs(qDTF-1-1、qDTF-1-2、qDTF-1-3、qDTF-2-1、qDTF-6-1、qDTF-7-1、qDTF-7-2、qDTF-9-1、qDTF-10-1、qDTF-13-1和qDTF-13-2)分布在scaffold 1、2、6、7、9、10和13上。13个QTNs在SL-GWAS和ML-GWAS之间常见(LOD≥3),scaffold 7上16,342,396bp处的一个QTN与两个环境中的DTF相关。
曼哈顿和分位数-分位数(QQ)图显示了通过单点和多点模型在E1和E2环境中鉴定的LOD≥3的QTNs。在两个环境中,观察到的P值与预期的P值密切对应,因为所有点都位于QQ图的中间线上或附近。然而,在E2中,与E1相比,观察到的P值比预期的更显著。
Annotation of identified stable QTNs
所有13个与DTF相关的新的基因组位点都使用Phytozome 13中的光苋基因组组装v2.1进行了注释。其中,7个QTNs位于注释基因附近,其余为基因间SNP。在注释的QTNs中,一个位于7号染色体16,342,396bp位置的QTN在E1和E2两个环境中被五种不同方法鉴定。该QTN编码一个锌指关节家族蛋白(LOC_Os12g37720)。在E1中,qDTF-4-2(AX-587783867)与编码锌指RING型蛋白的基因相连,以及与AT4G21430同源的转录因子,后者通过与FBH转录因子相互作用促进开花。另一个QTN,qDTF-5-1(AX-587790101),位于scaffold 5的2,338,055bp位置,被注释为ABA/WDS诱导蛋白(AH008526),与LOC_Os06g12580同源。该蛋白通过与关键蛋白(包括OsPID、LAX1和OsMADS16)相互作用调节花器官发育。在E2中,qDTF-1-1、qDTF-9-1和qDTF-13-1分别与编码表达蛋白、核糖体蛋白60S L5/18和抗氧化蛋白的基因相关。
Candidate gene identification of stable QTNs
分析了六个稳定且独特QTNs上游和下游695kb区域内的基因,以基于功能注释和与拟南芥和水稻直系同源物的同源性识别潜在候选基因。共鉴定出237个基因位于稳定QTNs附近,其中54个与DTF性状相关。与开花时间性状相关的关键推定基因包括AH019869(FAR1 DNA结合域)、AH019896(PLATZ转录因子)、AH019873(GATA转录因子15相关)、AH019875(驱动蛋白轻链相关蛋白)、AH014379(锌指蛋白CONSTANS样)、AH014397(生长素响应蛋白IAA)、AH004592(F-box/kelch重复蛋白SKIP11)、AH008516(Tubby样F-box蛋白1相关)、AH008547(GIGANTEA)、AH011804(泛素蛋白连接酶E3 C)和AH011815(AGAMOUS样MADS-box蛋白AGL36相关)。
本研究开发的AmahySNP 64K SNP芯片代表了籽粒苋遗传学研究的重要突破。这种高通量基因分型工具不仅解决了长期以来缺乏高效分子标记系统的难题,而且为籽粒苋的基因组辅助育种提供了强大支持。通过系统性的SNP发现、芯片设计和验证流程,研究人员成功创建了包含64,069个高质量SNP的芯片,其中超过一半位于基因区域,为功能基因研究提供了宝贵资源。
芯片的应用价值在多个方面得到体现:首先,在群体遗传学分析中揭示了苋菜种质的遗传结构和多样性特征,为种质资源管理和保护提供了科学依据;其次,基于SNP数据构建的核心种质集合为后续育种工作提供了高效的研究材料;最重要的是,通过GWAS分析成功鉴定到与开花时间相关的13个QTNs,其中7个位于注释基因内或附近,为理解苋菜开花调控的分子机制提供了重要线索。
这些发现不仅对苋菜育种具有直接应用价值,也为其他谷物作物的开花时间研究提供了参考。特别是鉴定到的多个开花相关基因,如CONSTANS-like锌指蛋白、GIGANTEA和MADS-box蛋白等,在植物开花途径中具有保守功能,表明苋菜可能采用与其他作物相似的开花调控机制。
AmahySNP芯片的开发和应用标志着籽粒苋研究进入了基因组学时代,为这种营养作物的遗传改良和品种培育提供了强大工具。随着全球对营养安全和可持续农业的关注日益增加,这种"未来黄金作物"的研究成果将为应对粮食安全挑战和改善人类营养健康做出重要贡献。未来研究可以进一步利用这一工具挖掘更多重要农艺性状的遗传基础,加速苋菜品种的遗传改良进程。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号