《Environmental DNA》:Identification of Individual Fish by SNP Genotyping of emCells
编辑推荐:
摘要:环境DNA(environmental DNA, eDNA)分析通过实现快速、非侵入性的物种检测,已变革了生物多样性监测。eDNA来源于多个物种、细胞类型和个体,其非细胞组分可能包含多个个体的混合基因型,标准eDNA采样与分析无法从该混合物中恢复个体水平
摘要:环境DNA(environmental DNA, eDNA)分析通过实现快速、非侵入性的物种检测,已变革了生物多样性监测。eDNA来源于多个物种、细胞类型和个体,其非细胞组分可能包含多个个体的混合基因型,标准eDNA采样与分析无法从该混合物中恢复个体水平的多位点基因型。解决此问题需要两项创新:(1)从混合物中分离属于单个生物体的eDNA颗粒(emCells,environmental metazoan cells);(2)从单个emCell生成多位点基因型。研究人员此前已解决了emCell的分选问题,本文则检测能否从实验室制备并分离的单个鱼类细胞中可靠获得多位点核单核苷酸多态性(single nucleotide polymorphism, SNP)基因型,作为野外emCell的模型。研究人员的工作流程"emCell-Seq"结合荧光激活细胞分选(fluorescence-activated cell sorting, FACS)分离环境后生动物细胞(emCells)与靶向鉴别性核SNP的多重PCR(multiplex PCR)。研究人员从组织制备单个斑马鱼(Danio rerio)细胞,并混合配制成已知单源及混合源的模拟emCell样品。混合样品经FACS分选,分离出的单个细胞使用含35个SNP的引物板进行基因分型。将emCell的SNP基因型与已知基因型比对以评估归属准确率。对于源自多个个体人工混合池的emCell,91%(n=129)被正确归属,未获得混合基因型。本研究首次证明可从分离的鱼类emCell获得个体水平核基因型,将该发现拓展至野外采集的emCell将显著扩展eDNA可支持的生态学分析范畴。
《Environmental DNA》刊载研究"利用SNP基因分型对emCell进行鱼类个体识别"解读
研究背景与立项依据
环境DNA(environmental DNA, eDNA)宏条形码(metabarcoding)技术已广泛用于非侵入性物种鉴定,但通常仅能获取分类学信息,难以进一步推导种群数量、年龄结构等 demographic 参数。现有基于eDNA读取数(read count)推断丰度的方法受物种DNA释放率、降解速率及多种偏差影响而不稳定;基于线粒体DNA单倍型计数仅能提供个体数的低估(minimum known alive estimate),且受标记变异度和种群遗传多样性限制。尽管核微单倍型(microhaplotype)已从水生eDNA中检出,但因环境样品中DNA来自多个体混合,仍只能获得群体等位基因频率而非个体水平多位点基因型,无法应用于标志重捕(capture-mark-recapture, CMR)或近亲标志重捕(close-kin mark-recapture, CKMR)等依赖个体基因型的种群估算方法。研究人员此前证实大体积eDNA样品中含完整细胞及细胞聚集体,可通过流式细胞术分离单个后生动物细胞,称之为环境后生动物细胞(environmental metazoan cells, emCells)。本研究旨在验证从单个emCell通过核SNP多位点基因分型实现鱼类个体识别的概念可行性,为eDNA技术从物种检测到个体水平生态分析奠定方法学基础。
主要关键技术方法
研究人员选用已知基因型的AB及TU品系斑马鱼(Danio rerio)各两只共四个个体为样本队列。主要技术手段包括:(1)组织解离制备模拟emCell悬液,荧光原位杂交(fluorescence in situ hybridization, FISH)用靶向鱼类线粒体12S rRNA的探针(12S-fish-AF647)联合DAPI核染标记完整有核细胞,通过多元设门策略经荧光激活细胞分选(fluorescence-activated cell sorting, FACS)分离单个emCell至96孔板;(2)基于DArTseq发现的斑马鱼鉴别性位点设计含35个SNP、26个扩增子的多重PCR(multiplex PCR)体系,对单细胞内靶区进行扩增;(3)Illumina iSeq单向测序,用Bowtie2比对、bcftools进行SNP calling并设置覆盖度及碱基质量过滤;(4)基于欧氏距离计算emCell与参照基因组DNA(genomic DNA, gDNA)的SNP相似性得分,先按品系(strain)再按个体逐级归属,纯合SNP优先用于匹配,以已知来源emCell为阳性对照评估归属准确率,混合来源emCell检验实际分辨力。
研究结果
3.1 Imaging流式与FACS(Imaging Flow and FACS)
研究人员应用含前向散射(forward scatter, FSC)、侧向散射(side scatter, SSC)高度/宽度散点图的连续设门排除碎片与非单细胞聚集体,再用DAPI+/AF647+双阳性布尔门筛选完整带核且含线粒体的斑马鱼细胞。最终选定平均占单细胞群28.25%的双阳性群体(n=1578)进行分选,共获得352个单细胞分别进入已知个体(80个)与未知混合来源(272个)的基因分型流程。
3.2 高质量emCell的分子分析筛选(Selection of High Quality emCells for Molecular Analysis)
以斑马鱼单拷贝基因实时荧光定量PCR(quantitative real-time PCR, qPCR)检测分选后单个emCell,76%–86%的细胞可扩增产物的平均量化循环(quantification cycle, Cq)为40.9,证实该群体具备低模板量下扩增核DNA的能力,选定此群体进行后续SNP基因分型。
3.3 条码分析与比对摘要(Barcoding Analysis and Alignment Summary)
gDNA与emCell数据集>99% reads比对至预期靶区。gDNA样本平均每样本13863条reads,emCell平均每样本11149条reads。26个扩增子覆盖度变异较大,gDNA覆盖均一(均值每扩增子529.92,IQR=655),emCell覆盖更离散(均值425.76,IQR=578.25)。emCell来源扩增子中平均63.54%(约16个)达到最低覆盖阈值(DP≥30),满足SNP calling要求。
3.4 用于样本识别的SNP基因型(SNP Genotypes for Sample Identification)
排除7个扩增不足的扩增子后,对剩余35个SNP进行分析。gDNA参照平均缺失率8.1%,emCell平均缺失率40.11%。纯合与杂合等位基因call准确率差异显著(p=5.3×10-65),将变异等位基因频率(variant allele frequency, VAF)窗口放宽至10%后杂合call准确率显著提升(p=4.07×10-6,平均提升9.58%)而纯合call无显著影响,故后续采用VAF≥10%阈值。
3.4.1 已知来源emCell的个体识别(Individual Identification of Known emCells)
用6个品系内固定SNP进行品系归属,已知emCell品系正确归属率95%(76/80)。完成品系判定后,用额外品系特异性SNP进行个体归属,总体85%(68/80)正确匹配至具体个体,品系1达90%。缺失数据<60%时正确归属率为93.33%(56/60),缺失>60%时急剧下降。8个因与两个参照相似度相等未归属,4个错误归属(均因高缺失致判别力不足)。
3.4.2 未知来源emCell的个体识别(Individual Identification of Unknown emCells)
未知emCell(n=276)平均缺失率38%,剔除缺失>60%的58个样本后,剩余218个中91%(198/218)成功归属至四只斑马鱼之一,无混合基因型检出,表明模拟混合池中单个emCell可被准确溯源至供体个体。
讨论与结论总结
研究人员证明emCell-Seq工作流程可从模式环境下单个鱼类emCell获得多位点核SNP基因型,已知来源emCell个体正确归属率达85%,混合来源经缺失率质控后达91%,且未出现混合基因型,首次证实单emCell足以分辨近交系/近缘个体。相比传统eDNA只能给出物种或群体信息,emCell-Seq通过FACS分离单细胞并结合核SNP多重PCR突破混合DNA限制,理论上可使基于eDNA的CMR与CKMR种群数量估算成为可能,无需物理捕获个体。当前实验为实验室模拟,野外emCell可能因降解、抑制物及微生物污染降低核DNA回收率,未来需在细胞保存(现场固定、DNA稳定缓冲液)、全基因组扩增(whole-genome amplification, WGA)、微流控分选及质控阈值(存活染色、Cq cutoff、覆盖度/缺失率过滤)等方面优化以适应自然环境。明确emCell在水体中完整性与存续时间窗是准确时空推演的前提。该技术也可拓展至环境RNA(environmental RNA, eRNA)及表观遗传标记的单细胞分析,为生态监测提供个体水平的多维分子信息。