《Communications Biology》:Nanopore sequencing and multiomics reveal predictable non-coding RNA activation in DNA methylation deficient Arabidopsis thaliana
编辑推荐:
本研究针对DNA甲基化缺陷如何调控长链基因间非编码RNA(lincRNA)这一科学问题,通过整合牛津纳米孔技术(ONT)直接RNA测序(DRS)、直接DNA测序(DDS)和机器学习方法,系统揭示了拟南芥ddm1/met1突变体中340个lincRNAs的激活规律。研究发现种群水平DNA甲基化、转座子(TE)重叠和RNA修饰(m6A/m5C)是预测lincRNA激活的关键特征,随机森林模型预测精度达AP=0.96,为表观遗传调控非编码RNA提供了新范式。
在基因组的神秘世界中,蛋白质编码基因长期以来占据着研究舞台的中央,而那些不编码蛋白质的区域曾被视为"垃圾DNA"。然而,近年来科学家们发现,这些非编码区域实际上蕴藏着丰富的调控密码,其中长链基因间非编码RNA(long intergenic non-coding RNAs, lincRNAs)作为一类重要的调控分子,在生物发育、应激响应和进化过程中发挥着关键作用。
尽管lincRNAs的重要性日益凸显,但一个核心问题始终困扰着研究人员:这些非编码RNA的激活是否具有规律可循?特别是在DNA甲基化这种重要的表观遗传修饰发生改变时,lincRNAs的表达行为能否被预测?这个问题不仅关乎我们对基因组调控机制的理解,更对作物育种和疾病研究具有深远意义。
DNA甲基化作为真核生物中保守的表观遗传标记,在基因表达调控中扮演着"开关"角色。在模式生物拟南芥中,DNA甲基化缺陷突变体如ddm1和met1为研究这一问题提供了理想模型。这些突变体表现出全基因组范围的DNA低甲基化,为观察lincRNAs的激活规律创造了天然实验场。
然而,传统短读长测序技术在研究lincRNAs时面临巨大挑战。lincRNAs通常含有大量重复序列和转座子元件(transposable elements, TEs),这些区域就像基因组的"暗物质",使得短读长难以准确组装。此外,lincRNAs的RNA修饰和poly(A)尾长等特征对其功能调控至关重要,但这些信息在常规测序中往往丢失。
正是在这样的背景下,浙江大学赵婷教授团队在《Communications Biology》上发表了创新性研究。他们巧妙地将牛津纳米孔技术(Oxford Nanopore Technologies, ONT)的直接RNA测序(direct RNA sequencing, DRS)和直接DNA测序(direct DNA sequencing, DDS)与多组学分析、机器学习相结合,系统揭示了DNA甲基化缺陷条件下lincRNAs的可预测性激活规律。
研究人员采用ONT DRS和DDS技术对拟南芥野生型(WT)、ddm1和met1突变体的叶片样本进行测序,同时进行Illumina RNA-seq作为对比。利用来自728个拟南芥自然种群的公共表观基因组数据,构建了包含50个多组学特征的数据库,应用六种机器学习算法预测lincRNAs的激活状态。
研究设计
通过整合ONT长读长测序和Illumina短读长测序,研究团队建立了全面的lincRNAs分析流程。他们对拟南芥Col-0野生型、ddm1-2和met1-3突变体进行多平台测序,确保数据的可靠性和可比性。
DRS图谱评估与lincRNA注释
DRS产生了4000万条长读长,中位读长893bp,最大读长达到14,248bp。与之前的研究相比,本研究每个文库平均产生超过600万条读长,总碱基覆盖度提高了7.4倍。研究人员成功注释了1,663个lincRNA转录本,对应于549个转录模型,其中54.8%为新型lincRNAs。
DRS在lincRNA注释中的映射准确性提升
研究证明长读长测序在lincRNAs区域的多重映射率仅为3.14%-4.80%,显著低于短读长测序的8.42%-9.96%。尽管ONT DRS的碱基错误率较高,但位于lincRNAs体内的变异比例很低(SNPs:0.94%-6.17%,InDels:0.99%-3.99%),对lincRNAs分析影响有限。
ddm1和met1中lincRNAs的活跃表达
差异表达分析发现,在ddm1突变体中61.93%(340个)的lincRNAs显著上调,而met1突变体中22.22%(122个)上调。相比之下,蛋白质编码基因(protein-coding genes, PCGs)仅有4.08%和2.77%发生上调。长读长和短读长测序结果高度一致,91.18%的ddm1激活lincRNAs在两个平台均被检测到。
lincRNAs中的RNA修饰和poly(A)尾长模式
研究发现ddm1激活的lincRNAs中m6A(65.7%)和m5C(63.0%)修饰检测率与PCGs相当,而非ddm1激活的lincRNAs修饰率较低(m6A=34.0%,m5C=41.9%)。更重要的是,ddm1激活的lincRNAs具有最长的poly(A)尾(中位数106.1nt),显著长于非激活lincRNAs(83.7nt)和PCGs(72.8nt)。
DDS揭示DNA甲基化与lincRNA转录活性的负相关
DDS测序平均覆盖度达61×,最长读长209kb。DNA甲基化分析显示,ddm1激活的lincRNAs在突变体中的基因体甲基化水平平均下降67.20%(从79.17%降至11.98%),而非激活lincRNAs和PCGs仅下降16.97%和5.58%。结构变异分析表明,只有少量lincRNAs(3.82%)存在结构变异,且与激活状态无显著相关性。
拟南芥自然种群中可检测到ddm1激活的lincRNAs
对728个拟南芥自然种群的转录组分析发现,68.31%的注释lincRNAs在至少一个种质中表达。ddm1激活的lincRNAs在自然种群中虽然表达频率较低,但表达变异性显著高于非激活lincRNAs和PCGs。例如,多外显子lincRNA MSTRG.19777在三个种质(IP-San-10、Gd-1和Hue-3)中高表达,且这些种质的对应基因组区域均显示DNA甲基化水平降低。
机器学习预测ddm1激活的lincRNAs
研究团队整合了50个多组学特征训练六种机器学习模型。随机森林(Random Forest)表现最佳(准确率0.82,平均精度0.96,AUC-ROC 0.93)。特征重要性分析显示,种群水平DNA甲基化(贡献度19.3%-25.2%)、转座子重叠(特别是CACTA和Gypsy)和RNA修饰特征是关键预测因子。
研究结论与意义
这项研究通过创新性地结合纳米孔长读长测序和机器学习,揭示了表观遗传变异塑造lincRNAs可预测性激活的分子机制。研究不仅证实了DNA低甲基化在lincRNAs激活中的核心作用,还建立了系统发现可表达非编码RNA的分析框架。
更重要的是,研究发现自然种群中存在的类似激活模式表明,lincRNAs的转录灵活性是基因组的内在属性,可能在适应进化中发挥重要作用。从应用角度看,这项工作为作物表观遗传育种提供了新思路:通过调控DNA甲基化状态,可以系统性激活沉默的基因组元件,从而开发具有新颖农艺性状的种质资源。
这项研究的突破性在于将前沿测序技术与人工智能分析相结合,解决了非编码RNA研究中的关键技术瓶颈。它不仅深化了我们对表观基因组与非编码转录组互作的理解,更为利用表观遗传变异进行作物改良提供了理论依据和技术路径。随着多组学数据的不断积累和算法模型的持续优化,这种研究范式有望在更广泛的生物体系和更复杂的性状调控研究中发挥重要作用。