PolyA_DB v4:基于3'端与长读长测序数据系统鉴定人鼠基因组多聚腺苷酸化位点及异构体注释
《Nucleic Acids Research》:PolyA_DB v4: systematic polyA site identification and isoform annotation in human and mouse genomes using 3′ end and long-read sequencing data
【字体:
大
中
小
】
时间:2025年11月30日
来源:Nucleic Acids Research 13.1
编辑推荐:
本研究针对真核生物mRNA和lncRNA 3'末端多聚腺苷酸化位点(PAS)注释不全面、存在内部引物伪影等问题,开发了PolyA_DB v4数据库。团队通过深度挖掘364个人类与451个小鼠3'READS+数据集(约23亿条PAS支持 reads),结合长读长RNA测序(LR-RNA-seq)验证,分别鉴定出142.9万(人)和134.6万(鼠)PAS,较上一版本提升4.9倍和3.5倍。创新性引入3'末端外显子区域(TEZ)分型系统,精准注释选择性多聚腺苷酸化(APA)事件,并整合PAS保守性、强度预测等功能。该资源为研究APA调控机制及其在疾病中的作用提供了重要平台。
在真核生物基因表达调控的复杂网络中,信使RNA的3'末端加工扮演着关键角色。几乎所有的蛋白质编码RNA和长链非编码RNA都需要经过切割和多聚腺苷酸化处理,从而形成成熟的3'末端。这一过程发生的具体位置被称为多聚腺苷酸化位点,它如同基因的"终止符",决定着转录本的最终长度和结构。令人惊讶的是,超过一半的哺乳动物基因含有多个PAS,这种现象被称为选择性多聚腺苷酸化,它使得单个基因能够产生多种不同长度的转录本异构体,极大地丰富了转录组的多样性。
然而,准确鉴定这些PAS并理解其调控机制一直面临着巨大挑战。传统的转录组数据库如RefSeq、Ensembl和GENCODE在PAS注释方面既不够全面也不够准确。更严重的是,常用的 oligo(dT)引物在逆转录过程中容易与RNA分子内部的A富集区域结合,产生虚假的PAS信号,这一问题被称为"内部引物伪影"。此外,短读长测序技术虽然能够检测PAS,但难以准确将PAS归属到特定基因,特别是对于那些位于基因内含子区域或基因下游的"孤儿PAS"。
为了解决这些难题,来自Wistar研究所和宾夕法尼亚大学的研究团队在《Nucleic Acids Research》上发表了最新研究成果——PolyA_DB第四版数据库。这一全面升级的资源系统整合了3'端特异性测序数据和长读长测序技术,为研究哺乳动物PAS和APA事件提供了前所未有的精确度和覆盖度。
研究团队采用了几项关键技术方法:首先,他们收集并分析了364个人类和451个小鼠的3'READS+数据集(包含约23亿条PAS支持 reads),这是一种专门设计用于PAS鉴定的3'端测序技术,能有效避免内部引物问题;其次,整合了来自ENCODE和GTEx等项目的227个人类和165个小鼠长读长RNA测序样本,用于PAS验证和精确基因归属;此外,开发了基于深度学习模型的PAS强度预测算法,并引入了3'末端外显子区域概念用于APA事件分型。
PAS collections based on 3'READS+ data
研究结果显示,PolyA_DB v4在人类和小鼠基因组中分别鉴定出1,429,829和1,346,135个PAS,相比前一版本分别增加了4.9倍和3.5倍。这些PAS在其侧翼序列中显示出典型的核苷酸分布模式,包括上游的UGUA、U-rich和AAUAAA等 motif,以及下游的UGUG、U-rich和G-rich motif,这些特征 motif 是招募CPA machinery(切割多聚腺苷酸化机制)的关键元件。
PAS validation and annotation by LR-RNA-seq data
通过长读长测序数据的验证,约20%的PAS(称为Max collection)与长读长测序的转录本末端位点相匹配,构成了更为可靠的Main collection。值得注意的是,有10%-20%的长读长测序TES未能与任何已注释的PAS匹配,这很可能反映了长读长测序技术本身存在的3'端伪影问题。长读长数据的重要价值在于能够将许多原本无法归属的"孤儿PAS"准确连接到特定基因,特别是对于那些位于嵌套基因或复杂基因区域的PAS。
研究人员采用了多种指标来评估PAS的表达水平,包括表达样本百分比和在表达样本中的平均 reads per million。令人鼓舞的是,基于3'READS+数据和长读长测序数据的表达指标显示出良好的相关性,这表明两种技术都能为APA异构体的定量分析提供可靠信息。
通过深度学习模型PolyaStrength对每个PAS的强度进行预测,并将得分在所有Main collection PAS中进行百分位标准化。分析发现,标准化后的PAS强度与基于PSE的表达水平显著相关,且进化上保守的PAS往往具有更高的强度得分,这表明保守且高表达的PAS倾向于拥有更典型的 motif 配置。
PAS collection comparisons
与PolyA_DB v3.2和PolyASite 2.0等现有数据库的比较显示,多个数据库共有的PAS往往具有更典型的侧翼序列特征和更高的表达水平,而各数据库特有的PAS则通常表达较低且缺乏典型 motif,这反映了低表达PAS检测的技术挑战。
Data access and website interface
PolyA_DB v4提供了用户友好的网络界面和UCSC Genome Browser可视化平台,包含基因摘要、PAS信息、 motif 注释和表达数据四个核心表格,支持按基因符号或ID查询,所有数据均可免费下载和使用。
这项研究建立的PolyA_DB v4数据库代表了PAS注释资源的重要突破。通过整合大规模3'端特异性测序数据和长读长测序技术,它不仅极大扩展了PAS的覆盖范围,还显著提高了注释的准确性。数据库提供的PAS强度预测、保守性分析和表达定量信息,为研究APA在基因调控、细胞分化和疾病发生中的作用提供了强大工具。特别值得关注的是,该资源有助于识别与疾病相关的PAS motif突变,为理解人类疾病的分子机制提供了新视角。随着单细胞测序技术和长读长测序技术的进一步发展,PolyA_DB将继续完善,为生命科学研究社区提供更全面、更精确的PAS和APA信息资源。
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号