PAHG数据库:人类多基因家族的系统基因组学解析与进化资源构建
《BMC Genomic Data》:PAHG: the database of human multi-gene families
【字体:
大
中
小
】
时间:2025年10月18日
来源:BMC Genomic Data 2.5
编辑推荐:
本研究针对脊椎动物多基因家族进化资源匮乏的现状,开发了PAHG(Phylogenomic Analysis of Human Genome)数据库。通过整合221个人类多基因家族(涵盖1247个基因成员)的系统发育数据、共线性分析和共复制事件追踪,揭示了HOX、FGFR、MHC等染色体区段的进化历史。该资源为解析基因复制(WGD/SSD)机制、功能冗余及疾病相关基因家族演化提供了关键平台,显著推动了比较基因组学研究。
在脊椎动物演化长河中,基因复制事件如同基因组的“创造力引擎”,通过单基因复制、片段复制(SSD)和全基因组复制(WGD)等多种机制,催生了大量多基因家族。这些家族成员在人类基因组中占比高达20%~30%,不仅赋予生物体功能多样性,更与免疫应答、神经发育等关键生命活动密切相关。然而,尽管多基因家族的重要性日益凸显,科学界仍缺乏一个整合进化历史、共线性关系和功能注释的标准化资源。现有数据库如HUGO和ENSEMBL虽提供基础分类,但缺乏跨物种系统发育分析及共复制事件的深度解析,限制了研究者对基因家族演化动态的全面理解。
为解决这一难题,由Quaid-i-Azam大学和国家基因组科学中心等机构的研究团队在《BMC Genomic Data》上发表了PAHG数据库。该工作聚焦人类基因组中四个经典平行同源区(paralogons)——HOX基因簇所在染色体(Hsa:2/7/12/17)、FGFR基因簇所在染色体(Hsa:4/5/8/10)、MHC区域染色体(Hsa:1/6/9/19)及染色体1/2/8/20,通过大规模系统基因组学分析,重构了221个多基因家族的进化轨迹。
研究团队采用多层级技术策略:首先通过Ensembl、NCBI等公共基因组平台获取人类及其他46种后生动物(包括24种四足动物、5种硬骨鱼及14种无脊椎动物)的蛋白序列;继而利用双向最佳比对(BLASTP)筛选直系同源基因,并基于查询覆盖度(≥97%)和序列一致性(57%~100%)进行严格过滤;随后通过CLUSTAL W进行多序列比对,并联合邻接法(Neighbor-Joining)和最大似然法(Maximum Likelihood)构建系统发育树,通过拓扑结构比较推定复制事件时间节点;最后将共线性分析与共复制群(co-duplication groups)映射结合,揭示基因家族扩张与染色体结构的关联性。
PAHG当前版本整合了15,231条蛋白序列,涵盖1247个人类基因成员。其交互式网络界面提供四大核心模块:
- 1.多基因家族网络图谱:以可视化形式展示基因家族在平行同源区内的分布,用户可通过点击基因节点快速获取序列、系统发育树及共线性信息。
- 2.复制机制解析:标注每个家族的复制类型(如四倍化、三倍化),并通过系统发育树节点颜色编码区分复制事件的发生时期(如脊椎动物祖先期 vs. 哺乳动物特异期)。
- 3.共线性与共复制分析:例如,HOX区段的62个家族中,多个基因呈现同步复制模式,暗示其可能受相同染色体重排事件驱动。
- 4.功能与疾病关联:以α-辅肌动蛋白(ACTN)家族为例,阐明ACTN2与ACTN3的功能冗余如何缓冲基因突变导致的表型缺陷。
研究通过典型案例深化了对基因复制后功能演化的认知。例如,嗜酸性粒细胞阳离子蛋白(ECP)基因通过旧世界猴谱系中的复制事件获得抗菌功能,体现了新功能化(neofunctionalization)的分子机制;而MHC区基因家族的扩张则揭示了免疫相关基因在脊椎动物适应中的核心作用。此外,数据库还发现约75%的家族系统发育拓扑结构在不同重建方法中高度一致,验证了数据的可靠性。
PAHG数据库填补了脊椎动物多基因家族进化研究的资源空白,通过将系统发育数据与基因组结构整合,为解析基因复制事件的时空规律、功能分化及与人类疾病的关联提供了全新平台。未来,团队计划纳入更多平行同源区及单细胞基因组数据,并开发机器学习工具以预测基因家族的功能演化路径。这一资源不仅推动基础进化生物学发展,更为疾病基因挖掘和比较医学研究提供了关键支撑。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号