
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于蛋白质家族三维结构比对的功能性突变识别新方法PFMI3DSC及其在癌症驱动突变发现中的应用
【字体: 大 中 小 】 时间:2025年09月14日 来源:Computational and Structural Biotechnology Reports
编辑推荐:
本研究针对癌症基因组学中区分功能性“驱动”突变与偶然“乘客”突变的挑战,开发了PFMI3DSC统计框架。该方法通过整合蛋白质家族的三维结构保守性分析与突变复发数据,显著提升了热点突变的预测准确性。在288个癌症相关蛋白的应用中,PFMI3DSC不仅比MutClustSW和MutationAligner识别出更多候选热点,且经AlphaMissense验证显示高致病性评分,为癌症驱动基因发现提供了新视角。
癌症的发生与发展往往源于基因组中累积的体细胞突变,其中少数关键“驱动突变”能够赋予细胞生长优势,而大量“乘客突变”则功能不显著。尽管大规模测序项目如TCGA、ICGC等发现了大量复发突变热点,但区分功能性驱动突变仍面临巨大挑战。传统方法主要依赖突变频率或单个蛋白质的序列分析,容易受到突变过程偏好性的干扰,且难以识别低频功能性突变。
为解决这一难题,Mohamad Hussein Hoballa和Changiz Eslahchi开发了一种名为PFMI3DSC(Protein functional mutation identification by 3D structure comparison of protein families)的新方法。该方法创新性地利用蛋白质家族的三维结构保守性,结合突变复发数据,系统性地识别可能的功能性突变热点。研究成果已发表在《Computational and Structural Biotechnology Reports》。
研究人员通过整合UniProtKB的蛋白质家族注释、AlphaFold预测的蛋白质三维结构以及Foldseek快速结构比对算法,构建了一个完整的分析流程。他们从BioMuta、3DHotspots和Cancer Hotspots等权威数据库获取突变注释信息,并利用Tamborero等人提供的288个癌症驱动基因数据集进行方法验证。通过计算每个残基的突变评分和统计显著性,并结合Bonferroni校正,最终识别出非随机的候选功能突变。
2.2.1. Step1:定义蛋白质列表
通过UniProtKB数据库的“SIMILARITY”注释确定目标蛋白质的家族成员集合。
2.2.2. Step2:获取与比对三维结构
从AlphaFold蛋白质结构数据库获取所有家族成员的三维结构,并使用Foldseek进行 pairwise 结构比对。
2.2.3. Step3:整合突变注释信息
利用BioMuta、3DHotspots和Cancer Hotspots数据库获取每个家族成员的突变和热点残基信息。
2.2.4. Step4:构建比对矩阵
建立残基比对矩阵,记录每个目标蛋白残基与家族成员对应残基的比对关系。
2.2.5. Step 5:评分与概率计算
为每个残基分配突变评分(0:未突变/未注释;1:BioMuta中的突变;2:已知热点),并计算其显著性概率。
2.2.6. Step 6:选择候选功能突变热点
通过Bonferroni校正(P < 0.01/n)筛选出显著的功能性突变候选位点。
3.2. 与现有方法的比较分析
PFMI3DSC在288个蛋白质中成功预测了182个蛋白质中的1100个候选热点,显著优于MutClustSW(136个蛋白,715个热点)和MutationAligner(163个蛋白,934个热点)。这表明基于结构保守性的方法能够更有效地识别功能性突变。
3.3. HRAS案例研究
HRAS蛋白家族包含24个成员。PFMI3DSC预测了7个候选功能突变(残基12、13、34、59、61、68和146),所有这些位点均已在癌症突变数据库中被报道,其中4个被独立注释为热点。AlphaMissense分析证实这些位点具有高平均致病性评分(均>0.94)。Leave-One-Out交叉验证(LOOCV)显示所有预测残基在超过80%的迭代中被重现,证明了方法的稳健性。进一步的结构分析表明,这些残基位于HRAS的功能域(如G-boxes、Switch I/II区)内部或附近,并与59个空间邻近残基有105次相互作用,其中30个邻近残基在肿瘤中也被发现存在突变。
3.4. RHOA案例研究
RHOA属于Rho GTP酶家族。PFMI3DSC预测了3个候选突变(残基122、124和169),这些位点此前未被注释为热点,但在癌症数据集中存在突变记录。AlphaMissense评分同样支持其功能性(评分分别为0.988, 0.891, 0.704)。LOOCV显示所有位点在100%的迭代中被重现。这些残基与25个空间邻近残基存在相互作用,其中16个在肿瘤中发生突变,且它们位于GTP/Mg2+结合位点等关键功能域。
3.5. ERG案例研究
ERG是ETS家族的转录因子。PFMI3DSC预测了3个候选热点(残基356、367和369),其AlphaMissense致病性评分极高(0.945, 0.9999, 0.997)。这些残基及其14个空间邻近残基中的10个,在cBioPortal数据库中均被记录有突变。值得注意的是,所有预测位点都位于ERG的DNA结合结构域(ETS domain)内,这与该蛋白的致癌功能密切相关。
研究表明,PFMI3DSC通过利用蛋白质家族内三维结构的深层保守性,能够有效识别那些在单一蛋白质分析中可能被忽略的功能性突变。该方法克服了传统频率学方法的局限性,特别是对于低频突变和缺乏研究的蛋白质。尽管存在一些局限性(如未能召回RHOA的某些已知热点),但通过多层次的验证(统计显著性、AlphaMissense致病性预测、结构上下文分析、LOOCV稳健性测试),研究有力地证明了PFMI3DSC预测结果的可靠性。
该研究的成功实施,为癌症基因组学领域提供了一种强大的新工具。它不仅有助于优先安排实验验证的候选位点,加速新驱动基因的发现,更重要的是,它提供了一种全新的视角来看待“功能突变”——即从蛋白质家族进化与结构的角度,而不仅仅是单个基因的突变频率。未来,随着蛋白质结构预测技术的不断进步和突变数据库的日益完善,像PFMI3DSC这样的整合计算方法将在解读癌症基因组和推动精准医疗方面发挥越来越重要的作用。
生物通微信公众号
知名企业招聘