FGDD:一个连接面部表型与基因的罕见遗传病可解释性数据集

【字体: 时间:2025年04月17日 来源:Scientific Data 5.8

编辑推荐:

  编辑推荐:针对AI诊断罕见遗传病缺乏可解释性的难题,四川大学团队构建了首个公开的面部表型-基因-疾病关联数据集FGDD,涵盖1,147条记录、437种面部表型、197个致病基因和211种疾病。该数据集支持可解释诊断模型开发,最高准确率达80.19%,为探索基因-疾病-表型复杂关系提供了新范式。

  

在医学遗传学领域,超过6%的全球人口受到罕见遗传病影响,其中许多疾病具有特征性面部表型。尽管基于深度学习的图像识别技术如DeepGestalt已达到91%的top-10准确率,但"黑箱"决策机制严重制约其临床适用性。现有公开数据集GMDB虽包含10,189张患者图像,仍无法解释特定面部特征与疾病的关联机制。这种可解释性缺失成为AI辅助诊断走向临床实践的主要障碍。

四川大学华西医院眼科与系统遗传研究所的Jie Song、Mengqiao He等研究人员在《Scientific Data》发表研究,提出首个可解释的面部表型-基因-疾病关联数据集FGDD。该研究通过系统检索509篇文献,构建包含1,147条标准化记录的表格型数据集,每条记录整合患者人口统计学特征、基因变异细节(如c.6726_6730del; p.Leu2243Serfs*8)、437种人类表型本体(HPO)标注的面部特征及211种OMIM疾病标签。创新性地采用知识图谱技术将数据转化为包含2,736个节点和17,982条关系的网络结构,支持因果推理。

关键技术方法包括:基于HPO术语构建595个复合检索式筛选PubMed文献;混合使用PhenoTagger(表型实体识别)和PubTator(生物医学实体识别)工具进行自动化提取;人工校验标准化变异描述(HGVS格式)与临床数据对应关系;通过Node算法实现80.19%诊断准确率;采用粗/细粒度特征重要性分析揭示基因变异贡献度达63%。

研究结果显示,FGDD中39.93%疾病标签缺失反映遗传学研究侧重分子机制而非临床关联的特点。知识图谱可视化清晰展示ARID1B基因突变通过SWI/SNF染色质重塑复合体调控异常导致Coffin-Siris综合征的分子路径。算法测试中,Node和FTTransformer分别取得最优准确率(80.19%)和Macro-F1值(0.59)。特征重要性分析表明,变异细节(如染色体位置、外显子数量)对诊断决策贡献显著高于人口特征(P<0.01)。

该研究的突破性在于首次建立可追溯的面部表型-基因-疾病关联框架。以Coffin-Siris综合征为例,阐明ARID1B突变阻碍BAF复合体中ARID1A/ARID1B亚基转换,导致神经嵴细胞分化异常的具体机制。数据集的结构化设计支持三类应用场景:开发可解释诊断模型、挖掘基因-表型新关联、辅助临床决策支持。

主要局限性包括:样本存在地域偏倚(34.43%地区信息缺失),分子机制数据覆盖不足。未来将通过扩充多族裔样本、整合蛋白质互作网络(如STRING数据库)提升普适性。研究团队已公开全部数据和代码(CC BY 4.0协议),为罕见病诊断研究提供新范式。

这项研究通过创新性的数据整合方法,在AI可解释性这一关键瓶颈问题上取得重要进展。FGDD不仅填补了现有图像数据集缺乏生物学解释的空白,其知识图谱架构更为理解遗传变异到表型的因果链条提供了可视化工具。随着多模态学习技术的发展,该数据集有望成为连接临床影像、组学数据和分子机制的重要枢纽,推动精准医疗从现象描述向机制解析的跨越。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号