基于生物医学命名实体识别与随机森林分类的疾病候选基因鉴定与优先排序研究

【字体: 时间:2025年05月12日 来源:Computers in Biology and Medicine 7.0

编辑推荐:

  本研究针对传统疾病基因识别(DGI)方法样本需求大、统计效能不足,以及疾病基因优先排序(DGP)工具依赖计算预测缺乏实验验证的问题,开发了结合文本挖掘与随机森林分类的双层机器学习协议。通过从阿尔茨海默病、乳腺癌和2型糖尿病文献中提取疾病-基因关联(DGA),模型在10折交叉验证中达到97.29%(一级分类)和98.14%(二级分类)的准确率,新发现1008个阿尔茨海默病相关基因、670个乳腺癌基因和165个2型糖尿病基因,显著扩展了疾病遗传图谱。该研究为复杂疾病的精准医疗提供了创新性计算工具。

  

在探索人类疾病的遗传奥秘时,科学家们长期面临一个根本性挑战:大多数疾病并非由单个基因突变引起,而是多基因复杂互作的结果。这种多基因特性使得传统疾病基因识别(Disease Gene Identification, DGI)方法如全基因组关联研究(GWAS)和下一代测序(NGS)显得力不从心——它们需要庞大样本量,且对罕见变异检测不足。与此同时,虽然计算生物学发展出各种疾病基因优先排序(Disease Gene Prioritization, DGP)工具,但这些基于功能注释、通路分析的方法往往缺乏实验验证,犹如建造在流沙上的城堡。

更棘手的是,海量生物医学文献中蕴藏的疾病-基因关联(Disease-Gene Association, DGA)知识如同散落的珍珠,传统文本挖掘工具受限于词典覆盖不全、共现分析丢失语义等问题,难以系统捕获。现有机器学习方法又常陷入"单疾病验证"的局限,就像仅用单一乐器演奏交响乐,无法展现全貌。

为突破这些瓶颈,来自中国科学院等机构的研究团队在《Computers in Biology and Medicine》发表创新研究,开发了基于生物医学命名实体识别(BioNER)和随机森林(Random Forest)的双层分类系统。这项研究巧妙融合自然语言处理与机器学习优势,从文献海洋中精准捕捞疾病相关基因,并首次系统分类为"阳性"、"阴性"和"模糊"关联,为复杂疾病研究开辟新途径。

研究团队采用三大关键技术:1) 整合阿尔茨海默病、乳腺癌和2型糖尿病金标准数据集构建训练集;2) 开发双层随机森林分类器,首层区分有无DGA,次层细化关联类型;3) 应用10折交叉验证(10CV)评估模型。通过PubMed文献挖掘与命名实体识别,系统提取基因-疾病对并验证。

Level 1 CLASSIFICATION
模型在一级分类中展现出惊人辨别力,10CV平均准确率达97.29%,证明其能可靠识别文献中是否包含DGA信息。这相当于为研究人员配备了高精度文献过滤器,大幅提升信息筛选效率。

Prediction
应用训练好的模型预测新文献,在三大疾病中分别识别出2769个(阿尔茨海默病)、3220个(乳腺癌)和740个(2型糖尿病)阳性关联基因,形成全面疾病基因图谱。

Entity highlighting: GENE and DISEASE EXTRACTIONS
通过命名实体识别技术,研究实现基因与疾病名称的自动化提取,准确匹配率达94.6%,解决了传统词典方法覆盖不全的痛点。

Evaluating extracted genes through comparison with existing databases
与DisGeNET、OMIM和GWAS数据库比对发现,模型新鉴定出1008个阿尔茨海默病相关基因、670个乳腺癌基因和165个2型糖尿病基因,这些"暗物质"基因的发现极大丰富了疾病遗传认知。

这项研究的多重突破体现在:首先,创建首个不依赖现有数据库的DGA分类系统,避免人工标注偏差;其次,创新性引入"模糊关联"类别,为后续研究指明方向;最后,模型在三大差异显著疾病中均表现优异,证明其广谱适用性。

尤为重要的是,研究发现约36.4%的阳性关联基因未被现有数据库收录,这些"隐藏的宝石"可能成为精准医疗的新靶点。例如在阿尔茨海默病中,新发现基因涉及神经炎症和脂代谢等非传统通路,为疾病机制研究提供新视角。

该研究的局限在于当前主要处理结构化摘要,未来扩展至全文分析将进一步提升发现能力。正如作者Sushrutha Raj和Alok Srivastava团队强调,这套协议犹如基因研究的"罗塞塔石碑",不仅适用于其他复杂疾病,还可拓展至药物重定位等领域,为转化医学研究提供强大计算引擎。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号