CarD-T:基于Transformer的潜在人类致癌物自动筛选与分析新框架

《Carcinogenesis》:CarD-T: An Automated Pipeline for the Nomination and Analysis of Potential Human Carcinogens

【字体: 时间:2025年10月27日 来源:Carcinogenesis 2.9

编辑推荐:

  本研究针对传统致癌物鉴定流程滞后于生物医学文献爆炸式增长的难题,开发了CarD-T框架。该工具结合Transformer机器学习与概率分析,能从海量科学文本中高效提名潜在致癌物。结果显示,CarD-T不仅精准识别全部已知致癌物,还新提名约1600个候选物,其召回率(0.853)显著优于GPT-4(0.757)。该框架为公共卫生领域提供了可本地部署、低成本且高效的致癌物筛查新范式。

  
在癌症流行病学领域,准确识别和分类致癌物是制定有效预防措施的基础。目前,国际癌症研究机构(IARC)、美国环境保护署(EPA)等权威机构虽然建立了致癌物分类体系,但其评估流程严重依赖专家人工评审,周期长达12-18个月,且各机构标准不一,导致全球479种已确认致癌物中近半数(231种)仅被单一机构认可。面对每年激增的生物医学文献,传统人工筛选方式已不堪重负,亟需开发自动化工具来加速潜在致癌物的提名流程。
虽然化学信息学工具(如RDKit)和大型语言模型(如GPT-4)在毒性预测方面取得进展,但它们难以整合科学文献中的关键上下文信息(如暴露剂量、环境因素等),且无法量化非化学因素的致癌风险。此外,商用LLM存在使用成本高、上下文窗口有限以及专业领域偏差等问题。近期虽有研究尝试结合文本挖掘与数据库融合策略,但多基于过时的自然语言处理技术,难以应对日益复杂的科学文献表述。
针对这一挑战,由圣迭戈州立大学Jamey O'Neill与Parag Katira领衔的研究团队在《Carcinogenesis》发表了题为“CarD-T: An Automated Pipeline for the Nomination and Analysis of Potential Human Carcinogens”的研究论文,开发了一套融合Transformer架构与概率分析的自动化框架CarD-T。该框架通过以下关键技术实现高效致癌物提名:首先基于“致癌物关键特征”理论构建包含23.7万篇PubMed摘要的专用数据集(DS-Carcinogen),并利用少样本学习分类器标注“致癌性证据”(IC)与“非致癌性证据”(NIC)语句;接着基于Bio-ELECTRA-large架构训练3.35亿参数的命名实体识别模型,通过上下文增强的TF-IDF去噪和语义-句法混合的同义词消歧技术,最终从21.7万篇摘要中筛选出2484个IC实体与2391个NIC实体;针对554个存在争议的实体,创新性地开发了PCarD(概率致癌物判定)贝叶斯时序模型,通过负二项回归分析证据趋势的演变。
研究结果显示,CarD-T在仅使用60%已知致癌物数据训练时,即可100%识别剩余IARC 1类与2A类致癌物。与GPT-4相比,其精确度相当(0.896 vs 0.903),但召回率显著提升(0.853 vs 0.757),F1分数达到0.874。对随机样本的手动验证证实,该框架对新型致癌物的提名准确率达78.6%,其中约1600个候选物未被现有权威数据库收录。值得注意的是,PCarD模型成功识别出76个因证据趋势变化而应从“争议类”转为“提名类”的实体(如精神分裂症相关研究显示致癌证据持续增强)。
时序分析揭示了近25年致癌物研究的显著转变:化学化合物占比从45%降至35%,而生物制剂(如SARS-CoV-2病毒)从20%升至28%,环境因素(如微塑料)从12%增至18%。特别是COVID-19疫情期间,CarD-T捕捉到258篇关于新冠病毒与致癌性关联的研究,虽尚未形成临床共识,但展现出对新兴风险的前瞻性监测能力。
本研究开发的CarD-T框架首次实现了对海量生物医学文献的自动化、低成本致癌物筛查,其核心优势体现在三方面:一是通过领域适配的Transformer模型突破通用LLM的专业局限;二是引入概率时序分析模型PCarD动态评估争议证据;三是构建覆盖化学、生物、环境等多维度的致癌物提名体系。尽管存在仅基于摘要分析、证据强度未分级等局限,但该工具为毒理学研究提供了可部署于消费级硬件的开源解决方案(仅需64GB内存GPU运行6小时),显著提升公共卫生机构对潜在致癌风险的响应速度。未来通过整合全文本分析、多语言数据集与联邦学习技术,将进一步增强其在全球致癌物评估中的实用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号