编辑推荐:
随着工业化和城市化发展,空气和水污染物威胁公众健康。传统研究方法存在局限,研究人员开展了基于机器学习预测污染物致癌性的研究。通过实验,预训练的 KPGT 模型 AUC 达 0.83,优于传统模型。该研究为污染风险评估和政策制定提供依据114。
在当今时代,工业化和城市化的步伐不断加快,然而,这也带来了一系列严峻的环境问题。空气和水被各种污染物肆意侵袭,就像看不见的 “健康杀手”,悄然威胁着人们的生命健康。从刺鼻的雾霾到受污染的水源,这些污染物不仅会引发呼吸道不适、过敏反应等急性症状,长期积累还可能导致心血管疾病、神经退行性疾病,甚至是令人谈之色变的癌症。据统计,全球疾病负担的 24%、死亡人数的 32% 都与污染脱不了干系。
传统研究污染物与健康关系的方法,如流行病学研究、体外 / 体内实验等,虽然能提供一些有价值的生物学信息,但它们就像老旧的工具,存在诸多弊端。这些方法往往耗时费力,成本高昂,而且在研究大规模问题时显得力不从心,就像用小勺子去舀大海里的水,效率极低。所以,寻找一种更高效、更全面的研究方法迫在眉睫。
为了解开环境污染物与人类健康之间复杂关系的谜团,吉林大学的研究人员挺身而出,开展了一项极具意义的研究。他们利用机器学习技术,试图预测污染物的致癌性,并深入探究这些污染物潜在的致癌机制。
研究人员通过一系列复杂而严谨的实验,得出了许多重要结论。其中,预训练的知识引导预训练图变换器(KPGT)模型表现尤为出色,在预测污染物致癌性方面,其曲线下面积(AUC)达到了 0.83,成功超越了传统的机器学习模型。这一成果就像在黑暗中点亮了一盏明灯,为后续研究指明了方向。
此外,研究还发现了一些关键的致癌基因,如丝裂原活化蛋白激酶 1(MAPK1)、哺乳动物雷帕霉素靶蛋白(MTOR)和蛋白酪氨酸磷酸酶非受体型 11(PTPN11)等,这些基因在污染物致癌过程中起着关键作用,就像链条上的关键环节,一旦断裂或异常,就可能引发癌症的 “多米诺骨牌效应”。同时,研究人员通过基因本体(GO)和京都基因与基因组百科全书(KEGG)通路分析,发现了许多与污染物致癌相关的关键通路,包括氧化应激反应、程序性死亡受体 1(PD -1)/ 程序性死亡配体 1(PD -L1)免疫检查点调节和代谢重编程等。这些通路的发现,让我们对污染物致癌的过程有了更清晰的认识,就像绘制了一张详细的地图,标注出了癌症发生发展的关键路径。
不仅如此,生存分析表明,一些与污染物相关的基因与癌症患者的预后密切相关,这意味着这些基因有可能成为评估癌症风险的生物标志物,为癌症的早期诊断和治疗提供重要线索。
这项研究成果发表在《Scientific Reports》上,具有极其重要的意义。它为污染风险评估提供了一种系统、高通量的方法,帮助我们更准确地识别高风险污染物,以及它们对人类健康的潜在影响。同时,研究结果也为制定基于证据的环境政策提供了科学依据,有助于减轻污染相关的健康风险,推动精准环境健康研究的发展,就像为环境保护和人类健康筑起了一道坚固的防线。
在研究过程中,研究人员主要运用了以下几种关键技术方法:首先,从多个数据库收集数据,包括从 PubChem 数据库获取致癌和非致癌分子,从美国环境保护署(EPA)的 CompTox Chemistry Dashboard、T3DB 数据库收集空气污染物,从有毒物质释放清单(TRI)数据库收集水污染物;然后,使用 RDKit 化学信息库计算分子描述符,并对数据进行标准化处理;接着,利用 t -SNE 算法和层次聚类分析对分子进行聚类;最后,运用 KPGT 模型进行机器学习预测,并结合多种数据库和软件进行差异基因分析、靶点预测、蛋白质 - 蛋白质相互作用(PPI)网络构建以及 GO 和 KEGG 富集分析。
下面详细介绍研究结果:
- 致癌分子聚类分析:研究人员从公共数据库收集致癌分子并进行预处理,得到 5041 种独特化合物。通过 t -SNE 算法和化学空间网络(CSN)可视化进行聚类分析,排除结构差异大的分子,最终得到 3028 种致癌分子,作为训练 KPGT 模型的阳性数据集,非致癌分子作为阴性数据集。这一步就像在杂乱的拼图中筛选出合适的碎片,为后续模型训练奠定了坚实基础23。
- 空气和水污染物聚类分析:空气污染物分子被聚类为五类,代表分子有乙醛、蒽、亚乙基氯、碳化铀和邻甲苯胺;水污染物分子也聚类为五类,代表分子有甲醛、邻甲苯胺、蒽、亚乙基氯和甲基叔丁基醚。这些代表分子后续用于靶点预测和富集分析,帮助研究人员进一步了解污染物的致癌机制,就像为探索污染物致癌奥秘找到了关键钥匙4。
- 机器学习模型性能:以空气和水污染物分子作为外部验证集,训练 KPGT 模型 50 轮后,其 AUC 达到 0.83,准确率为 0.74,平衡准确率(BA)为 0.73,F1 分数为 0.66。与支持向量机(SVM)、随机森林(RF)和极端梯度提升(XGBoost)等模型相比,KPGT 模型在预测污染物致癌性方面表现更优,证明了其有效性5。
- 差异基因表达分析:通过 edgeR、DESeq2 和 limma 三种方法对 UCSC - TCGA 数据库进行差异基因表达分析,发现食管癌中有 11231 个基因上调,10109 个基因下调;胃癌中有 14219 个基因上调,9561 个基因下调;肺腺癌中有 9338 个基因上调,5349 个基因下调。这些基因表达的变化为后续研究提供了丰富的数据基础,就像打开了一扇通往污染物致癌分子机制的大门6。
- 污染物相关靶基因预测和 PPI 网络构建:通过多个数据库筛选潜在靶基因,经过去重和与差异表达基因交叉分析,得到不同癌症类型的精炼靶基因集。再利用 Super - Pred、SEA 和 Swiss - Target - Prediction 等工具预测分子相互作用,构建 PPI 网络,揭示了关键分子相互作用,为研究污染物致癌机制提供了重要线索78。
- 确定污染物相关致癌的关键枢纽基因:使用 CytoHubba 的最大团中心性(MCC)算法确定每个污染物的前 10 个枢纽基因,这些基因在肿瘤进展、侵袭和耐药性方面可能发挥重要作用,就像发现了癌细胞生长和扩散的 “指挥中心”9。
- GO 和 KEGG 富集分析:GO 分析揭示了污染物影响的关键生物学过程、细胞成分和分子功能;KEGG 分析确定了关键信号通路。例如,空气污染物与脂质和动脉粥样硬化相关通路、前列腺癌通路、PD -L1/PD -1 检查点调节等有关;水污染物与前列腺癌、微小 RNA(miRNA)在癌症中的作用、HIF -1 信号通路等有关。这些通路的发现,让我们对污染物致癌的分子机制有了更深入的理解1011。
- 污染物相关基因的生存分析和临床相关性:通过风险比(HR)值和 Kaplan - Meier(K - M)生存曲线进行生存分析,发现一些基因如糖原合成酶激酶 3β(GSK3β)、膜金属内肽酶(MME)、血小板衍生生长因子受体 β(PDGFRB)等与癌症预后不良显著相关,这为癌症风险评估提供了潜在的生物标志物1213。
研究结论和讨论部分再次强调了这项研究的重要意义。该研究提供了一个全面的计算框架,整合多种技术手段评估空气和水污染物的致癌潜力。研究结果不仅揭示了污染物分子复杂的生物学相互作用,还确定了关键致癌基因和通路,为深入理解污染物致癌机制提供了理论依据。同时,生存分析得到的预后相关基因,为癌症风险评估提供了新的视角和潜在生物标志物。这些成果对于推动污染风险评估、环境健康研究以及制定环境保护政策都具有不可忽视的作用,为保护人类健康和生态环境贡献了重要力量。