综述:人工智能在癌症护理基因组医学中的应用日益增加 —— 前景与潜在风险

【字体: 时间:2025年04月02日 来源:BJC Reports

编辑推荐:

  这篇综述聚焦人工智能(AI)在癌症护理基因组医学领域的应用。详细探讨其助力癌症早筛、精准医疗、药物研发等方面的前景,同时剖析数据隐私、临床治理、可解释性等潜在风险,为该领域发展提供全面思考,值得一读。

  

一、引言

在癌症基因组学领域,人工智能(AI)正逐渐崭露头角,成为一股不可忽视的力量。当我们向当下备受热议的 AI 代表 ChatGPT 询问 AI 在基因组学中的应用时,它给出的第一句回答便是:“人工智能已成为癌症基因组学领域的强大工具,彻底改变了我们对癌症及其治疗的理解。” 这一回答生动地展现了 AI 在该领域的重要地位。
近年来,AI 技术取得了突飞猛进的发展,其应用范围也越来越广泛。从撰写文章到分析基因组,AI 已成为学术界不可或缺的工具之一。基因组学随着下一代测序(NGS)技术的出现,迎来了大数据时代。测序速度的大幅提升,产生了海量的原始基因组数据。这些数据的分析处理难度大、耗时长,而 AI 算法因其能够利用大量数据实现自我改进的特性,恰好满足了对这些数据进行分析处理,以转化为具有临床应用价值信息的需求。目前,AI 与行业的融合已成为现实,例如《托波尔评论》(Topol Review)就详细阐述了如何在英国国家医疗服务体系(NHS)中合理应用 AI 技术。本综述将先明确 AI 的定义及其在基因组学中的作用,然后对这一新兴技术的优势与潜在问题进行探讨。

二、AI 是什么?

AI 这一术语诞生于近 70 年前,用于定义创造智能机器的科学。它借助计算机程序,旨在模拟人类的思维过程,从而完成那些通常需要人类主题专家(SME)进行客观推理和理解的任务。AI 可分为弱 AI 和强 AI。
“弱” 或 “狭义” AI 主要用于完成特定任务的学习算法应用,像自然语言处理工具 / 聊天机器人(如 ChatGPT)、虚拟助手(如 Siri 或 Alexa)以及图像识别等都属于此类。目前所有已有的 AI 系统都具有领域特定性,因此均可归类为弱 AI。
“强” 或 “通用” AI 目前还停留在理论阶段,它指的是 AI 能够发展到超越人类智能的复杂水平,具备像人类一样敏捷反应和前瞻性规划的能力。不过,这也引发了人们对于 AI 可能主导人类智能的担忧。
机器学习(ML)是 AI 的一个子集,指的是那些无需经过明确编程,就能自动从经验中学习的计算机系统。这类系统能够识别数据集中的模式,并创建包含其发现的算法,然后将其应用于新数据,对未知情况进行知识推断。
深度学习(DL)是机器学习的进一步发展,它通过使用人工神经网络来识别数据中的模式并提供合适的输出。深度学习受人类大脑结构的启发,将算法分层构建成人工神经网络,前一层的输出会作为下一层的输入,就如同神经元之间传递信息一样。大数据则是指那些复杂到无法用传统数据处理方法进行处理的数据集,其 “大” 体现在数据量(可扩展性)、数据生成速度(速度)以及数据集的多样性(维度)等方面。AI 与传统计算算法的不同之处在于,AI 能够从数据中学习并处理新信息,在模式识别方面表现卓越。面对大数据时,传统算法往往难以应对,而 AI 算法却能在无需人工干预的情况下进行自适应和改进。

三、为何在基因组学中应用 AI?

大量数据集是基因组学的显著特征。人类基因组计划耗时 13 年、花费 30 亿美元生成了一个参考基因组,这个基因组包含超过 20,000 个基因和 30 多亿个碱基对。随着下一代测序技术的发展,如今个体基因组的生成时间和成本都大幅降低。截至 2022 年,美国国家人类基因组研究所指出,测序一个基因组的成本仅为 525 美元,而最快基因组测序的吉尼斯世界纪录仅用了 5 个多小时。目前,对每位患者进行基因组测序已成为现实,英国国家医疗服务体系的基因组医学服务就致力于使 NHS 成为首个将全基因组测序作为常规护理一部分的国家医疗保健系统。
然而,大量患者寻求廉价快速的基因组测序,这也带来了大数据问题,无论是在数据量还是维度上都极为庞大。例如,癌症基因组图谱(TCGA)包含超过 10,000 个癌症基因组,涵盖 33 种癌症类型,再加上相应的表观基因组、转录组和蛋白质组数据,总共产生了 2.5PB 的原始数据。当前基因组医学面临的挑战已不再是数据集的生成,而是如何对其中包含的大量数据进行分析和解释。人工解读基因组数据是一项艰巨的任务,尤其是能够进行分析的专家数量并未相应增加。而且,不同的人在分析同一数据集时可能会得到不同的结果,这就产生了可重复性的问题。在这种情况下,AI 的价值就凸显出来了。
临床解读基因组需要准确识别每个基因组中数百万个基因变异中的重要遗传变异,这一过程被称为变异检测(variant calling)。为实现这一目标,原始序列数据需要与参考基因组进行比对,通过去除重复、插入和缺失数据,再进行重比对、碱基重新校准,最后去除假阳性数据来提高数据质量。深度学习模型 DeepVariant 在某些变异检测任务上的表现优于标准工具,充分展示了 AI 处理大数据集的能力。

四、AI 在基因组医学中的前景

  1. 癌症的早期检测:AI 助力下的变异检测能够更准确、高效地识别致癌变异,从而更早发现癌症驱动因素,实现更精准的癌症诊断,为靶向、精准医疗提供支持,最终改善患者的治疗效果。
另外,AI 还为癌症早期检测开辟了新途径。肿瘤细胞会定期向体液(如血液、胸腔积液、腹腔积液、脑脊液、乳头吸出液或尿液)中释放物质,通过对这些样本进行所谓的 “液体活检”,相比组织样本,具有侵入性小、获取方便的优点,还能更全面地呈现肿瘤在空间上的异质性基因组景观。纵向采样还可以追踪癌症基因组变化的时间演变。这些样本中的物质可能包括循环肿瘤细胞、细胞外囊泡或核酸,其中就有肿瘤来源的游离 DNA(cfDNA)。目前,人们对液体活检的临床应用兴趣日益浓厚,其在晚期疾病的分析、疾病复发的早期检测以及有症状个体的早期诊断等方面都有应用。例如,在一项大规模国家试验中,正在研究使用液体活检检测无症状人群队列中 cfDNA 的甲基化模式以筛查癌症(多癌早期检测(MCED)测试)。
但这一技术在应用中也受到了一些批评,比如对于检测出甲基化模式或其他潜在癌症生物标志物的无症状患者,该如何进行进一步检查,以及应由哪种临床专家负责,目前都还不明确。而 AI 在这里可以发挥作用,帮助确定最可能的潜在原发性癌症,从而优化转诊流程,合理安排患者的检查。实际上,MCED 测试产生的大量数据需要应用机器学习和其他 AI 技术进行及时分析,进而实现干预,即所谓的 MCED - AI。不过,与其他类型的人群筛查相比,这种方法是否能显著提高患者的生存率,还需要进一步评估。
液体活检结果的分析和应用较为复杂,会受到多种因素的干扰,如共存的先天性遗传变异、自然发生的与年龄相关的克隆性造血或意义未明的克隆性造血,以及可能检测到来自未确诊的第二种原发性癌症的驱动变异,或者是意义不确定或无法采取行动的变异。此外,对于早期疾病或仅患有脑部疾病的个体,循环肿瘤 DNA(ctDNA)更不容易被检测到。为解决这些问题,人们应用了各种 AI 技术,如尽量减少测序数据中的 “噪音”、增强信号以检测极低频率的变异、进行模式 / 特征识别,以及关键的整合其他临床病理数据进行综合分析等。
举例来说,一项最新研究使用了一种新型计算模型,该模型整合了来自游离 DNA 的基因组和表观基因组数据来检测癌症。它在特异性为 95% 的情况下,灵敏度高达 91% 和 98%(而之前的模型 DELFI 灵敏度低于 50%)。通过提高液体活检的诊断能力,这种非侵入性技术有望用于癌症筛查,为早期干预提供机会。
AlphaMissense 是一种基于蛋白质结构预测模型 AlphaFold 开发的 AI 模型,它能够在单个氨基酸替换的水平上预测人类基因组中所有可能的错义变异的致病性。对错义变异进行分类一直是人类遗传学中的一个难题,而借助这一新的深度学习工具,临床相关的致病性变异能够被识别并进行筛查,有助于更早地发现疾病。
  1. 从表型数据预测变异以进行针对性基因检测:计算机视觉作为 AI 的一个领域,通过训练计算机解读图像数据中的信息,能够为靶向基因组检测提供参考。它已成功应用于在多种癌症类型的组织病理学标本中区分癌细胞和非癌细胞。近期的 AI 模型更是更进一步,这些经过组织病理学图像训练的模型,不仅能够识别癌细胞,还能根据表型特征预测肿瘤中存在的突变。例如,Inception V3 模型在对来自 TCGA 的全切片进行训练后,能够基于肿瘤的组织病理学特征预测肺腺癌和肝癌中的突变。另一个使用计算机视觉的 AI 创新成果是 CHARM DL 模型,它在对 2334 个脑肿瘤样本进行训练后,能够在神经外科切除脑肿瘤的手术中辅助实时决策。基于组织病理学图像,它可以通过细胞密度预测肿瘤边界,为手术切除范围的决策提供依据,还能预测肿瘤的分子特征,以便直接为脑癌患者提供个性化的药物治疗。
同样,计算机视觉也可以应用于肿瘤的放射学图像,从而推断肿瘤内部的基因变化。比如,AI 通过分析 CT 和 PET 扫描图像,能够预测非小细胞肺癌(NSCLC)中的 EGFR 突变状态。
  1. 精准医疗:精准医疗是根据患者的基因组信息进行分子分析,为个体量身定制治疗方案。其目的是根据患者的预后或对特定治疗的反应对患者进行分类,从而为可能受益的患者推荐合适的治疗方案,同时避免让不会受益的患者承受治疗费用和副作用。AI 与基因组数据相结合,能够通过推荐更有可能有效的靶向疗法,制定高度个性化的治疗方案,减少试错治疗方法的使用。
以推荐免疫疗法为例,传统方法是通过活检获取肿瘤微环境免疫原性生物标志物的信息,以此预测免疫疗法的反应。而深度学习方法则可以利用放射组学和病理组学数据预测生物标志物,避免了活检这种侵入性操作。例如,经过组织学标本和临床数据训练的深度学习模型已被用于预测晚期黑色素瘤患者对免疫疗法的反应。
AI 模型还被用于根据脑癌患者的基因组推荐个性化治疗方案。IBM Watson 能够在 10 分钟内分析基因组并提出治疗方案,而这一工作由专家人工完成则需要 160 小时。不过,在最初于美国医院进行试验时,发现其治疗方案存在严重的不准确问题。由于 AI 模型缺乏可解释性,即所谓的 “黑箱” 现象,对这些错误进行回顾性分析往往难以实现。
  1. 药物发现:AI 驱动的药物发现平台通过分析海量的基因组信息数据集,能够识别新的治疗靶点,大大加快了这一以往耗时漫长的过程。例如,利用 AI 程序 AlphaFold,开发一种针对肝癌的潜在药物仅用了 30 天,而在过去这一过程可能需要数年时间。AlphaFold 通过蛋白质组数据预测了一种新型蛋白质 CDK20 的结构,并设计出了针对该蛋白质弱点的分子。AI 还可以用于预测药物重新利用的可行性。深度学习模型 CDRscan 基于大规模药物筛选试验预测抗癌药物的反应,识别出 14 种肿瘤学药物和 23 种非肿瘤学药物具有新的潜在抗癌适应症。
  2. 改善治疗监测和预后评估:AI 能够长期监测患者的基因组数据,评估治疗效果,及时发现耐药性或复发的迹象,从而为调整治疗方案提供指导。例如,深度学习软件 IDEA 成功识别并表征了循环肿瘤 DNA 中的单核苷酸变异,这些变异可用于监测接受靶向药物治疗的转移性结直肠癌患者的治疗反应和复发情况。
药物反应与癌细胞的基因组改变密切相关。人们开发了多种 AI 模型,利用基因组数据预测药物反应。RefDNN 模型在预测耐药性和识别与药物反应相关的生物标志物方面表现出色,优于现有方法,并且对未训练过的药物也能进行更可靠的预测。
AI 软件还可以提高预后评估的准确性,帮助患者对后续治疗做出明智的选择。整合组织学和基因组数据的深度学习软件在预测胶质瘤患者总体生存时间方面,预测准确性超过了当前的临床标准。
  1. 改进样本分析:FFPEsig AI 工具是一项有趣的新应用,它能够准确分析室温下保存在石蜡中的组织的 DNA 突变模式。在大型医院的病理档案中,通常保存着数以万计的这类存档肿瘤样本,但由于福尔马林固定石蜡包埋(FFPE)保存过程中会导致 DNA 损伤,以往这些样本无法用于分析。FFPEsig 通过追踪福尔马林固定过程中 DNA 发生的变化,能够检测出 9/10 的突变过程。对这些样本的分析对于长期收集的癌症组织研究尤为有用,有助于科学家分析个体肿瘤癌症演变的初始步骤,这意味着突变分析不再局限于新鲜或冷冻的组织样本。

五、AI 在基因组医学中的潜在风险

  1. 数据隐私问题:AI 算法的训练需要大量数据,而在基因组学领域,这些数据具有高度敏感性和隐私性。医疗保健数据常常成为代价高昂的勒索软件攻击的目标,这使得患者担心个人健康数据被滥用。一个常见的伦理困境是基因组数据是否应向保险公司开放,以及保险政策是否会根据疾病的遗传风险进行调整(值得注意的是,目前英国禁止保险公司使用遗传数据)。为解决这些数据存储问题,一些潜在的解决方案应运而生,如隐私保护分布式深度学习,它使得多方能够通过深度学习模型共同学习,而无需共享本地数据集;还有多中心数据共享协议,例如癌症影像存档库(Cancer Imaging Archive)。
  2. 临床治理问题:临床治理方面,AI 的使用带来了伦理难题。如果机器预测出现错误,责任该由谁承担?在医疗领域,决策对患者的治疗结果影响重大,且存在较高的诉讼风险,因此这一问题尤为关键。AI 幻觉现象,即 AI 推断出训练数据中不存在的模式,从而产生不准确的输出,这使得 AI 成为一个不可靠的 “伙伴”。在部署深度学习工具之前,必须明确错误决策的责任方,是转诊的临床医生、软件工程师还是其他人。Crigger 等人的一篇论文旨在通过探索建立对 AI 系统信任所需的原则,为 AI 在医疗保健领域的负责任部署提供路线图,其中明确问责制是关键。他们提出了一种共享问责模式,认为涉及 AI 的决策最终责任应由人类医疗保健提供者承担。医生应基于专业判断做出决策,而不是盲目依赖 AI 的建议。开发者则通过确保机器可靠且无偏差来分担责任,医疗机构则负责将 AI 系统安全地整合到临床工作流程中。其他解决这一问题的方案,旨在让 AI 更自主地工作,包括赋予 AI 法律人格,类似于公司有时被赋予人权,或者通过替代责任让管理 AI 的人承担责任,就像雇主对员工的行为负责一样。
  3. 可解释性问题:AI 算法在医疗保健环境中存在的另一个问题是可解释性。AI 工具通常就像一个 “黑箱”,只给出输出结果,却不提供任何解释或依据。在做出与医疗保健相关的高风险决策时,盲目遵循 AI 工具的结果是不合适的。可解释深度学习是当前的一个发展趋势,旨在缓解这一限制,例如使用类似热图的类激活算法,它能够可视化深度学习模型做出决策时所依据的图像区域。
  4. AI 模型中的偏差问题:虽然自动化通常被认为是消除偏差的一种方法,但训练数据集中代表性不足可能会导致机器偏差。例如,在使用 AI 通过面部特
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号