《The Lancet Digital Health》:Beyond language: generative artificial intelligence as a general computing model for medicine
编辑推荐:
在本文中,研究人员倡导对医学数据进行直接标记化(tokenisation),将其分解为离散单元,例如实验室检查结果、用药和生命体征,类似于语言模型中的单词标记化。这种方法使基于Transformer的模型能够从患者健康时间线(patient health ti
在本文中,研究人员倡导对医学数据进行直接标记化(tokenisation),将其分解为离散单元,例如实验室检查结果、用药和生命体征,类似于语言模型中的单词标记化。这种方法使基于Transformer的模型能够从患者健康时间线(patient health timelines, PHT)的时间结构中学习,而无需依赖文本翻译,从而可能实现更准确和个性化的护理。增强型健康结局模拟Transformer模型(Enhanced Transformer for Health Outcome Simulation, ETHOS)是一个使用标记化的模型示例,它利用标记化的医学记录预测健康时间线并支持临床决策。研究人员概述了一个隐私保护模型共享框架(privacy-preserving model-sharing framework),其中模型在本地训练,仅共享训练后的模型而非敏感数据,从而允许跨机构协作开发。研究人员还强调,获取大规模、多样化的数据集能增强医疗生成式人工智能(generative artificial intelligence)的公平性(fairness)、泛化性(generalisability)和公正性(equity)。尽管数据复杂性和可解释性(interpretability)等挑战仍然存在,但本文观点强调,拥抱标记化表示为医学中可扩展(scalable)、多模态(multimodal)和公平(equitable)的人工智能开辟了一条道路。
**Introduction**
自2022年末以来,主流生成式人工智能的兴起主要与大型语言模型(LLMs)相关,这些模型基于Transformer计算模型,在文本生成、问答和总结方面表现强劲。然而,本文观点认为LLMs底层技术代表了一种通用计算范式,能够建模多种数据类型。研究人员探讨了基于Transformer的计算模型如何超越语言,直接处理标记化(tokenisation)的医学数据。初步研究显示LLMs具有改善医疗的潜力,但通常间接通过文字描述处理医疗问题,且书面和口头语言只是现实的投影,可能不完善或存在偏差。研究人员主张对医学数据进行标记化,使Transformer模型直接处理医疗事件,无需语言转换。尽管在医学教科书和论文上训练的LLMs包含大量信息,但由于隐私法规无法访问临床数据。研究人员认为在医学中大规模实施AI的关键在于创建完全基于标记化医学数据训练的Transformer类模型,数据来自美国、欧盟甚至全球的医疗系统。
**What are tokenised data?**
数据标记化涉及将复杂信息分解为称为标记(tokens)的较小离散单元。在语言处理中,标记是单词、字符或子词单元。标记可以表示图像中的像素、生理信号中的频率成分、临床数据中的异常生物标志物,或患者上次就诊以来的时间间隔。标记化将连续、结构化及非结构化数据转换为有意义的单元序列,基于Transformer的AI模型可以处理这些序列,以学习多模态标记之间的复杂关系。例如,LLMs通过将文本拆分为介于单个字母和整个单词之间的子词单元来进行标记化,模型根据上下文解释标记的含义。现代LLMs通常有约50,000个唯一标记的词汇表。一旦标记化完成,基于Transformer的模型仅对标记进行操作,推理时输出标记序列再转换回可读文本。
**Tokenisation in medicine and timeline data representation**
医学本质上生成可标记化的数据。以电子病历(EMR)为例,每个条目如实验室检查类型和结果、处方药物、给药和生命体征测量,均可表示为标记或标记集。这些条目随时间发生,具有自然顺序,时间间隔也可表示为标记。标记化使基于注意力的模型能够处理多种医学数据类型,使用与LLMs相同的计算结构。患者健康时间线(PHT)定义为表示患者与医疗系统交互的标记序列。增强型健康结局模拟Transformer模型(ETHOS)是一个使用EMR数据的基础模型,它通过自回归逐步生成标记,模拟多种可能的未来PHT,临床推断来自这些模拟时间线的分布。ETHOS可用于因果健康预测、医疗财务建模等用例,无需重新训练或微调。其他研究组也探索了标记化时间线表示,例如临床语言模型表示将诊断、操作、药物和检查命令组织为每日医疗代码集;Med-BERT利用ICD本体层次结构对每次就诊的诊断代码进行标记化;Foresight将非结构化临床笔记映射为标准医学概念并构成时间序列。其他相关工作包括结构化EMR和索赔数据的基础模型、长上下文预测模型、标准化事件流表示以及整体路径模型。此外,标记化纵向记录可在人群规模上建模生命历程和疾病轨迹。
**Multimodal integration and synergy between LLMs and data-tokenising models**
医学数据本质上是多模态的,包括结构化记录、非结构化文本、医学图像、波形和视频。数据标记化模型操作于多模态临床数据的标记化表示,捕获患者健康的时间动态。研究人员正在扩展ETHOS以实现多模态学习,例如将非结构化临床文本(如病程记录、放射学报告或病理报告)通过类似方法标记化,并在构建PHT时与结构化数据时间对齐。对于医学图像,可通过对比视觉-语言模型生成的固定长度嵌入进行整合,使ETHOS在同一标记化空间中表示视觉输入。ETHOS与LLM的互补整合是富有前景的方向:ETHOS作为患者特定的世界模型,预测个体化健康时间线;LLM提供推理、抽象和沟通。ETHOS输出多个版本的未来结构化患者时间线,可由LLM解释并转化为临床医生可操作的总结或患者个性化见解。时间丰富且上下文感知的模拟未来患者时间线也可作为LLM推理过程的输入,用于回答临床问题、模拟反事实和支持复杂决策。该系统设计为与临床医生紧密协作,增强而非替代其专业判断。已有证据表明该方法体现了智能体AI架构的基本要素。
**Scaling, privacy protection, and model-sharing framework**
如同LLMs通过大规模数据集训练获得能力,数据标记化能够使医学AI实现类似理解。研究人员开发了一种隐私保护方法,不同于传统联邦学习或直接共享匿名化数据。该方法在本地训练模型,然后共享训练后的模型本身,这些模型生成在统计上类似原始数据的合成PHT,不包含任何实际患者记录。隐私通过两层保护:第一,标记化系统性地移除精确日期、姓名和具体数值等敏感元素,在数据表示层面最小化再识别风险;第二,中央模型仅在本地模型生成的合成PHT上进行训练,确保聚合或模型共享过程中不暴露真实患者数据。尽管这两层策略提供强健隐私保护,但两者的必要性尚待验证。本地模型自然捕获区域性医疗实践和患者人口特征,但合成数据可能包含统计噪声、不完整表示或固有偏差。假设认为合并多个站点的多样化合成数据集可使中央模型识别有意义模式并减轻单个数据集局限。该模型共享框架允许AI模型几乎无限扩展,同时保持严格隐私保护,原始训练数据始终保留在机构边界内,仅共享隐私保护模型,从而促进安全的国内和国际合作,并符合通用数据保护条例和健康保险携带和责任法案。
**Fairness in health care**
公平性是医疗的基础伦理和操作原则,意味着所有人应有平等机会达到健康潜力,无人因可避免因素处于劣势。在医疗AI背景下,公平性要求算法系统不基于种族、性别或社会经济地位等受保护属性系统性地不利任何人群亚组。尽管公平性受模型架构、评估方法和临床部署环境等多因素影响,但获取大规模、多样化数据集是实现公平性能的关键推动因素。可扩展架构和标记化建模框架能够整合不同机构、护理环境和患者人群的异质数据。通过学习广泛多样的来源,大规模模型可能捕获临床表现、人口特征和区域医疗实践的完整谱系,从而增强泛化性并减少单一机构编码偏见的风险。然而,数据多样性和规模本身不足,实现公平性还需要有意策略:监测模型在各亚组的表现、吸引边缘社区利益相关者参与、并在开发和部署过程中应用偏见缓解方法。
**Challenges and future directions**
医学AI中标记化面临若干挑战,尤其是数据表示的复杂性。有效标记化需要领域专业知识确保表示有意义且上下文感知。大规模处理标记化医学数据需要大量计算资源,可能限制资源受限环境的部署(无云计算支持)。尽管基于Transformer的模型和注意力机制提供一定透明性,理解标记级输入的决策仍然困难,凸显了可解释AI进一步研究的必要性,尤其是与LLM结合。未来应发展透明模型,以人类可理解术语解释预测,促进医疗专业人员和患者的信任与采纳。
**Conclusion**
生成式AI不仅仅是语言处理工具,其核心组件Transformer架构代表了一种用于标记化多模态数据的通用计算模型。通过将生成式AI视为标记化数据的通用模型,医学可以解锁AI驱动的诊断、个性化医疗和临床决策支持的新前沿。未来进展将依赖于开发有效标记化并整合多种医学数据类型的模型,同时保持隐私、可扩展性和可解释性。医学AI的未来是标记化和变革性的。