编辑推荐:
为解决健康 AI 监管中的问题,文章研究人员针对 CHAI 提出的 “模型卡” 展开研究。结果表明实施该模型卡要避免重复、加强用户测试等。这对规范健康 AI 发展、保障公众安全意义重大,推荐科研读者阅读。
近期,健康人工智能联盟(Coalition for Health AI,CHAI)提出了受 “营养标签” 启发、用于健康人工智能领域的 “模型卡” 。其目的是提供一个标准的、用户可识别的标签模板,为那些需要评估人工智能解决方案及其性能和安全性信息的人员,透明地呈现关键信息。CHAI 模型卡(图 1)中提供的信息包括模型描述、警告、预期用途,以及评估公平性和公正性的方法与指标。模型卡主要面向在卫生系统采购流程中审查人工智能模型的专业人员和电子健康记录(Electronic Health Record,EHR)系统供应商(作为信息起点),同时也面向患者、临床医生、卫生系统数据保管者和开发者 。CHAI 的提议是个不错的想法,因为通过熟悉且标准化的方法来实现透明度是非常有必要的。但对于这样的方法,可能存在哪些反对意见呢?尽管 [第一作者单位] 的研究人员支持该提议的诸多方面,但实施过程是避免三个常见问题的关键。第一个问题是与其他强制性监管流程(如医疗器械标签)的重复和整合。第二个问题在许多监管举措中都很常见,即治理结构(例如模板、数据库或标准)在设计时未进行任何或足够的用户测试和概念优化 。第三个问题是存在表面 “透明” 的风险,即信息虽被巧妙传达,但如同许多营销活动一样,它在模型性能或伦理框架方面提供的可验证真实信息有限。
| 图 1 | 人工智能模型 “模型卡” 的布局 |
|---|
| 注释 | 此布局基于 CHAI 提出的模型卡 。模型卡旨在呈现与人工智能模型识别、开发者、预期用途、目标患者群体、模型类型、适用数据类型、性能指标、认证 / 批准信息、本地校准和维护要求、已知风险、适用范围外的用途、已识别的偏差、伦理考量及其他信息(如临床研究)相关的关键信息 |
在避免重复并确保与监管方法整合方面,考虑医疗器械标签和 “使用说明”(Instructions for Use,IFU)的国际要求尤为重要,因为在国际上,用于医疗目的的人工智能模型被作为医疗器械进行监管 。现有法规要求医疗器械需同时配备标签和使用说明(少数软件设备若能通过界面提供使用解释则可例外 )。
医疗器械标签与模型卡的对比
对于包括人工智能模型在内的医疗器械,法律对使用说明规定了诸多要求,但并未对这些信息的布局进行标准化。尽管这些文件提供了许多有用信息,但它们并未像模型卡那样,对功能、局限性、安全性、性能、验证或其他参数的布局进行标准化。想要了解医疗人工智能适用性的患者、开具医疗人工智能处方的医生,或希望在医院本地实施人工智能工具的卫生系统采购人员和信息系统实施工程师,都很难从当前的使用说明中提取信息进行对比。
在美国、英国和欧盟,医疗器械(因此,用于医疗目的的人工智能模型也同样)已有法律规定需使用标准化的强制标签。然而,这种标签提供的是高度技术性的信息,如批次和序列号、评估认证机构(公告机构)和进口商的名称(图 2)。它并未提供患者可能想要的实际信息,或引入和实施人工智能系统的关键信息。
| 图 2 | 用于医疗目的的人工智能模型所需的医疗器械法律标签 |
|---|
| 注释 | 这是一个欧盟标签示例,使用了 ISO 15223 - 1:2021 法律要求使用的标准符号 ,与医疗器械法律要求的国际标签非常相似(美国类似示例见参考文献 ) |
[第一作者单位] 的研究人员认同,模型卡中为用户提供的更标准化的信息布局,能让他们快速熟悉,这可能有助于他们比较不同的人工智能模型。CHAI 提出的模型卡(图 1)并未包含医疗器械标签(图 2)所需的所有信息,但这两个概念可以一起提供或合并,后者更佳,因为可避免数据重复。
不同用户的可及性和可理解性
人工智能开发和验证使用了大量技术术语,其中许多术语外行人甚至未经高级技术培训的医疗保健提供者(Health Care Provider,HCP)都难以理解 。如果人工智能标签只是传达信息,却不能真正让人理解,那就没什么实际用处。对许多患者和部分医疗保健提供者而言,提议的模型卡和医疗器械标签中的信息都很难理解。可以说,这两种方法在开发时都未将这些用户群体放在首位。标签和产品信息对患者来说易于理解很重要吗?使用说明需进行可用性测试,评估用户(包括适用情况下的患者用户)遵循关键指示的能力 。以易懂的方式向用户和公众解释技术信息依赖于简单性和一致性。[第一作者单位] 的研究人员主张,向用户提供的信息应更加标准化,以高度可用的格式呈现,每种产品的呈现方式都相同,并对信息的包含、排序和重要性进行标准化布局。当用户面对高度详细、格式因新产品而异的信息时,无论信息呈现得多么精心,都可能导致信息重叠和用户参与度降低。CHAI 模型卡提供了高度标准化的格式,但有趣的是,它完全基于文本,在重复的表格元素中使用简单标题 。在标题下,它提供了用于基于文本描述模型的文本框,但不清楚这些回复可以多长,并且规定应提供验证过程及其依据的链接。
其他作者提出了基于食品营养质量标签、食品产地标签和能源效率标签,以图形化方式向消费者提供人工智能信息的方法 (图 3)。这些方法侧重于人工智能模型的伦理标签,但所描述的领域与 CHAI 模型卡有重叠(例如 ,两者都涉及公平性和公正性领域)。消费者习惯了简单的彩色评级量表,它能快速传达复杂信息,帮助消费者快速做出决策。这种方法适用于健康领域的人工智能吗?如果用这种方法向用户传达关键安全信息,可能并不适用,且不应替代内在的安全设计。然而,在传达模型训练数据的伦理来源、模型训练中的伦理雇佣实践,以及数据隐私、反歧视和知识产权方面的负责任做法等信息时,这种方法可能适用。
| 图 3 | 一种用于人工智能伦理的彩色量表 “营养标签” 示例,有助于快速传达信息 |
|---|
| 注释 | 在食品标签和能源效率标签领域,人们认识到通过高度标准化且易于解读的彩色量表和简单评级进行信息传达是最佳方式。类似方法也被提议用于人工智能伦理标签 。 |
分层可验证信息,避免标签成为虚假声明的渠道
人工智能模型卡的优点在于简单,但不能徒有其表。为了既实用又安全,关键是模型卡(若用于患者,还包括 “营养标签”)要与模型安全性和性能的可验证且及时更新的数据相关联。任何标签或模型卡的价值,都取决于其总结信息背后可验证的深层含义。
CHAI “模型卡” 通过对信息的排序,已经具备一定程度的信息分层,从目标到结果,再到方法,最后是外部来源的链接,用于提供依据和更详细的方法描述。从更高级别的原则开始,逐步链接到更复杂和详细的信息,这种信息分层方法由来已久,在数字信息工具(如维基百科)中应用越来越广泛。如 [第一作者单位] 的研究人员前文所述,信息分层有两个主要目的(图 4)。首先,它使高级摘要对许多用户(包括部分患者和非技术型医疗保健提供者)来说简单易懂,同时,根据需求深度,好奇的用户可以查看更深层次的信息。其次,这使得信息的可信度能够被用户检验,用户至少在一定程度上可以核实摘要与数据之间的一致性。这应借助适当的机制来实现,以便用户报告问题 。
| 图 4 | 信息分层对信息可及性和真正(而非虚假)的透明度至关重要 |
|---|
| 注释 | 患者和不太关注细节的医疗保健提供者可以获取简单信息,但这些信息必须始终与较低层级的信息以及公开的外部测试 / 基准数据相互关联并可交叉验证,以避免模型卡从促进真正透明的工具沦为误导性营销声明的手段。 |
患者和不太关注细节的医疗保健提供者可以获取简单信息,但这些信息必须始终与较低层级的信息以及公开的外部测试 / 基准数据相互关联并可交叉验证,以避免模型卡从促进真正透明的工具沦为误导性营销声明的手段。
可访问的分层 “模型卡” 是否适用于通用人工智能
通用人工智能(General - Purpose AI,GPAI)模型在健康领域的开发、直接和间接应用越来越多,这些模型对专为特定开发(通常应用范围较窄)的人工智能医疗设备的监督和监管方法构成了挑战 。欧盟《人工智能法案》对通用人工智能模型的提供者提出了一系列要求 。通用人工智能模型的开发者必须向人工智能系统的下游供应商提供大量信息。当通用人工智能模型的开发者直接将系统应用于健康领域或用于医疗目的时,他们就成为了高风险人工智能系统的提供者。在通用人工智能模型开发者和下游医疗器械 “制造商” 之间实现有意义的透明度和有用信息的交换,需要在透明度和模型测试方面采取通用方法,而标准化方法是实现这一目标的最佳途径 。这就引出了一个问题:模型卡是否仅适用于具有明确(即使宽泛)预期用途、目标人群和临床适应症的下游医疗器械产品(如获批的临床决策支持系统),还是也应适用于作为后续获批医疗器械产品基础的底层通用人工智能模型?换句话说,模型卡能否用于描述通用人工智能模型提供者的基本主张?医疗保健人工智能系统的下游供应商必须从通用人工智能模型提供者那里获取广泛的信息,以便满足《人工智能法案》的信息要求,并在必要时将这些信息传递给部署者和用户。高级别的模型卡并未直接包含所有这些信息,但如图 4 所示,这一概念可以很容易地与这些信息建立链接,作为起点或更详细模型信息的目录。一旦通用人工智能模型提供者为其通用人工智能模型提供模型卡,这些模型是否会被医疗保健提供者和患者直接使用(即使模型卡和法律规定不应该这样做),从而绕过经过开发、微调并获批的下游医疗器械产品呢?如果这些模型可供下游用户使用,这种情况在一定程度上可能会发生 ,如果监管机构想要阻止这种情况,就需要与用户密切沟通并严格执行监管措施。
平衡透明度与实际实施
CHAI 模型卡通过标准化表格总结了这些关键的模型信息。[第一作者单位] 的研究人员是否建议将简单的模型卡变成一个 “官僚主义的庞然大物” 呢?
[第一作者单位] 的研究人员认为,必须通过具有代表性的定量和定性评估来衡量 “模型卡” 在用户手中的效用,同时要考虑文化和国际差异。据 [第一作者单位] 的研究人员所知,“模型卡” 尚未经过系统测试,在广泛采用之前应进行此项测试。此外,该方法获得监管机构的认可也很重要,否则很难持续推行。
更具挑战性的是,要确保模型卡中提供的信息可靠且真正透明。如果审核不力,模型卡可能对用户来说易于获取,但背后的信息可能主要是具有欺骗性的营销话术,而非真正可靠、透明的信息。对于人工智能营养标签和模型卡而言,这是一个切实存在的危险,必须加以避免,以维护公众安全,防止公众对健康人工智能的信任受到侵蚀。这并非危言耸听 ——2024 年 9 月,美国一名司法部长对一家公司的调查达成和解,该公司在得克萨斯州的几家医院部署了一款通用人工智能医疗文档和摘要工具,并对其产品的准确性和安全性做出了一系列虚假和误导性陈述 。“模型卡” 既可以成为保障人工智能安全和符合伦理使用的系统,也可能沦为一场闹剧,各公司竞相降低真正的透明度,提高 “宣称” 的性能,每家公司都为了更好的营销信息而操纵数据百分比,却没有任何严格的数据支持,也未经监管机构或公众监督下的独立审计。健康人工智能需要像 CHAI 模型卡这样的创新概念,甚至需要为患者提供图形化的 “营养标签”,但这些都应经过充分验证,与监管标签整合,最重要的是,包含经过验证、可审计且公开的信息。