大语言模型(LLMs)助力评估 YouTube 医学内容质量:潜力与挑战并存

【字体: 时间:2025年03月23日 来源:Scientific Reports 3.8

编辑推荐:

  为解决 YouTube 医学内容质量评估难题,研究人员探究 LLMs 评估能力,发现部分模型可行,意义重大。

  在当今数字化时代,互联网成为人们获取信息的重要渠道,YouTube 更是一跃成为大众获取健康相关信息的热门平台。从日常的健身小窍门,到复杂的医疗手术讲解,各类健康内容应有尽有。然而,看似丰富的信息背后,却隐藏着巨大的问题 —— 内容质量参差不齐。大量研究表明,YouTube 上许多医学相关视频存在信息不准确或有偏见的情况。想象一下,一位患者满心期待地在 YouTube 上寻找疾病治疗的可靠建议,却可能被错误信息误导,这不仅可能延误病情,甚至还会对健康造成严重危害。
以往,专家手动评估是检测内容质量的主要方式,他们依据特定的质量标准或自定义评分准则,对视频样本进行细致分析。但这种方法在实际操作中困难重重,以使用 DISCERN 标准评估视频为例,专家需要全神贯注地观看视频,对照 15 个项目进行打分。视频内容一旦复杂,分析难度就会直线上升,比如视频信息前后清晰度不一、信息来源标注不统一等情况,都会增加评估的复杂性。而且,YouTube 每天上传的视频数量庞大,人工评估根本无法跟上节奏,难以全面、有效地评估平台上的健康相关内容(HRC)。

为了攻克这一难题,来自加拿大西安大略大学计算机科学系、阿联酋哈利法大学网络物理系统中心(C2PS)等机构的研究人员开展了一项极具创新性的研究。他们将目光投向了近年来发展迅猛的大语言模型(LLMs),试图探索其在评估 YouTube 医学内容质量方面的潜力。相关研究成果发表在《Scientific Reports》上。

研究人员在开展研究时,采用了多种关键技术方法。首先是数据收集,他们通过搜索 PubMed 和 Google Scholar,联系相关研究的作者,获取了 348 个经专家使用 DISCERN 工具评估过的健康相关视频数据。之后进行数据准备,运用 Node.js 的 youtube - transcript 包和 OpenAI 的 whisper 语音转文本工具,提取视频的文字转录内容,并筛选掉非英语和过长的视频,最终得到 194 个用于研究的视频。在模型选择上,选取了 20 个开源和闭源的 LLMs,并对模型配置进行标准化设置。在评分生成阶段,针对不同类型的模型选择不同的运行环境,同时设计了零样本(ZS)提示和包含评分指南的引导评分(GS)提示两种方式。最后,通过将模型评分与专家评分对比,运用 Brennan–Prediger(BP)Kappa 系数来评估模型的性能。

下面来看具体的研究结果:

  • RQ1:LLMs 能否评估 YouTube 上健康相关视频的质量?
    • 总分数分布:研究发现,LLMs 给出的平均分数在 37.02 - 66.26 之间,普遍高于专家给出的平均分数 32.8。从数据分布来看,专家评分呈负偏态,而 LLM 评分多为对称或正偏态,且 LLMs 的中位数分数通常更高。
    • 专家 - 模型评分者间一致性(总分数):部分 LLMs 与专家的一致性表现出色,例如 Gemini - 1.0 Pro 与专家的总分数评分几乎完美一致,GPT - 4o、MultiVerse 等模型也表现出较高的一致性,但仍有部分模型与专家的一致性较差。
    • 专家 - 模型评分者间一致性(单个问题):与总分数相比,模型在单个问题上与专家的一致性普遍较低。不同模型在不同问题上的表现差异较大,比如在一些问题上,多数模型与专家的一致性呈现出特定的规律,在 “陈述目标” 和 “实现目标” 等问题上一致性较高,而在 “相关性”“信息日期” 等问题上一致性较低。

  • RQ2:提示工程能否提高 LLMs 对 YouTube 健康相关内容评分的性能?
    • 研究表明,当在提示中加入评分指南后,模型与专家在总分数上的评分者间一致性显著提高,尤其是对于那些在零样本提示下表现中等的模型。在 DISCERN 工具的具体问题层面,像 “信息日期”“额外来源” 等问题的评估性能有明显改善,但 “陈述目标”“治疗描述” 等问题的性能变化不大。


研究结论和讨论部分意义重大。研究结果表明,部分 LLMs 在依据 DISCERN 工具评估健康相关视频质量时,能与人类专家达成较高的一致性,这意味着 LLMs 具备对健康相关视频进行质量分析的能力。

至于模型性能差异的原因,多个因素在起作用。模型训练数据集的覆盖范围不同,对其性能有影响;模型大小也与性能相关,通常较大的模型表现更好;此外,模型的内部架构和功能也在特定任务的表现中发挥作用。

而 LLMs 评分普遍高于专家的现象,可能是由于模型的定性评估与定量评分不匹配,也可能是专家在评分时存在一定的主观性。在评估一些视频时,专家和模型的分歧或许与专家倾向于给出较低分数有关,尽管目前没有研究明确这一点,但在其他领域的研究中发现,人类评分会受到评分过程相关因素的影响。

在评估总分数和单个问题时,模型与专家的一致性存在差异,总分数的一致性更高,这可能是因为总分数对单个问题评分的差异有一定的补偿作用。

此外,部分问题上 LLMs 表现不佳,如 “信息产生的时间是否明确” 这一问题,模型容易忽略关键信息,导致评分偏差。

提示工程之所以有用,是因为它能让模型更准确地理解评分要求,避免遗漏或误解关键信息,从而提升性能。

不过,该研究也存在一些局限性。研究使用的视频数量和主题相对有限,未来可以进一步扩大数据集;视频长度受限,后续可以探索拆分长视频进行评估的方法;研究仅基于视频文字转录,忽略了视觉、音频等信息,未来可借助大型多模态模型(LMMs)进行更全面的评估;同时,研究仅测试了两种提示方式,还有更多提示技术值得探索,并且大规模使用 LLMs 评估视频成本较高。

总体而言,这项研究为利用 LLMs 评估 YouTube 医学内容质量提供了重要的参考,虽然目前存在一些问题,但也为后续研究指明了方向,有望在未来更好地解决健康相关内容质量评估的难题,让人们在互联网上获取更可靠的医学信息。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号