高中生开发自己的小规模生成式语言模型(babyGPTs):通过构建这类模型来实践数据收集与处理方法,并探讨相关伦理问题

《International Journal of Child-Computer Interaction》:High school students building babyGPTs: Engaging in data practices and addressing ethical issues through the construction of generative language models

【字体: 时间:2025年08月22日 来源:International Journal of Child-Computer Interaction CS7.2

编辑推荐:

  本研究通过案例研究探讨高中生如何参与生成式语言模型(如babyGPTs)的设计,分析他们在数据实践(如数据集构建、质量评估)和伦理考量(版权、输出可信度)中的具体行为,旨在促进青少年计算赋权。

  近年来,随着生成式语言模型(Generative Language Models, GLMs)的迅速发展,这些技术在日常生活中扮演着越来越重要的角色。特别是在教育领域,高中生已经越来越多地接触到这类系统,并在学习、创作和社交中使用它们。然而,当前的研究大多集中在探讨青少年作为生成式语言模型用户的角色,而较少关注他们如何作为设计者参与到这些模型的构建过程中。本文通过一个深入的案例研究,探索了高中生在构建小型生成式语言模型(称为babyGPT)时所经历的全过程,展示了他们如何定义设计问题、开发模型,并在参与AI/ML数据实践和处理伦理问题的过程中进行反思。

生成式语言模型的应用正在迅速扩展,从聊天机器人到文本生成工具,这些系统已经深刻地影响了人们的日常生活。随着这类技术的普及,教育工作者和研究人员开始关注如何帮助青少年更好地理解和使用它们。然而,当前的研究重点往往停留在用户层面,即如何利用这些模型进行学习、创作或交流,而忽略了青少年作为技术设计者的潜力。事实上,青少年不仅能够成为这些系统的使用者,还能够在构建过程中发挥重要作用,从而加深他们对技术运作的理解,并培养批判性思维和创造力。

在儿童-计算机互动(Child-Computer Interaction, CCI)领域,已有大量研究表明,参与技术构建活动能够增强青少年的自主性和技术素养。这些研究强调了将青少年置于技术设计者的位置的重要性,因为这不仅有助于他们掌握技术技能,还能促进他们对社会技术系统的深入理解。然而,尽管有这些成果,关于青少年如何参与生成式语言模型的设计研究仍然较为有限。大多数现有的研究集中于分类任务,如图像识别或文本分类,而较少关注生成任务,如文本生成或故事创作。这种研究空白意味着我们对青少年在构建生成式语言模型时所采用的数据实践和伦理考量了解不足。

本文的研究基于一个五天的学校工作坊,共有35名九年级学生(年龄14-15岁)参与。这些学生在学校的STEM和计算课程中进行学习,并且已经具备至少一年的编程和计算经验。他们使用了nanoGPT框架来构建自己的生成式语言模型,这些模型被称为babyGPT。研究团队特别关注了一个由三名学生组成的小组,他们设计了一个基于漫威剧本的生成模型,用于创建剧本。通过对该小组的构建过程、讨论内容、作品以及访谈进行分析,本文揭示了青少年在构建生成式语言模型时所采用的数据实践和伦理考量。

研究发现,学生在构建babyGPT的过程中经历了多个阶段,包括定义设计问题、探索数据集、评估数据质量、准备数据、实现解决方案以及评估模型性能。在这个过程中,他们不仅学习了如何使用数据来训练模型,还开始思考数据的来源、使用方式以及可能带来的影响。例如,他们讨论了数据集的多样性问题,考虑了如何确保生成内容的准确性和相关性,以及如何避免侵犯版权或作者权益。此外,他们还关注了生成内容的可信度,以及在构建模型时对环境的影响。

在伦理考量方面,学生表现出对版权和作者身份的高度关注。他们意识到,使用他人的文本数据可能会涉及法律和道德问题,因此在构建模型时,他们尝试寻找合适的、合法的数据来源。同时,他们也考虑了生成内容的可信度,例如,他们希望模型能够生成高质量、有意义的文本,而不是随机或不准确的内容。此外,他们还讨论了生成式语言模型在社会中的潜在影响,包括可能被滥用的风险,以及如何确保这些模型的使用是负责任和有益的。

本文的研究不仅展示了高中生在构建生成式语言模型时所具备的能力,还提供了关于他们在数据实践和伦理考量方面的深入洞察。这些发现对于未来的教育实践和研究具有重要意义。首先,它们表明,通过适当的指导和支持,青少年完全有能力参与到生成式语言模型的设计过程中。其次,它们揭示了青少年在构建模型时所表现出的批判性思维和创造力,这对于培养下一代技术设计者至关重要。

然而,本研究也存在一些局限性。由于样本量较小,研究结果可能无法推广到更广泛的青少年群体。此外,研究仅关注了一个小组的构建过程,因此对其他小组的分析仍需进一步进行。未来的研究可以扩展样本规模,以更全面地了解不同背景和兴趣的青少年在构建生成式语言模型时的表现。同时,研究者可以开发更多支持工具和资源,以帮助青少年更有效地参与生成式语言模型的设计。

总的来说,本文的研究强调了将青少年置于技术设计者的位置的重要性。通过参与生成式语言模型的构建,青少年不仅能够掌握技术技能,还能培养批判性思维和创造力。这与Papert(1980)提出的“儿童编程计算机”的愿景相呼应,即通过技术构建活动,青少年可以更好地理解现代技术的运作,并与科学、数学和智力模型构建等深层次概念建立联系。因此,未来的教育实践应更加重视青少年在技术设计中的角色,为他们提供更多参与和实践的机会。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号