
-
生物通官微
陪你抓住生命科技
跳动的脉搏
0.5美元/篇的“AI文章”,ChatGPT对科学意味着什么?
【字体: 大 中 小 】 时间:2023年02月08日 来源:nature
去年12月,计算生物学家Casey Greene和Milton Pividori开始了一项不同寻常的实验:他们请一位不是科学家的助手帮助他们改进他们的三篇研究论文。一种名为GPT-3的人工智能(AI)算法,该算法于2020年首次发布,每篇论文花费5分钟阅读,在几秒钟内就对文件的某些部分提出了修改建议,甚至发现了一个方程式错误。
正如Greene和Pividori在1月23日的一篇预付印篇中报道的那样,人工智能聊天工具现在有了更高级的用途。这些工具中最著名的是ChatGPT,也称为大型语言模型(LLMs),它是GPT-3的一个版本,在去年11月发布后因其免费且易于访问而一举成名。其他生成式AI可以生成图像或声音。不少科学家现在每天都使用LLMs。
现在《自然》杂志正在征集对ChatGPT和其他生成人工智能工具如何用于研究的看法投票。
LLMs是搜索引擎、代码编写助手甚至聊天机器人的一部分,它可以与其他公司的聊天机器人谈判,以获得更好的产品价格。ChatGPT的创建者,位于加州旧金山的OpenAI已经宣布了一项每月20美元的订阅服务,承诺更快的响应时间和优先访问新功能(尽管其试用版仍然免费)。科技巨头微软(Microsoft)已经投资了OpenAI,今年1月宣布进一步投资,据报道投资金额约为100亿美元。llm注定要被合并到一般的文字和数据处理软件中。生成式人工智能未来在社会中无处不在似乎是肯定的,特别是因为今天的工具代表了技术的婴儿期。
但LLMs也引发了广泛的担忧——从它们倾向于返回虚假信息,到担心人们将人工智能生成的文本冒充自己的。当《自然》杂志向研究人员询问ChatGPT等聊天机器人的潜在用途时,尤其是在科学领域,他们的兴奋中夹杂着担忧。
一些研究人员认为,LLMs非常适合加快撰写论文或赠款等任务,只要有人工监督。例如科学家们不会再坐下来为拨款申请写冗长的介绍了。
但研究人员强调,LLMs在回答问题时根本不可靠,有时会产生错误的回答。
这种不可靠性是LLMs构建方式的一部分。ChatGPT及其竞争对手的工作原理是在庞大的在线文本数据库中学习语言的统计模式——包括任何谎言、偏见或过时的知识。当LLMs得到提示时(比如Greene和Pividori精心构造的重写部分手稿的要求),他们只是一个字一个字地说出任何在风格上似乎合理的方式来继续对话。
结果是LLMs很容易产生错误和误导性的信息,特别是对于他们可能没有多少数据可以训练的技术主题。LLMs也不能显示其信息的来源;如果要求他们写学术论文,他们就编造引文。《自然机器智能》(Nature Machine intelligence)杂志1月份发表的一篇关于ChatGPT的社论指出:“不能相信这个工具能正确地获取事实或提供可靠的参考。”
ChatGPT和其他LLMs虽然可以成为具有足够专业知识的研究人员的有效助手,可以直接发现问题或轻松验证答案,例如计算机代码的解释或建议是否正确。但这些工具可能会误导天真的用户。例如,去年12月,Stack Overflow暂时禁止了ChatGPT的使用,因为网站管理员发现自己被大量由热情用户发送的LLMs生成的错误答案淹没了。这对搜索引擎来说可能是一场噩梦。
一些搜索引擎工具,比如以研究人员为中心的Elicit,通过使用它们的功能来绕过LLMs的归因问题,首先引导相关文献的查询,然后简要地总结引擎找到的每个网站或文档,从而产生明显引用内容的输出(尽管LLMs仍然可能错误地总结每个单独的文档)。
建立LLMs的公司也很清楚这些问题。一些科学家说,目前ChatGPT还没有接受足够专业的内容培训,无法在技术主题上有所帮助。马萨诸塞州剑桥市哈佛大学生物统计学博士生|Kareem Carr在工作中试用这种方法时,并没有给他留下深刻印象。他说:“我认为ChatGPT很难达到我所需要的特异性水平。”(即便如此,Carr说当他要求ChatGPT提供20种方法来解决一个研究问题时,它只回答了一些胡言乱语和一个有用的想法——一个他从未听说过的统计学术语,这为他指出了一个新的学术文献领域。)
一些科技公司正在用专业的科学文献训练聊天机器人——尽管它们自己也遇到了问题。去年11月,拥有Facebook的科技巨头Meta发布了一款名为Galactica的LLMs软件,它接受了科学摘要的训练,目的是让它特别擅长制作学术内容和回答研究问题。在用户使用演示程序产生不准确和种族主义的内容后,演示程序被从公众访问中撤下(尽管其代码仍然可用)。
如果没有输出控制,LLMs很容易被用来产生仇恨言论和垃圾邮件,以及种族主义、性别歧视和其他可能隐含在训练数据中的有害关联。
OpenAI在决定公开发布ChatGPT时试图避开许多这些问题。该公司将其知识库限制在2021年,禁止其浏览互联网,并安装了过滤器,试图让该工具拒绝为敏感或有害的提示生成内容。然而,要做到这一点,需要人工审核员给有毒文本的冗长文章贴上标签。据记者报道,这些工人的工资很低,有些人还遭受了创伤。对工人剥削的类似担忧也出现在社交媒体公司,这些公司雇佣员工训练自动机器人标记有毒内容。
去年,一组学者发布了另一种LLM,名为BLOOM。研究人员试图通过在更小范围的高质量多语言文本源上训练它来减少有害输出。该团队还将其训练数据完全开放(与OpenAI不同)。研究人员敦促大型科技公司负责任地效仿这一做法,但目前尚不清楚它们是否会遵守。
一些研究人员表示,学术界应该完全拒绝支持大型商业LLMs。除了偏见、安全问题和剥削工人等问题外,这些计算密集型算法还需要大量的能量来训练,这引起了人们对其生态足迹的担忧。更令人担忧的是,如果把思考任务交给自动聊天机器人,研究人员可能会失去表达自己想法的能力。
更令人困惑的是一些LLMs的法律地位,他们接受的训练是从互联网上抓取的内容,有时权限不明确。版权和许可法目前涵盖像素、文本和软件的直接复制,但不包括其风格的模仿。当这些通过人工智能生成的仿制品通过摄入原件来训练时,这就引入了一个问题。一些AI艺术程序的创造者,包括Stable Diffusion和Midjourney,目前正被艺术家和摄影机构起诉;OpenAI和微软(及其子公司科技网站GitHub)也因创建人工智能编码助手Copilot而被起诉软件盗版。
因此,一些研究人员说,为这些工具设定界限可能至关重要。学术出版商(包括《自然》杂志的出版商)说,科学家应该在研究论文中公开LLMs的使用,教师们表示,他们希望自己的学生也有类似的行为。《科学》杂志更进一步,称ChatGPT或任何其他人工智能工具生成的文本都不能用于论文中。
一个关键的技术问题是人工智能生成的内容是否容易被发现。许多研究人员正在研究这个问题,其中心思想是使用LLMs本身来发现人工智能创建的文本的输出。
例如,去年12月,新泽西州普林斯顿大学计算机科学专业的本科生Edward Tian发表了GPTZero。这个人工智能检测工具通过两种方式分析文本。一个是“困惑度”,衡量文本对LLMs的熟悉程度。田的工具使用了早期的模型,称为GPT-2;如果它发现大部分单词和句子都是可预测的,那么文本很可能是人工智能生成的。该工具还会检查文本的变化,这是一种被称为“突然性”的测量方法:人工智能生成的文本在语气、节奏和困惑程度上往往比人类编写的文本更一致。
许多其他产品也类似地旨在检测人工智能编写的内容。OpenAI本身已经发布了GPT-2检测器,并在1月份发布了另一个检测工具。对于科学家来说,反剽窃软件开发商Turnitin公司正在开发的一种工具可能特别重要,因为Turnitin的产品已经被世界各地的学校、大学和学术出版商使用。该公司表示,自GPT-3于2020年发布以来,该公司一直在研究人工智能检测软件,预计将在今年上半年推出。
然而,这些工具都不是绝对正确的,特别是如果人工智能生成的文本随后被编辑的话。此外,探测器可能会错误地认为一些人类书写的文本是人工智能产生的,德克萨斯大学奥斯汀分校的计算机科学家、OpenAI的客座研究员斯Scott Aaronson说,该公司表示,在测试中,其最新工具在9%的情况下将人类书写的文本错误地标记为人工智能书写的文本,仅正确识别了26%的人工智能书写的文本。
另一个想法是,人工智能内容将带有自己的水印。去年11月,Aaronson宣布他和OpenAI正在研究一种为ChatGPT输出数字水印的方法。它还没有发布,但1月24日由马里兰大学大学的计算机科学家Tom Goldstein领导的团队提出了一种制作水印的方法。其思想是在LLMs生成输出时的特定时刻使用随机数生成器,以创建看似合理的替代单词列表,并指示LLMs从中进行选择。这会在最终的文本中留下一些可以从统计上识别出来的词,但对读者来说并不明显。编辑可以消除这种痕迹,但Goldstein坦认为编辑必须修改一半以上的单词。
Aaronson指出,水印的一个优点是它永远不会产生误报。如果有水印,说明文本是人工智能生成的。不过,他说,这也不是绝对正确的。“如果你有足够的决心,肯定有办法击败任何水印方案。”检测工具和水印只会让欺骗使用人工智能变得更加困难——并非不可能。
与此同时,LLMs的创造者们正忙着开发基于更大数据集的更复杂的聊天机器人(OpenAI预计将在今年发布GPT-4)——包括专门针对学术或医疗工作的工具。去年12月底,谷歌和DeepMind发布了一份关于一种名为Med-PaLM7的临床LLM的预印本。该工具可以回答一些开放式的医疗问题,几乎像普通的人类医生一样,尽管它仍然有缺点和不可靠。
加州圣地亚哥斯克里普斯研究转化研究所(Scripps Research Translational Institute)主任Eric Topol说,他希望在未来,包括LLMs在内的人工智能甚至可以通过交叉核对学术文献中的文本和身体扫描图像来帮助癌症的诊断和对疾病的理解。但他强调,这一切都需要专家的明智监督。