用于探索大型语言模型领域概念框架的思维导图
《IEEE Access》:A Conceptual Map for Exploring the Landscape of Large Language Models
【字体:
大
中
小
】
时间:2025年11月12日
来源:IEEE Access 3.6
编辑推荐:
大语言模型(LLM)应用面临透明度不足、信息碎片化及平台标准化缺失等问题。本文提出概念模型,整合模型、数据集、任务、指标四实体及六类关系,支持结构化查询与评估。研究指出Hugging Face平台存在30%关键信息缺失,并探讨开放性定义、碳足迹、人类标注成本等挑战,呼吁平台完善元数据标准化,促进可重复性与责任AI发展。
随着大型语言模型(LLMs)的迅速发展,尤其是在像医疗、法律研究等专业领域中的应用,选择和评估最适合特定任务的模型已成为一个重大挑战。这些模型不仅需要具备高度的准确性,还必须在透明度、任务专业化以及符合伦理标准等方面达到一定的要求。尽管目前已有多个开源平台提供模型和数据集的共享,但在获取关键信息方面仍存在障碍。不完整的元数据和不一致的文档说明使得模型的发现、比较和采用变得低效。为了解决这些问题,本文提出了一种简单的概念图,旨在帮助研究人员和从业者更好地理解生成模型的复杂生态系统。我们不仅阐述了模型选择的依据,还对概念图中的四个相互关联的实体进行了全面描述。我们的主要目标是为所有从业者——包括开发者、管理者、测试人员等——提供一个清晰的术语体系,以便他们能够有效地表达如何应对LLM领域的挑战。此外,我们还呼吁行业利益相关者,如协作平台和模型提供方,提升LLM研究和部署的透明度与可重复性。
自2022年11月ChatGPT发布以来,大型语言模型在多个领域推动了技术创新,但其快速发展也带来了评估和理解其全部潜力与能力的挑战。在不同行业中工作的专业人士在选择最适合其任务的模型时常常面临困难。法律专家需要在案例法上训练的模型,教育工作者需要用于个性化学习的工具,而客户服务团队则依赖于多语言的对话式AI。即使是在像气候科学、工程和社会科学等领域的研究人员,也经常因为缺乏集中化的资源而难以获取关于模型训练数据、领域专业知识和性能基准等关键信息。这种缺乏结构化的知识库使得用户不得不依赖零散的信息,限制了该新兴技术的有效采用。
这些挑战进一步加剧了人工智能开发中对透明度和问责制的重视,特别是在像欧盟人工智能法案(AI Act)这样的法规框架下,强调公平性、安全性和伦理标准。无论是封闭模型还是开源模型,由于文档不充分,研究人员在确保其AI系统符合这些严格标准方面都面临困难。此外,“开放性”这一概念在AI模型中本身具有多重含义,这也使得对模型开放性的理解更加复杂。
在这一背景下,我们提出了一种概念图,以帮助从业者更好地理解和导航LLM生态系统。我们设想,这一概念图可以被直接转换为关系型数据库,从而支持使用类似SQL的查询语言来获取高质量信息,满足不同领域用户的需求。值得注意的是,现代工具现在允许使用自然语言查询关系型数据库,这使得与我们的概念图互动更加直观和易于使用。我们还进行了一个焦点小组,邀请了来自不同应用领域的用户参与,从中提取了一些典型的查询示例。这些示例展示了用户如何在不同领域中使用自然语言表达需求,并将其映射到我们的概念图上。例如,一位在医疗领域工作的用户可能希望找到一个支持意大利语、参数数量少于80亿的开源模型,并且该模型是针对医疗领域进行微调的。通过我们的概念图,用户可以基于这些条件进行查询,找到符合要求的模型。
我们设想了一个中间系统,可以帮助用户将模糊或高层次的输入(如“小型模型”)转化为精确的查询条件(如“参数数量少于80亿”),从而使我们的概念图能够服务于非技术人员和技术人员。为了展示这一概念图的实际应用,我们构建了一个简单的演示工具,可供读者在https://geco.deib.polimi.it/LLMap-demo/上访问。该原型提供了基于概念图的数据库探索方式,展示了如何通过交互式方式访问单个实体、关系和路径。我们限制在六种查询示例的范围内,而不涉及构建完整数据库的问题,因为这需要社区的参与、与Hugging Face和Kaggle等平台的紧密互动,以及数据管理者的执行。
我们还讨论了如何利用概念图构建排行榜。排行榜为从业者提供了一个直观的界面,帮助他们做出决策。通过我们的概念图,可以将模型、任务、指标和数据集结合起来,以评估特定LLM在特定任务上的表现,使用特定的测试数据集,并依据特定的指标进行测量。通常,排行榜支持部分聚合,以便在多个数据集和指标上比较模型的性能。目前,还没有一个官方或广泛采用的统一排行榜平台,排行榜信息分散在不同的网站上。例如,基于Hugging Face的open-llm-leaderboard和Massive Text Embedding Benchmark(MTEB)提供了对不同语言模型在多种数据集和任务上的性能评估,如问答和文本嵌入。统一的基准工具,如LLMBox、PromptBench和LLM-Uncertainty-Bench,提供了针对LLM评估的特定功能,但需要用户自定义数据集和性能指标。
我们的概念图与现有的文档标准,如“数据集的数据表”和“模型报告的模型卡片”相辅相成,而不是取代它们。数据表和模型卡片为数据集和模型提供了丰富的叙述性信息,我们的贡献则是一个简洁、可查询的结构化层,旨在支持大规模的发现、比较和治理。这一结构化层可以:(i)标准化最常查询的事实;(ii)暴露模型、数据集、任务和指标之间的依赖关系;(iii)支持自动化的发现和比较,同时保留链接到更详细的叙述性文档,以更好地描述复杂的风险和背景。
目前,我们对Hugging Face平台上的模型信息进行了分析,发现虽然Hugging Face是一个广泛使用的平台,拥有超过53万个开源模型和11万个数据集,但在模型的元数据信息方面仍然存在诸多问题。我们通过API调用和网页爬虫的方法,分析了平台上模型信息的可获取性,特别是那些在我们的概念图中出现的属性,如模型名称、创建者、词汇量、使用许可和相关出版物。在30万多个自然语言处理模型中,平均而言,相关信息的可获取率不到30%。值得注意的是,信息的可获取性与模型的流行度之间没有明显的相关性。例如,下载次数最高的三个模型(BERT、MPNet和GPT-2)仅提供了其属性的一半信息,而下载次数最高的前50个模型中,最透明的模型是Qwen2.5-1.5B-Instruct,它描述了其属性的80%。这一现象反映了LLM提供商在开放性与竞争和商业考量之间的权衡。
在概念图中,我们定义了四个主要实体:模型、数据集、任务和指标,以及它们之间的六种二元关系。模型可以基于一个或多个数据集进行训练或测试,数据集可以用于模型的训练、微调或评估,任务可以由模型解决,而指标则用于评估模型或任务。此外,我们还详细描述了每个实体的属性,包括标识符、符合FAIR原则的描述性属性(即可发现性、可访问性、可互操作性和可重用性),以及描述实体实现和部署的内部属性。这些属性帮助用户更全面地了解模型、数据集、任务和指标的特性。
在模型的属性中,我们特别强调了“开放性”的不同定义。通常,一个“开放模型”指的是可以自由使用的模型,即“开放用于推理和微调”。根据Hugging Face的政策,所有在其平台上托管的模型都被视为“开放”模型。此外,模型的“开放代码”指的是提供模型实现的自由访问,例如Falcon和Mistral系列。模型的“开放数据集”则指模型的训练数据是否公开,以及用户是否可以使用新的或不同的训练数据集进行微调。例如,BLOOMZ模型强调了数据集的透明度,而Llama系列模型则限制了访问和许可,而像GPT-4这样的商业API仍然保持封闭。我们的框架提供了将这些定性比较转化为系统性统计数据的结构,从而支持对开源项目生态系统中各种问题及其解决方法的分类理解。
在Hugging Face平台上,我们发现模型信息的可获取性存在明显的局限性。尽管Hugging Face提供了丰富的工具和资源,但许多关键信息仍然缺失或不一致。例如,模型支持的语言、使用许可和相关出版物等信息往往不完整。这种不一致可能是由于模型提供方在文档记录方面的疏忽,或者是由于主要参与者出于竞争和商业利益而有意隐藏某些信息。这种现象表明,我们需要一个更加结构化的方式来支持LLM生态系统的健康发展。
在本文的结论部分,我们进一步探讨了概念图在多个方面的潜在应用。首先,模型的可用性。不同的模型通常针对不同的任务和使用场景进行优化,某些模型在特定场景下表现优于其他模型。我们的概念图通过引入更多因素,如训练和微调数据的可用性、在相关基准上的表现以及硬件限制(如模型大小),来支持更精确的模型选择。其次,环境成本。大型语言模型的碳足迹估计范围从数十吨到数百吨二氧化碳当量(CO2e)。这些估计通常是通过第三方使用碳足迹预测模型计算得出的,如LLMCarbon。通过系统地收集各种LLM的元数据,我们的概念图可以被用来自动生成CO2e估计,从而帮助用户更好地了解模型训练和推理的环境影响。这使得用户能够根据伦理考虑或环境影响做出更明智的决策。
第三,人类监督成本。语言模型通常通过自监督任务进行预训练,如下一个词预测,从而在没有明确监督的情况下学习语言模式。然而,为了开发有帮助的模型,LLMs通常会经历指令微调和与人类价值观的对齐过程,例如通过人类反馈强化学习(RLHF)。这些微调步骤需要人类标注的数据集,而人类标注本身带来了伦理问题,特别是关于劳动力来源的选择。我们主张通过系统追踪预训练和微调过程中使用的数据集,从而更清晰地了解人类劳动的投入。
第四,可重复性和透明度。一个结构化的生态系统描述,涵盖模型、数据集、任务和评估指标,对于提升研究发现的可重复性和透明度至关重要。在科学出版物中,通常只提供部分或不提供实验设置的细节,这使得其他研究人员难以复制结果,从而阻碍了科学进步并使得评估方法的稳健性难以判断。通过引入标准化的结构化模式,我们为研究人员提供了一个检查清单,用于发布新模型,同时也为出版商提供了期望的框架,无论是同行评审过程还是上传模型到公共存储库。结构化的元数据可以更好地支持模型选择,使组织能够更容易地识别符合特定性能、伦理考量和部署限制的模型。此外,通过提高模型的可发现性和可用性,我们的框架促进了研究人员、开发者和政策制定者之间的协作,从而推动负责任的人工智能发展。
我们认识到,某些公司和组织可能有正当理由隐藏某些信息,无论是出于竞争考虑、监管合规还是知识产权保护。然而,这种做法应该是明确的,而不是被模糊或不完整的信息所掩盖。因此,我们呼吁协作平台,如Hugging Face和Kaggle,采用并执行这些设计原则,同时要求模型提供方在描述其模型、数据集、指标和任务时保持一致。这些做法将显著提升透明度、可重复性和可用性,从而为科学和工业利益相关者创造更大的价值。
我们还提出了一种未来的愿景,即概念图可以被采用并填充,使用半自动和全自动的方法。大规模的元数据提取、自然语言处理和基于LLM的自动化可以帮助系统地从不同的来源,如文档、研究论文和存储库描述中检索和结构化模型架构、训练数据来源、许可条款和任务专业化等属性。半自动的方法,包括众包贡献,可以进一步完善和验证提取的信息。我们的工作强调了一个结构化、可查询的模式,支持大规模的发现和比较。我们主张,结构化的元数据收集应成为LLM生态系统的基本实践。我们的概念图可以提供可强制执行的核心,而数据表和模型卡片等叙述性文档则提供了必要的背景信息。最终,我们的研究旨在补充现有的协作平台,如Hugging Face和Kaggle,呼吁平台拥有者采用并执行这些设计原则,同时要求模型提供方在描述其模型、数据集、指标和任务时保持一致。这些做法将显著提升透明度、可重复性和可用性,从而为科学和工业利益相关者创造更大的价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号