以人类为中心的自动化机器学习代理，配备大型语言模型，用于多模态数据的管理与分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Artificial Intelligence》：A human-centered automated machine learning agent with large language models for multimodal data management and analysis

【字体：大中小】 时间：2025年10月09日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　提出基于LLM的端到端AutoML框架，通过自然语言交互实现数据预处理、任务推断、模型架构搜索、自适应超参优化及训练全流程自动化，显著提升模型性能（平均提升2.3%）和计算效率（加速1.26-1.51倍），在10个跨模态数据集上验证其有效性，并解决传统方法数据格式限制和规则僵化问题。

　　自动化机器学习（AutoML）的目标是简化机器学习模型的端到端流程，然而，当前的方法仍然受到固定规则框架和结构化输入要求的限制，这给非专家用户带来了障碍。尽管大型语言模型（LLMs）在代码生成和自然语言理解方面展现出了强大的能力，但它们在提升AutoML可访问性方面的潜力尚未完全实现。本文提出了一种创新的基于LLM的AI代理，使用户能够通过自然语言与整个机器学习流程进行交互，同时保持高性能标准，减少了对预定义规则的依赖，并降低了对技术专业知识的要求。该代理实现了端到端的机器学习流程，包括自动数据加载和预处理、任务识别、神经网络架构选择、超参数优化以及训练自动化。此外，我们还提出了一种新颖的数据处理方法，利用LLM自动解释和处理多种数据格式，而无需手动预处理或格式转换。我们还提出了一种自适应超参数优化策略，该策略结合了LLM对机器学习最佳实践的理解与动态性能反馈，以智能地调整搜索空间。

当前的AutoML框架虽然在自动化模型开发和部署方面取得了显著进展，但它们仍然受限于固定的规则系统，这使得非技术人员难以有效使用。传统的AutoML方法在数据预处理、模型选择、训练优化和超参数调整等方面依赖于预设的流程和结构，缺乏对用户需求的灵活适应性。例如，H2O.ai的AutoML框架虽然能够自动选择模型和优化超参数，但其有效性高度依赖于预定义的数据预处理规则和严格的数据格式要求。用户仍需具备一定的技术背景，才能正确地组织数据并配置平台参数。Auto-sklearn和AutoGluon虽然在某些任务上表现出色，但它们的优化策略和模型架构仍然固定，难以适应不同任务的特殊需求。同样，Google的AutoML套件虽然在图像识别和自然语言处理等特定领域提供了专业解决方案，但其输入规格和搜索空间仍然受限。这些限制使得现有AutoML方法在面对新任务和数据时表现出较差的适应性，导致模型性能受限。

在这些挑战中，LLM的出现为解决AutoML的限制提供了新的可能性。LLM不仅能够理解自然语言，还能够生成代码，从而为AutoML流程带来了更大的灵活性。通过LLM，用户可以以自然语言描述他们的任务需求，例如“预测客户流失”或“识别垃圾邮件网站”，而无需手动进行复杂的预处理或格式转换。LLM能够分析这些自然语言输入，识别数据特征，并生成相应的代码来处理数据、选择模型和优化超参数。这种自然语言驱动的AutoML框架能够减少对技术专业知识的依赖，同时提高模型的性能和适应性。

LLM在AutoML中的应用可以分为三个主要模式：任务特定的自然语言自动化、混合自然语言与AutoML的系统，以及遵循指令的系统。任务特定的自然语言自动化方法专注于自动化特定类型的文本任务，例如文本分类或总结，而混合方法则将LLM的能力融入传统AutoML框架，以增强对文本数据的处理能力。遵循指令的系统则利用预训练语言模型来执行特定命令，如在AutoML流程中选择特定模型或调整超参数。然而，本文提出的方法超越了这些模式，构建了一个我们称之为“LLM原生AutoML”的框架，其中LLM作为整个流程的核心决策引擎，从数据预处理、任务识别、模型选择到超参数优化，LLM都在其中发挥关键作用。

我们的方法主要包含三个关键贡献。首先，我们引入了一个基于LLM的代理，实现了完整的AutoML流程，包括五个集成阶段：自动数据加载和预处理、任务识别、动态模型选择和构建、自适应超参数优化以及自动化训练和评估。这种端到端的框架改变了用户与AutoML工具的交互方式，使他们能够通过自然语言进行沟通，而无需复杂的配置或技术背景。其次，我们提出了一种新颖的数据处理方法，利用LLM的上下文理解能力自动识别和处理多样化的数据格式。与传统的AutoML方法不同，我们的方法不需要严格的数据格式和结构定义，而是能够动态分析原始数据结构，识别变量之间的关系，并自动生成合适的预处理流程。这使得AutoML框架可以处理未结构化的文本文件、半结构化的JSON数据、多种表格格式以及混合数据类型，而无需手动预处理或格式转换。第三，我们引入了一种自适应的超参数优化策略，该策略结合了LLM对机器学习最佳实践的理解与动态性能反馈，从而智能地调整搜索空间。传统的AutoML方法依赖于固定的优化策略和预定义的参数空间，而我们的方法则能够根据任务的具体需求和数据特征，动态生成初始的超参数配置，并根据中间训练结果调整搜索策略。

为了展示该框架的操作流程，我们以一个用户提供的CSV文件为例，该文件包含客户交易数据，并给出任务指令“预测客户流失”。在数据预处理阶段，LLM分析数据结构，生成如“该数据集包含15个特征，包括高基数的分类变量（如客户类型、支付方式）需要标签编码，数值特征（如交易金额、账户余额）显示右偏分布，需要对数变换，时间特征（如最后交易日期）需要日期解析和特征提取”等分析结果。随后，LLM生成相应的预处理代码，实现这些变换。在任务识别阶段，LLM分析目标变量和数据特征，确定任务类型为二分类，并识别出类别不平衡的问题，如“基于二元目标变量（流失：0/1）和特征分布，这是一项二分类任务，具有中度类别不平衡（70%/30%），这表明需要分层抽样和加权损失函数”。在模型选择阶段，LLM结合任务需求和数据特征，建议使用梯度提升树或集成方法，如“鉴于数据集的表格性质、中等规模和混合特征类型，梯度提升模型如XGBoost或集成方法可能是最合适的，因为它们能够很好地处理特征交互并适应不同的数据类型”。在超参数优化阶段，LLM基于历史问题和当前任务，生成初始配置，如“对于XGBoost在该不平衡分类任务中的应用，我建议从学习率0.1、最大深度6、子样本率0.8和正类权重2.33开始，然后探索学习率在[0.05–0.3]和最大深度在[3–10]范围内的参数组合”。最后，LLM生成完整的训练和评估代码，包括对不平衡分类任务的F1分数和AUC-ROC等评估指标。

本文的方法论部分详细描述了框架的五个阶段：数据加载和预处理、任务识别、模型选择、自适应超参数优化和自动化训练与评估。在数据预处理阶段，LLM利用其上下文理解能力，自动识别和处理多样化的数据格式，而无需预定义的模式或规则。在任务识别阶段，LLM分析数据特征和任务背景，确定适当的机器学习范式，如分类、回归或聚类，并识别出任务中的特定要求和约束。在模型选择阶段，LLM结合任务需求和数据特征，从预定义的模型库中选择和配置最适合的模型架构。在自适应超参数优化阶段，LLM利用其对机器学习最佳实践的理解和动态性能反馈，生成初始的超参数配置，并根据中间训练结果调整搜索空间。在自动化训练与评估阶段，LLM生成并执行适当的代码，以训练和评估模型。

为了验证该框架的有效性，我们在多个数据集上进行了广泛的实验评估。实验包括了二分类、多分类和回归任务，涉及表格数据和图像数据。我们使用了包括Breast Cancer Wisconsin、Blood Transfusion Service Center、German Credit、Phishing Websites和Titanic在内的多个数据集，以及MNIST和Fashion-MNIST图像数据集和Red Wine Quality和White Wine Quality回归数据集。在二分类任务中，我们的方法在所有数据集上均优于AutoGluon和AutoKeras，例如在Titanic数据集上实现了完美的分类准确率（1.0000），而AutoGluon和AutoKeras的准确率分别为0.7765和0.7841。在多分类任务中，我们的方法在Fashion-MNIST和MNIST数据集上均表现出色，准确率分别为0.9250和0.9940，远高于其他方法。在回归任务中，我们的方法在Diabetes数据集上实现了更低的RMSE（0.3999），而AutoGluon和AutoKeras的RMSE分别为0.5222和1.8411。

此外，我们还进行了计算效率分析，比较了我们的框架与传统AutoML方法在不同数据集上的表现。计算效率分析显示，我们的方法在所有数据集上均实现了显著的加速效果。例如，在MNIST数据集上，我们的框架仅需87.2分钟完成整个流程，而AutoGluon和AutoKeras分别需要124.3分钟和156.7分钟。在计算资源使用方面，我们的框架表现出更高的效率，平均GPU内存消耗仅为6.4 GB，而AutoGluon和AutoKeras分别为8.2 GB和9.6 GB。我们的方法在GPU利用率方面也表现出更高的效率，平均达到71.2%，而AutoGluon和AutoKeras分别为78.3%和82.5%。这些计算效率的提升使得我们的框架在资源受限的环境中更具实用性。

在可扩展性分析中，我们使用Phishing数据集的子集版本来评估框架在不同数据规模下的表现。结果显示，我们的方法在所有数据规模下均保持一致的性能优势，准确率随着数据集规模的增加而显著提高。例如，在1,000个样本的子集上，我们的方法准确率为0.8456，而AutoGluon和AutoKeras分别为0.8234和0.8156。在11,055个样本的完整数据集上，我们的方法准确率达到0.9647，而AutoGluon和AutoKeras分别为0.7900和0.7200。这表明我们的方法在处理大规模数据时具有良好的可扩展性。

为了进一步评估各个组件对整体性能的贡献，我们进行了消融实验。实验结果表明，每个LLM驱动的组件对框架的性能都有显著影响。当用传统规则方法替代LLM驱动的数据预处理时，所有数据集的性能都下降，特别是在Credit-g数据集上，准确率从0.7900下降到0.7650，而在Diabetes数据集上，RMSE从0.3999上升到0.4322。这表明LLM在处理多样化的数据格式和结构方面提供了显著的优势。当替代任务识别模块时，性能下降幅度相对较小，但在Credit-g数据集上，准确率从0.7900下降到0.7720，说明任务识别在框架中也起着重要作用。模型选择模块的移除对性能的影响尤为明显，特别是在Diabetes数据集上，RMSE从0.3999上升到0.4533。这表明模型选择是影响框架性能的关键因素之一。超参数优化模块的移除也导致了性能的显著下降，例如在MNIST数据集上，准确率从0.9940下降到0.9801，而在Credit-g数据集上，准确率从0.7900下降到0.7640。这些结果进一步验证了LLM在各个阶段的重要性。

然而，本文提出的LLM驱动AutoML框架也存在一些局限性和伦理考量。首先，框架的性能在很大程度上依赖于底层LLM的质量和知识边界。如果LLM未在特定领域或任务上进行充分训练，可能会生成次优的代码或做出不恰当的架构决策。其次，LLM生成的非确定性可能导致结果不一致，影响科学应用中的可重复性。此外，LLM推理的计算开销引入了延迟和资源需求，这可能限制其在资源受限环境中的实际部署。从伦理角度来看，框架的使用可能引发偏见传播的问题，特别是在涉及敏感领域的应用中，如招聘、贷款或医疗。用户需要保持警惕，评估模型的公平性，并采取适当的偏见缓解措施。隐私问题也值得关注，因为使用基于云的LLM服务可能会导致敏感数据和模型信息被传输到外部提供者。处理机密或受监管数据的组织应仔细考虑本地部署选项或隐私保护技术。

从可扩展性角度来看，当应用于大规模数据集时，框架面临计算和经济上的挑战。LLM的上下文窗口限制使得直接分析超过中等规模的数据集变得困难，因此需要采用抽样策略，这可能影响预处理决策的质量。此外，多个LLM推理调用的累积API成本和延迟可能对企业级应用中的大规模数据集造成显著负担。因此，在实际部署中，需要考虑这些因素，并选择合适的LLM模型和部署策略。

尽管存在这些挑战，LLM驱动的AutoML框架仍具有巨大的潜力。通过自然语言理解和代码生成能力，该框架能够显著提高AutoML的可访问性，使非技术用户也能轻松使用。此外，框架的自适应性和灵活性使其能够处理多样化的数据类型和任务，从而在实际应用中表现出色。未来的研究方向包括扩展框架以支持多模态数据，并探索可解释AI方法的集成，以进一步提高模型的可解释性。同时，我们计划在更广泛的数据集和机器学习任务上进行更全面的实验，以验证框架的通用性和有效性。这些研究将有助于推动AutoML技术的发展，使其更加智能化和用户友好。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号