FlowLLM：基于大语言模型的交互式流场可视化系统——提升自然语言界面理解与多轮对话能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Visual Informatics》：FlowLLM: Large language model driven flow visualization

【字体：大中小】 时间：2025年09月21日 来源：Visual Informatics 3.9

编辑推荐：

　　为解决流场可视化中自然语言界面（NLI）存在歧义、缺乏多轮对话支持及交互灵活性不足的问题，研究人员开展基于大语言模型（LLM）的FlowLLM系统研究。通过指令微调（Instruction Tuning）和多样化数据集训练，显著提升了对复杂语义的理解能力，支持多语言和语音输入，实现了低延迟视频传输。该系统在流场结构提取准确性和用户交互体验方面取得重要突破，为科学可视化领域提供了更直观高效的分析工具。

在科学可视化领域，流场可视化一直是帮助领域专家直观理解复杂流动数据的重要工具。传统的可视化技术通常采用固定准则放置流线（streamlines）或聚焦预定义特征类型（如鞍点、涡旋、临界点），这些方法虽为理解流动动力学提供了基础，却难以满足不同应用场景和用户偏好的多样化需求。近年来，交互式技术的发展通过图形界面、模式查询、谓词逻辑和实体界面等方式实现了一定程度的定制化，但图形界面的复杂性需要大量学习成本，而实体界面又受限于交互自由度。更令人遗憾的是，尽管自然语言界面（NLI）在视觉数据探索中展现出潜力，但现有系统如FlowNL仍面临自然语言歧义、语法约束严格以及缺乏多轮对话支持等核心问题，严重限制了其在复杂分析场景中的应用效果。

为了突破这些局限，来自中山大学的研究团队在《Visual Informatics》上发表了题为"FlowLLM: Large language model driven flow visualization"的研究论文。该研究基于FlowNL系统进行增强，引入了大语言模型（LLM）驱动的FlowLLM系统，通过指令微调（Instruction Tuning）和多样化训练数据，显著提升了系统对自然语言表达的理解能力和上下文维持能力。研究人员还创新性地开发了先进的对话管理系统，支持用户与系统之间的交互式连续通信，并扩展了流场模式库，引入了语音输入功能。实证研究表明，FlowLLM在用户参与度和流场结构提取准确性方面均有显著提升。

研究团队采用了几项关键技术方法：首先基于FlowNL的对象定义机制，将对象分为原始对象（结构化网格和非结构化点）和派生对象；其次利用精心设计的提示模板（prompt template）将用户查询转换为声明式语言；最后通过对GPT-3.5-turbo进行微调，使用包含约500个查询的数据集进行训练，其中200个经过语义消歧处理。值得一提的是，团队还从50万个流线片段中通过BIRCH和k-means聚类算法识别出50种流场模式，并手动验证其可视化效果。系统采用WebRTC技术实现低延迟（约80ms）视频传输，显著改善了用户体验。

研究结果方面，论文通过多个维度展示了FlowLLM的系统性能：

在歧义消解能力方面，研究设计了12类存在逻辑歧义的查询语句，通过对9名具有不同学术背景的参与者进行调研，对比了FlowLLM与FlowNL的输出结果。如图6所示，对于"显示来自印度洋和中国的流"这样的查询，FlowLLM正确理解为"显示来自印度洋或中国的流"，而FlowNL则错误解析为"([流] & [来自印度洋]) & [中国]"。类似地，在处理包含"或"逻辑的复杂查询时，FlowLLM能准确理解语义，而FlowNL则出现逻辑判断错误。

在复杂查询处理方面，FlowLLM展现了出色的语义上下文理解能力。对于"显示来自中国的流；展示其在高纬度地区的片段；调整其风速为10；并将其颜色更新为红色"这样的复合查询，FlowLLM能成功解析并生成正确的声明式语言命令，甚至能将"高纬度地区"定量转换为北纬60度以上的属性过滤参数。

在多轮交互测试中，研究人员使用欧洲中期天气预报中心（ECMWF）数据集进行案例研究。当用户先后查询"显示大规模螺旋流"和"显示螺旋流"后，只需输入"隐藏前者"即可准确隐藏之前提到的大规模螺旋流。更复杂的是，在查询"显示低纬度的环流"后继续要求"将其高经度部分着色为红色"，FlowLLM不仅能理解"其"指代前文提到的环流，还能准确定位高经度区域并将相应部分着色为红色。

在领域无关探索方面，研究团队在血管流数据集VSFS9上进行了验证实验。仅通过修改提示中的数据集描述，无需参数微调，FlowLLM就能适应新领域数据。即使进行领域特定微调，准确率提升也微不足道，这表明系统的主要优势在于理解声明式语言框架的底层结构和语义，而非记忆特定领域的数据模式。

在用户友好交互方面，FlowLLM集成了语音输入转换功能，支持多语言输入（包括中英文），并能处理更随意的查询表达。如"我想看一些流并用黑色着色"这样的日常语言表达，系统也能有效处理。同时，通过中文语音输入查询"显示龙卷风"，系统能准确显示用橙色流线表示的龙卷风结构。

研究结论表明，FlowLLM通过集成大语言模型，有效解决了FlowNL存在的自然语言歧义和多轮对话支持不足的问题。系统支持多语言输入和语音交互，显著提升了流场可视化的交互自由度和用户体验。低延迟视频传输技术的应用进一步保证了系统的实用性和流畅性。尽管在某些复杂查询中仍可能存在公式输出不一致的局限性，且可视化技术目前仅限于流线动画和点云显示，但这项研究为科学可视化领域的自然语言交互提供了新的解决方案，极大地扩展了流场可视化系统在实际应用中的适用性和可访问性。

研究的讨论部分强调，FlowLLM的成功实施标志着自然语言界面在科学可视化领域的重要进展。通过大型语言模型的强大语义理解能力，系统能够更好地理解用户的真实意图，减少交互过程中的认知负担。同时，多轮对话支持的实现使复杂分析任务的逐步细化成为可能，这对于需要多次迭代调整的科学探索过程尤为重要。研究人员指出，未来的工作将专注于进一步提高系统准确性保证机制，并集成更先进的可视化技术（如积分曲面、直接体积渲染等）以揭示更复杂的流场结构。

联系信箱：

粤ICP备09063491号

热点排行