基于IDAP-APE的面向人类价值识别的多标签灾害推特分类：由不准确性驱动主动提示（Inaccuracy-Driven Active-Prompt, IDAP）与自动提示工程师（Automatic Prompt Engineer, APE）赋能的示例提示构建

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Progress in Energy and Combustion Science》：Multi-label disaster tweet classification for human value identification via IDAP-APE: Example prompt construction enabled by inaccuracy-driven active-prompt and automatic prompt engineer

【字体：大中小】 时间：2026年06月09日 来源：Progress in Energy and Combustion Science 37

编辑推荐：

　　研究人员开发了一种能有效识别灾害推特中人类价值的多标签分类方法，对理解动态灾害受影响环境中不断变化的优先级至关重要。大语言模型（Large Language Model, LLM）在由包含代表性示例的任务指令（示例提示）引导时，有潜力改进推特分析。本研究提出了

研究人员开发了一种能有效识别灾害推特中人类价值的多标签分类方法，对理解动态灾害受影响环境中不断变化的优先级至关重要。大语言模型（Large Language Model, LLM）在由包含代表性示例的任务指令（示例提示）引导时，有潜力改进推特分析。本研究提出了一种用于多标签灾害推特分类的提示框架——IDAP-APE。该框架提出了IDAP，一种新颖的示例选择机制，它基于通过排名策略聚合来自三个指标的综合分类不准确性，为上下文学习识别信息丰富、值得标注的示例；并扩展了研究人员先前开发的、集成定义的、多步自动提示工程师（Genetic Algorithm-driven, Definition-integrated, Multistep Automatic Prompt Engineer, GADM-APE）框架，使其适用于多标签分类。研究人员进行了定量分析，考察了(1)扩展马修斯相关系数（Matthews Correlation Coefficient, MCC）用于多标签分类中提示优化的有效性；(2)最优示例规模；以及(3)基于排名的聚合对不准确性估计的影响。IDAP-APE在两个灾害数据集上对比了三种基线提示方法、七种机器学习算法和五种微调语言模型。结果表明，它优于所有基线，并在两场灾害事件中表现出一致的性能。本研究通过实现从社交媒体数据中实时识别人类价值，促进了包容且以人为本的决策，从而推进了灾害信息学的发展。

论文解读：基于IDAP-APE的灾害推特多标签人类价值识别研究

研究背景与问题提出

在灾害应对中，理解受灾人群的动态优先级对于制定包容且以人为本的策略至关重要，这些优先级根植于人类价值（Human Values）。随着社交媒体（如Twitter/X）成为灾害期间的“社会感知（Social Sensing）”渠道，海量、嘈杂且非结构化的推特数据蕴含了实时的公众关切。然而，单条推特常同时表达多种价值（如安全与资源效率），属于典型的多标签分类（Multi-label Classification）问题。

现有研究多聚焦单标签分类，而传统的多标签监督机器学习（ML）及深度学习方法依赖大量标注数据，这在灾害初期往往难以获取。虽然大语言模型（Large Language Model, LLM）通过上下文学习（In-context Learning）和提示工程（Prompt Engineering）减少了对标注数据的依赖，但现有主动提示（Active-Prompt）多依赖单一不确定性指标（如熵、分歧），忽略了模型的实际误分类率（Error Rate），且在多标签场景下的提示优化尚不充分。为此，研究人员开展了本研究，提出了IDAP-APE框架。

关键技术与方法

研究人员以飓风Laura和Ida的推特数据集为样本队列来源，开展了以下核心技术研究：

1.
多标签提示优化扩展：将原有的GADM-APE框架扩展至多标签场景，采用扩展的马修斯相关系数（Matthews Correlation Coefficient, MCC）作为遗传算法（Genetic Algorithm, GA）的适应度函数，自动搜索最优提示（Prompt）。
2.
不准确性驱动主动提示（IDAP）：定义“不准确性”为不确定性（分歧Disagreement、熵Entropy）与实测误分类率（Error Rate）的复合。通过多次推理采样，计算候选推特的三个指标。
3.
基于排名的聚合（Rank-based Aggregation）：按误差率>熵>分歧的层级优先级对样本排序，选出前m个信息量最大的推特作为示例（Exemplars）。
4.
示例构建与整合：结合真值（Ground Truth）让LLM生成思维链（Chain-of-Thought, CoT） rationale，将示例集E嵌入最优提示ρ中，形成少样本（Few-shot）输入。
5.
评估基准：对比基线提示、7种ML算法（SVM、随机森林等）及5种微调预训练模型（BERT、RoBERTa等）。

研究结果

4.1 上下文与数据集准备

研究人员基于人类价值理论定义了14个子类值（分属保守、求新、自我超越、自我增强四大主题）。从原始百万级推特中经关键词筛选、预处理获得约34%相关推文，手动标注3000条（Dataset I-III），并采用SMOTE处理类别不平衡。

4.2 定量分析与参数确定

•
提示评分指标对比：以MCC、Accuracy、Hamming Loss等为优化目标迭代。结果显示MCC引导的优化收敛更稳定，获得的最高MCC更优，适合多标签不平衡评估。
•
示例规模（Exemplar Size）确定：逐步增加示例数（10-150）。MCC随示例数上升，约在70个示例时趋于饱和（MCC≈0.867），后续增益边际递减但计算成本（$与分钟）显著上升，故确定70为最优规模。
•
排名聚合方法评估：单指标（D/E/R）、两两组合、加权融合与排名聚合对比。排名聚合的IDAP取得最高MCC（0.846），优于基线Active-Prompt（D:0.786, E:0.796, R:0.805）及各种加权法，证明复合不准确性与层级排名的有效性。

4.3 跨分类器性能评估

•
对比基线提示：在Laura与Ida测试集上，IDAP-APE（准确率0.96/0.95，F1 0.87/0.84）优于手动提示、GADM-APE及单指标Active-Prompt，显示自动优化+IDAP示例选择的叠加优势。
•
对比传统ML：七种ML模型在准确率（0.89-0.93）上尚可，但召回率（0.43-0.69）与F1（0.52-0.71）明显低于IDAP-APE，说明传统ML难以全面捕捉多标签价值表达。
•
对比微调预训练模型：BERT、RoBERTa、XLM-R、DistilBERT及Llama 3.1（LoRA微调）的F1多在0.70-0.79区间，IDAP-APE仍领先，且无需更新参数，具备跨事件（Laura→Ida）迁移能力。

4.4 不同LLM的权衡分析

在GPT-4o-mini、GPT-4o、GPT-5、Llama 3.1（8B/70B）、Claude 3.5、Gemini 1.5上测试。GPT-4o-mini实现了最佳效费比（MCC=0.846，成本$3.14，时间23.3分）。更大模型（GPT-4o/GPT-5）微升性能但成本剧增；开源小模型成本低但性能下滑。IDAP-APE的提示构建阶段（优化+选例）仅需一次，部署时单条推特单次推理即可泛化到新灾害。

讨论与结论总结

研究人员提出并验证了IDAP-APE框架，核心贡献在于：

1.
方法论上：将GADM-APE扩展至多标签，引入IDAP示例选择机制，通过分歧、熵与误分类率的排名聚合，更全面地捕捉模型“不准确性”，提升上下文学习效果。
2.
实证上：在双灾害数据集上证实，(1) MCC是更稳健的多标签提示优化指标；(2) 约70个精选示例平衡效能与开销；(3) 排名聚合由于单/双/加权指标；(4) IDAP-APE优于基线提示、主流ML及微调语言模型，且在跨事件（Laura→Ida）中保持高性能。
3.
实践意义上：该框架无需大量标注与参数微调，通过一次性构建的可迁移示例提示，将高噪灾害推特转化为可操作的人类价值情报，支持实时、以人为本的应急决策（如资源调配、公卫、社区恢复）。

结论翻译：

本研究提出了IDAP-APE，用于构建面向多标签灾害推特分类（聚焦人类价值识别）的任务特定示例提示。框架通过引入IDAP示例选择策略，战略性识别高效示例并与原GADM-APE整合。IDAP由不准确性估计（聚合分歧、熵、误分类率）与基于排名的聚合方法支撑。定量分析了MCC扩展有效性、最优示例规模及排名聚合效果。相比三类基线，IDAP-APE均更优，且在无新事件训练数据下取得更高召回与F1。提示优化与示例选择仅需一次构建，所得提示可直接跨灾害应用（单条推特单次推理）。跨LLM分析显示GPT-4o-mini在性能与效率间最佳平衡。IDAP-APE推进了提示工程前沿，为多标签灾害推特分析提供了稳健、可扩展的提示方案。

联系信箱：

粤ICP备09063491号

论文解读：基于IDAP-APE的灾害推特多标签人类价值识别研究

研究背景与问题提出

关键技术与方法

研究结果

讨论与结论总结

热点排行