《Scientific Reports》:Clinical drug report generation using multi-phase prompt large language models
编辑推荐:
准确且及时地综合临床药物信息对从事循证实践和药品目录评估的药剂师至关重要。然而,从多样化数据源中生成结构化摘要仍耗时较长。大语言模型(LLM)的发展为自动化此过程提供了新机遇。本研究旨在建立并评估一个试点推理框架,通过整合多个特定提示词语言模型的输出,自动生成
准确且及时地综合临床药物信息对从事循证实践和药品目录评估的药剂师至关重要。然而,从多样化数据源中生成结构化摘要仍耗时较长。大语言模型(LLM)的发展为自动化此过程提供了新机遇。本研究旨在建立并评估一个试点推理框架,通过整合多个特定提示词语言模型的输出,自动生成结构化初步临床药物报告。该框架兼容基于Transformer架构的LLM,包括领域自适应(Domain-adapted)和指令微调(Instruction-tuned)变体。研究实施了九个独立提示词,用于提取关键临床章节:FDA批准适应症(Indications)、疗效证据(Efficacy Evidence)、临床发现摘要(Summary of Clinical Findings)、给药推荐(Dosing Recommendations)及不良反应谱(Adverse Reaction Profiles)。每个章节单独处理、标准化后自动合并为连贯且可读的报告。研究人员跨模型定性评估了输出可重现性、格式一致性与临床可用性。结果表明,该框架在所有评估模型上均生成了保持章节级准确性与连贯性的结构化可读报告,输出具统一格式、可重现性及临床可解释性且与底层LLM无关。该自动化流程有效减少了人工综合时间并保持了对原始临床内容的忠实度。此推理框架证明了使用多特定提示词LLM自动化生成初步临床药物报告的可行性,其模块化、可重现设计支持集成至药学信息学与药品评估工作流中,为增强临床决策和简化文献综合提供了可扩展工具。
《Scientific Reports》刊载论文解读:基于多阶段提示词大语言模型的临床药物报告自动生成
一、研究背景与立项依据
在临床药学和循证药学实践中,药剂师需从FDA说明书、PubMed文献及临床试验报告中综合药物的适应症、疗效、剂量与安全性信息,形成结构化临床药物报告以支持药品目录评估与临床决策。传统人工综合过程高度依赖专家经验且耗时费力。大语言模型(LLM),如LLaMA、Gemma及BioGPT等,已在临床自然语言处理(NLP)、生物医学知识综合及问答任务中展现潜力,但现有应用多针对单轮问答或非结构化摘要,缺乏支持多章节、格式标准化的临床报告生成基础设施。在药品疗效与安全等强监管领域,输出的一致性(Reproducibility)、格式规范性及临床可用性至关重要,而LLM直接生成易出现格式漂移(Formatting Drift)、幻觉(Hallucination)及跨模型输出不稳定等问题。此外,多数临床NLP流水线紧耦合于特定微调模型,难以在不同LLM间互换比对。为此,研究人员开展了基于多提示词(Multi-prompt)推理架构的模块化框架研究,验证其能否在不重新训练模型前提下,利用九组语义提示词引导不同Transformer架构LLM从非结构化药学文献中提取关键信息,经确定性后处理生成符合药学报告规范的结构化初步临床药物报告,并评估其输出质量与模型无关性。
二、主要关键技术方法
研究人员构建了由五阶段组成的端到端模块化流水线:(A)提示词驱动推理架构——预定义含九个提示词的提示词库P={p?…p?},分别对应FDA适应症、剂量、禁忌症、安全性及疗效等临床子任务,将提示词p?与药物文献文档D?拼接后输入LLM M进行自回归生成r??=M(p?⊕D?),约束输入长度≤Lcontext;(B)模型执行与Token管理——解码参数设为低温采样(Temperature T=0.1~0.8,实验常用T=0.2以提高确定性)与核采样(Top-p Nucleus Sampling, p=0.9),最大生成Token数Lmax依模型设定,超长输入按语义重要性截断;(C)结构化输出变换与格式化——对每个原始输出r??施加模式感知确定性变换函数Ψ?,按预定义模式(Schema)s?进行项目符号归一化(Markdown列表)及表格列对齐校正;(D)报告合并与导出——将各章节结构化输出t?按顺序合并为完整报告R=⊕nk=1t?,保存为.txt原始版并用LaTeX或Pandoc渲染为PDF,文件含时间戳与模型标识以便追溯;(E)推理优化与流水线工程——采用混合精度(FP16)推理、Prompt预分词与Token缓存、内存预分配及批处理以提升吞吐量,记录日志便于复现。评估以曲坦类(Triptans, 5-HT1B/1D受体激动剂)抗偏头痛药物为测试对象,构建手工校对的含FDA标签与指南来源的领域参照数据集,含100篇相关文献子集,选用五款LLM测试:Custom LLaMA 3 8B(PubMed领域自适应)、OpenChat 3.5 7B、Mistral 7B v0.1、Meta LLaMA 3 8B(Base)、Gemma 7B Instruction。语义对齐采用BERTScore_F1、SBERT余弦相似度(Sentence-BERT Cosine Similarity)及COMET(Cross-lingual Optimized Metric for Evaluation of Translation)指标,放弃BLEU/ROUGE。
三、研究结果
Generation quality: structured table reproduction(结构化表格再现质量)
研究人员以曲坦类药物FDA批准适应症表及安全性速查表为基准,评估框架从非结构化临床文献中重建结构化表格的能力。结果显示生成表格在结构与内容上与原参照高度吻合,涵盖所有主要曲坦药物及其区分(急性偏头痛伴/不伴先兆治疗 vs 丛集性头痛急性期),安全表准确复现药物相互作用、监测要求、禁忌症及显著不良反应四列。表明领域特定提示模板配合后处理可有效引导LLM输出符合临床文档规范之表格。
Accuracy and fidelity of textual output(文本输出准确性与忠实度)
定性分析"鉴别特征(Differentiating Characteristics)"与"疗效(Efficacy)"叙述段,生成文本正确识别5-HT1B/1D受体激动机制、给药时机建议(症状出现后尽早)及避免与硝酸酯类联用等安全警示,不良反应罗列准确且保留项目符号格式。疗效段捕捉到比较试验结果(如Eletriptan在2小时头痛缓解率上统计显著优于Naratriptan),但存在遗漏样本量及具体统计量的现象,提示需增强定量提取逻辑。
Reference dataset construction and evaluation metrics(参照数据集构建与评价度量)
为弥补公开语料缺乏章节级临床结构化标注,研究人员整合FDA说明书与同行评议文献构建曲坦类参照数据集,按固定Schema映射各章节(适应症、剂量、禁忌症、不良反应、疗效、安全性考量、药物鉴别特征),经术语归一化与去重。评价流水线批量对齐生成输出与各章节参照,计算BERTScore_F1(上下文嵌入词级语义相似)、SBERT余弦相似度(句级释义与术语变异捕获)及COMET(段落级流利度与充分性),三者侧重语义保真而非n-gram重叠。
Evaluation metrics for factual overlap(事实重叠评价指标应用结果)
五模型在Efficacy章节生成覆盖率100%,非空内容覆盖率93.0%~100.0%。OpenChat 3.5 7B获最高BERTScore_F1(81.12)与SBERT余弦相似度(79.52);Custom LLaMA 3 8B紧随其后(BERTScore_F1=80.58, COMET=50);Mistral 7B v0.1与Meta LLaMA 3 8B(Base) BERTScore_F1略高于80;Gemma 7B Instruction得分最低(BERTScore_F1=77.81, SBERT=60.83, COMET=49),显示未经微调之通用指令模型在领域结构化文本再现上受限。低分案例多集中于Gemma 7B Instruction与Mistral 7B v0.1,表现为过度简略致关键限定语缺失或过度冗长降低事实清晰度。
Limitation (quantitative extraction and evidence grounding)(局限:定量提取与证据溯源)
框架对表格结构与叙述语义对齐良好,但在多治疗方案研究中偶有漏提样本量、具体统计量(如OR/RR值及置信区间),源于生物医学文献中数值常以异质格式嵌入密集正文、多行表或亚组分析且无统一分母标识。此外当前流水线未实现声明级(Claim-level)证据溯源——即未将生成数值主张映射至源文Span,故语义指标无法检测孤立数字幻觉。作者指出未来需引入定量变量(组别/终点/测度/统计量)实体关系抽取及表解析恢复分母,配合证据跨度对齐作自动事实验证。
Multilingual extension and regulatory document integration(多语言扩展与监管文件整合)
模块化提示词库与Schema感知变换函数支持两种多语言方案:译后提取(Translate-then-extract)或直接多语言提取(提示词本地化),需规范化药品名称、不良事件术语及单位。监管文件(风险管理计划RMP、临床方案)可作首要证据源,以检索增强(Retrieval-Conditioned Evidence Layer)方式附加于各提示词,按管辖权优先级约束适应症与安全声明输出,提升可追溯性与权威性。
四、讨论与结论总结
研究人员指出,所提多提示词模块化推理框架可在无模型重训练前提下,通过九组领域提示词、模式对齐(Schema Alignment)及确定性后处理,使多种Transformer架构LLM从非结构化生物医学文献中生成具章节级可重现性、格式统一且语义忠实于参照之结构化临床药物初步报告,显著减少人工综合时间。OpenChat 3.5 7B与PubMed预训练之Custom LLaMA 3 8B表现最优,证明提示工程优化与后处理策略可弥补通用基模之不足。框架局限性在于定量数值精确绑定及声明级证据溯源缺失,需在后续加入表解析、定量实体关系抽取及幻觉检测层。未来工作将扩展治疗类别覆盖、纳入监管文档、完善多语言支持并引入临床专家回路(Expert-in-the-loop)反馈以进一步提升可信度与适用性。该推理框架为药学信息学(Pharmacy Informatics)与药品评估工作流提供了可扩展、模型无关的自动化文献综合工具原型。