编辑推荐:
COVID-19 对高危人群威胁显著,早期预测病情至关重要。研究基于 ChatGLM 模型,构建专门提示并采用多目标学习策略,利用 LLMs 处理含缺失值的血清学指标数据。结果显示 CovidLLM 性能优于传统模型,为疾病预测提供新方向。
2019 年出现的冠状病毒病(COVID-19)已在全球造成数百万人死亡。尽管已开发出有效疫苗减轻严重症状,但老年人群及合并基础疾病者仍面临严重结局和死亡风险增加的高风险。因此,早期识别这类患者的疾病严重程度和临床结局对预防不良预后至关重要。传统机器学习和深度学习模型已广泛应用于该领域,但大语言模型(LLMs)的潜力尚未充分探索。本研究主要聚焦于构建专门提示并采用多目标学习策略。研究人员首先选择与临床结局和疾病严重程度显著相关的血清学指标作为模型输入数据。血液检测样本常包含大量缺失值,传统模型通常依赖插补处理数据缺口,而 LLMs 具备强大的语言处理能力和一定语义理解能力。通过设置提示,可在特征值缺失时明确告知模型,无需进行插补。对于多目标学习策略,模型设计为先预测疾病严重程度,再预测临床结局。鉴于 LLMs 利用输入文本和生成的标记作为生成下一个标记的输入,预测的严重程度被用作生成临床结局的基础。在 LLM 微调过程中,两个目标相互影响、相互提升。实验基于 ChatGLM 模型开展。结果显示,CovidLLM 在预测疾病严重程度和临床结局方面表现优于其他传统模型。研究结果证明了 LLMs 在该任务中的有效性,表明其具有进一步发展的潜力。