
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型与降噪技术的警用机器人报警文本少样本分类方法(FSTC-LLM)研究
【字体: 大 中 小 】 时间:2025年07月15日 来源:Biomaterials 12.8
编辑推荐:
为解决警用机器人在报警分析过程中存在的样本不足和模型泛化能力弱等问题,清华大学与智谱AI团队创新性地提出FSTC-LLM框架,通过LoRA微调ChatGLM3-6B模型生成增强样本,结合置信度学习降噪模块,在THUCNews和报警数据集上分别实现92.32%和89.06%的分类准确率,显著提升警务自动化分析效能。
在警务智能化进程中,警用机器人面临报警文本分类的严峻挑战:专业领域标注数据稀缺导致传统深度学习模型易过拟合,而大语言模型(LLM)在特定场景下存在"幻觉输出"和专业性不足等问题。这种困境严重制约了机器人在接警调度等核心警务场景的应用效能。
清华大学与智谱AI的研究团队在《Biomaterials》发表的研究中,开创性地构建了FSTC-LLM(Few Shot Text Classification Frame Assisted by Large Language Model)框架。该研究通过多阶段技术路线实现突破:首先设计5种专业提示模板(Prompt)优化ChatGLM3-6B的微调效果;采用参数高效微调技术LoRA(Low-Rank Adaptation)生成增强样本;创新性引入置信度学习(Confidence Learning)模块,通过五折交叉验证的Albert模型计算联合概率分布,有效滤除4.3%-5.4%的噪声样本。
研究结果显示,在THUCNews公开数据集上,20shot样本经FSTC-LLM-ERNIE模型处理后的分类准确率达92.32%,较基础LLM提升1.11%;在专业报警数据集上,30shot样本的分类准确率提升至89.06%。消融实验证实,未经过置信度学习降噪的Xdirty数据集性能显著下降,验证了噪声过滤机制的关键作用。
这项研究的意义在于:首次将LLM与置信度学习相结合应用于警务文本分类,提出的FSTC-LLM框架仅需少量标注样本即可达到商用级分类精度,解决了专业领域数据获取成本高的行业痛点。方法论上,提出的Prompt-LoRA-Confidence Learning技术路线为小样本学习提供了新范式。实际应用中,部署在警用机器人上的FSTC-LLM-ERNIE模型可实现每秒15条报警文本的实时分析,为智慧警务建设提供了可靠的技术支撑。未来该框架可扩展至声纹识别、图像处理等多模态警务场景,推动人工智能在公共安全领域的深度融合应用。
生物通微信公众号
知名企业招聘