基于机器学习和自然语言处理的患者投诉智能分类系统：开发与验证研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月19日 来源：Journal of Medical Internet Research 5.8

编辑推荐：

　　为解决医疗投诉人工分类效率低、准确性差的问题，研究人员开发了基于机器学习(ML)和自然语言处理(NLP)的智能分类系统。通过支持向量机(SVM)算法和TF-IDF特征提取技术，在1465例投诉数据中实现平均准确率0.91，外部验证AUC达0.94。该系统为高投诉量医疗机构提供了高效自动化解决方案。

在医疗服务质量日益受到关注的今天，医院每天需要处理大量患者投诉，但传统人工分类方式效率低下且容易出错。以杭州某医院为例，其患者权益保护中心(PAC)每天仅能处理10起投诉，积压案件超过5400例，严重影响了医疗纠纷的及时解决。这种低效的处理模式不仅延误问题整改，还可能因响应不及时引发二次投诉，成为制约医疗质量提升的瓶颈。

为破解这一难题，杭州红十字会医院的研究团队创新性地将人工智能技术引入投诉管理领域。他们收集了2015-2019年间1817例投诉数据，通过ChatGPT 3.5将中文投诉翻译为英文并经专业人员校对，构建了首个中英双语医疗投诉数据库。研究采用词频-逆文档频率(TF-IDF)技术提取文本特征，针对数据不平衡问题应用合成少数类过采样技术(SMOTE)，最终比较了多元逻辑回归(MLR)、多项式朴素贝叶斯(MNB)和支持向量机(SVM)三种算法的分类性能。

关键技术包括：(1)使用jieba分词工具进行隐马尔可夫模型二元语法(HMM-Bigram)分词；(2)采用Word-level和Ngram-level两种TF-IDF特征提取策略；(3)通过5折交叉验证评估模型泛化能力。研究数据来自杭州红十字会医院(训练集1465例)和杭州肿瘤医院(外部测试集376例)。

研究结果显示：

特征提取效果：Ngram-level TF-IDF(n=2)仅使分类性能提升1%，证明简单的Word-level方法已能满足需求。
模型比较：SVM表现最优，训练集加权准确率达0.93，在沟通问题和管理问题分类中AUC分别达到0.94和0.81。
外部验证：5折交叉验证显示SVM对沟通问题的分类稳定性最高(SD<0.1)，但对责任意识类投诉识别较弱(AUC=0.7)。
语义分析：高频词统计有效揭示了各类投诉的核心特征，如"解释不足"是沟通问题的主要关键词。

讨论部分指出，该研究首次实现了中文医疗投诉的自动化分类，相比英国开发的医疗投诉分析工具(HCAT)等半自动化系统具有明显优势。虽然SVM算法在训练过程中存在随机梯度下降(SGD)带来的波动问题，但其整体性能优于深度学习模型，且更符合医疗场景对模型可解释性的要求。研究创新性地采用机器翻译解决中文NLP技术瓶颈，为小样本医疗文本分析提供了新思路。

这项发表在《Journal of Medical Internet Research》的成果，为投诉量大的医疗机构提供了高效分类工具。未来研究将扩大数据规模，并开发基于BERT模型的图形化界面，进一步提升系统实用性。该技术的推广应用有望显著缩短投诉响应时间，从根本上改善医患关系管理效能。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号