基于语义模式的开源敏捷实践中问题标注优化：机器学习与自然语言处理的集成方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月31日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　为解决敏捷开发中软件缺陷分类的准确性与可解释性平衡问题，Nevena Rankovic团队开展了一项结合XGBoost、LightGBM和CatBoost等ML模型与TF-IDF、SVD等NLP技术的研究。通过TAWOS数据集验证，CatBoost在"High"级缺陷分类中达到99.61%准确率，SHAP分析揭示"crash"等关键语义特征。该研究为软件维护提供了高效预处理框架，显著提升缺陷分诊效率。

在快速迭代的敏捷软件开发领域，缺陷分类的准确性和效率直接影响项目成败。传统方法面临语义理解不足、资源分配失衡等挑战，特别是对"Blocker"、"Critical"等关键缺陷的识别常出现滞后。荷兰蒂尔堡大学（Tilburg University）认知科学与人工智能系的Nevena Rankovic团队在《Knowledge-Based Systems》发表研究，通过集成机器学习（ML）与自然语言处理（NLP）技术，构建了新型缺陷分类体系。

研究采用TAWOS数据集（含26个项目31,960条缺陷记录），通过TF-IDF（词频-逆文档频率）和SVD（奇异值分解）进行特征提取，对比评估了XGBoost、LightGBM和CatBoost模型性能。创新性地引入SHAP（SHapley Additive exPlanations）解释模型决策机制，并系统验证了数据增强（如TVAE）与预处理（词形还原、离群值处理）的影响。

关键发现：

模型性能比较：CatBoost在"High"级缺陷分类中创99.61%准确率，较XGBoost（98.93%）和LightGBM（99.21%）优势显著。"Critical"和"Blocker"级分类准确率分别达97.73%和97.65%。
特征工程价值：TF-IDF结合SVD使"Medium"级缺陷F1-score提升至78.86%，证明降维对噪声过滤的有效性。
语义特征识别：SHAP分析揭示"crash"（SHAP值+0.32）、"timeout"（+0.28）等词汇对高危缺陷预测贡献最大，而"minor"等词与低优先级强相关。
预处理策略：非过采样策略使ROC-AUC提升21%，反常规地证明过采样在多元分类中的负面效应。

讨论与意义：
该研究通过可解释AI技术，首次系统量化了缺陷描述中语义模式与严重程度的映射关系。提出的预处理框架（含词形还原、截断正态分布等）为工业级应用提供标准化方案。特别值得注意的是，CatBoost在稀疏特征（如"To Be Reviewed"类）表现相对较弱（ROC-AUC 79.19%），暗示未来需融合深度学习特征。

这项工作的实践价值体现在三方面：

流程优化：通过早期缺陷分级，可将关键缺陷修复周期缩短约45%；
成本控制：精确分类使资源浪费减少30%，尤其对"Major"级缺陷的误判率降低61%；
方法论创新：建立的SHAP-TFIDF-SVD技术链为软件工程领域的文本分析提供新范式。

研究同时指出，当前模型对跨语言项目（如Java与Python混合代码库）的泛化能力有待验证。作者建议未来结合BERT等上下文感知模型，并探索缺陷报告与代码变更的跨模态关联。这些发现为构建下一代智能软件开发工具链奠定了重要基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号