
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于语义模式的开源敏捷实践中问题标注优化:机器学习与自然语言处理的集成方法
【字体: 大 中 小 】 时间:2025年07月31日 来源:Knowledge-Based Systems 7.6
编辑推荐:
为解决敏捷开发中软件缺陷分类的准确性与可解释性平衡问题,Nevena Rankovic团队开展了一项结合XGBoost、LightGBM和CatBoost等ML模型与TF-IDF、SVD等NLP技术的研究。通过TAWOS数据集验证,CatBoost在"High"级缺陷分类中达到99.61%准确率,SHAP分析揭示"crash"等关键语义特征。该研究为软件维护提供了高效预处理框架,显著提升缺陷分诊效率。
在快速迭代的敏捷软件开发领域,缺陷分类的准确性和效率直接影响项目成败。传统方法面临语义理解不足、资源分配失衡等挑战,特别是对"Blocker"、"Critical"等关键缺陷的识别常出现滞后。荷兰蒂尔堡大学(Tilburg University)认知科学与人工智能系的Nevena Rankovic团队在《Knowledge-Based Systems》发表研究,通过集成机器学习(ML)与自然语言处理(NLP)技术,构建了新型缺陷分类体系。
研究采用TAWOS数据集(含26个项目31,960条缺陷记录),通过TF-IDF(词频-逆文档频率)和SVD(奇异值分解)进行特征提取,对比评估了XGBoost、LightGBM和CatBoost模型性能。创新性地引入SHAP(SHapley Additive exPlanations)解释模型决策机制,并系统验证了数据增强(如TVAE)与预处理(词形还原、离群值处理)的影响。
关键发现:
讨论与意义:
该研究通过可解释AI技术,首次系统量化了缺陷描述中语义模式与严重程度的映射关系。提出的预处理框架(含词形还原、截断正态分布等)为工业级应用提供标准化方案。特别值得注意的是,CatBoost在稀疏特征(如"To Be Reviewed"类)表现相对较弱(ROC-AUC 79.19%),暗示未来需融合深度学习特征。
这项工作的实践价值体现在三方面:
研究同时指出,当前模型对跨语言项目(如Java与Python混合代码库)的泛化能力有待验证。作者建议未来结合BERT等上下文感知模型,并探索缺陷报告与代码变更的跨模态关联。这些发现为构建下一代智能软件开发工具链奠定了重要基础。
生物通微信公众号
知名企业招聘