通过使用多目标超参数调优和焦点损失(focal loss)技术来最小化不必要的税务审计
《Frontiers in Artificial Intelligence》:Minimizing unnecessary tax audits using multi-objective hyperparameter tuning of XGBoost with focal loss
【字体:
大
中
小
】
时间:2025年10月17日
来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
检测企业税务数据非合规的机器学习方法及优化研究。
在当前全球范围内,税务合规与企业数据准确性已成为监管机构面临的重要挑战之一。随着企业数量的快速增长以及数据记录的复杂性增加,如何高效地识别企业数据中的不合规情况,成为提升监管效率和减少误判的关键问题。本研究提出了一种结合多种机器学习技术的综合方法,旨在通过改进模型的性能和可解释性,有效检测企业在地址、董事和创始人信息方面的不合规行为。通过利用监督学习、异常检测和半监督学习相结合的方式,研究不仅提升了分类准确率,还为监管机构提供了可解释的模型决策依据,从而帮助其更高效地进行税务审查和风险控制。
研究的核心在于处理数据不平衡和模型可解释性之间的矛盾。传统的分类方法在面对不平衡数据时,往往难以有效区分多数类和少数类,导致模型在检测异常数据时存在偏差。为了解决这一问题,研究采用了XGBoost作为主要的监督学习模型,并引入了Focal Loss机制,以增强对少数类样本的识别能力。Focal Loss通过调整损失函数,使得模型在训练过程中更加关注那些分类难度较大的样本,从而在不牺牲模型性能的前提下,有效缓解数据不平衡问题。此外,为了在提高预测能力的同时保持模型的可解释性,研究还结合了NSGA-II算法进行多目标超参数优化,该算法在多个相互冲突的目标之间寻找最优解,例如在最大化ROC-AUC(接收者操作特征曲线下面积)和最小化决策树数量之间取得平衡。这种优化策略不仅提高了模型的准确性,还使其在实际应用中更加易于理解和解释,有助于监管机构在执行税务合规任务时做出更明智的决策。
研究的数据集来自俄罗斯联邦税务服务局,涵盖了2024年前三季度约100万条公司税务记录。这些数据包括公司地址、董事和创始人信息等关键字段。通过对数据的深入分析,研究发现,公司年龄、员工数量、地址与企业历史记录的匹配情况等特征对识别不合规行为具有重要意义。例如,数据表明,新注册的企业更可能在地址、董事和创始人信息上出现不合规问题,这可能与这些企业在合规意识、制度建设以及数据管理上的不足有关。通过筛选出年轻企业(成立时间不超过3年)且员工数量较少(少于100人)的样本,研究进一步优化了数据分布,提高了模型在关键类别上的识别能力。
为了进一步提升模型的性能,研究还引入了深度半监督学习(DSSL)方法,并结合了特征注入异常检测(FIAD)框架。FIAD利用图神经网络(GNN)来识别数据中的异常模式,它不仅关注节点属性的异常,还考虑了节点之间的结构关系。通过这种方式,模型能够更全面地捕捉到数据中的潜在问题,从而提升其检测能力。此外,将异常分数作为额外特征引入模型,使得DSSL模型在预测公司数据的准确性方面取得了显著提升,这表明异常检测方法在识别数据偏差方面具有重要价值。
在实验中,研究采用了多种机器学习模型进行比较,包括监督学习中的XGBoost、随机森林、AdaBoost等,以及异常检测中的LOF、Isolation Forest和自动编码器。结果显示,XGBoost在监督学习模型中表现最为突出,而DSSL模型则在非监督学习中取得了更高的分类准确率。然而,由于数据不平衡的存在,异常检测方法在识别不合规企业方面表现不佳,这表明在某些情况下,监督学习方法更适用于该任务。此外,NSGA-II优化后的XGBoost模型在多个目标之间实现了更优的平衡,例如在保持较高分类准确率的同时减少了决策树的数量,从而提升了模型的可解释性。
模型的可解释性是本研究的重点之一。通过SHAP分析,研究揭示了影响公司数据合规性的关键特征。例如,在地址有效性方面,企业是否与之前不合规的实体有关联、企业成立时间以及是否涉及房产登记等特征对模型预测结果具有显著影响。这些发现为监管机构提供了重要的决策依据,使其能够识别出高风险企业并采取相应的措施。SHAP分析还表明,企业信息的不一致性,如区域不匹配、缺乏税务申报、董事或创始人存在不良记录等,是判断企业是否合规的重要指标。这些特征的识别不仅有助于提升模型的准确性,还为监管政策的制定提供了支持。
在实际应用中,模型的性能不仅取决于其预测能力,还受到数据质量、特征工程和优化策略的影响。本研究通过多方面的数据处理和特征工程,确保了模型能够更有效地识别潜在的不合规情况。此外,通过引入Focal Loss和NSGA-II优化策略,研究在提高模型准确率的同时,也增强了其在实际税务监管中的实用性。这表明,未来的税务监管系统可以通过引入这些先进的机器学习技术,实现更高效、更精准的不合规检测,同时减少不必要的审计任务,提高合规审查的整体效率。
尽管本研究取得了一定成果,但仍然存在一些局限性。首先,数据集仅涵盖了年轻企业,这可能影响模型在更广泛企业群体中的适用性。因此,未来的研究可以考虑扩展数据集,包括更多不同年龄和规模的企业,以提高模型的泛化能力。其次,数据不平衡问题仍然存在,尽管通过筛选和优化策略有所缓解,但进一步探索更先进的不平衡处理方法,如过采样、欠采样或基于成本的敏感学习,可能有助于提升模型的预测能力。此外,研究发现异常检测方法在当前任务中表现不佳,这可能与其对数据结构的适应性有关。因此,未来的研究可以尝试将异常检测与监督学习相结合,以构建更强大的检测系统。
本研究的结果表明,通过结合多种机器学习技术,可以有效提升税务数据不合规检测的准确性和可解释性。模型不仅能够识别出高风险企业,还能为监管机构提供清晰的决策依据。这种综合方法的提出,为未来税务合规监测系统的设计和优化提供了新的思路。同时,研究也指出了一些值得进一步探索的方向,例如引入更多财务指标、企业属性和关系数据,以增强模型的预测能力。这些改进将有助于构建更加全面和精确的税务合规评估体系,从而更好地服务于监管机构的决策需求。
此外,研究还强调了在税务监管中平衡准确性和效率的重要性。通过引入多目标优化策略,模型能够在保持较高准确率的同时,降低计算复杂度,使其更适用于大规模数据集的处理。这不仅提高了模型的实用性,还为税务监管机构在实际操作中提供了更灵活的解决方案。未来的研究可以进一步探索如何在不同应用场景中优化模型的性能,例如通过引入动态调整的优化策略,以适应不同规模和复杂度的数据集。
综上所述,本研究通过整合多种机器学习技术,为税务数据不合规检测提供了一种有效的解决方案。研究不仅提升了模型的分类准确率,还增强了其可解释性,使得监管机构能够更好地理解和应用模型的预测结果。这些成果对于提高税务监管的效率和准确性具有重要意义,同时也为未来相关研究提供了方向。通过不断优化模型的性能和适用性,税务监管机构可以更有效地识别潜在的不合规行为,从而确保税务系统的公平性和有效性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号