印度上市公司破产预测的人工智能-机器学习方法创新研究

【字体: 时间:2025年10月11日 来源:Borsa Istanbul Review 7.1

编辑推荐:

  本研究针对印度企业破产预测中传统统计模型的局限性,创新性地应用多种AI-ML模型(包括随机森林、神经网络和梯度提升等),并采用SMOTE过采样技术解决类别不平衡问题。结果表明,AI-ML模型(尤其是随机森林)预测准确率显著高于传统方法,且上市公司因信息披露质量更高,其预测效果更优。该研究为利益相关者提供了有效的风险管理工具,并拓展了AI-ML在新兴市场破产预测领域的应用框架。

  
在印度这样一个充满活力的新兴经济体中,企业的生死存亡牵动着无数投资者的心。然而,信息不对称就像一层迷雾,让投资者难以看清企业的真实健康状况,面临着“逆向选择”的风险。当一家公司从技术性破产走向实质性违约,最终进入清算程序时,投资者的财富往往已遭受重创。传统的信用评级机构在预警企业违约风险时,有时显得行动迟缓,尤其是在印度市场,公司可能在相当长的时间内维持着与实际情况不符的良好信用评级。这促使投资者和监管机构寻求更及时、更准确的风险预警工具。
传统的破产预测模型,如多元判别分析(MDA)和逻辑回归(LR),虽然被广泛应用,但它们建立在严格的统计假设之上,对数据的正态分布、异常值和多重共线性非常敏感。更重要的是,这些线性模型难以捕捉企业内外部复杂因素之间错综复杂的非线性关系,导致预测性能不稳定且往往不尽如人意。随着计算能力的飞跃和大数据时代的到来,人工智能(AI)和机器学习(ML)技术为解决这一难题提供了新的曙光。它们能够像侦探一样,从海量数据中挖掘出隐藏的、预示破产的微妙模式,而无需受到传统统计假设的束缚。尽管全球范围内已有不少研究探索AI-ML在破产预测中的应用,但在印度语境下,相关研究往往局限于少数几种模型和小样本数据,缺乏一个全面、可推广的分析框架,并且忽视了像上市状态这样可能显著影响预测效果的关键企业特征。
正是在这样的背景下,由Nagaraju Thota、Sreenivasulu Puli、A.C.V. Subrahmanyam和Sneha Yarala组成的研究团队,来自印度知名的比尔拉科学与技术学院皮拉尼校区海得拉巴校区,在《Borsa Istanbul Review》上发表了一项重要研究。他们雄心勃勃地试图回答几个核心问题:在预测印度企业破产时,多种AI-ML模型究竟谁的表现更胜一筹?如何克服破产企业样本稀少的“类别不平衡”难题?更重要的是,企业的上市身份是否会因为更严格的信息披露要求而提升预测模型的准确性?这项研究不仅旨在比较模型的性能,更希望为投资者、银行和企业管理者打造一套实用且可靠的风险预警“工具箱”。
为了开展这项研究,研究人员主要运用了以下几项关键技术方法:首先,他们从印度破产与破产委员会(IBBI)和印度经济监测中心(CMIE Prowess)数据库获取了2016年至2024年间1,492家破产公司和17,279家非破产公司的数据,构建了一个包含18,771家印度企业的大规模数据集,并特别标注了公司的上市状态。其次,针对破产公司样本远少于非破产公司的“类别不平衡”问题,研究采用了合成少数类过采样技术(SMOTE)来生成平衡的数据集用于模型训练。第三,研究团队系统地应用了八种不同的预测模型进行对比分析,包括逻辑回归(LR)、随机森林(RF)、朴素贝叶斯(NB)、梯度提升(GB)、支持向量机(SVM)、K近邻(KNN)、决策树(DT)和神经网络(NN)。最后,他们使用准确率、精确度、召回率(灵敏度)、F1分数和受试者工作特征曲线下面积(AUROC)等多种指标来全面评估和比较这些模型的预测性能。
数据与方法论
研究人员构建的数据集涵盖了2016年印度《破产与破产法典》(IBC)实施以来至2024年的数据,包括了1,492家破产企业(其中305家上市,1,187家未上市)和17,279家非破产企业(其中2,709家上市,14,570家未上市)。为了解决破产企业(正类)样本数量远少于非破产企业(负类)的类别不平衡问题,他们采用了SMOTE技术,通过插值方法在特征空间中为破产类别生成新的合成样本,使得最终用于分析的平衡数据集达到了34,558个观测值。研究选取了20个关键的财务比率作为解释变量,涵盖了盈利能力(如ROA、PMN)、偿债能力(如PBIT_INT、D_TA)、营运效率(如ATR、S_TA)和增长能力(如RGR、AGR)等多个维度。摘要统计显示,破产公司和非破产公司、上市公司和非上市公司在这些财务指标上存在显著差异,表明数据具有区分破产风险的潜力。研究方法上,该研究明确采用有监督的机器学习分类方法,将破产预测视为一个二分类问题(破产=1,非破产=0)。研究将数据集按70:30的比例划分为训练集和测试集,以确保模型的有效训练和公正评估。
结果与讨论
模型性能比较结果显示,AI-ML模型整体上大幅超越了传统的统计模型。在使用SMOTE平衡后的全样本数据上,随机森林(RF)模型表现最为突出,其准确率高达0.93,精确度、召回率、F1分数和AUROC分别达到0.94、0.96、0.93和0.98,显示出极高的预测准确度和区分能力。梯度提升(GB)、决策树(DT)和神经网络(NN)模型也表现出色,准确率均在0.82以上。相比之下,逻辑回归(LR)和朴素贝叶斯(NB)等传统模型的准确率分别仅为0.64和0.52,AUROC也显著低于AI-ML模型。SMOTE技术的应用被证明是有效的,对比平衡与非平衡数据集上的模型表现,使用SMOTE后所有模型的AUROC值均有显著提升,特别是对于那些在原始不平衡数据上几乎无法识别破产企业的模型(如SVM、LR),性能改善尤为明显。一个关键的发现是,AI-ML模型在上市公司子样本上的预测性能普遍优于未上市公司子样本。例如,AI-ML模型在上市公司中的平均准确率约为80%,高于在全样本中的76%平均水平,尽管上市公司子样本的规模(5,418个观测值)远小于未上市公司子样本(29,140个观测值)。这表明上市公司由于受到更严格的监管和信息披露要求,其财务数据质量更高、信息含量更丰富,从而使得模型能够更清晰地区分健康企业与高风险企业。研究人员进一步计算了各财务变量的信息价值(IV),以识别最重要的早期预警信号。在全样本和两个子样本中,债务与总资产比率(D_TA)均是最具信息价值的变量,其次是总资产回报率(ROA)、息税前利润与利息费用比率(PBIT_INT)、税后利润与总资产比率(PAT_TA)以及现金流与债务比率(CF_D)。这些变量为内外部利益相关者监控企业财务健康状况提供了明确的关键指标。
结论
本研究有力地证明了人工智能-机器学习(AI-ML)模型在预测印度企业破产风险方面的卓越效能,其性能显著优于传统的统计模型。通过采用SMOTE过采样技术有效解决了类别不平衡问题,研究确保了模型评估的可靠性。在众多模型中,随机森林(RF)表现最为稳健和准确,其次是梯度提升(GB)和神经网络(NN)等模型。该研究的一个重要贡献在于揭示了企业上市状态对预测模型性能的积极影响,由于更严格的信息披露要求,上市公司的数据质量更高,使得AI-ML模型能够更精准地识别风险。此外,通过信息价值分析识别出的关键财务比率(如D_TA、ROA、PBIT_INT等),为投资者、债权人和管理层提供了一套实用的、可操作的早期风险监测工具包。这项研究不仅为印度市场提供了更可靠的破产预测框架,其方法论和发现也对其他新兴经济体具有重要的借鉴意义。未来的研究可以进一步探索混合模型、纳入非财务变量(如公司治理、宏观经济指标)以及使用更先进的数据平衡技术(如生成对抗网络GAN),以持续提升预测的准确性和前瞻性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号