多尺度非线性学习框架委员会:用于精准的股票价格预测

《Engineering Science and Technology, an International Journal》:Committee of Multi-scale Nonlinear Learning Frameworks for accurate stock price forecasting

【字体: 时间:2025年09月24日 来源:Engineering Science and Technology, an International Journal 5.1

编辑推荐:

  股票价格预测面临市场波动性和非线性挑战,本文提出CoML框架,通过CEEMDAN分解提取高频、低频和趋势成分,结合BiLSTM、SVR和MLP分别建模,实现多尺度非线性学习,实验表明在新兴和发达市场均表现优异,并通过MCS验证统计显著性。

  股票市场的预测是优化经济政策和投资策略的重要环节,无论是国家层面还是企业层面都高度重视。然而,股票价格的内在波动性和复杂性给这一任务带来了巨大挑战。因此,本文提出了一种新的多尺度非线性学习框架(Committee of Multi-scale Nonlinear Learning Frameworks,简称CoML),该框架采用了一个三阶段模型:分解、重构和预测。首先,采用完整的集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,简称CEEMDAN)对原始股票价格进行分解,将其转化为多个固有模态函数(Intrinsic Mode Functions,简称IMFs)。其次,应用一种由细到粗的算法对这些IMFs进行重构,从而有效提取短期波动和长期趋势。最后,采用一个包含双向长短期记忆(BiLSTM)、支持向量回归(SVR)和多层感知器(MLP)的非线性模型集合,对提取的特征进行学习和预测,以实现更高的预测性能。

实验结果表明,该模型在新兴市场和成熟市场中都表现出色,突显了CoML在高度复杂和波动的金融市场中的创新能力。此外,该模型还通过模型置信集(Model Confidence Set,简称MCS)进行了进一步验证,结果表明模型具有统计显著性。这些结果不仅证明了模型的可靠性,还展示了其在不同市场条件下的鲁棒性。

股票市场作为全球经济的重要指标,往往被视为经济的晴雨表。股票价格作为一项密切监控的指标,对政府的宏观调控至关重要,同时也能为投资机构和个体投资者带来更高的收益。然而,股票价格的复杂性源于多种变量的相互作用,包括宏观经济政策、地缘政治事件和投资者情绪等,这些因素导致了市场的高度波动性和非线性动态。因此,在不确定环境中,准确预测股票价格仍然是一个复杂的问题。

近年来,研究人员持续探索股票价格预测模型,力求提高其准确性和先进性。这些模型可以分为两大类。第一类是计量经济模型,如自回归(AR)模型(Pena-Sanchez等,2018)、移动平均(MA)模型、自回归移动平均(ARMA)模型(Cunha和Pereira,2024)以及自回归积分移动平均(ARIMA)模型(Nyangarika等,2019,Surendra等,2021)。这些模型依赖于静态数据和线性假设,通过数学公式捕捉变量之间的关系。然而,股票价格时间序列的复杂性和波动性常常违反这些假设,从而限制了计量经济方法的预测能力(Saadaoui和Rabbouch,2024)。第二类模型则涉及人工智能(AI)技术,包括支持向量回归(SVR)模型(Xu等,2025)、多层感知器(MLP)模型(Bashir等,2025)、人工神经网络(ANNs)(Pereira等,2024)以及反向传播神经网络(BPNNs)(Mutinda和Geletu,2025)。这些模型因其在处理非线性和复杂特征方面的卓越能力,以及在预测性能上的显著表现,逐渐受到研究者的关注(Pang和Dong,2024)。它们能够更有效地适应股票市场的动态变化,并为投资者提供更可靠的决策支持。

时间序列数据建模不仅仅依赖于当前的观测值,历史信息同样扮演着关键角色。循环神经网络(Recurrent Neural Networks,简称RNNs)是一类专门用于序列数据建模的深度学习模型(Schaefer等,2008)。它们擅长捕捉时间依赖性,这对于股票价格预测等任务至关重要。然而,RNNs存在一些局限性,包括梯度爆炸、梯度消失以及难以学习长期依赖性(Al-Selwi等,2024)。为了解决这些问题,Hochreiter和Schmidhuber(1997)提出了长短期记忆(LSTM)架构,该架构能够在较长的序列中保留重要信息,使其特别适用于复杂时间序列的预测。随后,Chen和Huang(2020)提出了门控循环单元(Gated Recurrent Units,简称GRUs),作为LSTM的一种简化变体,提供了相似的性能但参数更少。进一步地,Graves和Schmidhuber(2005)提出了双向长短期记忆(Bidirectional LSTM,简称BiLSTM),该模型能够同时处理数据序列的正向和反向方向。这种双向机制增强了模型捕捉上下文信息的能力,并提升了预测的准确性(Peng等,2021)。Liu等(2022)进一步证明了BiLSTM在股票价格预测中的优势,强调了其在建模复杂市场动态方面的能力。此外,Dipura等(2024)表明,BiLSTM在传统模型和单向LSTM之间表现出色,实现了最低的均方根误差(RMSE)和最高的方向准确性。Liu等(2025)还提出了一个注意力增强的BiLSTM模型,结合了改进的集合经验模态分解(EEMD),显著提升了多个股票数据集的预测准确性,通过有效建模非线性和非平稳特征。因此,基于BiLSTM的模型在股票市场预测中表现出更高的预测准确性和更快的收敛速度,成为一项有前景的工具(Siami-Namini等,2019,Ouyang等,2024)。

计量经济模型和深度学习方法在处理金融市场时间序列数据的固有波动性和复杂性方面都面临重大障碍(Tsay,2010)。原始信号中的噪声会严重损害预测性能,促使研究人员不仅专注于优化预测模型,还致力于改进数据预处理技术。在此背景下,Ding等(1993)提出的一种频率域分析方法引起了学者们的广泛关注。该方法将时间序列数据转换为具有不同频谱结构和周期特性的固有模态函数(IMFs),有效捕捉了关键的时间-频率信息,并显著提升了金融模型的预测能力。Büyük?ahin和Ertekin(2019)也确认了模态分解技术能够减少噪声并提高预测准确性。然而,传统的经验模态分解(Empirical Mode Decomposition,简称EMD)存在一些问题,如模态混合和对局部极值的敏感性,这限制了其实际应用效果。为了解决这些缺陷,Wu和Huang(2009)提出了集合经验模态分解(Ensemble Empirical Mode Decomposition,简称EEMD),通过在分解过程中加入白噪声来缓解模态混合问题。EEMD随后被广泛用于时间序列的预处理(Dai和Zhu,2020,Zhang等,2024)。尽管有所改进,EEMD仍然面临一些限制,包括较高的计算成本和残留噪声的风险(Cheng等,2022)。为了进一步优化分解过程,Torres等(2011)提出了完整的集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,简称CEEMDAN)。该方法保留了EEMD的优势,同时通过减少残留来改进信号重建和有意义特征的提取(Lv等,2022)。此外,CEEMDAN在多种市场中的有效性得到了验证,例如碳市场(Zhou等,2022)、原油市场(Zhou等,2019)和天然气市场(Wang等,2021),展示了其在金融应用中的强大潜力,特别是在股票市场预测方面(Cao等,2019)。例如,Lin等(2021)将CEEMDAN与LSTM模型相结合,并发现CEEMDAN-LSTM框架在预测股票波动方面显著优于未分解的LSTM和其他基线模型。Qi等(2023)还表明,将CEEMDAN整合到GRU模型中可以显著降低均方误差(MSE)和平均绝对误差(MAE),进一步验证了其在提升预测准确性的价值。因此,本研究采用CEEMDAN作为信号分解方法,以提高股票价格预测的精度。

此外,将数据分解技术与神经网络模型相结合已被证明是提高预测准确性的有效策略(Qu等,2019,Zhang等,2019,Lu等,2020)。这些步骤包括将原始时间序列信号分解为多个子序列,使用神经网络对每个子序列进行预测,然后将结果聚合以形成最终预测(Zhu等,2019)。例如,Yu等(2008)应用EMD对原油现货价格进行分解,生成IMFs,并使用前馈神经网络(Feedforward Neural Network,简称FNN)进行预测,结果在WTI和Brent基准上表现出色。同样,Zhu等(2017)利用EMD对碳期货价格进行分解,并采用最小二乘支持向量回归(Least Squares Support Vector Regression,简称LSSVM)进行预测,实证结果确认了预测准确性的提升。Lin等(2022)则采用CEEMDAN对股票指数价格进行分解,并使用LSTM模型对子序列进行预测,取得了在预测CSI300指数方面显著的改进。这些研究共同表明,将时间序列分解为子成分并使用专门模型对每个子成分进行预测,优于直接预测原始序列的传统方法。

为了减轻由单一模型应用于所有子序列所导致的潜在误差累积——每个子序列都具有不同的信息特征(Yuan和Che,2022)——研究者在分解-集成框架中引入了重构组件,使得模型能够有效评估和区分每个子序列中的关键特征。由细到粗的重构方法有效解决了分解噪声问题,同时降低了维度并增强了可解释性(Zhu等,2018)。这种方法采用累积求和的方式对原始IMFs进行聚合和过滤,起到了低通滤波器的作用,生成了具有显著改善信噪比的高频(HF)、低频(LF)和趋势成分(Lahmiri,2018)。这些重构后的成分作为更干净、更结构化的输入,用于后续的预测任务。重构阶段能够高效地将信息浓缩为三个核心成分,显著降低输入维度,提高计算效率和模型的泛化能力。这种分解方法使模型能够量化预测结果中不同动态过程的贡献(Sun等,2021,Ding等,2024)。在此基础上,本研究将这一技术扩展到股票市场预测中。我们的目标是提取与高频、低频和趋势成分相对应的固有模态函数,从而更精确地预测资产价格的短期波动、周期性变化和长期趋势。

在每个子成分的预测模型中,多层感知器(MLP)因其强大的非线性映射能力而显得尤为重要。它能够通过挖掘历史数据中的复杂模式,有效捕捉长期趋势,使其特别适合建模趋势成分(Júnior等,2023)。相比之下,支持向量回归(SVR)模型在处理周期性数据方面表现出色,显示出在预测低频成分方面优于其他模型的卓越性能(An等,2024)。高频序列由于噪声、非线性和非平稳性而具有挑战性。双向长短期记忆(BiLSTM)模型凭借其双方向结构,能够从这些复杂序列中提取相关信息,同时考虑过去和未来的上下文。这使得BiLSTM能够抑制无关噪声,为高频成分提供稳健且准确的预测(Zeroual等,2020,Zhen等,2021)。基于这些考虑,本研究提出了一种面向成分的预测框架,该框架将CEEMDAN分解与专门针对每个子成分的模型相结合。本研究的主要贡献总结如下。

首先,我们开发了一个多尺度非线性学习框架(CoML),旨在显著提升股票价格预测的准确性。这一全面的方法整合了多种建模技术,以全面捕捉金融市场的非线性和多尺度特性。其次,我们采用了一种由细到粗的重构算法,将原始时间序列分解为反映不同频率范围的子序列,从而有效提取短期波动和长期趋势。第三,我们采用了一种混合的深度学习策略,从每个子成分中提取局部、短期和长期信息。这种能力不仅增强了模型的预测能力,还确保了其对不同时间尺度的敏感性,为市场动态提供了全面的视角。第四,为了验证我们模型的有效性,我们进行了全面的模型置信集(MCS)实验。这种严谨的评估方法不仅确认了结果的统计显著性,还展示了模型在不同市场条件下的鲁棒性。

本文的其余部分组织如下。第二部分详细介绍了所提出的方法。第三部分描述了实验设置,包括数据和参数配置。第四部分展示了实证分析和模型的稳健性测试。最后,第五部分总结了研究并讨论了未来的研究方向。

在方法部分,我们详细介绍了CoML框架的结构和原理。该框架通过分解、重构和预测三个阶段,系统地整合了多种建模技术,以实现对股票价格序列的多尺度分析。首先,CEEMDAN被用于对原始股票价格进行分解,生成多个IMFs。这些IMFs能够捕捉股票价格的内在波动模式,为后续的预测任务提供基础。其次,采用由细到粗的算法对分解后的IMFs进行重构,以提取出短期波动和长期趋势。这种方法能够有效减少分解噪声,同时提高信息的可解释性。最后,通过整合BiLSTM、SVR和MLP等非线性模型,对重构后的子成分进行预测。这些模型能够分别捕捉高频、低频和趋势成分,从而提高预测的全面性和准确性。

在实验设置部分,我们使用了来自特定来源的股票指数数据。这些数据包括中国证券指数300(CSI300)指数,其价格数据覆盖了从2012年7月24日到2023年12月29日,共计2796个数据点。此外,标准普尔500(S&P500)的每日数据覆盖了从2010年2月13日到2023年12月31日,总计3653个数据点。这些数据的选择基于其代表性和广泛性,能够全面反映不同市场的动态变化。通过对比分析这些数据,我们可以评估CoML框架在不同市场条件下的表现,并进一步验证其有效性。

在分解阶段,我们使用了CEEMDAN方法对两个股票市场指数进行分析。对于CSI300指数,分解结果生成了12个子序列,其中包括11个IMFs(δ1至δ11)和一个残差项(δ12)。相比之下,S&P500指数的分解结果生成了11个子序列,包括10个IMFs(δ1至δ10)和一个残差项(δ11)。这些分解结果通过图示的方式展示,有助于直观理解不同频率成分的分布情况。CEEMDAN方法能够有效缓解传统EMD方法中的模态混合问题,并通过减少残留提高信号重建和特征提取的准确性。

在重构阶段,我们采用由细到粗的算法对分解后的IMFs进行处理。这种方法能够有效捕捉价格动态的多样性特征,同时减少噪声并提高预测的准确性。通过累积求和的方式对原始IMFs进行聚合和过滤,我们能够生成更清晰、更结构化的输入,为后续的预测任务提供支持。重构后的成分不仅降低了输入维度,还提高了计算效率和模型的泛化能力,使得预测结果更加精确和可靠。

在预测阶段,我们整合了BiLSTM、SVR和MLP等非线性模型,分别用于处理不同频率成分。BiLSTM模型因其双方向结构能够有效提取高频成分中的相关信息,同时考虑过去和未来的上下文,从而提高预测的准确性。SVR模型在处理低频成分方面表现出色,能够捕捉周期性变化并提供稳健的预测结果。MLP模型则因其强大的非线性映射能力,能够有效捕捉长期趋势,为趋势成分的预测提供支持。通过这种多模型集成的方式,我们能够从不同角度捕捉股票价格的动态变化,提高预测的全面性和准确性。

在实证分析部分,我们对CoML框架进行了系统的测试。通过在多个市场条件下的实验,我们验证了该框架在不同数据集中的表现,并进一步分析了其在预测任务中的有效性。实验结果表明,CoML框架在新兴市场和成熟市场中都表现出色,其预测性能显著优于传统方法。此外,我们还通过模型置信集(MCS)实验进一步验证了模型的统计显著性和鲁棒性。这些实验不仅展示了模型在不同市场条件下的稳定性,还确认了其在预测任务中的可靠性。

在结论部分,我们总结了研究的主要发现和贡献。股票价格受到市场情绪和突发事件的影响,导致了显著的波动性,使得准确预测成为一项长期挑战。尽管如此,本研究通过提出CoML框架,展示了在不同市场条件下的有效预测方法。实证证据表明,股票价格序列包含多个频率成分,单一尺度的模型无法全面捕捉这些成分,因此需要采用多尺度的建模方法。通过将CEEMDAN分解与专门的预测模型相结合,我们能够更精确地预测资产价格的短期波动、周期性变化和长期趋势。这一方法不仅提升了预测的准确性,还为投资者提供了更全面的市场视角。

在作者贡献部分,我们详细列出了每位作者在研究中的具体角色。Qian He负责撰写和编辑、可视化、软件开发、方法论设计、形式分析、数据管理和概念化。Yanhui Liang负责撰写和编辑、验证、监督和调查。Yu Lin负责监督、项目管理和资金获取。Dazhi Pan负责撰写和编辑、监督和方法论设计。Yuying Yue负责可视化和验证以及软件开发。每位作者在研究的不同阶段都发挥了重要作用,共同推动了CoML框架的开发和验证。

在利益冲突声明部分,我们确认所有作者均未发现任何可能影响本研究结果的财务利益或个人关系。这一声明确保了研究的透明性和客观性,使得研究结果更具可信度。通过公开透明地说明所有作者的贡献和利益冲突,我们希望能够为读者提供更全面的信息,并促进学术界的进一步讨论和研究。

综上所述,本研究通过提出CoML框架,展示了在股票市场预测中的创新方法。该框架通过结合CEEMDAN分解、由细到粗的重构和多模型预测,能够有效捕捉股票价格的多尺度特性,从而提高预测的准确性和全面性。通过在不同市场条件下的实验,我们验证了该框架的鲁棒性和统计显著性,进一步确认了其在复杂金融市场中的应用潜力。这一研究不仅为股票价格预测提供了新的思路,也为投资者和政策制定者提供了更可靠的决策支持。未来的研究可以进一步探索该框架在其他金融领域的应用,例如外汇市场、债券市场和加密货币市场,以验证其在不同市场环境下的普遍适用性。此外,还可以进一步优化分解和重构算法,提高预测的精度和效率,为股票市场预测提供更强大的工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号