基于相关性图增强的时空强化学习算法在股票收益最大化中的应用研究

【字体: 时间:2025年05月30日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对股票市场高度动态和非线性的价格波动预测难题,韩国研究团队提出融合时空相关性的改进型PPO算法(CGPPO)。该研究通过构建股票相关性图,结合LSTM网络与深度强化学习(DRL),在三星电子等四支韩国股票数据中验证了模型有效性,训练阶段奖励收敛值达64.60%,推理阶段预测性能提升至69.04%,为复杂金融市场中的投资决策提供了新范式。

  

股票市场的高波动性和非线性特征一直是金融领域的核心挑战。传统方法如ARIMA(自回归积分滑动平均模型)和GARCH(广义自回归条件异方差模型)受限于线性假设,而深度学习模型虽能捕捉时序特征却难以应对动态市场环境。针对这些局限,韩国大学与淑明女子大学的研究团队创新性地将股票间时空相关性引入深度强化学习框架,开发出基于相关性图的近端策略优化算法(Correlation Graph-based Proximal Policy Optimization, CGPPO),相关成果发表于《Expert Systems with Applications》。

研究采用四大韩国上市公司股票数据(三星电子、SK海力士、现代汽车和Kakao),通过LSTM网络处理时序特征,构建包含市盈率(PER)、市净率(PBR)等指标的金融数据集。关键技术包含:1)改进PPO算法实现多股票联合决策;2)设计融合交易频率与组合价值的奖励函数;3)建立考虑行业差异的股票相关性图模型。

研究结果显示:

  1. 算法性能:CGPPO在训练阶段达到64.60%的奖励收敛值,推理阶段预测准确率提升至69.04%,显著优于传统PPO。
  2. 相关性建模:通过半导体(三星/SK)与消费(现代/Kakao)板块的跨行业相关性捕捉,验证了空间维度信息对决策的增益作用。
  3. 环境复杂性:增加的股票关联性虽导致收敛速度减缓,但显著提升了模型在真实市场中的鲁棒性。

结论与意义:该研究首次将图神经网络思想融入金融领域DRL框架,突破了传统单股票预测的局限。通过设计符合实际投资逻辑的奖励机制(兼顾收益最大化、交易成本与持仓管理),为智能投顾系统提供了可解释性更强的解决方案。未来可扩展至跨市场资产配置与金融危机预警等场景,推动AI在复杂经济系统中的应用边界。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号