基于时序与变量依赖感知Transformer的强化学习股票交易优化模型

【字体: 时间:2025年07月26日 来源:Neural Networks 6.0

编辑推荐:

  针对现有Transformer模型在股票交易优化(STO)中仅关注时序依赖而忽略变量交互的问题,研究人员提出融合时序与变量双维度依赖感知Transformer的强化学习(RL-TVDT)模型。通过双阶段注意力机制捕获市场数据的多尺度依赖关系,在CSI-300等数据集上实现Sharpe ratio 1.48和portfolio return 2.65的突破性表现,为金融决策提供更全面的表征学习框架。

  

在瞬息万变的金融市场中,股票交易优化(STO)始终是金融决策领域的核心挑战。传统方法往往难以应对市场数据的非线性特征和复杂关联,而近年来兴起的强化学习(RL)虽能通过环境交互学习动态策略,但面临状态表征不足的瓶颈。更棘手的是,现有结合Transformer的RL模型大多仅聚焦于时间维度分析,将多变量数据压缩为单一时间序列,导致不同股票间的相互作用关系被严重弱化——这就像试图用单声道录音还原交响乐的层次感,必然丢失关键信息。

针对这一现状,首都经济贸易大学(Capital University of Economics and Business)的研究团队在《Neural Networks》发表创新研究,提出RL-TVDT模型。该工作通过独创的时序与变量双依赖感知Transformer架构,首次实现市场数据中跨时间、跨变量的多层次特征挖掘,最终在三大基准数据集上以Sharpe ratio 1.48和portfolio return 2.65的性能刷新纪录。这项突破不仅为量化投资提供新工具,更开创了金融时序数据分析的新范式。

研究采用四大核心技术模块:1) 长短周期双预测模块分别捕捉市场短期波动与长期趋势;2) 双阶段注意力(Temporal and Variable Dependency-aware Transformer)先沿时间轴建模单变量演化,再跨变量维度分析交互效应;3) 关系表征模块挖掘资产间隐含关联;4) 双自适应注意力策略模块融合多维特征。实验数据来自CSI-300、S&P-100和NASDAQ-100的真实交易记录。

【主要研究结果】

  1. 长短周期预测模块协同验证:通过独立验证短期(5天)和长期(20天)预测模块的互补性,证明多时间尺度分析可使预测误差降低18.7%。

  2. 双阶段注意力机制有效性:消融实验显示,相比传统Transformer,TVDT在变量交互建模任务中使特征区分度提升32.4%,证实其突破"时序优先"局限的能力。

  3. 多基准测试结果:在年度再平衡策略下,RL-TVDT的Sharpe ratio稳定高于对比模型3.5个百分点,最大回撤(MDD)控制在22%以内,显示优异的风险收益平衡能力。

  4. 资产关系图谱构建:通过关系表征模块生成的股票关联网络,成功识别出传统相关系数分析未能发现的12组隐性关联组合。

结论部分强调,该研究首次系统性地解决了金融时序数据建模中的"维度坍缩"问题。通过解耦时间和变量两个关键维度,TVDT机制使Transformer在保持时序建模优势的同时,获得跨资产分析能力。讨论指出,这种多维表征学习框架可扩展至债券、期货等其他金融产品分析,其双自适应注意力机制为处理高维异构数据提供了普适性解决方案。作者特别说明,模型在极端市场环境(如2020年3月美股熔断期间)仍保持稳健,证实其捕捉本质特征的能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号