基于多目标强化学习与Pareto前沿的市场做市策略优化研究

【字体: 时间:2025年07月05日 来源:Expert Systems with Applications 7.5

编辑推荐:

  市场做市商(MM)在提供流动性时面临盈利与库存风险的双重挑战。本研究创新性地采用多目标强化学习(MORL)框架,开发了M3ORL算法,通过独立神经网络分别优化盈利性和库存控制目标,构建Pareto前沿可视化权衡关系。实验表明该方法在超体积、解稀疏性等指标上显著优于传统奖励工程方法,为金融领域的多目标决策提供了新范式。

  

在瞬息万变的金融市场中,市场做市商(Market Maker, MM)如同"流动性引擎",通过持续报价维持市场活力。然而这个角色始终面临"走钢丝"般的困境:提高买卖价差可增加盈利,但会积累库存风险;而保守策略虽降低风险却可能错失交易机会。传统方法通过人工设计奖励函数来平衡这两个目标,但存在主观性强、适应性差等缺陷,在GameStop事件等市场剧烈波动中暴露出严重局限性。

为破解这一难题,研究人员开展了开创性研究,提出首个纯多目标强化学习框架M3ORL(Market-Maker based on Multi-Objective RL)。该研究构建了包含8维状态空间和605维动作空间的交易环境,采用ABIDES模拟器生成包含100个噪声Agent的虚拟市场。通过分离设计盈利性(Mark-to-Market, MtM)和库存控制两个奖励函数,创新性地使用双DQN网络架构独立学习各目标策略,最终在《Expert Systems with Applications》发表重要成果。

关键技术包括:1)基于ABIDES构建多Agent交易环境;2)设计向量化奖励函数R→(s,a)=(R1(s,a),R2(s,a));3)采用ε-greedy策略进行150轮训练;4)使用超体积等指标评估Pareto前沿质量。实验设置11组权重参数w∈[0,1]控制目标偏好,每组进行5次重复验证。

研究结果显示:

  1. 市场做市作为MOMDP的建模
    将做市问题形式化为多目标马尔可夫决策过程(MOMDP),状态空间包含买卖量、库存等8个特征,动作空间涵盖买卖价差和对冲比例。这种建模方式保留了目标间的天然张力。

  2. M3ORL算法架构
    创新性地采用两对独立DQN网络,分别对应盈利性和库存目标。训练阶段通过权重w引导探索方向,测试阶段构建出包含7个非支配解的Pareto前沿,较传统方法提升46.6%的优质解数量。

  3. 多目标性能比较
    在超体积指标(9.62 vs 8.46/6.71)、解稀疏性(299k vs 453k/561k)等关键指标上,MORL均显著优于奖励工程方法RE-W和RE-AIIF。特别是当w>0.8时,算法展现出更强的盈利捕获能力。

这项研究开创性地证明:保持目标独立性比强行融合更有利于策略优化。通过Pareto前沿,交易员可直观选择符合风险偏好的策略——如保守型(w=0.2)将库存波动控制在-15.7±2.3,而进取型(w=0.9)可实现687.5±89.2的MtM收益。该方法不仅解决了传统奖励工程的信息损失问题,其模块化设计还便于扩展至组合优化等金融场景,为算法交易提供了新的"决策显微镜"。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号