牛津大学AI突破：240倍速度提升！首个GPU加速高频交易多智能体强化学习框架问世

独家整理，盗用必究

近日，来自牛津大学计算机科学系、工程科学系、统计学系以及加州大学洛杉矶分校的顶尖研究团队联合发布了一项重磅研究成果，首次推出了专门用于高频交易的GPU加速多智能体强化学习环境JaxMARL-HFT。该研究发表的论文显示，相比现有最先进的实现方案，新框架实现了高达240倍的端到端训练时间缩减，为金融AI领域带来了革命性的计算效率提升。

为什么高频交易需要多智能体AI？

金融市场本质上是由数百万市场参与者相互作用形成的复杂系统，价格通过这些参与者在限价订单簿(Limit Order Book, LOB)上的交互行为内生产生。传统的基于智能体建模(Agent-Based Modelling, ABM)方法通常依赖预定义的智能体策略，导致智能体策略过于简化，难以产生真实的涌现行为。

多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)为这一问题提供了解决方案，它能够为异构智能体群体学习独立的策略，使智能体能够相互学习，构建更加现实和鲁棒的智能体模型。然而，MARL面临的核心挑战是巨大的计算成本和训练不稳定性问题，特别是在金融应用中信噪比极低的情况下，这些问题更加严重。

JAX技术架构如何实现240倍速度突破？

牛津大学团队的JaxMARL-HFT基于谷歌的JAX框架构建，利用JAX的三大性能优势实现了前所未有的计算效率：

首先是向量化映射(vmap)的并行化能力。研究团队采用了两层并行化策略，如图1所示：第一层是跨episode的并行化，将数据集分割为独立的episode并并行处理；第二层是同类型智能体内部的并行化。

其次是即时编译(JIT)的性能优化。JAX的JIT编译自动将操作融合成优化内核，消除Python开销，显著提升执行效率。

第三是GPU内存优化。与原始JAX-LOB实现相比，新框架在内存管理上做出了重大改进，以连续形式加载所有消息数据，仅用4GB GPU内存就能容纳一年的预处理AMZN订单数据，这在原始实现中是不可能的。

环境的单步执行流程包括：动作转换、随机洗牌、与市场回放消息合并、JAX-LOB处理和结果计算五个步骤，整个流程完全在GPU上执行，避免了CPU-GPU数据传输延迟。

三类核心交易智能体如何建模？

JaxMARL-HFT实现了三种异构智能体类别，覆盖高频交易的主要任务：

做市商智能体(Market Making Agent)

做市商智能体支持三种动作空间配置：价差偏斜(Spread-Skew)动作空间、固定数量(Fixed Quantity)动作空间和AvSt动作空间。在固定数量空间中，智能体有8个选项，包括不交易、在最优价格基础上偏移2和4个tick等策略。

奖励函数设计上，研究团队实现了基于Vadori等人和Spooner等人工作的灵活奖励函数。Spooner奖励函数定义为：

其中和表示交易PnL项，表示库存PnL项。

订单执行智能体(Order Execution Agent)

基于Frey等人的环境设计，订单执行智能体的动作空间被离散化，智能体选择在四个参考价格中的哪个价格提交订单。更复杂的版本还允许提交预定义数量的2倍或5倍的订单。

滑点(Slippage)指标定义为：

方向性交易智能体(Directional Trading Agent)

方向性交易智能体可以选择在最优价格发送买入或卖出订单，或者在每个步骤中什么都不做，所有买卖消息都引用固定数量。

性能基准测试结果如何？

研究团队将JaxMARL-HFT与当前最先进的实现方案进行了全面对比，包括ABIDES-gym和PyMarketSim。测试在配备8个NVIDIA L40S GPU和AMD EPYC 9554处理器的计算节点上进行。

牛津大学AI突破：240倍速度提升！首个GPU加速高频交易多智能体强化学习框架问世

表1展示了环境步骤吞吐量对比结果：在不进行学习更新的情况下，JaxMARL-HFT实现了显著的速度提升，特别是随着智能体数量的增加，性能优势更加明显。

JaxMARL-HFT				PyMarketSim	ABIDES-gym	CPU-MARL
Data Messages per Step	Agents per Type	Time (s)	Steps/s	Steps/s	Steps/s	Steps/s
100	1	9.104	21969	463	734	1805
1	1	0.570	351119	10830	2979	4896
100	5	13.513	14801	–	–	84
1	5	2.246	89062	–	–	334
100	10	18.650	10724	–	–	30
1	10	4.140	48312	–	–	114

更重要的是，图2显示了完整MARL训练流程的速度对比：当智能体数量增加到10个时，JaxMARL-HFT相比其他实现实现了200-240倍的速度提升。

实际训练效果如何验证？

研究团队使用独立近端策略优化(Independent PPO, IPPO)算法，在包含做市商和执行智能体的双人环境中进行了训练验证。使用一年的LOBSTER数据(4亿订单)，实验结果显示学习到的策略能够超越标准基准。

图3a展示了做市商的训练曲线，**组合价值(Portfolio Value)**定义为：

图3b显示了执行智能体的训练演化，不同的episode结束惩罚系数对训练效果的影响。

图5展示了学习策略与基准策略的对比评估结果：学习到的策略在各自的质量指标上都超越了基准策略(TWAP和Avellaneda-Stoikov模型)，并且执行智能体在面对学习到的做市策略时表现更差，突出了MARL在建模间接市场影响方面的预期优势。

技术创新带来了哪些突破？

这项研究的技术突破主要体现

在四个方面：第一，将JAX-LOB环境扩展到多智能体设置，支持异构智能体，这是首次实现的技术突破。

第二，与JaxMARL算法实现的兼容性和扩展，使得研究人员可以直接使用现有的最先进MARL算法。

第三，大幅提升吞吐量和内存优化，使得用多年LOBSTER市场订单数据进行训练成为可能。

第四，为MARL算法发展提供了具有真实世界应用的挑战性环境，推动了相关技术的进步。

未来研究方向在哪里？

牛津大学团队指出，这个综合框架为多个未来研究方向奠定了基础：

测量仿真中学习智能体策略获得的市场影响
转向通用动作/观察空间，仅通过奖励函数参数化智能体行为
用生成模型替换历史消息数据，在对抗性设置中训练RL智能体
移除训练后的历史消息数据，考虑具有学习智能体策略的多智能体模型产生的价格序列
利用仿真中提交订单来源的标记，促进对手塑形和市场参与者分类的新研究

这项来自牛津大学的突破性研究不仅解决了多智能体强化学习在高频交易应用中的计算瓶颈问题，更为金融AI领域开辟了全新的研究路径。随着JaxMARL-HFT框架的开源发布，预计将推动更多创新性研究，进一步提升AI在金融市场建模和交易策略优化方面的能力。

论文引用： Valentin Mohl, Sascha Frey, Reuben Leyland, Kang Li, George Nigmatulin, Mihai Cucuringu, Stefan Zohren, Jakob Foerster, and Anisoara Calinescu. ‘JaxMARL-HFT: GPU-Accelerated Large-Scale Multi-Agent Reinforcement Learning for High-Frequency Trading.’ arXiv preprint (2024).

项目代码：https://github.com/oxford-man-institute/jaxmarl-hft

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}

微精选