独家整理,盗用必究
在人工智能席卷金融业的今天,大语言模型(LLM)在投资领域的表现究竟如何?香港科技大学(广州)联合Paradox O AI Research最新发布的研究成果给出了一个令人震惊的答案:在实时市场环境中,包括DeepSeek-V3、Claude-3.7-Sonnet在内的9个顶级AI大模型进行基金投资,竟然有8个都出现了亏损!
传统AI投资测试存在什么致命缺陷?
长期以来,评估AI投资能力的基准测试都存在一个根本性问题——**’时间旅行’作弊**。传统的回测方法使用历史数据来评估LLM的交易策略,但这些模型在预训练时可能已经’见过’这些历史数据,从而产生严重的信息泄露问题。
如Figure 1所示,不同LLM的知识截止日期差异巨大。GPT-4o的训练数据截止到2023年10月,而DeepSeek-V3的训练数据延伸到2024年7月。如果我们用2021-2023年的数据来测试DeepSeek-V3,它实际上在预训练期间就已经’看过’这些市场条件,这种评估结果毫无意义。
DeepFund如何彻底解决信息泄露问题?
为了解决这一关键问题,研究团队开发了DeepFund——全球首个实时基金投资基准测试平台。该平台的核心创新在于完全摒弃历史回测,转而采用真实的实时市场数据进行评估。
Figure 2展现了DeepFund的整体架构。该框架主要包含两个核心组件:实时环境(Live Environment)和多智能体工作流(Multi-Agent Workflow)。
实时环境的技术架构
实时环境作为DeepFund的基石,持续集成来自三个不同源头的动态金融数据流:**(1) 实时股票市场数据,提供即时的市场波动和价格变化;(2) 最新的基金资产信息,反映投资头寸的当前状态;(3) 详细的交易历史记录**。
该环境通过模块化API网关与多个金融数据提供商(如Yahoo Finance和Alpha Vantage)进行接口对接,确保了数据源的适应性和集成的便捷性。
多智能体决策框架的技术实现
DeepFund采用了编排者-工作者范式来模拟真实的基金管理流程。整个系统包含三个关键角色:
财务规划师(Financial Planner):战略性地协调投资分析,确定分析优先级并将任务分配给合适的分析师。支持确定性模式(允许预定义分析师选择)和动态模式(利用自我推理灵活选择分析师)。
分析师团队(Analyst Team):由专业化的分析师代理组成,包括基本面、技术面、内幕交易、公司新闻、宏观经济和政策分析师,各自分析特定领域数据并生成标准化信号(看涨、看跌或中性)。Table 1详细列出了各分析师类型及其数据源。
投资组合经理(Portfolio Manager):整合多个分析师信号,做出执行性投资决策(买入、卖出、持有),管理风险控制,并维护双重记忆架构以反映历史交易和当前投资组合状态。
Table 1: 分析师团队的类型、数据源和专业特征
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9大顶级AI模型实盘交锋:谁是真正的投资高手?
研究团队选择了9个来自全球顶级机构的最先进LLM进行测试,Table 2展示了详细的模型信息。测试期间为2025年3月17日至4月17日,涵盖24个交易日,期间恰好经历了两个重要市场事件:FOMC会议和关税冲击。
Table 2: 评估的LLM详细信息
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
残酷现实:只有Grok赚钱,其他全部亏损
Table 3和Figure 3揭示了令人震惊的结果:在相同的市场条件下,所有评估的LLM都能够执行端到端的’数据-信号-决策’流程,但它们的盈利能力却存在巨大差异。绝大多数模型都经历了净交易亏损(即累积收益率),突显了在实时基金投资中取得成功的巨大障碍。令人瞩目的是,只有Grok 3模型成功获得了正累积收益率(+1.1%)。
Table 3: LLM在DeepFund中的整体交易表现(按CR排序)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Grok与DeepSeek的投资风格大解密
信号处理能力:谁更敏锐?
Figure 4(a)展示了由Grok和DeepSeek驱动的苹果公司(AAPL)分析师信号分布。Grok产生了更高比例的方向性信号(看涨或看跌),导致更大的信号多样性。相比之下,DeepSeek在相同条件下严重倾向于中性信号。
具体而言,在价格温和波动期间(3月17日至4月2日),DeepSeek偏好中性信号,显示出较不敏感的立场。而Grok则偏好看涨信号。当关税宣布时,两者都转向大量看跌信号,表明更加谨慎的立场。值得注意的是,两个模型都未能预测到4月9日的显著价格飙升(从172.42美元到198.85美元),表明在检测强烈反转信号方面存在共同局限性。
交易决策效果:从信号到利润的转化
Figure 4(b)显示了AAPL的价格走势以及Grok和DeepSeek的交易头寸。虽然两个模型都表现出决策一致性,但Grok通过整合政策信号并展现更大的决策灵活性,展示了卓越的信息整合能力,表明更好的市场时机把握能力。
从有效性角度看,Grok做出11次买入决策(7次有效)和10次卖出决策(5次有效)。有效决策通常与看跌政策/技术或看涨公司新闻信号相关。DeepSeek做出3次买入决策(1次有效)和8次卖出决策(5次有效),在卖出方面显示更高精确度,但有效买入较少。
投资风格对比:稳健vs激进
Figure 5通过投资组合构成和资产演变展示了Grok和DeepSeek的截然不同的交易风格。从第一天开始,它们的交易风格就明显分化。
Grok最初分配约40%的现金建立头寸,保持相对60%的高储备并逐步增加股票持有量。相比之下,DeepSeek激进地投入了近90%的初始现金,现金水平始终保持在40%以下,表明高资本利用率。

然而,这种低现金储备严重阻碍了DeepSeek在4月3日开始的市场下跌期间的灵活性,当时美国发动了关税战。Grok凭借其更高的现金头寸,展示了更好的风险分散和适应性。充足的现金储备使Grok能够抓住真正的机会,在急剧下跌后显著增加头寸,并在4月9日后的反弹中获得丰厚利润。
核心数学模型与评估指标
DeepFund采用了标准的金融指标来严格衡量性能,包括多个关键的数学公式:
**累积收益率(CR)**:
**夏普比率(SR)**:
**最大回撤(MDD)**:
**胜率(WR)**:
**贝塔系数()**:
**阿尔法系数()**:
研究启示与未来展望
这项研究揭示了一个重要现实:尽管AI大模型在各种金融任务中表现出色,但在实时市场环境中进行有效投资仍然面临巨大挑战。即使是DeepSeek-V3和Claude-3.7-Sonnet等尖端模型,在DeepFund实时评估环境中也会产生净交易亏损,凸显了LLM在主动基金管理方面的现有局限性。
DeepFund代表了从静态基准测试向动态评估的重大转变,为金融AI工具的发展创造了新的评估范式。该平台不仅解决了信息泄露这一根本性问题,还为研究者提供了一个真实、公平的测试环境。
值得注意的是,这项研究的代码已在GitHub开源,项目地址为:https://github.com/HKUSTDial/DeepFund
论文引用:Changlun Li, Yao Shi, Chen Wang, Qiqi Duan, Runke Ruan, Weijie Huang, Haonan Long, Lijun Huang, Nan Tang, Yuyu Luo. ‘Time Travel is Cheating: Going Live with DeepFund for Real-Time Fund Investment Benchmarking.’ 2025.