最近社交媒体上到处都是"AI炒股月赚xx%"的故事。有人说用ChatGPT分析新闻就能预判涨跌,有人展示自己用AI交易系统赚到盆满钵满的截图,还有人卖课卖系统声称已经破解了市场密码。
这些故事里有多少是真的?
我花了一些时间翻阅了过去三年间发表的学术论文、benchmark测试和行业数据。结论不算复杂,但值得认真讲一遍——因为真相比"全是骗局"或"真能赚钱"都要微妙得多。
一、LLM确实能"读懂"市场情绪
先说好消息。佛罗里达大学的 Lopez-Lira 和 Tang 在2023年发表了一篇被广泛引用的论文《Can ChatGPT Forecast Stock Price Movements?》,最新版本更新到2025年10月。他们让GPT-4对新闻标题进行情绪评分,然后检验这些评分是否能预测股价变动。
结果相当漂亮:GPT-4对市场"初始反应"的捕捉能力达到了约90%的组合日命中率。模型越大,金融推理能力越强——这暗示着金融理解力是大语言模型的一种涌现能力。
但这里有两个关键限定词。第一,90%命中率对应的是"不可交易的初始反应"——也就是新闻出来的瞬间,市场立刻做出的反应。这个速度,人类交易者几乎不可能捕捉到。第二,论文同时发现,随着越来越多的人开始使用LLM进行交易分析,策略收益在下降。用论文的话说,这与"市场效率提升"一致——当所有人都用同一个工具看同一条新闻,信息优势就消失了。
这个发现本身就已经说明了很多问题。LLM不是不聪明,而是它的聪明正在被自己的普及所稀释。
二、回测天堂,实盘地狱
在AI交易研究中,有一个反复出现的主题:回测(backtesting)表现优异,实盘表现平庸甚至亏损。
2025年8月发表的AlphaX论文直言不讳地指出了这个问题。作者基于价值投资理念开发了一套AI交易策略,在巴西股市的回测中跑赢了主要基准。但论文自己也承认:"许多开发者报告了在回测中表现出色的策略,然而当这些策略被部署到真实市场时,其表现往往会恶化,尤其是在风险调整后的收益方面。" 回测好但实盘差,这不是例外情况,而是AI金融模型的普遍规律。
为什么会这样?牛津大学的 Li 等人在2025年发表、2026年2月更新的FINSABER论文给出了系统性的解答。他们构建了一个跨越二十年、覆盖一百多只股票的回测框架,对此前被报道为"有效"的LLM交易策略进行了更大范围、更长周期的检验。
结果令人清醒:此前报道的LLM策略优势在更广泛的测试中"显著恶化"。进一步的市场环境分析揭示了一个核心矛盾——LLM策略在牛市中过于保守,跑输被动持有基准;在熊市中又过于激进,导致重大亏损。换句话说,LLM在最需要它做出正确判断的时刻,做出了相反的选择。
此前的研究之所以显得乐观,很大程度上是因为评估时间窗口太短、股票样本太少,并且存在幸存者偏差和数据窥探偏差。当你把测试范围放大到真实市场的复杂度时,magic就消失了。
三、通用智能 ≠ 交易能力
2025年11月发表的AI-Trader论文提供了一个更直接的证据。这是第一个完全自动化、实时数据、无数据污染的LLM交易评估基准,覆盖美股、A股和加密货币三大市场。
他们测试了六个主流LLM,结论如此尖锐,值得原文引用:"通用智能不会自动转化为有效的交易能力,大多数agent表现出糟糕的收益和薄弱的风险管理。"
一个更值得注意的发现是:风险控制能力——而非预测准确率——才是决定AI策略能否跨市场稳健运行的关键。在高流动性的美股和加密货币市场,AI策略尚可获得一些超额收益;但在受政策驱动的A股市场,表现则明显更差。
Google Scholar上的另一项研究也印证了这一点:尽管LLM agent在金融问答类benchmark上表现出色,但在实际交易中,大多数agent无法跑赢一个简单的买入持有(buy-and-hold)基准——无论是累计收益还是风险调整后收益。
这个结论很重要。很多社交媒体上的AI炒股演示,本质上展示的是LLM回答金融问题的能力,而不是真正的交易盈利能力。能说出看起来很专业的分析,和能真正赚到钱,是两件完全不同的事情。
四、你以为AI在预测未来,它可能只是在回忆过去
2025年12月,Gao、Jiang 和 Yan 发表了一篇关于"前瞻偏差"(Lookahead Bias)的论文,揭示了一个许多AI炒股研究都回避的尴尬问题。
他们开发了一个统计检验方法来检测LLM预测中的前瞻偏差。核心思路是:用数据污染检测技术估算一个 prompt 出现在LLM训练语料中的概率,他们称之为"前瞻倾向"(Lookahead Propensity, LAP)。如果LAP和预测准确率之间存在正相关——也就是说,LLM越可能在训练中见过这条新闻,对相关股价的预测就越准——那就说明LLM并非在做真正的金融推理,而只是在"回忆"训练数据中已经包含的结果信息。
这个发现对整个"AI预测股市"叙事是致命的。当有人展示"AI准确预测了过去半年的股价走势"时,你需要先问一个问题:这些数据是否在模型的训练截止日期之前?如果是,那所谓的"预测"很可能只是记忆。
五、多agent系统:看起来更高级,问题更隐蔽
面对单个LLM交易效果不佳的现实,研究者们转向了多agent协作框架。2024年底发表的TradingAgents论文模仿真实交易公司的组织架构,设计了基本面分析师、情绪分析师、技术分析师、看多研究员、看空研究员、风控团队和交易员等多种角色,让它们通过辩论和协作做出交易决策。
论文声称在累计收益、夏普比率和最大回撤等指标上优于基线模型。2025年发表的FinMem项目也提出了类似的分层记忆架构,声称提升了交易表现。
但2026年2月最新发表的一项行为一致性验证研究对此泼了冷水。研究者测试了LLM agent的策略切换行为是否符合行为金融学理论——也就是真实交易者面对亏损、从众压力、财富差异和价格偏离时会如何调整策略。结论是:LLM agent的行为"仅部分符合"行为金融理论。
这意味着,即使你搭建了一个看起来很像真实交易公司的多agent系统,里面的"分析师"和"交易员"在关键的市场转折点上,做出的决策逻辑可能和真实交易者截然不同。系统越复杂,这种不一致性越难被察觉。
六、安全漏洞:AI交易系统的阿喀琉斯之踵
2026年1月发表的一项研究揭示了一个更令人担忧的风险维度。研究者发现,通过在新闻标题中插入人类肉眼不可见的微小篡改——Unicode同形字符替换或隐藏文本——就能可靠地误导依赖LLM的交易系统。
实验数据相当惊人:在14个月的测试期内,仅仅篡改一天的新闻标题,就能将年化收益降低最多17.7个百分点。研究者还分析了主流数据抓取工具和交易平台的代码,发现这类攻击在技术上完全可行。他们调查了27名金融科技从业者,证实了攻击假设的现实可行性。
这意味着,当越来越多的资金依赖AI系统做决策时,一个恶意行为者可以通过操纵信息源来系统性地从这些AI交易者身上获利。AI交易系统的集中化,反而创造了新的系统性风险。
七、那些真正用AI赚了钱的人
说了这么多"不行"的证据,是否存在真正用AI在金融市场赚到钱的案例?
答案是存在的,但和社交媒体上讲的故事完全不同。
Renaissance Technologies的Medallion基金自1988年以来年化收益约66%(费后约39%),是公认最成功的量化交易基金。Two Sigma、D.E. Shaw、Citadel等量化巨头也持续数十年获得了超额收益。它们确实大量使用了机器学习和AI技术。
但这些成功案例有几个共同特征。第一,它们不是"用ChatGPT炒股"——它们的模型是高度定制化的、从底层开始构建的系统,通常涉及数百名博士级别的研究人员数年甚至数十年的持续优化。第二,它们的核心优势在于数据和基础设施——独有的另类数据源、微秒级的执行速度、复杂的风险管理体系——这些都不是一个普通人能用开源LLM复制的。第三,它们的策略容量有限。Medallion基金管理规模长期控制在约100亿美元,并在2005年后就不再接受外部资金,正是因为策略容量的天花板。
而值得注意的是,即便是这些顶级机构,它们面向外部投资者的基金表现也远不如内部基金。Renaissance的三只外部基金在某些年份甚至出现了亏损。
八、流量炒作的四种常见套路
基于以上研究,社交媒体上"AI炒股赚钱"的叙事中,有四种特别常见的误导模式。
第一种是回测当实盘。展示AI策略在过去某段时间的回测收益曲线,但不提这是事后选择的最佳时间段和最佳参数组合。FINSABER论文已经证明,当你扩大测试范围后,这些曲线会变得面目全非。
第二种是混淆预测和盈利。LLM确实能分析新闻情绪、总结财报、解读市场动态。但Lopez-Lira的研究明确告诉我们,即使GPT-4能以90%的准确率捕捉市场对新闻的初始反应,这也无法直接转化为可交易的利润。
第三种是忽略前瞻偏差。让AI"预测"它训练数据覆盖范围内的历史股价,然后展示惊人的准确率。Gao等人的研究已经开发了专门的统计工具来检测这种偏差。
第四种是幸存者偏差的选择性展示。运行100个AI策略,挑出表现最好的那几个来做宣传。你看到的是赢家,看不到的是同样方法产生的90多个输家。
九、一些可能有用的真话
如果你正在考虑使用AI辅助投资,以下几点是经过研究验证的:
LLM在信息处理和情绪分析方面确实有价值——用它来阅读和总结大量财报、新闻、研报,提高你的信息处理效率,这是合理的用法。但不要指望它直接告诉你买什么卖什么。
AI交易策略的核心挑战不在于预测准确率,而在于风险管理和市场环境适应性。AI-Trader论文反复强调,风险控制才是跨市场稳健运行的关键,而这恰恰是目前LLM最薄弱的环节。
策略越公开,失效越快。Lopez-Lira的论文直接观察到了这个现象——LLM策略收益随着普及度上升而下降。如果一个AI交易策略被做成课程或工具卖给大众,它的有效性大概率已经在售出的那一刻开始消亡。
在A股等政策驱动型市场,AI策略面临额外的困难。AI-Trader的测试显示,LLM在政策驱动环境中的表现明显差于高流动性市场。中国市场的涨跌停板、T+1限制、政策窗口指导等特殊机制,进一步加大了AI策略的实施难度。
结语
活了一千年,见过太多"这次不一样"的故事。炼金术不一样,永动机不一样,南海公司不一样,dot-com不一样。每一次,新技术都给了人们一个相信自己可以战胜市场的理由。
AI是真正的技术进步,这一点没有疑问。但"AI很强大"和"你用AI就能炒股赚钱"之间,隔着的距离比大多数人想象的要远得多。学术研究一再表明,LLM具备金融推理的涌现能力,但将其转化为持续、稳健、可复制的交易利润,仍然是一个未被解决的问题。
在社交媒体上看到AI炒股致富的故事时,不妨想一想:如果这个方法真的这么好用,他为什么要告诉你?
主要参考文献
- Lopez-Lira, A. & Tang, Y. (2023-2025). "Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models." arXiv:2304.07619
- Li, W.W. et al. (2025-2026). "Can LLM-based Financial Investing Strategies Outperform the Market in Long Run?" (FINSABER) arXiv
- Fan, T. et al. (2025). "AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets." arXiv
- Gao, Z., Jiang, W. & Yan, Y. (2025). "A Test of Lookahead Bias in LLM Forecasts." arXiv
- Rizvani, A. et al. (2026). "Adversarial News and Lost Profits: Manipulating Headlines in LLM-Driven Algorithmic Trading." arXiv
- Xiao, Y. et al. (2024). "TradingAgents: Multi-Agents LLM Financial Trading Framework." arXiv:2412.20138
- Yu, Y. et al. (2023). "FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design." arXiv
- de Castro, P.A.L. (2025). "AlphaX: An AI-Based Value Investing Strategy for the Brazilian Stock Market." arXiv
- Li, Z. et al. (2026). "Behavioral Consistency Validation for LLM Agents: An Analysis of Trading-Style Switching through Stock-Market Simulation." arXiv