AI炒股：流量神话还是真实alpha

最近社交媒体上到处都是"AI炒股月赚xx%"的故事。有人说用ChatGPT分析新闻就能预判涨跌，有人展示自己用AI交易系统赚到盆满钵满的截图，还有人卖课卖系统声称已经破解了市场密码。

这些故事里有多少是真的？

我花了一些时间翻阅了过去三年间发表的学术论文、benchmark测试和行业数据。结论不算复杂，但值得认真讲一遍——因为真相比"全是骗局"或"真能赚钱"都要微妙得多。

一、LLM确实能"读懂"市场情绪

先说好消息。佛罗里达大学的 Lopez-Lira 和 Tang 在2023年发表了一篇被广泛引用的论文《Can ChatGPT Forecast Stock Price Movements?》，最新版本更新到2025年10月。他们让GPT-4对新闻标题进行情绪评分，然后检验这些评分是否能预测股价变动。

结果相当漂亮：GPT-4对市场"初始反应"的捕捉能力达到了约90%的组合日命中率。模型越大，金融推理能力越强——这暗示着金融理解力是大语言模型的一种涌现能力。

但这里有两个关键限定词。第一，90%命中率对应的是"不可交易的初始反应"——也就是新闻出来的瞬间，市场立刻做出的反应。这个速度，人类交易者几乎不可能捕捉到。第二，论文同时发现，随着越来越多的人开始使用LLM进行交易分析，策略收益在下降。用论文的话说，这与"市场效率提升"一致——当所有人都用同一个工具看同一条新闻，信息优势就消失了。

这个发现本身就已经说明了很多问题。LLM不是不聪明，而是它的聪明正在被自己的普及所稀释。

二、回测天堂，实盘地狱

在AI交易研究中，有一个反复出现的主题：回测（backtesting）表现优异，实盘表现平庸甚至亏损。

2025年8月发表的AlphaX论文直言不讳地指出了这个问题。作者基于价值投资理念开发了一套AI交易策略，在巴西股市的回测中跑赢了主要基准。但论文自己也承认："许多开发者报告了在回测中表现出色的策略，然而当这些策略被部署到真实市场时，其表现往往会恶化，尤其是在风险调整后的收益方面。" 回测好但实盘差，这不是例外情况，而是AI金融模型的普遍规律。

为什么会这样？牛津大学的 Li 等人在2025年发表、2026年2月更新的FINSABER论文给出了系统性的解答。他们构建了一个跨越二十年、覆盖一百多只股票的回测框架，对此前被报道为"有效"的LLM交易策略进行了更大范围、更长周期的检验。

结果令人清醒：此前报道的LLM策略优势在更广泛的测试中"显著恶化"。进一步的市场环境分析揭示了一个核心矛盾——LLM策略在牛市中过于保守，跑输被动持有基准；在熊市中又过于激进，导致重大亏损。换句话说，LLM在最需要它做出正确判断的时刻，做出了相反的选择。

此前的研究之所以显得乐观，很大程度上是因为评估时间窗口太短、股票样本太少，并且存在幸存者偏差和数据窥探偏差。当你把测试范围放大到真实市场的复杂度时，magic就消失了。

三、通用智能 ≠ 交易能力

2025年11月发表的AI-Trader论文提供了一个更直接的证据。这是第一个完全自动化、实时数据、无数据污染的LLM交易评估基准，覆盖美股、A股和加密货币三大市场。

他们测试了六个主流LLM，结论如此尖锐，值得原文引用："通用智能不会自动转化为有效的交易能力，大多数agent表现出糟糕的收益和薄弱的风险管理。"

一个更值得注意的发现是：风险控制能力——而非预测准确率——才是决定AI策略能否跨市场稳健运行的关键。在高流动性的美股和加密货币市场，AI策略尚可获得一些超额收益；但在受政策驱动的A股市场，表现则明显更差。

Google Scholar上的另一项研究也印证了这一点：尽管LLM agent在金融问答类benchmark上表现出色，但在实际交易中，大多数agent无法跑赢一个简单的买入持有（buy-and-hold）基准——无论是累计收益还是风险调整后收益。

这个结论很重要。很多社交媒体上的AI炒股演示，本质上展示的是LLM回答金融问题的能力，而不是真正的交易盈利能力。能说出看起来很专业的分析，和能真正赚到钱，是两件完全不同的事情。

四、你以为AI在预测未来，它可能只是在回忆过去

2025年12月，Gao、Jiang 和 Yan 发表了一篇关于"前瞻偏差"（Lookahead Bias）的论文，揭示了一个许多AI炒股研究都回避的尴尬问题。

他们开发了一个统计检验方法来检测LLM预测中的前瞻偏差。核心思路是：用数据污染检测技术估算一个 prompt 出现在LLM训练语料中的概率，他们称之为"前瞻倾向"（Lookahead Propensity, LAP）。如果LAP和预测准确率之间存在正相关——也就是说，LLM越可能在训练中见过这条新闻，对相关股价的预测就越准——那就说明LLM并非在做真正的金融推理，而只是在"回忆"训练数据中已经包含的结果信息。

这个发现对整个"AI预测股市"叙事是致命的。当有人展示"AI准确预测了过去半年的股价走势"时，你需要先问一个问题：这些数据是否在模型的训练截止日期之前？如果是，那所谓的"预测"很可能只是记忆。

五、多agent系统：看起来更高级，问题更隐蔽

面对单个LLM交易效果不佳的现实，研究者们转向了多agent协作框架。2024年底发表的TradingAgents论文模仿真实交易公司的组织架构，设计了基本面分析师、情绪分析师、技术分析师、看多研究员、看空研究员、风控团队和交易员等多种角色，让它们通过辩论和协作做出交易决策。

论文声称在累计收益、夏普比率和最大回撤等指标上优于基线模型。2025年发表的FinMem项目也提出了类似的分层记忆架构，声称提升了交易表现。

但2026年2月最新发表的一项行为一致性验证研究对此泼了冷水。研究者测试了LLM agent的策略切换行为是否符合行为金融学理论——也就是真实交易者面对亏损、从众压力、财富差异和价格偏离时会如何调整策略。结论是：LLM agent的行为"仅部分符合"行为金融理论。

这意味着，即使你搭建了一个看起来很像真实交易公司的多agent系统，里面的"分析师"和"交易员"在关键的市场转折点上，做出的决策逻辑可能和真实交易者截然不同。系统越复杂，这种不一致性越难被察觉。

六、安全漏洞：AI交易系统的阿喀琉斯之踵

2026年1月发表的一项研究揭示了一个更令人担忧的风险维度。研究者发现，通过在新闻标题中插入人类肉眼不可见的微小篡改——Unicode同形字符替换或隐藏文本——就能可靠地误导依赖LLM的交易系统。

实验数据相当惊人：在14个月的测试期内，仅仅篡改一天的新闻标题，就能将年化收益降低最多17.7个百分点。研究者还分析了主流数据抓取工具和交易平台的代码，发现这类攻击在技术上完全可行。他们调查了27名金融科技从业者，证实了攻击假设的现实可行性。

这意味着，当越来越多的资金依赖AI系统做决策时，一个恶意行为者可以通过操纵信息源来系统性地从这些AI交易者身上获利。AI交易系统的集中化，反而创造了新的系统性风险。

七、那些真正用AI赚了钱的人

说了这么多"不行"的证据，是否存在真正用AI在金融市场赚到钱的案例？

答案是存在的，但和社交媒体上讲的故事完全不同。

Renaissance Technologies的Medallion基金自1988年以来年化收益约66%（费后约39%），是公认最成功的量化交易基金。Two Sigma、D.E. Shaw、Citadel等量化巨头也持续数十年获得了超额收益。它们确实大量使用了机器学习和AI技术。

但这些成功案例有几个共同特征。第一，它们不是"用ChatGPT炒股"——它们的模型是高度定制化的、从底层开始构建的系统，通常涉及数百名博士级别的研究人员数年甚至数十年的持续优化。第二，它们的核心优势在于数据和基础设施——独有的另类数据源、微秒级的执行速度、复杂的风险管理体系——这些都不是一个普通人能用开源LLM复制的。第三，它们的策略容量有限。Medallion基金管理规模长期控制在约100亿美元，并在2005年后就不再接受外部资金，正是因为策略容量的天花板。

而值得注意的是，即便是这些顶级机构，它们面向外部投资者的基金表现也远不如内部基金。Renaissance的三只外部基金在某些年份甚至出现了亏损。

八、流量炒作的四种常见套路

基于以上研究，社交媒体上"AI炒股赚钱"的叙事中，有四种特别常见的误导模式。

第一种是回测当实盘。展示AI策略在过去某段时间的回测收益曲线，但不提这是事后选择的最佳时间段和最佳参数组合。FINSABER论文已经证明，当你扩大测试范围后，这些曲线会变得面目全非。

第二种是混淆预测和盈利。LLM确实能分析新闻情绪、总结财报、解读市场动态。但Lopez-Lira的研究明确告诉我们，即使GPT-4能以90%的准确率捕捉市场对新闻的初始反应，这也无法直接转化为可交易的利润。

第三种是忽略前瞻偏差。让AI"预测"它训练数据覆盖范围内的历史股价，然后展示惊人的准确率。Gao等人的研究已经开发了专门的统计工具来检测这种偏差。

第四种是幸存者偏差的选择性展示。运行100个AI策略，挑出表现最好的那几个来做宣传。你看到的是赢家，看不到的是同样方法产生的90多个输家。

九、一些可能有用的真话

如果你正在考虑使用AI辅助投资，以下几点是经过研究验证的：

LLM在信息处理和情绪分析方面确实有价值——用它来阅读和总结大量财报、新闻、研报，提高你的信息处理效率，这是合理的用法。但不要指望它直接告诉你买什么卖什么。

AI交易策略的核心挑战不在于预测准确率，而在于风险管理和市场环境适应性。AI-Trader论文反复强调，风险控制才是跨市场稳健运行的关键，而这恰恰是目前LLM最薄弱的环节。

策略越公开，失效越快。Lopez-Lira的论文直接观察到了这个现象——LLM策略收益随着普及度上升而下降。如果一个AI交易策略被做成课程或工具卖给大众，它的有效性大概率已经在售出的那一刻开始消亡。

在A股等政策驱动型市场，AI策略面临额外的困难。AI-Trader的测试显示，LLM在政策驱动环境中的表现明显差于高流动性市场。中国市场的涨跌停板、T+1限制、政策窗口指导等特殊机制，进一步加大了AI策略的实施难度。

结语

活了一千年，见过太多"这次不一样"的故事。炼金术不一样，永动机不一样，南海公司不一样，dot-com不一样。每一次，新技术都给了人们一个相信自己可以战胜市场的理由。

AI是真正的技术进步，这一点没有疑问。但"AI很强大"和"你用AI就能炒股赚钱"之间，隔着的距离比大多数人想象的要远得多。学术研究一再表明，LLM具备金融推理的涌现能力，但将其转化为持续、稳健、可复制的交易利润，仍然是一个未被解决的问题。

在社交媒体上看到AI炒股致富的故事时，不妨想一想：如果这个方法真的这么好用，他为什么要告诉你？

主要参考文献

Lopez-Lira, A. & Tang, Y. (2023-2025). "Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models." arXiv:2304.07619
Li, W.W. et al. (2025-2026). "Can LLM-based Financial Investing Strategies Outperform the Market in Long Run?" (FINSABER) arXiv
Fan, T. et al. (2025). "AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets." arXiv
Gao, Z., Jiang, W. & Yan, Y. (2025). "A Test of Lookahead Bias in LLM Forecasts." arXiv
Rizvani, A. et al. (2026). "Adversarial News and Lost Profits: Manipulating Headlines in LLM-Driven Algorithmic Trading." arXiv
Xiao, Y. et al. (2024). "TradingAgents: Multi-Agents LLM Financial Trading Framework." arXiv:2412.20138
Yu, Y. et al. (2023). "FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design." arXiv
de Castro, P.A.L. (2025). "AlphaX: An AI-Based Value Investing Strategy for the Brazilian Stock Market." arXiv
Li, Z. et al. (2026). "Behavioral Consistency Validation for LLM Agents: An Analysis of Trading-Style Switching through Stock-Market Simulation." arXiv