模型悖论：机器学习因子的困境与出路

关注

作者：随机森林之外

题图：随机森林之外微信公众号

用机器学习挖掘因子时，你是否遇到这样的情况：复杂模型挖出的因子回测亮眼，实盘却很快失效；反观动量、流动性这类人工提炼的简单因子，却能持续贡献收益。

这种反差让人困惑：投入大量精力优化模型、扩充特征、调校参数，得到的却是脆弱的结果；而一些久经验证的简单因子，反而更稳健。事实上，不少学术研究表明，机器学习确实能带来增量收益（Gu et al., 2020; Sak et al., 2024）。

问题出在哪里？直观上我们会归因于过拟合——模型太复杂，拟合了历史噪音。但这个解释太笼统，实际上这个问题比“过拟合”更复杂。

在尝试找到改进的方向之前，我们先厘清这背后的深层逻辑。

简单因子的韧性：行为偏差与因果机制

为什么动量、价值、低波动等经典因子能够长期有效？一个合理的解释是：它们捕捉的是交易者的行为偏差，如过度反应、有限关注、前景理论、处置效应等。这些偏差源于认知的演化遗产，具有心理层面的稳定性。“太阳底下无新事”，只要人性不变，这些偏差就会以不同形式重复出现。

这些因子对应的是逻辑驱动的因果机制。动量溢价的存在是因为投资者对信息反应不足或过度反应，这一行为模式在特定市场环境下会持续产生可预测的价格模式。正是这种因果机制，让它们得以穿越周期。

以动量因子为例，如果动量源于投资者对好消息反应不足，那么当信息传播速度加快、套利成本降低时，动量效应应当减弱。这一预判可以指导我们在不同市场环境下调整因子权重。而一个缺乏因果解释的统计模式，我们无法做出此类预判，我们只知道它在历史上有效，但不知道它何时会失效。

机器学习因子的困境：不止于过拟合

因果理解与统计拟合的差异，在过拟合问题上体现得最为直接。

统计学习理论对过拟合有清晰定义：当模型复杂度超过样本信息量时，模型开始拟合噪音而非信号，导致样本外表现下降。交叉验证、正则化、早停等技术正是为此设计。

不少用机器学习挖因子的人发现，这些技术在金融数据中效果有限。一个在严格交叉验证下表现稳健的模型，实盘后仍可能迅速失效。这说明金融市场的过拟合有更复杂的形态，它不仅是统计意义上的“样本内与样本外”，或许也是认知意义上的“历史与未来”。

金融市场的根本特征是非平稳性。价格序列的联合分布随时间变化，过去十年的统计规律，未必适用于未来一年。机器学习模型本质上是在拟合一个历史分布，而当市场发生结构性变化，比如交易机制变更、宏观政策转向、参与者结构演化等，模型面临的不是样本外测试，而是分布外推。

当模型面临分布外推时，传统过拟合概念需要重新审视。一个即使对历史分布拟合准确的模型，只要未来分布发生偏移，也会失效。这种失效不是过度拟合噪音，而是过度依赖历史分布本身。

即使市场宏观环境未发生剧变，模型发现的模式仍可能自我消亡，因为模式一旦被广泛认知和利用，套利行为就会削弱其有效性。这正是有效市场假说的微观基础。

但对于复杂机器学习模型而言，问题更为棘手：由于缺乏可解释性，当模型失效时，我们难以判断原因是套利侵蚀还是市场变化。相比之下，当一个简单因子如动量出现回撤，研究者或许可以归因于市场趋势减弱或反转效应增强，并基于此判断是暂时回撤还是逻辑瓦解；而当一个黑箱因子出现回撤，我们几乎无法有效归因，只能被动等待或废弃模型。

这种不确定性，正是机器学习挖因子面临的根本困境。当模型表现优异时，我们无法确信这是可持续的信号还是偶然的运气；当它表现不佳时，我们也不知道这是暂时的回撤还是永久的失效。这种面对模型时的认知无力感，让我们从统计学的困惑，陷入了认识论的困境。而这恰恰引出了一个更深层的问题：统计拟合与因果理解，究竟代表了两种怎样的认知范式？

三、两种认知范式的碰撞

上述的困境，折射出两种根本不同的认知世界的方式。我们不妨借用哲学中的一对经典概念来理解：归纳主义与演绎主义。

1.归纳与演绎

我们日常依赖的机器学习，本质上是归纳主义：它从历史数据中自动发现模式，不依赖先验知识。其哲学基础可追溯至休谟，我们无法确知因果关系，只能观察恒常联结。而人工提炼因子则更接近演绎主义：从理论假设出发，再回到市场中去验证。

这两种范式各有优劣。归纳能够发现人类认知范围之外的模式，但容易陷入虚假相关；演绎有逻辑支撑，但可能受限于理论视野，错过重要的新现象。在平稳世界中，两者可以趋同，充分的归纳最终会逼近真实规律，而真实的规律也能被演绎体系所容纳。但在非平稳世界中，两者出现根本性差异：归纳得到的模式可能只是对特定历史阶段的精确刻画，而演绎得到的因果机制则可能具有跨时期的稳定性。

2. 反身性

这背后是金融市场的本体论（ontology）特征：反身性，即参与者的认识会改变市场本身。索罗斯指出，在社会科学中，思维与实在之间存在双向联系，这使得社会现象不存在类似于自然科学的恒定规律。反身性对量化研究提出了严峻挑战：如果一个规律被广泛认知和运用，套利行为就会削弱其有效性——这正是有效市场假说的微观基础。

但这里需要区分两个层面。对于管理巨量资金的机构，其交易行为本身可能对市场产生可观测的影响，反身性效应真实存在；而对于大多数量化团队，单个模型的资金容量有限，其对市场的反身性影响往往微乎其微。真正的风险不在于“我的模型改变了市场”，而在于“其他市场参与者发现了同样的规律，并通过交易将其套利殆尽”。换言之，反身性不是来自个体认知对市场的单向塑造，而是来自集体认知的趋同行为——当太多人追逐同一个信号，信号就会自我毁灭。

在这种条件下，纯粹的统计拟合必然是在追逐一个移动的目标，因为市场本身会因参与者的集体行动而改变。区别在于：因果理解的模型能够预判这种变化的可能方向，而纯统计模型大多只能被动承受失效的后果。

对此，我们需要区分深层结构与表层现象。

深层结构：那些相对稳定的、构成市场运行基础的规则和人性特征，如人类固有的行为偏差。
表层现象：深层结构在特定历史条件下的具体表现。

以动量因子为例，其背后的深层结构是投资者对信息的反应不足或过度反应，而我们在不同市场观察到的动量溢价，则是这一深层结构的表层现象。

因果理解的价值，在于它能够触及深层结构。统计拟合则更容易停留在表层现象，它能够精确描述过去十年动量效应的具体形态，却难以预判这一形态在未来会如何演变。

两个核心追问

我们可以继续追问两个更深层的问题。沿着这两个问题展开，或许能触及理解量化模型认知边界的线索。

1. 复杂模型的简约真相

那些表现优异的复杂模型，它们究竟学到了什么？是发现了全新的复杂规律，还是以更精巧的方式组合了那些本就存在的简单信号？

当我们在谈论深度学习模型时，通常会想象一个由数百万参数构成的庞大网络，能够捕捉任意复杂的非线性关系。但金融数据有一个根本特征：有效信息是稀疏的。数千个候选特征中，真正包含预测能力的可能只有少数几个维度，那些与经济周期、投资者情绪、市场微观结构相关的核心变量。其他绝大多数特征要么是噪音，要么是这些核心变量的冗余变换。

这就产生了一个张力：我们用极其复杂的工具，去拟合一个信息稀疏的对象。复杂模型强大的表达能力，在这里既是优势也是隐患，它既能捕捉那少数真实信号，也极容易将噪音当作信号编码。

那么，实际训练中模型究竟学到了什么？2024年，Sak、Huang和Chng发表了一项长达18年的样本外研究。他们对1998年至2016年美国市场的机器学习组合进行了系统检验，发现机器学习模型确实持续产生了显著的alpha（月均2.14%-2.74%）。但真正关键的发现来自后续的归因分析：主导模型收益的特征，仅有两组，每组3到4个。而且这些特征的相对重要性并非固定不变，而是随美国信贷周期交替变化，在信贷扩张期，一组特征占主导；在信贷紧缩期，另一组特征取而代之。

这一发现与“复杂模型依赖复杂规律”的直觉不同。那些持续有效的机器学习模型，其预测能力并非来自对大量特征的复杂组合，而是来自对少数核心特征的动态权重调整。模型的价值不在于发现全新的“暗因子”，而在于更敏锐地感知那些已知重要特征在不同市场环境下的相对重要性，并据此实时调整权重。

这与Gu等人（2020）发表的经典研究形成呼应。他们系统比较了多种机器学习方法在资产定价中的应用，发现虽然神经网络等复杂模型确实优于线性模型，但提升主要源于对非线性关系的捕捉，而非发现了全新的预测变量。换言之，机器学习的作用是增强而非创造。

从深度学习理论的角度看，这一现象可以用“隐式简洁性偏好”来解释。过参数化的神经网络虽然拥有足够的容量来完全过拟合训练数据，但优化过程的动态特性会引导模型走向参数空间中更平缓的区域，从而对模型的复杂度施加隐式约束（Dherin, 2024）。在众多与训练数据一致的模型中，能够良好泛化到分布外样本的，通常是那个最简单的模型。

对于量化研究者，这意味着模型的复杂度并不等于其发现的规律复杂度。一个深度神经网络可能有数百万参数，但真正起作用的可能只是其中极小一部分。当我们评估一个机器学习因子时，应追问驱动这个模型的核心特征是什么，这些特征是否具有经济含义，它们的相对重要性是否稳定还是随市场状态变化。这些问题有助于区分模型是真正学到了可理解的规律，还是只是在庞大参数空间中偶然拟合了历史噪音。

更重要的是，这一洞察揭示了机器学习最核心的贡献可能不在于挖掘新因子，而在于动态配权。传统多因子模型的一个难点是因子权重的设定，等权、市值加权，还是基于某些规则调整。机器学习提供了一种数据驱动的权重动态优化方案。而这一能力的价值，恰恰在非平稳市场中尤为凸显。当市场状态变化时，能够快速调整因子权重的模型，比那些权重固定的模型更具适应性。

2. 过拟合的时间尺度相对性

当一个在严格验证下表现稳健的模型实盘失效，这是统计意义上的过拟合，还是另有原因？市场存在多重时间尺度的结构，所谓过拟合是否可能是时间尺度的错配？

量化从业者普遍面临一种困惑：一个在严格交叉验证下表现稳健的模型，实盘后仍可能迅速失效。这种现象在统计学框架下通常被归为过拟合，但深入一层，问题的核心在于市场存在多重时间尺度的结构。

微秒级的微观结构噪音、日频的情绪波动、月频的动量延续、年频的宏观周期、十年一遇的制度变革，这些不同时间尺度的规律同时存在，相互交织。一个在日频上表现优异的模型，可能在月频上是噪音；一个捕捉了宏观周期的模型，可能在日频上毫无预测能力。

所谓的过拟合，可能不是二元的是非判断，而是时间尺度的错配。模型拟合的是特定时间尺度的规律，而当预测尺度与规律的时间尺度不匹配时，就表现为失效。

举例来说，假设市场存在一种周度反转效应，每周超跌的股票在下周初有反弹。一个模型如果在分钟数据上训练，可能会捕捉到这一效应，因为周度效应会在分钟数据中留下痕迹。但如果这个模型被用于预测未来一年的日度收益，它就会失效，因为它学到的规律只在周度尺度上成立，换到更长的预测周期就成了噪音。

更微妙的是，不同时间尺度的规律之间存在交互。一个在特定周期如2008到2018年训练的模型，可能会把该周期内的特殊规律如低利率环境下的价值因子表现当作一般规律学习。当利率环境变化，这些规律失效，模型便表现为过拟合。但从另一个角度看，模型并没有拟合噪音，它拟合的是那个特定周期内真实存在的规律，只是这些规律不具有跨周期的一般性。

这正是时间序列预测领域近年来深入探讨的概念漂移问题——简单说，就是数据的统计分布会随时间推移而发生改变。Nakakita和Imaizumi（2025）指出，在过参数化的时间序列线性模型中，风险的边界不仅取决于参数数量与样本量的比值，更取决于数据的时序协方差结构。这意味着，时间序列的依赖结构本身就会重塑我们对过拟合的理解，某些在独立数据下被视为过拟合的模式，在时序依赖结构下可能是良性的，反之亦然。

当概念漂移发生时，模型面临的不是样本内与样本外的问题，而是分布外推——历史分布与未来分布不再一致。此时，即使模型对历史分布的拟合完全准确，只要未来分布发生偏移，它就会失效。这种失效并非过度拟合噪音，而是过度依赖历史分布本身。

这也是为什么一些简单因子能够长期有效。动量因子捕捉的是人类行为偏差，过度反应和反应不足，这些偏差根植于人性，具有跨时期稳定性。虽然动量效应的具体表现会随市场环境变化，如信息传播速度加快时动量周期缩短，但其核心逻辑始终存在。行为金融学的研究（Barberis & Thaler, 2003）表明，这些偏差源于有限套利和投资者心理，是市场的深层结构，而非特定历史阶段的表层现象。

对于量化研究者，这意味着我们需要建立时间尺度意识。当我们训练一个模型时，应明确它的预测目标是什么尺度，是分钟级、日级还是月级。模型的特征和结构应当与这一尺度匹配。一个在日频上训练的模型，不应被用于预测分钟级收益，也不应被期望在年频上有效。

更重要的是，我们需要主动监测概念漂移。与其被动等待模型失效，不如实时跟踪市场状态的变化。基于模型预测误差的统计过程控制、基于数据分布变化的流形距离监测等方法（这些方法本质上是量化“当前市场”与“历史模式”的差异度），可以帮助我们判断模型失效是因为过拟合，还是因为市场变了。

从认知到实践：因子挖掘的进阶路径

以上两个追问的探讨，最终要落回到一个实际问题：我们如何借助机器学习，在因子挖掘上比传统方法走得更远？

1. 可能的路径

将预测目标从股票收益转向因子有效性。既然机器学习的核心价值在于动态配权，那么我们可以直接训练模型来预测哪些因子在未来一段时间会更有效。这种方法的本质，是让模型做它最擅长的事，根据市场状态调整权重，而非强行挖掘新信号。
在特征工程阶段引入逻辑锚定。金融信息的稀疏性提示我们，特征空间应该被约束在具有潜在经济含义的范围内。有研究者提出了“因子工厂”框架。该框架可以让大语言模型阅读金融文献，自动生成具有逻辑基础的因子表达式，并附上人类可读的释义，再通过回测进行验证和优化。
建立机制感知的动态更新策略。模型更新不应是被动的定期重训，而应是主动的机制感知。例如，通过监测因子在不同市场状态下的表现是否偏离历史规律，可以在一定程度上感知市场逻辑的变化。当因子行为偏离历史模式时，我们需要判断这是暂时的噪音，还是市场结构的根本性转变——这种判断无法仅从数据中得出，需要依赖对因子背后因果机制的理解。

2. 值得细致思考的问题

这三条路径都不是现成的答案，每条路都有其值得琢磨的关节。

让模型学会动态配权，直接预测因子本身的有效性。预测因子有效性，首先需要定义“有效性”的标签，并构建相应的预测模型。这本身就是一个值得探索的机器学习问题，当然也需要注意避免陷入过拟合。如果因子有效性本身具有一定规律，那么以此为基础的模型就有可能捕捉到这些动态变化。我们需要思考的是，如何设计更稳健的标签体系，让模型真正学习到因子有效性的切换逻辑，而不是历史噪音。
让特征本身更具备逻辑基础。特征逻辑锚定，无论是依赖人工知识还是借助大语言模型，从文献中提炼的逻辑表达式都需要经过样本外验证。更值得探索的是如何将这些表达式与机器学习模型有机结合，是作为特征输入，还是作为损失函数的约束，这需要反复实验来寻找最佳方式。如果结合得当，我们既可能保留逻辑的可解释性，又能发挥机器学习的拟合能力，实现两方面的优势互补。
用市场状态监控系统判断市场逻辑是否发生了变化。本质上是试图预测市场结构的变化。基于预测误差的统计过程控制、基于预测误差的统计过程控制、基于数据分布的流形距离监测等方法，可以提供有价值的警示信号。虽然这些信号无法替代对背后逻辑的深入判断，但它们为我们提供了感知市场变化的窗口，帮助我们更及时地做出反应。

将这些路径视为探索方向，在实践中从小规模验证开始，逐步迭代，在试错中积累经验，可能是更可持续的方式。机器学习与因果理解的融合，本质上是一个持续演进的过程，而不是一次性的技术升级。

这些实践方向的共同内核，是将因果思维融入数据驱动框架。机器学习提供的是强大的模式识别能力，但我们需要用经济逻辑来筛选和解释这些模式，用动态框架来适应市场变化。

身在其中，心有所辨

复杂模型的卓越表现，往往源自其对少数核心特征的动态权重调整——这是“隐性简单性”。而所谓过拟合，很多时候是时间尺度的错配：模型在某一尺度上学到的规律，换一个尺度便成噪声。

机器学习能发现人类难以捕捉的非线性模式，这一点毋庸置疑。但量化赚钱的本质，不在于模型本身，而在于理解它的有效边界、适用的时间尺度，以及当市场变化时它可能如何反应。这种理解，需要机器的计算能力，也需要我们对市场运行逻辑的洞察。

金融市场具有反身性：我们对市场的认识，本身就在改变市场。我们试图用模型捕捉市场的规律，而我们自己早已置身其中。

机器学习无法替我们作判断，但它能拓展我们认知的边界，让我们有机会逼近那些可理解的结构。

因子挖掘的核心挑战，不在于从历史中拟合出完美的曲线，而在于辨识：哪些是源自人性深处的行为模式，能穿越周期；哪些只是历史数据中的统计巧合，终将被市场遗忘。

正如博尔赫斯所写：

“时间是构成我的物质。时间是带走我的河流，而我即是河流。”

愿你我，身在其中，心有所辨。

免责声明：
您在阅读本内容或附件时，即表明您已事先接受以下“免责声明”之所载条款：
1、本文内容源于作者对于所获取数据的研究分析，本网站对这些信息的准确性和完整性不作任何保证，对由于该等问题产生的一切责任，本网站概不承担；阅读与私募基金相关内容前，请确认您符合私募基金合格投资者条件。
2、文件中所提供的信息尽可能保证可靠、准确和完整，但并不保证报告所述信息的准确性和完整性；亦不能作为投资决策的依据，不能作为道义的、责任的和法律的依据或者凭证。
3、对于本文以及文件中所提供信息所导致的任何直接的或者间接的投资盈亏后果不承担任何责任；本文以及文件发送对象仅限持有相关产品的客户使用，未经授权，请勿对该材料复制或传播。侵删！
4、所有阅读并从本文相关链接中下载文件的行为，均视为当事人无异议接受上述免责条款，并主动放弃所有与本文和文件中所有相关人员的一切追诉权。

#量化漫谈

第一时间获取行业新鲜资讯和深度商业分析，请在微信公众账号中搜索「好投汇」，或用手机扫描左方二维码，即可获得好投汇每日精华内容推送和最优搜索体验，并参与编辑活动。

模型悖论：机器学习因子的困境与出路

简单因子的韧性：行为偏差与因果机制

机器学习因子的困境：不止于过拟合

三、两种认知范式的碰撞

两个核心追问

从认知到实践：因子挖掘的进阶路径

身在其中，心有所辨

推荐阅读

评论

友情链接

帮助中心

联系我们