作者:海影量化
题图:海影量化微信公众号
“你根本不懂量化”之二提到,市场上的错误定价,可以分为三类:
前两类并非量化策略所长,而第三类——交易层面的错误定价,才是量化策略获取超额的主战场。这种错误可拆解为两大维度:横截面错误(股票间的相对定价失衡)与时序错误(时间维度的价格偏离)。其中,横截面错误正是量化选股超额收益的核心来源。
所谓横截面错误,即不关注整体市场估值是否合理,而是聚焦于市场内约5000只股票之间的相对价格是否失衡。具体来说,如果我们把指数视为整体市场的代表,那么横截面错误意味着:在剔除指数影响后,识别出哪些股票相对于其他股票被低估(未来倾向于相对上涨),哪些被高估(未来倾向于相对下跌)。
一、因子模型是什么?
针对横截面错误定价,量化策略在数十年前发展出了一套成熟的方法论——多因子投资。
所谓因子,本质是可复现的统计特征——它能有效帮助策略识别股票在横截面意义上是被错误低估还是高估。任何一种特征,只要能被精确定义,并且具备可复现的预测能力,都可以成为一个因子。
例如,历史统计发现,低PE(市盈率)的股票在未来12个月倾向于表现更好,而高PE的股票则倾向于表现更差。那么,PE值这一特征就可构建成一个有效的基本面因子。
从1976年Ross提出套利定价理论(APT)开始,多因子模型已走过近半个世纪:
前面提到的PE估值属于基本面因子。技术面因子则不是基于财务信息,而是依据股票的交易价格与成交量构建。
此外,还有另类因子,如基于股吧中某只股票正面评价数量和情绪强度构建的因子,可能预测其未来表现更优。
二、因子模型为何可以获得超额?
因子的力量不在单兵作战,而在集团军作战——一个因子贡献1%超额,千个因子便能垒起显著超额的高墙。
需要深刻理解的是:即使一个因子的预期超额为正,也绝不意味着它在所有时间、所有市场下都能获得正超额。一个因子的有效,恰恰以其阶段性失效为前提。这从原理上可以解释:
因此,任何有效因子在被发现后,其有效性都处于被不断摊薄的进程中。策略使用者构成了一个持续进化的生态体系。每个策略,都如同以因子及其组合为DNA的“物种”,在森林般的资金生态中“狩猎”并“躲避狩猎”,经历着优胜劣汰、灭绝、跃迁与进化。量化策略的竞争与进化永无止境。没有什么策略是永恒占优的,没有永动机、水晶球、魔法师或者诸如此类的东西。
其中的难题涉及到如下三个方面:
1. 周期性:策略使用者努力构建自己的因子模型,投资行为也由这些因子模型决定。当某些因子获利较高时,采用该因子的玩家数量上升;随之,因子有效性降低,一段时间后,玩家因损失而减少使用该因子。经过一个周期,因子的有效性再度回升。有道理的因子很难彻底退出因子库,但其在因子库中的赋权会周期性波动。
2. 前沿性:更前沿的竞争在于,各个玩家都试图发现别人未曾发现的有效因子。“别人未曾发现的有效因子”这一术语本身就表明,这一游戏是高度竞争且极其费钱的。没有人能认为自己比别人聪明,这意味着在发现新因子的竞赛中,没有人能长期占据绝对优势。
有效因子的难点在于,你需要保证这是一个全新的、异质的新因子。有时候,你发现了一个有效因子,但假设你发现它带来的超额,不过是其他已经存在的有效因子的某种组合,那么,这个因子对模型的价值就会近乎消失。对此,你不得不发展一系列的中心化技术(例如正交化技术),将常见因子对该因子的影响剔除之后再来评估。如何做这些事情、如何处理相关细节,可能会决定你的因子(在实战中)是有效还是无效。
3. 组合性:在因子层面之上,是因子组合模型的竞争。面对自己发现的数百个、数千个有效因子,如何对它们进行动态有效的赋权,从而在动态上保证因子组合的最终输出更加高效?这就是因子组合模型要完成的任务,即将所有被使用的因子以有效的方式组合起来。
因子组合模型也经历了技术迭代:之前大部分是以线性模型为主,最近六七年以来,更多使用了以机器学习为代表的非线性技术来进行因子赋权操作。
因子组合模型的难题,在于数据不是无限可用的。如果我们有充分的数据,或者说,如果我们能够被给与个股真实价格空间分布的多个(例如1000个、10000个)抽样,那么,以这些抽样得到的数据集为基础,来训练因子组合模型,从数学上讲,不论哪种优化算法(线性回归、岭回归、lasso回归、支持向量机、随机森林、XGboost等等)都可以解决因子最优赋权问题,给每一个有效因子赋予最佳权重,让其权重与其边际贡献正相关,得到最佳组合超额。
然而,我们手里没有1000个抽样,我们只有一个抽样,即历史上真实走出来的数据。面对这“一个”数据集,模型建构者必须小心处理,不要过分“折磨”数据——通常,我们将数据集划分为训练集、验证集与测试集,这有助于避免过拟合问题。但假设你在测试集上效果不佳,然后通过某些操作将其改善,然后再回到训练集去训练,表面上看避免了过拟合,但实际上仍旧有过拟合泄露。
对此没有完美的解决方案,我的经验是,本质上,你需要坚持两点:
第一,逻辑高于数学:在数学与算法之前,你的想法必须是有道理的、在哲学上站得住脚的
第二,测试集如黄金般吝啬:以极为吝啬的态度来对待你的测试集数据,不要多次利用它;一些数据生成技术或许也有一定价值
以经验来说,因子组合模型的优劣,其重要性不亚于因子库的建设。而无论是发掘更多有效因子,还是对因子进行更稳健的组合,这两类竞争都是没有终点的竞赛。
归根到底,量化策略竞赛的胜败不取决于一城一池的得失,而是取决于模型背后团队的创造力、洞察力、组织合理性与好奇心,而近年来AI技术的崛起,为这样的团队提供了具有无限技术改进潜力的机会,下一讲我谈谈这方面我们的尝试。
免责声明:
您在阅读本内容或附件时,即表明您已事先接受以下“免责声明”之所载条款:
1、本文内容源于作者对于所获取数据的研究分析,本网站对这些信息的准确性和完整性不作任何保证,对由于该等问题产生的一切责任,本网站概不承担;阅读与私募基金相关内容前,请确认您符合私募基金合格投资者条件。
2、文件中所提供的信息尽可能保证可靠、准确和完整,但并不保证报告所述信息的准确性和完整性;亦不能作为投资决策的依据,不能作为道义的、责任的和法律的依据或者凭证。
3、对于本文以及文件中所提供信息所导致的任何直接的或者间接的投资盈亏后果不承担任何责任;本文以及文件发送对象仅限持有相关产品的客户使用,未经授权,请勿对该材料复制或传播。侵删!
4、所有阅读并从本文相关链接中下载文件的行为,均视为当事人无异议接受上述免责条款,并主动放弃所有与本文和文件中所有相关人员的一切追诉权。