为什么大家买到的Alpha不一样

别看净值
2208-06 16:09

作者:别看净值

题图:别看净值微信公众号


现在投资人接触量化越来越多,最近跟投资人朋友聊起来,总能听到一个共同的吐槽:“听了半天路演。感觉每家的内容都差不多”

确实如此,我们随手翻开一个量化管理人的介绍ppt,大概率会看到一套相似的"三板斧":光鲜的团队介绍,高深莫测的策略介绍,然后就是最后漂亮的业绩曲线。

根据我的观察,大部分投资人都会先看一下团队介绍,然后大家都心照不宣地翻到最后一页的业绩曲线。因为中间的策略介绍部分,在大部分投资人看来基本上是没什么差别,但是大家心里又会有一个疑问:“既然方法论听起来都差不多,那管理人的最终的业绩为什么会有差别呢?”

就这个问题,今天就带大家仔细过一下这个被大家忽略的投研介绍章节,下一次大家看管理人ppt说不定就能发现大家不一样的东西了。

先叠个甲:下面的内容主要是我基于公开资料(比如公开文献,管理人的公开演讲等)做的一些梳理和思考。如果出现一些不准确的地方,欢迎更专业的朋友们指正。另外,内容比较长,大概4000字,建议大家先收藏再看哦。

量化投研的基本流程

我们可以把量化管理人的投研流程,想象成一条精密的生产线,大致包含五个核心环节:

数据处理-> 因子挖掘(特征工程)->预测模型->组合优化->交易执行

这条生产线最大的特点就是环环相扣。上一个环节的产出,直接就是下一个环节的“原料”。这意味着各个环节对最终结果的影响,更像是一种“乘法”,我们打个比方,比如每个环节都只有90分,五个环节下来(0.9 x 0.9 x 0.9 x 0.9 x 0.9),最终的成品可能连及格线(59分)都到不了。

这就是为什么管理人的方法论听起来差不多,但是结果却不大一样的核心原因:细节的差异会在每个环节传导,变成巨大的业绩差距。

环节一:数据处理

量化的本质就是通过分析历史数据来发现规律,从而预测未来。因此,历史数据就是整个生产线的原材料。那么量化会用到哪些原材料呢?我们可以大致可以分成以下4类:

1.数值型数据

这是整个量化中应该最重要的数据类型,占比至少超过80%。顾名思义,它主要由数字构成,可以细分成行情数据和基本面数据。

行情数据 也就是大家常说的量价数据。我们可以它把继续细分成“抽样数据”和“原始信息流数据”

  • 抽样数据 这类数据是按照固定时间间隔从原始行情中提取信息。例如,我们在交易软件上看到的日线,分钟,月线都属于这类数据。这类数据可以直接用来计算技术指标(比如大家在交易软件看到的MACD,KDJ就是从这些数据直接衍生来的),所以一般是直接可以流到下一个环节去构建Alpha因子。

比如:K线的高开低收,成交量,成交额,均价

比如:K线的高开低收,成交量,成交额,均价

  • 原始信息流数据 这就是大家俗称的高频数据,比如逐笔成交数据(tick数据)和订单簿数据。这类数据的数据量很大,同时也包含了很多噪音。所以一般高频数据是不能直接拿来计算alpha因子的,需要进行一些转化才能流到下游去使用。但是原始数据给了管理人很多操作空间,举个例子,管理人可以改变抽样方式,比如从每分钟照隔抽取信息,改成每100个tick来抽样数据。

比如:订单簿数据,包括每个价格的买卖挂单数据和撤单数据

比如:订单簿数据,包括每个价格的买卖挂单数据和撤单数据

整体来说,行情数据是目前绝大多数管理人使用的核心数据,这个数据有两个核心优点,一是数据来源于交易所,标准化程度高,稍作处理就可以流到下游使用。而是因为数据量巨大,为统计建模提供了很好的基础。这也是为什么很多管理人会强调自己是100%量价策略。

基本面数据主要来源于上市公司的财报报表的会计数据。

APPLE-2023年利润表数据

APPLE-2023年利润表数据

相比较量价数据,基本面数据要低频很多,通常按季度更新,数据量会少很多。另外,这类数据需要进行一些预处理才能使用,比如处理不同公司的财报披露日期,处理上市公司对于过往业绩的修正(数据回填)等等。

由于基本面数据更新相对低频,市场消化速度快,单独拿来开发Alpha因子的价值比较有限,但是和其他数据进行结合,可能会有1+1>2的效果。

资料来源:《Advances in Financial MMachine Learning》

资料来源:《Advances in Financial MMachine Learning》

除了数值型这类标准化数据外,管理人还有可能用到相对非标准化的数据。虽然目前这些数据在国内的实际使用中占比是不大的。

2. 关系型数据

这类数据描述得是市场中不同公司的关系网,帮助可以在后续环节帮助模型从更宏观的视角来理解市场。

  • 成对关系 (Pairwise Edges):例如,A公司是B公司的股东(股权关系)或供应商(产业链关系)

图片来源:《A survey of AI in Quantitative Investment》

图片来源:《A survey of AI in Quantitative Investment》

  • 多边关系 (Hyperedges):例如,多家公司都属于“新能源汽车概念股”,它们会因为同一个行业新闻而产生联动的价格反应。

图片来源:《A survey of AI in Quantitative Investment》

图片来源:《A survey of AI in Quantitative Investment》

3. 另类数据

这类数据的定义其实一直都不太清楚,大家可以这样理解,除了标准的数据,大部分数据都可以归为另类数据。另类数据通常需要特定的知识来处理,预处理的步骤也比较多。

  • 文本:例如新闻资讯、上市公司公告、社交媒体讨论、分析师研报等。
  • 图像:例如利用卫星图像分析港口吞吐量、工厂开工率等。
  • 其他数据:例如通过网络招聘数据判断行业景气度等。

比如之前五角大楼的披萨指数就是一个另类数据

比如之前五角大楼的披萨指数就是一个另类数据

4. 合成数据

这类数据是通过算法人工生产的数据,主要用于模型的测试。例如,管理人可以模拟历史上未曾发生过的极端行情(如更剧烈的金融危机),来做策略的压力测试。

环节二:因子挖掘(特征工程)

在完成数据的收集和清洗后,这些数据会来到第二个环节因子挖掘(有些做AI的管理人也会称这个环节叫特征工程),本质上是这个环节是管理人从数据中为后续的模型梳理有意义的信息(最好是能直接影响股价的信息)。而这个环节的质量会直接影响后续工作的产出。

在现在的技术中,因子会被分为两大类别:符号因子和算法因子(或者叫机器学习因子)。

符号因子

符号因子就是一个人类可读,有明确数学公式或者规则定义的一个指标。

比如 动量因子 = (今日收盘价 / N天前的收盘价) - 1就可以用来代表市场趋势,背后的逻辑也比较容易理解,就是“过去涨幅大的股票后续更容易上涨”。这就是管理人经常提到的可解释性的意思(这个公式是人类可读的)。

通常这类因子都是通过研究员人工探索的方法来构建的,会比较依赖研究员的知识,市场经验和灵感。对个人能力的依赖是比较大的,一个天才的研究员可能就会顶上N个一般的研究员。

算法因子

算法因子则是通过训练机器学习模型以达成特定目标(如预测未来收益率或者波动率)而间接产生的。研究员不再预设具体的因子形式,而是让模型自主从数据中学习有效的特征表示。

算法因子即可以是模型的预测值,也可以是一个高维向量(模型对原始数据内在结构和复杂模式的一种压缩)。

与符号因子相比,算法因子没有一个简单、清晰、可以写在纸上的公式,这导致了它的主要挑战,可解性性比较有限。比较难理解其内在逻辑。

但是算法因子拥有强大的非线性拟合能力(找到人难以找到的规律)和自动化挖掘效率(产生的因子数量多)。

目前管理人对于这类难以解释的因子,也不纠结于其背后的逻辑,主要是通过一些观测指标来跟踪这些因子的预测能力来实现风险管理(用人话说就是能赚钱就用了再说,亏钱了就跑)。

不同管理人的选择

有些管理人会比较拒绝使用算法生成的因子,觉得风险不可控,另外觉得算法因子虽然数量多,但是质量不如人工挖掘出来的高,所以坚持用人工挖掘的因子。

跟其他科技行业类似,之前在人工挖掘因子没有太多积累的管理人,一般反而会没有太多包袱,更愿意大胆尝试。

环节三:预测模型

在研究员通过因子挖掘(特征工程)获得了有效的因子之后,下一步就是通过构建预测模型,将这些因子有效的组合起来,以预测股票未来一段时间的收益率。

目前业内比较通用的预测模型从简单到复杂,分为以下3类:

  • 可解释性强的线性模型:OLS
  • 传统统计学习、机器学习模型:Lasso,SVM,各种树模型(如随机森林、梯度提升树等)
  • 深度学习模型:LSTM,DNN,transform等等

相信大家看到上面这些模型的名称,肯定已经比较头疼了。为了能更直观了解三类模型的复杂度差异,我给大家列了一个表格。

图片

有些管理人在路演的时候会提到超参数这个术语,超参数指的是在训练复杂模型时,管理人需要手动设置的参数,而不是最终模型的参数。比如模型在训练中的迭代次数(避免过拟合),一些惩罚项的设置(避免模型过于复杂)等等。

是不是越复杂越好

目前国内外的头部机构都没有特别强调模型的复杂性,如果在前两个环节如果挖掘出来的因子质量比较高,通过简单的线性模型也能得到不错的效果。所以大家会在管理人的介绍中看到,很多管理人简单的线性模型和复杂的深度学习模型都会使用。

比起最复杂的深度学习模型,传统的机器学习模型,因为比深度学习模型参数量小,算力资源消耗没那么大,普通硬件即可运行;但比起简单的传统线性模型,其参数空间又大了很多,可以调出很多效果不错的策略。所以有相当一部分管理人主要使用的还是传统的机器学习模型。

当然,头部的量化管理人,大多是把未来押注在深度学习模型这个方向,尤其是深度学习模型可以直接对原始数据进行分析而不需要提取特征,这样可以避免人工选择造成的信息丢失,保留所有可能的信号,有助于挖掘更深层次的Alpha。

环节四:组合优化

在预测模型给出了对成百上千只股票未来收益率的预测后,管理人会进入到下一个环节: 应该如何分配仓位

在这个环节,管理人的目标需要对收益和风险(波动率)做一个平衡,比如:

  • 给定的风险水平下最大化预期收益
  • 目标收益水平下最小化风险
  • 目标超额收益率下跟基准指数跟踪误差最小..

除了要考虑波动率之外,管理人还需要考虑其他约束,比如行业持仓的上限,个股持仓的上限,风险因子暴露的约束等等。

目前量化管理人有很多不同类型的量化选股产品,比如300增强,500增强,1000增强,全市场选股等等,通常都是共用一套收益预测模型,但通过使用优化器不同的约束设置来实现不同产品线的构建。

组合优化算法

实现这些组合优化目标的算法大致可以分为以下4种:

1.数学优化算法2.启发式算法3.元启发式算法4.强化学习算法

这些名字一看,就又是一群让人看了就头疼的术语。我们同样列了一个表格给大家参考,方便大家更直观的比较。

图片

相信大家也看得出来,其实组合优化也承担了一部分“事前风控”的功能,所以投资人除了了解管理人在技术上的不同之外,也要考虑管理人的组合优化目标是否与自己的风险偏好和投资需求匹配。

环节五:交易执行

在拿到目标仓位之后,接下来的任务就是去市场上买入和卖出相应的股票。在这个环节,管理人就要解决最后一个核心挑战,就是“市场冲击成本”。

什么是冲击成本

比如说管理人需要买100万股某公司的股票,如果他们直接向交易所下一个100万股的巨大买单,会直接暴露自己的意图,导致价格被快速推高,最后这100万股票的平均成交价格远高于下单前的市场价。这种因为自身交易导致的不利价格变动,就是“市场冲击成本”。

算法交易

为了将冲击成本降到最低,管理人需要通过把自己的订单拆成若干个小订单来逐步执行。这就是管理人常说的“算法交易”。

市场上比较经典的做法:

  • VWAP(成交量加权平均价) 根据市场历史成交量分布来安排下单节奏,力求自己的平均成交价贴近市场当天的成交量加权平均价。
  • TWAP(时间加权平均价) 会在指定时间内均匀地执行订单。

目前管理人一般不会局限于上述两种经典做法,而是会主动预测市场短期的流动性变化,实现更优的执行价格。在这个方面,有高频经验的管理人通常会有一些优势

另外,目前市场上还有一些第三方的算法交易公司,有些管理人也会使用这些服务,不一定使用自研的“算法交易”。

除了算法之后,选择不同的券商也会对交易执行有所影响。另外,规模较小的管理人本身因为交易的体量比较小,对市场的冲击天然较小,因此对复杂算法的需求也会相对较低。

最后

好了,关于量化管理人投研整体流程的梳理差不多就是这样了。尽调的时候,大家都比较喜欢问“管理人有哪些优势”,这样开放式的问题,通常也只会得到一个模糊的答案。大家不妨从这5个环节想一些细节的问题,说不定就可以得到“这些管理人有什么不同”的答案了。


免责声明:
您在阅读本内容或附件时,即表明您已事先接受以下“免责声明”之所载条款:
1、本文内容源于作者对于所获取数据的研究分析,本网站对这些信息的准确性和完整性不作任何保证,对由于该等问题产生的一切责任,本网站概不承担;阅读与私募基金相关内容前,请确认您符合私募基金合格投资者条件。
2、文件中所提供的信息尽可能保证可靠、准确和完整,但并不保证报告所述信息的准确性和完整性;亦不能作为投资决策的依据,不能作为道义的、责任的和法律的依据或者凭证。
3、对于本文以及文件中所提供信息所导致的任何直接的或者间接的投资盈亏后果不承担任何责任;本文以及文件发送对象仅限持有相关产品的客户使用,未经授权,请勿对该材料复制或传播。侵删!
4、所有阅读并从本文相关链接中下载文件的行为,均视为当事人无异议接受上述免责条款,并主动放弃所有与本文和文件中所有相关人员的一切追诉权。

0
好投汇
第一时间获取行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「好投汇」,或用手机扫描左方二维码,即可获得好投汇每日精华内容推送和最优搜索体验,并参与编辑活动。

推荐阅读

0
0

评论

你来谈谈?
发表

联系我们

邮箱 :help@haotouxt.com
电话 :0592-5588692
地址 :福建省厦门市湖里区航空商务广场7号楼10F
好投汇微信订阅号
扫一扫
关注好投汇微信订阅号
Copyright © 2017-2025, All Rights Reserved 闽ICP备19018471号-6