作者:建榕量化研究
题图:建榕量化研究微信公众号
摘要
挂单方向长期记忆性的实证规律
(1)如何识别长期记忆性?
编码:我们将每笔买入委托的标识记作“1”,而卖出委托的标识记作“-1”,从而得到了一组连续的数值序列;定量化:通过计算序列自相关系数作为指标。
(2)挂单方向具备长期记忆性的特征在A股普遍存在
宏观视角:无论大票、小票均存在挂单方向的长期记忆性,但我们发现在2022年以前并不显著,并且在高低价格股票中呈现前后不一的选择偏好。
微观视角:连续竞价阶段的长期记忆性强度在2022年以来明显提高,并且要优于集合竞价;此外,越靠近盘口、委托数量偏小的委托,在时序中的相似度越高。
长期记忆的驱动因素
订单流的长期记忆性并非是由价格趋势所致,而应归因于委托的连续性。关于这一特性的成因,目前主要有两种看法:羊群效应、算法拆单。
我们从机构持仓、股东户数、因子跟踪、订单微观视角上给出我们的理解:订单流的连续性并非是由散户在时间上的拥挤行为,而是某种或者多种算法共同作用的条件下所实现的表象特征。
Alpha策略开发
基于对长期记忆性的规律分析,笔者基于三种计算方法开发因子,分别是:
(1)自相关系数回归法:长期记忆强度_LMS、高维记忆_MEMO
方法核心为基于挂单方向的数值序列,计算其1至100阶的自相关系数,并通过对滞后阶的对数值进行回归,得到OLS模型估计参数。
(2)基于“傅里叶变换”的频谱分析:分拆痕迹_OST
傅里叶变换、小波等方法,将原本时域(常见时序特征)信息转变为频域(由数据周期性决定的)信息,方便我们计算得到更深层的因子信号。
(3)同类订单连续重复次数统计
长期记忆性的因子逻辑表述为:从订单流角度观察时序的相似性,若指标显著偏高,说明信息优势投资者倾向交易股票,从选股质量上提供正向的分层效果。
基于机器学习的特征合成:树模型、网络模型
(1)树模型(XGBoost、Light GBM)
XGBoost样本内效果比较理想,多头超额收益显著。但是,在样本外,仅有8.6%的超额收益,胜率也从98%降至70%,模型泛化能力较差。Light GBM预测因子在分组单调性上要优于XGBoost,样本外预测能力的衰减程度也相对较轻。
(2)网络模型(LSTM)
我们在尝试LSTM的损失函数中添加负IC绝对值作为惩罚项后,模型得到的预测效果有明显的提升。特征合成过程需要考虑因子间的共线性,对于模型复杂度不宜过高,同时加以适当的惩罚可以避免陷入局部最优。
基于微观视角观察投资者的行为规律,并通过指标进行宏观监测,是研究市场微观结构的重要课题。对此,我们做了多方位的尝试与探索:单笔成交金额能够反映了市场中大资金交易者的参与度,订单执行速度变化则在某种程度上描述了高频交易行为等。而本篇将从时间序列分析的角度切入,继续讨论市场微观结构。
我们首先将聚焦于一个有意思的现象:委托的挂单方向具有长期记忆性,讨论该现象在A股市场的规律以及背后的形成机制;然后,笔者引入自相关系数和频谱分析等方法,构造多个选股因子来捕捉规律背后的Alpha信息;最后,我们从特征工程视角,初步探讨“高频+机器学习”的可实现路径,并给出针对性的解决方案。
01
挂单方向长期记忆性的实证研究
1.1、 长期记忆性的定量刻画
Lillo等学者(2004)曾指出,由连续委托的挂单方向组成的序列基本符合长期记忆过程的特征,即序列的自相关强度随着距离变远而减小的速度较慢,即便在间隔很长的样本之间仍保留一定的关联性。后续学者则在不同市场内检验此结论的合理性,例如,Doojin Ryu(2012)在韩国期货市场中确认该规律显著存在,Yuki Sato等(2023)则在日本股市中找寻了能够定量刻画的指标。
我们沿用前辈们的做法,将每笔买入委托的标识记作“1”,而卖出委托的标识记作“-1”,从而得到了一组连续的数值序列。图1展示了某只股票订单流信息,以及挂单方向经数值处理后的结果。从图中不难发现,时序相邻的两笔委托之间的相似度通常比较高,包括但不限于委托方向、价格以及数量等。
针对上述现象进行定量刻画,笔者采取通用做法,利用计算自相关系数的方法描述变量的长期记忆性。为了方便讨论,我们先处理所需的数学符号,若股票单日订单数量为N,每笔订单挂单方向组成的数值序列为{Xn},其中,n=1,2,⋯,N。对于上述变量在间隔k期后的自相关程度计算如下。
1.2、 挂单方向具备长期记忆性的特征在A股普遍存在
1.2.1、 自相关系数在较长时间内显著不为零
在时间序列分析中,自相关函数(ACF)和偏自相关函数(PACF)可以用来衡量时间序列的趋势性和周期性等特征。利用深市的逐笔委托数据,我们可以测算股票挂单方向是否存在长期记忆,如图2所示。挂单方向的数值序列{X_n }的ACF和PACF均显著不为零,两笔订单买卖方向即便间隔较长期仍具有联系,这也说明了A股的订单流中同样存在挂单方向的长期记忆性。
后续订单的挂单方向和当前方向大概率是相同的。这种在交易行为上表现出的令人疑惑的一致性,在数学上可以大致地被描述为一种近似线性的规律。
为了更加直观说明,笔者选取京东方A和五粮液两只股票作为示例,分别绘制不同滞后阶k与其对应自相关系数的散点分布。自相关系数会随k呈现不同速率的指数衰减,而将k取对数则可以一定程度避免讨论幂律函数的具体形态,并且得到一组符合线性相关特性的样本。经过处理后的结果如图4所示。
图4中呈现线性分布的散点反映了个股间两点重要的差异,一是相关系数的绝对水平(截距项),二是自相关性的衰减速率(斜率)。京东方A的订单间联系要强于五粮液,因为蓝色线段与Y轴的相交值更大。
若分域讨论,我们会发现不同选股域的长期记忆性同样存在差异,沪深300和微盘股的自相关性绝对水平要弱于其他(表1),说明“在A股市场中,挂单方向具有长期记忆性”的命题有约束条件。
至此,我们能够确定的是,无论大票、小票,沪深300抑或中证1000均存在挂单方向的长期记忆性。虽然我们均可以使用斜率和截距项来衡量这一规律,但这两个指标相当于同一个硬币的不同面,信息相似度较高(-0.9以上),我们只选取截距项作为分析指标,衡量长期记忆性的强度,后文除非需要不再提及其他。
在高频特征分析中,我们通常不能忽视在指标在时序上的变化。投资者行为演变使得不同时期的市场微观结构存在较大差异,在《订单流系列:关于市场微观结构变迁的故事》报告中,笔者曾引出一个观点:自2018年以来,大量机构类型的交易者涌入并逐渐成为市场交易的主体,例如挂单金额、交易速度等高频特征也会因此而发生改变。我们做一则最为基础的假设,订单流的长期记忆性的根本来源是投资者某种特殊的交易行为。因此,该规律势必在不同时间上也会呈现差异性。
1.2.2、 宏观视角:长期记忆性在2022年以前特征并不显著
为了验证我们的猜想,笔者分别选取市值(总市值)和流动性(换手率)作为工具变量,在每个交易日内将所有股票等分成20组,然后分别统计每组的截距项的均值,观察其单调性在时序上呈现的规律,结果如图5和图6所示。
无论在市值还是流动性分组下,我们均能够看到较为明显的分界带:在2021年底前后,挂单方向的长期记忆强度差异较大,前一阶段均值为0.2,而后一阶段则可以达到0.4以上。推时序角度如此,而从截面相关性来看,自相关性在市值和换手率上的单调性规律不明显,因而该特征可能不会主动暴露常规风格。
该现象是否与股票的特殊状态有关?于是,我们分别统计了如ST、盘中涨跌停触板、新股等样本,在长期记忆强度上并没有明显偏高。造成订单流出现时序上相似性的原因并非是一些常见的哑变量。
除了市值和流动性上的差异,我们还发现在高价股与低价股间,上述变化呈现出了前后不一的“偏好”。图8展示了以股票价格分组,不同样本的长期记忆强度随价格变化趋势。在2018年至2021年期间,高价股似乎更受青睐,但2022年以来的分组单调性则出现相反的情况。
高价股与低价股属于是市场上一种风格。其中,在“机构抱团”的行情下,高价股与基金重仓股间具有很高的相似度,而在2021年至2024年初期间,整体风格偏向市值下沉。在小市值股票逐渐占优的过程中,导致长期记忆性的交易行为也开始逐渐将重心转移至非抱团股,这也是过去一段时间的变化方向。
1.2.3、 微观视角:小额、价优的委托是导致长期记忆性的具象
我们从两个角度来研究不同样本的挂单方向的长期记忆性,分别是变化规律和预测能力。一般观察订单流中每笔委托的差异性,考虑的角度有:交易时段、下单量、下单位置等等。笔者为了继续探究长期记忆性的规律,从微观角度对订单流的样本进行分类。此处仅展示具有显著性的特征,关于其预测能力部分不做展开,读者可自行跳跃至第2章阅读。
(1)交易时段
我们将完整的交易时间段划分为6段,分别是早、尾盘的集合竞价阶段以及盘中4个小时的连续竞价阶段。
图10展示了这几个不同时段长期记忆强度的水平差异。对比2018年与2024年的两个交易日的不同,我们发现在连续竞价的订单相似性有了明显的提升,说明这一现象背后的交易行为变化大概率发生在盘中。
(2)委托价格&委托数量
图12和图13展示了长期记忆强度随价格和数量的变化情况。笔者分别按照委托价格或者委托数量由小到大排序,将价格(数量)较大(小)的部分样本筛选出来计算长期记忆性的强度。
委托价格较为接近盘口的订单(价优委托)以及委托数量较小的订单(小额委托)在时序上的相似性较高,说明这一交易的目的是为了快速成交,而非从干扰订单簿的角度,并且小额的订单受到流动性的局限更小。
1.3、 长期记忆性驱动因素分析
订单流的长期记忆性并非是由价格趋势所致,而应归因于委托的连续性。我们假定买卖委托的发生是随机的,并以不同订单发生的概率作为条件模拟实际的订单流序列。图X分别展示了在上涨(Pb=0.8,Ps=0.2)、震荡(Pb=0.5,Ps=0.5)和下跌(Pb=0.2,Ps=0.8)三种行情下,自相关系数随着滞后阶的变化趋势。
由此可见,即便是价格呈现趋势性致使挂单方向偏向某一侧,同样无法得到具有较高自相关性的订单序列。图14的概率转移矩阵说明了是订单之间的连续性导致了长期记忆。而关于订单连续性的成因,目前主要有两种较为成熟的解释:
(1)羊群效应(Herding)
在一个投资群体中,单个投资者总是会观察群体的行为而采取行动,在他人买入时买入,在他人卖出时卖出。当突然出现有指向性的委托时,部分投资者观测到后会认为股价会自此进一步上涨或下跌,从而选择跟随买入或者卖出,导致订单流在方向上存在长期记忆性的规律。
(2)算法拆单(Order-splitting)
“拆单”被认为是一种用以降低成本的交易策略。部分投资者在下单交易时会将金额较大的一笔订单(Metaorder)拆成若干相同方向的子订单,并且在未来一段时间内完成这些交易。由于这是同一个投资主体的行为,所以在时序上往往变现为方向、价格和数量存在长期自相关。
上述观点国内外学者均有详细论证,可作为长期记忆性的理论支撑。但结合市场实际情况,笔者更倾向于认为“拆单”或是其他算法交易是导致长期记忆性的关键原因。至少在经验数据上,我们找到了如下几点证据:
证据1:随着机构持仓比例上升,长期记忆强度呈现抛物线式变化。
证据2:单位投资人持有市值越高,筹码相对集中,交易局促性越明显。
我们选取年报中披露的机构持仓比例,以及股东户数作为分母计算的平均持股市值作为分组指标,将全部股票样本依次分为低、中、高数值组,统计不同组内样本截至统计日期前30个交易日的平均长期记忆强度,结果如图16所示。
无论是从机构持仓视角,还是从股东户数视角来看,机构的持仓比例上升都会在一定程度上导致订单变得更加“连续”,但受限于数据无法完全及时反映的交易行为的动态影响,结论整体偏弱。在“机构重仓”的样本(高数值组)中,我们观测到数据相反的变化趋势,猜想可能原因是这部分的配置需求要优先于交易需求,导致在委托交易上的自关联现象变得相对不那么明显。
证据3:“算法拆单”行为增强与资金流Alpha衰减趋势基本吻合。
交易行为的改变会影响微观结构因子有效性。在《大小单重定标与资金流因子改进》的报告中,我们曾对大小单的划分阈值进行讨论,得到的结论是划分机构与散户的分界线正在逐渐变得模糊,并且由于交易上普遍存在“拆单”行为,识别大单的金额标准也在下移。通过优化这一阈值得到的广义主力净流入率_CNIR因子表现优异,对冲收益率稳定在25%以上,但2022年以来整体收益不如以往。
资金流Alpha衰减的背后原因,我们认为是市场上微观交易行为发生了显著的变化。以挂单金额为例,图18展示了在过往几年中订单被剥得越来越细,无论是买入还是卖出委托,在2020年至2024年间迅速降低。截至2024年,全市场个股平均单笔挂单金额的中位数仅在1.4万元附近,对于“大单”行为的捕捉难度增大。
证据4:时序连续的订单金额呈现衰减特征,并且具有时点差异。
我们进一步统计同方向连续的逐笔委托挂单金额的是否由大到小依次变化,目的是找寻在“拆单”过程的交易逻辑。图19中展示了2018年和2024年各选取的一个交易日的数据。笔者将若干长度的委托进行对齐,分别统计第1笔至第N笔的挂单金额,结果发现在2018年的样本中,订单金额的变化整体并不连续;相反,2024年的样本却表现出递减趋势,一定程度上能说明“拆单”的行为确实隐藏在这些连续的同向委托中,并且具有主动跟随“大单”来进一步实现伪装目的的特点。
一般而言,市场青睐算法交易的原因是其拥有有效降低交易成本、控制冲击成本、争取最优的成交价格和数量、隐藏意图等传统方法不具有的交易优势。经过多年的研究和开发,现阶段的交易算法已经相对成熟,例如,冰山算法等。
综上所述,订单流的连续性并非是由散户在时间上的拥挤行为,而是某种或者多种算法共同作用的条件下所实现的表象特征。尽管市场环境的变化让因子策略开发面临挑战,但仍需客观来看,算法交易的存在并不会使得Alpha完全消失,我们希望在现有的市场环境中寻找这些特征的蛛丝马迹。
02
Alpha策略:特征识别与分域讨论
基于本文第1章对长期记忆性的规律分析,笔者写了多个因子,但对每个因子都分别详细地介绍并不现实,此处仅展示因子的测试效果与关键结论分析。文中主要提供三种计算方法,分别是:
(1)自相关系数回归法
方法核心为基于挂单方向的数值序列,计算其1至100阶的自相关系数,并通过对滞后阶的对数值进行回归,得到OLS模型估计参数。
(2)基于“傅里叶变换”的频谱分析
傅里叶变换、小波等方法,将原本时域(常见时序特征)信息转变为频域(由数据周期性决定的)信息,方便我们计算得到更深层的因子信号。
(3)同类订单连续重复次数统计
从相似性角度出发,我们统计不同订单连续出现的次数,例如,连续出现若干笔买入委托的情况,作为长期记忆性的刻画指标。
2.1、 自相关系数回归法
在时序上相邻的两笔订单的关联性可以通过相关系数来刻画,我们在1.2小节中已经观察到,随着滞后阶的对数值增大,相关系数呈现线性衰减的变化趋势。通过最小二乘回归的方法,挂单方向长期记忆性可以被描述得更加立体,如用截距项表示长期记忆行的强度以及用斜率反映其持续性等等。
我们将回归得到的截距项记为长期记忆强度因子_LMS,以其连续20日平滑的结果为例,该因子在2018年至2024年3月期间可获得13%的多空收益。尽管LMS在存在因子收益偏低的问题,但仍然不失为一个有效的因子(ICIR接近2)。
LMS的IC为正,从逻辑上不难解释:该因子属于刻画微观结构的指标,当在市场中采取算法交易的投资者越多,所反映机构特征也越明显。一般倾向于认为,机构投资者在优选股票的整体质地上要比散户更胜一筹,从而形成了多头与空头分组的相对差异,更本质的驱动逻辑可能是来自于两类不同交易者的信息优势。
作为一个从订单流中捕捉的高频指标,LMS无意外地会与常规风格保持相对偏低的相关性,测算结果可见图24。在不同选股域间该因子所表现出的差异可能归因于分域微观结构的不同。我们希望能够区分出机构或是散户为主的股票,这一逻辑似乎与按市值排序的宽基指数不谋而合,然而测试结果并非如此。
结合图24的相关性测算和表2中展示因子测试的结果来看,长期记忆强度LMS因子并未主动暴露大、小市值风格,信息分布相对均匀:在沪深300中能够获取5%以上的超额,IC与ICIR未有明显的衰减迹象;在中证1000指数的成分股中的区分能力要略优于其他指数。这也说明LMS因子并非描述机构持仓行为,而是从交易层面区分哪些是信息优势投资者倾向交易的股票,并非严格属于“机构重仓”范畴。
在上一章节中,我们探讨了长期记忆性的时序变化,发现在2022年前后市场微观交易行为发生了较为明显的变动。但是,在LMS因子中并没有出现时点前后明显的差异。图24和图25分别展示LMS因子的月度多空收益情况,以及IC累计值随时间变化的曲线。因子在2018年的表现偏弱,整体的稳定性相对较差。
LMS因子的测试效果,我们认为原因在于线性回归模型可能无法很好拟合自相关系数的变化,直接基于截距项作为长期记忆性的代理特征,容易失真。因此,需要在此基础上进行改进和优化。
改进逻辑1:线性回归模型转为统计模型。
如果线性模型反映自相关系数的衰减过程的准确性较差,我们可以换种思路,采用统计模型来规避对某个拟合函数的讨论。例如,我们选取1至100阶的自相关系数,计算其统计指标作为日频信号,测试结果如表3所示。其中,偏度和峰度因子对比改进效果最好,在原有因子的基础上增厚了多空收益的同时提高了因子稳定性,IC达到0.06,Rank ICIR则均在4以上。
基于统计指标构造的因子的并不影响Alpha的逻辑表述。我们认为,算法交易属于机构类交易行为,在自相关系数分布上表现为:机构交易越多,自相关系数右侧极端值越大,但同时衰减速度也会提升,因而在分布上表现出类似“尖峰厚尾”的形态(左侧通常会被0值约束),峰度也会相应更高一些。
尽管偏度和峰度具有较高的一致性,但在具体情况下可能彼此反映的信息也会有所差异,二者相关系数为0.75。图26展示了偏度因子和峰度因子与长期记忆强度LMS因子的多空对冲净值。
除了改变长期记忆性的拟合模型外,我们还可以从两个方面改进。
改进逻辑2:筛选订单流样本,挑选最能反映长期记忆性的订单。
改进逻辑3:补充价格和数量的信息,增强相似订单识别的准确度。
首先,我们尝试第一种做法:筛选部分样本。表4展示了不同筛选子样本的作为选股因子的分组测试效果,其中表现较好的包括价优委托和小额委托。
筛选改进的逻辑点在于更加准确识别时序的自相关性,而价优、小额委托更好地表达了选股效果。不同交易时段样本选股的效果差异不明显,相对而言,可能由于盘初交易中算法交易占比更高,第1小时的样本在线性模型中更占优(图11)。
第二种方法是基于方向调整的委托价格序列或是委托数量序列,计算并测试自相关系数的选股效果。举例来看,以截距项为例,我们将挂单方向的数值序列与委托数量相乘,得到新的序列再用于计算1至100阶的自相关系数。表5展示了基于复合序列的因子在全市场月度调仓的分组效果。
从测试结果来看,复合价格特征的时间序列与原有的挂单方向数值序列构造的因子相差无几,主要原因是价格在日内接近盘口位置的变化幅度有限。
于是根据上面改进方向的测试结论,我们利用自相关系数分布形态的统计特征构造了高维记忆_MEMO因子。计算过程分为三步:首先,将时序样本缩短至最后半小时,然后计算订单流挂单方向滞后1至100阶的自相关系数作为统计分布,最后分别计算该分布的峰度和偏度指标,在截面上等权合成为最终信号。
图29展示了在全市场范围内,将日频信号平滑20个交易日后用于月频调仓的分组测试结果。从效果上看,虽然MEMO在多空收益分布上相对更偏空头,但多头相对等权基准的超额收益仍然可观,Rank ICIR可以达到5以上。
由于采取了更为模糊的刻画方式,因子收益方面有所提升,MEMO在相关性上也存在一定的暴露,但相对可控(高维记忆与流动性相关性最高为0.21)。
在分域表现上,MEMO在沪深300和微盘股范围内选股效果相对较差,这与我们在高频撤单行为上观测的规律基本一致。此处,给出一般性解释:在市值较大和市值较小两端样本内,通常不容易观测到算法交易现象(图10)。一方面,沪深300的流动性较好,节约成本型“拆单”的必要性不高,而策略型“拆单”的拥挤度也会比较高;另一方面,在微盘股的范围内,按照常规算法交易的隐蔽性太差,在盘口的交易特征也会相对稀少,两者的识别模型都容易失真。
2.2、 频谱分析:信号处理方法的迁移应用
任何事物在两个不同时刻都不可能保持完全相同的状态,但很多变化往往存在着一定的规律,例如 24 小时日出日落,潮起潮落,这些现象通常称为“周期”。针对时间序列的周期性检测问题,“傅里叶变换”和“自相关系数”是两种在解决实际问题中常用的方法。
我们将时间序列利用傅里叶变换提取频谱信息后,从中找到振幅较大的波,并以其振幅占比作为选股因子。但由于不同股票间委托订单数量存在差异,笔者这里按照样本数量的固定比例来选取“强波”以计算频率占比。图32展示了在不同抽样比例下,强波占比的变化形态,大体上是一条“下凹”的曲线。
基于上述方法可以从频域中捕获序列的周期性,但与2.1小节的问题一样,我们很难准确刻画强波累计占比的曲线形态,因而更建议采取以下方法构造因子:
首先,利用傅里叶变换将挂单方向的时域信息转变为更容易刻画周期性的频域特征,然后再统计频域强度的峰度作为日频信号并平滑20日作为最终因子。与前文的处理有所不同,我们通过分析不同类型委托订单的特点,发现小额委托的长期记强度在区分股票间“拆单”行为强度上更准确。因而,在因子的计算步骤中,笔者增加了一步样本筛选的处理,只选取当日委托数量较小的50%订单用于转换频域信息,并将上述计算得到的因子命名为分拆痕迹_OST因子。
图34展示的OST因子测试结果比较明显,存在有效性差异明显的时点。在2022年以后,因子的收益提升十分显著,而这也恰好与长期记忆性强度跃迁后显著提升的时间节点非常相似,说明该因子用于捕捉跃迁后的Alpha较为合适。
表7为OST因子的分域测试结果,该因子同样在位于市值分布的中间部分股票池内表现较好。全样本的多头相对等权基准的超额收益在10%以上。
表35展示了OST因子的月度对冲收益。在2022年至2024年初期间,该因子收益十分稳定,但在2024年2月与3月遭遇小幅度的回撤。
2.3、 订单小岛:从交易行为中区分选股逻辑的方向
最后,我们还可以统计相似订单连续出现的次数,将连续出现的订单长度计数为一个新的序列,直观示例可以参考图37。由于买卖订单总是交替出现,可以分别统计买入委托和卖出委托两个样本。
图38展示了2018年和2024年的某个交易日,全部股票买入、卖出委托连续重复出现次数的分布情况,与笔者先前测试的结论基本一致。
订单连续重复出现次数因子选股逻辑与长期记忆强度_LMS等因子相同。表8展示了基于这两组数据构造的因子,其中,均值和标准差因子表现优异。
我们倾向于认为长期记忆性是机构的交易行为,并且从交易者结构的角度解释了因子具备正向排序能力的原因。那么可以更深入讨论,在长期记忆性的特征中是否能表现出买卖的方向?笔者尝试了不同种方法寻找买卖委托的差异性,结果却不如人意,图39展示了几种测试的结果。
由测试结果可知,买入和卖出之间的行为基本是一致的。“拆单”行为可能发生在买卖任何一方,所构造的指标并不是对某个知情交易者的定量描述,而是整体反映某类交易者的行为特征,也就无法给微观结构添加上买或卖的“方向”。
2.4、 模型赋能:提供非线性的因子收益增强
目前机器学习与人工智能在各领域广泛应用,而在高频领域中的大量数据也为模型的发展提供了丰沃的土壤。笔者尝试使用两种不同类型的机器学习模型,用于处理在量化策略开发中最基础的问题之一:特征合成。
2.4.1、 树模型
集成学习是一种先进的机器学习方法,集成学习通过结合多个模型的预测结果来改善整体模型的预测准确性。我们选取常用的两个梯度提升树算法:Light GBM和XGBoost,输入模型的变量则来自笔者所写的一组因子,共计57个有效特征。
(1)XGBoost
我们将标签设置为未来20日的收益率,截取20180102至20220601的所有股票作为训练样本,考虑到模型复杂度,将树的最大深度设置为5层。
在样本内,XGBoost的因子收益效果比较理想,多头超额收益显著。但是,在样本外,仅有8.6%的超额收益,胜率也从98%降至70%,模型泛化能力较差。
(2)Light GBM
Light GBM为梯度提升树的一种高效工程版本的实现,由微软2017年开发。相比传统的梯度提升树算法。在相同的框架下训练,我们分别样本内和样本外的回测结果(图42和图43)。从测试结果看出,Light GBM预测因子在分组单调性上要优于XGBoost,样本外预测能力的衰减程度也相对较轻。
2.4.2、 网络模型
考虑到“拆单”算法可能持续的时间比较长,例如大额订单通常会分拆在几天甚至几周内完成,有必要将特征的时序信息纳入到模型选择当中。长短期记忆网络(LSTM)或许是个不错的选择。该模型引入了“门”结构,通过这些门控制信息的流动,从而能够更好地捕捉和记忆长期依赖关系。
图44为LSTM在样本外测试的结果,多头收益能力明显不足。我们检查后发现是因为MSE损失函数中缺少对分组单调性的约束,从而导致其在空头效果较好的特征上赋予更大的权重。于是,在尝试LSTM的损失函数中添加负IC绝对值作为惩罚项后,模型得到的预测效果有明显的提升。
综上测试结果,处理本文的特征效果最好的是Light GBM,整体分组单调性较优。LSTM在对特征合成的时候,因为涉及的特征较多,还需对回溯时序的范围进行优选,整体效果并不理想。特征合成过程需要考虑因子间的共线性,对于模型复杂度不宜过高,同时加以适当的惩罚可以避免陷入局部最优。(感谢实习生纽约大学陈泽东同学的参与)
03
风险提示
模型基于历史数据测试,未来市场可能发生变化。
版权声明:文章版权归原作者所有,部分文章由作者授权本平台发布,若有其他不妥之处的可与小编联系。