蒸馏Alpha：因子的可交『弈』性

强化学习2年前 (2023)发布智源社区

625 0 0

蒸馏Alpha：因子的可交『弈』性

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续4年被腾讯云+社区评选为“年度最佳作者”。

量化投资与机器学习公众号独家撰写

“是在一个大的平台里追求安稳，还是在去初创的公司搓破天花板，这其实是每个行业都会遇到的选择。但尤其在量化行业，你会发现这两种选择显得更为两极化。但当我看到国内量化行业的蓬勃发展，我还是毅然选择离开世坤，并深入的参与到国内的市场竞争中来。”

——余建国 | 弈倍投资核心合伙人

*弈倍投资核心合伙人余建国是全球顶级对冲基金“千禧年”旗下量化子公司WorldQuant——世坤投资的核心创始团队成员，其拥有17年以上策略和技术开发经验。

坚持系统化的投资理念

在WorldQuant（以下简称：世坤）十余年的经历，也是参与世坤成长、见证世坤模式成功的经历。这段经历对我在弈倍现在的投研模式有了很多的借鉴，比较核心的有：

系统化量化投资的每一个步骤，减少主观的干预
长期看来，因子的逻辑性和可交易性非常重要
有限度、有节制的使用GA算法因子挖掘

量化策略是非常多样化的，但市场上很多人并不清楚自己要做什么。我们要找准自己的定位，包括产品的定位以及研究的定位！

比如做因子投资，它是一种相对价值的概念，那你就不能要求每次都能选到市场涨幅靠前的股票。以指数增强为例，Alpha的本质是在截面上，通过组合的优化及风险的控制，使整个组合能在同一个的时期相对战胜基准。

如果以多空策略为例，Alpha的本质就是在截面上，通过组合的优化及风险的处理（这时由于做空限制的放开，可以中性化掉很多风险），来获得多头部分相对空头部分的超额收益。所以本质上我们是在一个相对获利的位置，这时如果做择时的研究就违背了策略理论。

研究定位：不做择时，不被市场的噪音左右

择时一定程度上与截面因子模型的理念是相悖的。我们必须要承认我们对于个股的预测是毫无优势的，所以我们需要以构建组合的方式相对的获得Alpha。我们也不会根据重大事件或新闻去临时做一些应对，除非等事件过后，否则我们无法定量的判断事件影响性的大小。如果一有新闻或事件，就要主观的做调整，那就失去了量化的意义。

我们认为，一个好的Alpha信号应该对噪音不敏感，这才是可持续的关键。因此，敏感性测试和显着性测试是很重要的。测试稳健性的最常用技术包括对不同时段、不同时长、随机数据子集等进行测试，另一方面，每个输入数据都应该对结果作出重大贡献。

同时，量化模型应该对这些噪音进行中性化处理，即使无法中性化掉，那也应该在风险层面去控制。噪音的冲击往往会带来阶段性的亏损，但噪音之后的均值回归又会给量化策略带来可观的收益。

Alpha研究：更关注因子的可交易性

一切可用的、可靠的数据都是我们Alpha的来源。

每个Alpha提供了一个收益来源，并进一步稀释了投资组合的风险负荷。理想的投资组合将保持对任何一个广为人知的风险因素（Beta）的零负荷，以及对他所能发现的尽可能多的未知因素（Alpha）的非零负载。所以，在设计新Alpha的过程中，需要不断测试Alpha的稀缺性，逻辑性，稳定性和可交易性。

因此，好的Alpha应该具有以下特征：

表达式有逻辑
具有较高的样本内夏普比
对于数据参数的变化不敏感
适用于多个市场和地区
适用于多头组合和空头组合

··· ···

作为市场的参与者，我们并不会限定自己的研究范围，也不会对某一类数据有特定的青睐。基本面数据不一定就是价值投资的专属，量价数据也不是高频交易的专属，你使用大量的另类数据也并不说明你比别人更有优势。

而核心的研究还是要从逻辑出发，要从市场的非有效性出发。比如，量价数据，特别是高频量价数据就更适合用来度量过度反应的行为。因为市场高频的日内的量价数据相对日度数据往往包含了更多反应交易行为的有用的信息。比如呈U形分布的日内交易量就比日度总体的交易量包含更多的信息。我们需要通过降频处理来有效的利用这些信息。

每一类数据都能表示股票的某一维度的特征。那我们研究的是特征还是因子？对于从事机器学习研究的人来说，它俩可能是一回事。我们通常会将表示投资标的某一维度的特征作为机器学习模型的输入，对模型进行调优，然后用输出作为信号。这个过程中不会特别在意输入特征本身的预测性，即使在意，可能也只是考察特征与投资标的未来收益的相关性。但是在弈倍，不仅可预测性，我们还看中因子的可交易性，包括它的换手、回撤及胜率等。我们确保每一个因子都是一个可交易的信号，能够单独构建组合，作为一个投资策略。

在随后构建因子组合的过程中，我们也不会使用预定义的概念对因子进行分类并从中筛选因子进行组合，而会从结果去看因子的相关性。最后的组合也会完全的进行市值行业中性化处理。

拥抱新的工具，有限度且克制的使用GA因子

GA本身其实并不是一个新的事物。基于十多年GA算法的研究经验，我们非常克制且有限度的使用GA算法进行因子挖掘。并把GA因子作为人工Alpha因子的补充。

对于某一个特定的数据集，我们首先会用人工的方式带有逻辑的对数据集进行因子研究，挖掘出尽可能多的信号。

然后再使用GA算法对该数据集进行因子挖掘。这样做的目的有两个，首先通过人工的方式确保该数据集的价值，避免将无用的数据输入到GA算法中；其次是使用GA“榨取”数据的剩余价值。

最后，再把人工挖掘的因子和GA因子进行组合。但组合的过程中，我们并不会把GA因子与人工的因子配置相等的权重。比如人工挖掘了100个因子，GA算法可能在短时间就能挖掘出10000个因子。如果简单的将100个人工与10000个GA因子在同一层级组合，有可能这100个人工因子会淹没在10000个GA因子中，这是由于GA因子样本内的表现通常会更优（由于更高的过拟合风险）。比较安全且合理的做法是先将这10000个GA因子组合成一个或几个因子，再与100个人工Alpha因子进行组合。

我们同样应该克制过度依赖机器学习和历史数据的训练，因为当前市场规则一直在变，投资主体及其技术也在变，故而测试周期越长越好，这不一定是正确的。同时，过拟合的现象是普遍存在的，那些良好的结果，可能只是随机误差或噪音，并没有预测能力。我们必须敬畏市场，因为没有一个完美的训练方法可以提高未来的夏普比率，皆因市场一直在变化。所以，我们选择回归本源，持续改进Alpha，如果模型对参数变化的敏感性较低，这有助于降低过度拟合的风险。

十年磨一剑：股票多空策略

弈倍的投资团队过去在海外有长达十余年的多空策略投资经验，而在今年“全面注册制”施行后，也正式上架了A股的多空策略产品线。

在海外，多空策略在主流对冲基金中广受欢迎，也是表现最出色的策略之一。据Eureka hedge的统计数据，在2000年到2023年长达24年的时间里，全球对冲基金股票多空策略，平均历史年度收益达到10%以上的年份为 14 个，占比 58.33%，而收益下跌的年份仅有4个，其三年期年化收益率甚至常年排行第一。

弈倍策略体系

在国内，由于对冲工具较为贫乏，绝大多数“多空策略”管理人实质上都在做“市场中性策略”。该策略通过建立指数增强的多头头寸和对应指数期货的空头头寸来对冲市场整体风险，收益主要依赖于多头端的超额收益和对冲端的成本之差。而多空策略则是一种“增强型的市场中性策略”，其多头端无需选择对标某一类指数，空头端则通过融券形式做空，并以此获取双倍的选股Alpha收益。

随着今年“全面注册制”正式启动，这将对中国资本市场中长期带来深远影响，主板的新股上市首日即可纳入融资融券标的，这将极大丰富融券券源，缓解多空策略的容量难题。

弈倍投资希望能以成熟海外策略，辅以国内经验，补上 A 股“量化多空策略”这一块缺口，为投资者持续稳健地创造收益！