摘要
特征选择是人工智能选股策略的重要步骤,能够提升基学习器的预测效果
特征选择是机器学习数据预处理环节的重要步骤,核心思想是从全体特征中选择一组优质的子集作为输入训练集,从而提升模型的学习和预测效果。我们将特征选择方法应用于多因子选股,发现特征选择对逻辑回归_6m、XGBoost_6m基学习器的预测效果有一定提升。我们以全A股为股票池,以沪深和中证为基准,构建行业中性和市值中性的选股策略。基于F值和互信息的方法对于逻辑回归_6m、XGBoost_6m、XGBoost_72m基学习器的回测表现具有明显的提升效果。
随着入选特征数的增加,模型预测效果先上升后下降
特征个数并非越多越好。以逻辑回归_6m和XGBoost_6m为基学习器时,随着入选特征数的增加,模型的AUC先上升后下降;对于我们的70个特征而言,入选特征数在50左右效果最好。以XGBoost_72m为基学习器时,随着入选特征数的增加,模型的AUC先上升后持平。以基于F值+FPR方法对逻辑回归_6m进行特征选择为例,统计入选特征的频次,发现入选频次高的特征以价量类因子为主。
特征选择是预处理的重要步骤,意义在于减少时间开销,并避免过拟合
特征选择是特征预处理的重要环节之一,其意义在于:1)减少时间开销;2)避免过拟合;3)使模型容易被解释。特征选择方法主要包括过滤式、包裹式、嵌入式三类,最常用的方法为过滤式。“过滤”的标准可以来自于无监督学习,如特征本身的方差、熵等;可以是围绕特征和标签构建的统计指标,如F值、互信息、卡方等;也可以由其它模型提供,如L1正则化线性模型的回归系数、树模型的特征重要性等。
面对海量因子时特征选择方法能够大幅提升模型的开发效率
特征选择本质上是一种降维手段,没有引入新的信息,因此难以给基学习器的效果带来质的改变。特征选择的优势在于,当我们面对海量的原始特征,仅靠人力无法逐一筛选时,该方法将大幅提升机器学习模型的开发效率。实际上,由于本文使用的70个原始特征均为经单因子测试确证有效的因子,所以特征选择方法更多地是起到锦上添花的作用,如果原始特征包含部分无效的因子,那么特征选择方法可能会对选股策略效果带来更明显的改善。
风险提示:特征选择方法高度依赖基学习器的表现。该方法是对历史投资规律的挖掘,若未来市场投资环境发生变化导致基学习器失效,则该方法存在失效的可能。
本文导言
构建机器学习模型的最终目的是希望通过机器从输入的训练集中“学习”出某种客观存在的规律,学习的效果主要取决于两个因素:1)机器学习模型的优劣,2)输入训练集的质量。在华泰人工智能选股系列的过往报告中,我们主要围绕第一个因素,探讨不同的机器学习模型及其选股效果。而后者,即如何从全体特征中选择一组优质的子集作为输入训练集,则是本文探究的出发点。
通常来说,对于给定数量的训练样本,分类或回归模型的预测能力随着特征数量的增加呈现先增强后减弱的趋势,这主要是由于:随着特征数量(维度)的增加,样本将变得更加稀疏,因而更容易找到一种理想的分类或回归方式;但当特征数量超过一定量后,过多的特征将导致模型在训练集上表现良好,而对新数据的泛化能力较差,导致过拟合的发生;同时过多的特征将大幅增加模型的时间开销,造成维数灾难。降维方法主要分为两类:特征提取和特征选择。前者经过某种映射从原始特征中提取出新特征,改变了原始的特征空间;而后者通过某种评价准则从原始特征中选出部分特征,没有改变原始的特征空间。
本篇报告中,我们将着重探讨基于特征选择的降维方法,并分别应用于不同基学习器,对模型的预测能力和构建的选股策略进行测试和对比。简单来说,特征选择是从已有的原始特征集合中选取一个用于构建后续模型的特征子集的过程,它是一个重要的数据预处理过程。有效的特征选择将会减轻过拟合问题,提高模型的泛化能力和预测准确性;同时,降维后的模型具有更低的时间成本,也更容易被理解和解释。我们的报告主要