从全部A股中初筛出选样空间,初筛标准一般采取上市时间、市值等较基础的指标。 从选样空间中挑选出初筛股票池,这里的筛选条件一般采用行业数据、财务指标、盈利能力等,初筛股票池将作为多因子选股模型的样本。 采用多因子选股模型进行量化选股。传统的多因子模型所采取的因子主要包括财务因子(市盈率、市净率、市销率、资产市值比、主营业务收入增长率、净利润增长率、EPS 增长率、总资产增长率等)、市场驱动因子(选取短期收益率、长期收益率、特定波动率、交易量变化、自由流通市值)等。根据上述所有因子的长期历史回报和稳定性进行加权计算,得到某只股票的综合得分。 通过量化引擎的学习计算出基金的成分股及相应权重。
那么大数据基金与传统基金的不同在哪里呢?就是在于大数据基金引入了大数据因子。
之前我们建立多因子选股模型时,所采用的因子全部来自市场内部,我们关注的全是个股本身的属性,但大数据因子的引入,带来了新的信息,我们会关注百度搜索量的变化与股票的变化有没有相关性,我们会关注淘宝某行业的销量是不是影响着行业内企业的股价,我们还会关注新浪财经板块某只股票相关新闻的阅读量评论数是不是跟股价的波动有影响。
我们举一只实际的大数据基金的例子来让大家更形象的理解大数据因子。
这里选取的例子是博时基金与蚂蚁金服合作推出的淘金大数据100。
在构建选样空间时,淘金大数据100选取了与网络电商商品类目相关的中证三级行业的相关股票作为其选样空间,其中包括了下面的类目:
基于淘宝相关行业的选样空间,博时基金与蚂蚁金服生成了“聚源电商大数据因子”用于多因子量化模型的选股。其中支付宝金融信息服务平台提供网上消费类统计型趋势特征数据。根据所得行业投研指标,综合考察行业的景气度,包括:成长、价格、供需情况等,得到行业景气度排名。进而根据景气度对行业内股票给予相应评分,得到聚源电商大数据因子得分。
最后,量化选股模型利用大数据因子、财务因子、市场驱动因子进行股票打分排名,决定大数据基金的成分股以及权重。
除了淘金100指数外,各支大数据基金还利用了百度、雪球、新浪、银联等诸多大数据源生成大数据因子,通过中证指数有限公司提供的公开材料,各支大数据基金所利用的因子如下:
百发100指数——搜索因子
对样本空间的股票分别计算最近一个月的搜索总量和搜索增量,分别记为总量因子和增量因子;对搜索总量因子和增量因子构建因子分析模型,计算每期个股的综合得分,记为搜索因子;
雪球智选大数据100——雪球热度因子
首先,根据第二步得到的雪球智选组合,计算待选样本的智选组合覆盖度;其次,根据个股的智选组合覆盖度,对股票给予相应评分,记为个股的雪球热度因子得分。
南方新浪大数据——新浪大数据因子
新浪财经频道下的页面点击量,微博的正负面文章报道、新闻报道影响。
银联大数据指数——银联行业大数据因子
基于银联消费类统计型趋势特征数据经加工得到行业投研指标;其次,根据所得行业投研指标,综合考察行业的景气度,包括:消费金额、交易次数等,得到行业景气度排名;最后,根据景气度对行业内股票给予相应评分,得到行业大数据因子得分。
有很多知友认为大数据基金的表现其实差强人意,事实上到目前为止,几只大数据基金的表现也的确没有达到当初的预期,但这并不能让我们得出结论说大数据基金是错误的方向。因为目前对于大数据的应用仍是保守性的,试探性的,我们仅仅在传统多因子模型的基础上加入了大数据因子,并没有在模型本身上采取更多颠覆性的创新。而对于大数据因子的处理更是涉及了语义分析、情感分析、话题模型等诸多自然语言处理和机器学习的领域。
其实,大数据的应用早已触及我们生活的方方面面,其中无意蕴藏着投资价值的宝藏,虽然现有大数据基金的业绩还未能显示出它们已经具备有效挖掘这些价值的能力,但大数据中的宝藏一直在那里,或许一些不为人知的高人已经在享用了。
转载自 科学投资 有验证的投资