技术 | 金融界的“明星”:机器学习

MarketWatch最新的文章也详尽得描述了“机器学习”和“大数据”在金融领域爆发式的增长,及其光明的未来,我们摘出一些重要而鲜明的结论供各位参考:

 

大数据和机器学习已经被各大“对冲基金”广泛运用,其他资产管理经理也开始大量使用;
 

AlternativeData.org,研究得出许多公募基金,对冲基金,养老金基金及其他以证券类作为投资标的的基金花在“另类数据”上的金额已从2016年的2.32亿美元飙升至2019 年的11亿美元,在2020年预计会达到17亿美金;

 

Opimas再将基金们在“大数据”和“机器学习”上的花费范围扩大一些,即不仅包含了购买“另类/衍生数据”的金额,还包含了购买“数据源”、“数据科学”、“IT基建”、“数据管理”及“系统开发”的金额将在2020年高达70亿美元;

 

据研究报道,72%试过“另类数据”解析的基金公司的投资回报比都有增加,其中20%的基金利用此法获得了20%的超额Alpha。

 


 

Fintech社区也做过相应的文章分享,点击下方文字我们一起回顾下吧:

 

职分享 | 量化投资之崛起

Q&A: 机器学习与金融行业 


 

应重点强调的是,“大数据”的有效应用需要用到高阶的“机器学习技巧”,传统的不成熟的统计学方式或者表格分析将不会使“大数据分析”发挥它应有的价值,“另类数据库”也远远超出了经济学度量和其他传统量化方法的范畴。

 

那么让我们来看看什么是“机器学习”和“大数据”,怎么将其用在量化投资中,并获取超高额收益吧。
 

 

01. 大数据 – 大混沌

 

“大数据”这一概念包含了数据收集、处理、标识及大规模的数据分析。举个具体的科学领域内的应用案例:监测地球环境的卫星会给出大量的温度和日照数据,位于欧洲的大型强子碰撞中心根据获得的温度和日照信息得出地球周围的粒子追踪数据,并结合大量的卫星图片处理结果以研究宇宙微波辐射背景。大型的“金融机构”也开始使用“大数据”来处理繁多的季报、期刊报道、旧信息、及以小时、天或者周来更新的消息和交易数据,以期从大量的数据中分析出对于投资有利的有效信息和结论。应当注意的是:如果没有“机器学习”这一强有力的武器,这一堆繁多的数据就是一堆散乱的信息,毫无利用价值。


 

02. 机器学习 – 拯救“大数据”的救星!

 

正如前述,大数据在金融领域的作用,不仅仅是从公开或者非公开源头下载大量的数据集,得利用“机器学习”为这些大量的数据集赋予价值。


 

03.干货部分  

机器学习在“交易系统”的具体应用

 

一个完整的交易周期可以分为四部分:对超额收益Alpha的研究、模型建立、部署、及评估。大数据和机器学习可以在这四步的每一步中发挥作用,下面我们来详细介绍:


 

数据收集及预处理
 

影响该部分的关键因素是“数据体量大小,延迟,及新类型的数据”。价格及定价交易数据占据另类数据中的大头。


 

前期最大的壁垒和障碍是获得“高质量数据”;
 

获得高质量数据的卡脖子因素是“昂贵的价格”;
 

公开的数据源有其独特的特性,需要的信号处理能力也较小;
 

“无统计学信息,无IID和不正常数据”是运用机器学习做算法假设的大忌讳;


 

一般不采用以“时间”为单位来收集“样本数据”是采用“数据体量”为单位来衡量样本数据。

好处:相应的体量具有更好的统计学信息(如iid,和高斯分布等);这样方便我们录入“信息”的体量,在高频交易中由于获取数据的频次之高,可帮助我们获得更多的信息。


 

信号生成及处理

这一领域是“机器学习”频繁发挥作用的地方,即如何将数据集转化为有用的信号。


 

数据过拟合

运用机器学习模型将无关联的后向测试数据集关联起来,产生有用信息的最大挑战;

 

“特征提取”及“非后向测试”

影响机器学习应用的关键因素所在,可以先用一些简单的模型来理解并解读关键的特征和影响因素;

 

在机器学习模型的选择上,首先要分清这类问题是属于“回归问题”还是“分类问题”,是选择“简单模型”还是运用“复杂模型”;

 

建议选择“研究驱动型模型,如EDA,总结类型”等而非后向测试这种如此繁重的模型;

 

将数据分成“训练”、“验证”及“测试”三种类型;

 

将处理结果正交化

 

每一次使用模型后,对处理结果进行误差分析,有助于我们理解所选机器学习模型的过拟合及生成能力;

 

将所用的限价交易数据和处理结果关联起来,以预测价格走势

 

长期记忆网络”:任何对时间序列有研究的文章,都会涉及金融资产数据的处理和分析,在分析自己的金融数据前建议找找此类相关文章做个预分析,可节省时间和成本;


 

资产分配及风险管理


 

资产分配这块内容涉及严格的风险管控,很多基金公司都设立严格的风险管控法则,譬如在一只股票上所投的流动资金不超过2%等,来看看“机器学习”在此领域的应用:

 

Kelly 准则及资产分配原理是将基金转化为信号,第一步要做的事情是基于已知的“均值”及“回报标准差”做个合理的假设
 

收益极值区域比传统的正态分布区域有更高的投资风险,这点在风险管控领域十分重要,被称作“获利肥尾风险”

 

“获利肥尾”区域进行的投资相较于后向测试会在活跃的股票交易市场有更高的概率产生亏损;

 

“大型而分散的投资组合可将系统风险概率降至为零”的假设是非常危险的,因其假设各投资标的之间无相关性,2008年的金融危机就是因“获利肥尾”区域和资产组合高度相关,导致资产泡沫破灭,投资大额亏损;


 

各资产之间的关联性跟股市行情的走低密切关联,时刻变换,需要选择合适的机器学习模型分析并预测相关性;

 

评估及执行

 

机器学习在不同风险条件下的后模拟结果需要被时时评估,几个度量和评估技术被广泛应用,但最重要的还是基于预定好的数据得出的历史夏普比率。