Q&A: 机器学习与金融行业

大家好,我是Lucy@FinTech 社区。

今天的文章主要回答机器学习与其他热点研究课题的区别, 回答了大众普遍对集群学习的误解以及机器学习在资产管理和量化投资中是如何应用的。如果您对机器学习有其他问题,欢迎添加微信 janelj78,我们会邀请您加入机器学习小组讨论。

 

机器学习与回归分析有何不同?


 

研究人员使用传统回归方法将一个预定义的函数形式拟合到一组变量。当我们对函数形式和将变量绑定在一起的所有交互作用有高度的信心时,回归是非常有用的。追溯到18世纪,数学家们根据对数据的某些假设,利用具有特定理想性质的估计器开发了适合这些函数形式的工具。


 

从20世纪50年代开始,研究人员意识到在计算机的帮助下,有其他不同的体系进行实证分析。与其强制使用函数式形式表达,特别是在函数式形式在事先未知的情况下,研究人员将允许算法从数据中找出变量依赖关系而且,这些算法不会事先对数据做出强有力的假设,而是进行实验,评估样本外预测的数学特性。这种在函数形式和数据假设方面的放松,结合使用功能强大的计算机,为分析复杂的数据集打开了大门,包括高度非线性、层次性和非连续的交互效应。


 

考虑下面的例子:研究人员希望根据一些变量(如性别、票务等级、年龄等)估计泰坦尼克号上乘客的生存概率。典型的回归方法是将logit模型拟合为一个二元变量,其中1表示幸存者,0表示死者,使用性别、票务等级和年龄作为回归因子。结果表明,即使这些回归模型是正确的,logit(或probit)回归模型也不能做出好的预测,因为logit模型没有认识到这个数据集嵌入了一个层次(树状)结构,具有复杂的交互。例如,二等舱的成年男性的死亡率远远高于这些独立的属性。相比之下,一个简单的“分类树”算法表现得更好,因为该算法学习了数据集的层次性(以及相关的复杂交互)。


 

事实证明,等级结构在经济学和金融学中无处不在。考虑行业分类、信用评级、资产类别、经济联系、贸易网络、区域经济集群等。当遇到这些问题时,机器学习工具可以补充使用传统的经济计量方法。


 

机器学习和大数据有什么不同?


 

“大数据”一词是指数据集如此庞大和/或复杂,以至于传统的统计技术无法提取其中包含的许多有用信息。据估计,所有记录的数据中有90%是在过去两年中创建的,80%是非结构化的(即不能直接使用传统的统计技术)数据爆炸包括音频、视频和文本。我们只是通过在手机上使用GPS,在社交媒体上分享照片,在网上支付信用卡账单就可以使数据呈指数型增长。公司还从客户和内部流程中收集大量数据,用于欺诈检测、质量控制、盈利预测等。而机器学习技术特别擅长分析大数据,这也是它们经常被一起引用的原因。


 

近年来,经济数据的数量和粒度都有了很大的提高。好消息是,行政部门、私营部门和微观数据集的突然爆炸,提供了对经济内部运作的无与伦比的洞察能力;坏消息是,这些数据集超出了计量经济学的范畴,给经济学研究带来了多重挑战。举几个例子:(a)一些最有趣的数据集是非结构化的。它们也可以是非数值和非类别的,如新闻文章、录音或卫星图像;(b)这些数据集是高维的(如信用卡交易)。所涉及的变量数量往往大大超过观察的数量,因此很难应用线性代数解;(c)其中许多数据集极其稀少例如,样本可能包含大量的零,其中标准概念(如相关性)不能很好地工作;并且(d)嵌入这些数据集中的是有关代理网络、激励和群体行为的关键信息。机器学习技术是为分析大数据而设计的,这就是为什么它们经常被一起引用的原因。


 

资产管理行业如何使用机器学习?


 

机器学习在资产管理中最流行的应用可能是价格预测,但也有许多同样重要的应用,如投资组合构建、异常值和结构性突破的检测、信用评级、情绪分析、做市、押注规模、证券分类法等。这些都是现实生活中的应用程序,它们超越了通常与价格预测相关的炒作。例如,高频交易公司多年来一直利用机器学习来分析实时的交易所信息,以寻找知情交易者留下的足迹。他们可以利用这些信息进行短期的价格预测,或者对订单执行的主动性或被动性做出决定。信用评级机构也是机器学习的有力使用者,因为这些算法已经证明了它们复制信用分析师生成的评级的能力。离群点检测是另一个重要的应用,因为金融模型甚至对少量离群点的存在都非常敏感。机器学习模型可以通过找到合适的仓位大小(一种称为meta-labeling的方法)显著提高投资绩效,将买卖决策留给传统或基本模型。


 

机器学习应用于投资者投资组合的方法有哪些?


 

投资组合的组成是机器学习极有希望的领域。几十年来,资产管理行业一直依赖Markowitz’s efficient frontier的变化和完善来建立投资组合。众所周知,这些解中的许多在样本中是最优的,但是由于凸优化所涉及的计算不稳定性,它们在样本外的性能很差。许多经典机器学习方法都试图解决这些计算不稳定性问题,都取得了一定的成功。由于机器学习算法能够识别传统方法所忽略的稀疏层次关系,因此它显示出了产生性能良好的健壮组合的潜力。


 

有什么风险?投资者有什么需要注意的吗?


 

金融,当它与机器学习联系在一起就不是一个一蹴而就的主题。建模金融系列比驾驶汽车或识别面孔更难原因在于,由于套利力量和非平稳系统的作用,金融数据的信噪比极低。机器学习的计算能力和功能灵活性确保它总是在数据中找到模式,即使该模式是侥幸而不是持久现象的结果。一个在机器学习算法研究领域被广泛认可的真理:在算法的发展中,形成预测脱离所有的经济理论,很可能会产生错误的发现。


 

由于套利的力量,金融数据集显示出低信噪比任何定量工具的风险之一,尤其是最大似然估计,是它可能混淆噪声和信号。这并不意味着我们不应该在金融领域使用机器学习,而是应该以不同的方式使用机器学习。机器学习在金融领域的最佳应用不是用于价格预测,而是从复杂数据集的复杂分析中发现新的理论一旦理论经过检验和交叉验证,理论就产生了预测,而不是机器学习算法。