技术 | 最全机器学习在金融交易运用汇总

大家好,我是Lucy@FinTech 社区。

本期我们主要介绍机器学习的基础概念以及对其的分类,同时介绍每种类型的机器学习在金融中的主要应用

 


 

机器学习概念

普遍认为,机器学习(Machine Learning,常简称为ML)的处理系统和算法是通过找出数据里隐藏的模式进而做出预测的识别模式,它是人工智能(Artificial Intelligence,常简称为AI)的一个重要子领域;而人工智能又与更广泛的数据挖掘(Data Mining,常简称为DM)和知识发现(Knowledge Discovery in Database,常简称为KDD)领域相交叉。

 

为了更好的理解和区分人工智能(Artificial Intelligence)、机器学习(Machine Leaning)、数据挖掘(Data Mining)、模式识别(Pattern Recognition)、统计(Statistics)、神经计算(Neuro Computing)、数据库(Databases)、知识发现(KDD)等概念,特绘制其交叉关系如下图所示:


 

 

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。其过程可以用下图简单表示:


 

 

机器学习经典算法分类

机器学习算法可以按照不同的标准来进行分类。比如按函数f(x,θ)的不同,机器学习算法可以分为线性模型和非线性模型;按学习准则的不同,机器学习算法也可以分为统计方法和非统计方法。

 

但一般来说,我们会按照训练样本提供的信息以及反馈方式的不同,将机器学习算法分为以下几类:

 

监督学习(Supervised Learning)

监督学习中的数据集是有标签的,就是说对于给出的样本我们是知道答案的。如果机器学习的目标是通过建模样本的特征x和标签y之间的关系:f(x,θ)或p(y_|x, θ),并且训练集中每个样本都有标签,那么这类机器学习称为监督学习。根据标签类型的不同,又可以将其分为分类问题和回归问题两类。前者是预测某一样东西所属的类别(离散的),比如给定一个人的身高、年龄、体重等信息,然后判断性别、是否健康等;后者则是预测某一样本所对应的实数输出(连续的),比如预测某一地区人的平均身高。我们大部分学到的模型都是属于监督学习,包括线性分类器、支持向量机等。常见的监督学习算法有:k-近邻算法(k-Nearest Neighbors,kNN)、决策树(Decision Trees)、朴素贝叶斯(Naive Bayesian)等。

 

在金融领域,监督学习算法主要用于在提供了历史数据的情况下,要求找到具有最佳预测能力的关系。有监督学习算法有两种:回归和分类方法。

 

基于回归的监督学习方法试图根据输入变量预测输出。例如,可能考虑,如果通胀飙升,市场将如何运行。分类方法反向运作,试图确定一组分类属于哪个类别。

 

无监督学习(Unsupervised Learning, UL)

跟监督学习相反,无监督学习中数据集是完全没有标签的,依据相似样本在数据空间中一般距离较近这一假设,将样本分类。

 

常见的无监督学习算法包括:稀疏自编码(sparse auto-encoder)、主成分分析(Principal Component Analysis, PCA)、K-Means算法(K均值算法)、DBSCAN算法(Density-Based Spatial Clustering of Applications with Noise)、最大期望算法(Expectation-Maximization algorithm, EM)等。

 

利用无监督学习可以解决的问题可以分为关联分析、聚类问题和维度约减。

 

关联分析是指发现不同事物之间同时出现的概率,在购物篮分析中被广泛地应用。如果发现买面包的客户有百分之八十的概率买鸡蛋,那么商家就会把鸡蛋和面包放在相邻的货架上。

 

聚类问题是指将相似的样本划分为一个簇(cluster),与分类问题不同,聚类问题预先并不知道类别,自然训练数据也没有类别的标签。

 

维度约减:顾名思义,是指减少数据维度的同时保证不丢失有意义的信息,利用特征提取方法和特征选择方法,可以达到维度约减的效果。特征选择是指选择原始变量的子集,特征提取是将数据从高维度转换到低维度,广为熟知的主成分分析算法就是特征提取的方法。

 

在定量金融中,此类方法经常被用于去噪数据集、投资组合/资产聚类、市场机制检测和用自然语言处理的贸易信号生成。


半监督学习(Semi-Supervised Learning) 

半监督学习是监督学习与无监督学习相结合的一种学习方法。半监督学习一般针对的问题是数据量大,但是有标签数据少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的,而有一部分是没有的。与使用所有标签数据的模型相比,使用训练集的训练模型在训练时可以更为准确,而且训练成本更低。常见的两种半监督的学习方式是直推学习(Transductive learning)和归纳学习(Inductive learning)。

 

直推学习(Transductive learning):没有标记的数据是测试数据,这个时候可以用测试的数据进行训练。这里需要注意,这里只是用了测试数据中的特征(feature)而没有用标签(label),所以并不是一种欺骗的方法。

 

归纳学习(Inductive learning):没有标签的数据不是测试集。

 

监督学习、半监督学习和非监督学习之间的区别可以用下图表示:

 


 

可以看到,上图中,红色三角形数据和蓝色圆点数据为标注数据;上图(b)中,绿色的小圆点为非标注数据。上图(c)显示监督学习将有标签的数据进行分类;而半监督学习如上图(d)中部分是有标签的,部分是没有标签的,一般而言,半监督学习侧重于在有监督的分类。

 

半监督学习算法可以用来欺诈检测/预防和压力测试。它可用于检测银行知识库规则可能未定义的异常行为,这些异常行为对人类代理人来说过于微妙且难以发现,并且这一信号,可能是关于洗钱的不寻常技术。

 

强化学习(Reinforcement Learning, RL) 

强化学习从动物学习、参数扰动自适应控制等理论发展而来,基本原理是:如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

 

强化学习在机器人学科中被广泛应用。在与障碍物碰撞后,机器人通过传感器收到负面的反馈从而学会去避免冲突。在视频游戏中,可以通过反复试验采用一定的动作,获得更高的分数。Agent能利用回报去理解玩家最优的状态和当前应该采取的动作。

 

因为很多金融问题都可以抽象化为MDP(Markov Decision Process),因而使用强化学习解决这一类问题便成为一个十分恰当的选择。具体可应用于资产投资组合的构建以及金融交易策略。

 

Fintech 社区组建了机器学习交流群

欢迎【机器学习】相关小伙们加入! 

那么如何加入呢? 

请转发文章后,扫描下方二维码,

发送转发截图,备注: “机器学习”即可进群!