一文读懂:自动化股票投资与深度强化学习

大家好, 我是Lucy@FinTech社区。

 

今天这篇文章将与大家探讨如何在股票投资中恰当得应用强化学习,挖掘新技术的优点。

欢迎大家添加微信fintech34,或扫描底部微信,加入FinTech社区,提认知,攒人脉,求职招聘!

 

股票交易策略在投资中起着至关重要的作用。而在复杂而动态的股票市场中设计一种策略来盈利永远都不是轻而易举的事情。

本次文章将介绍深度集成强化学习(DRL)方案,通过最大化投资回报来自动进行股票交易。通过训练深度强化学习代理,并使用三种算法来获得整体交易策略。包括Proximal Policy Optimization (PPO)Advantage Actor Critic (A2C)Deep Deterministic Policy Gradient (DDPG)。然后使用集成策略来均衡三种算法得到最佳的结果,从而可以稳健地适应不同的市场条件。

 

由于篇幅限制,关于本文提到的具体策略,数据和方案,可以转发此文章,添加微信:fintech34 获取! 

1. 深度强化学习介绍

2. 深度强化学习优势

3. 多标的自动程序交易算法
 

一、深度强化学习简介

强化学习是机器学习技术的三种方法之一,它通过顺序接收环境中的状态和奖励并采取行动以获得更好的奖励来训练代理(agent)与环境之间进行交互。

深度强化学习使用神经网络来近似 Q 价值。使用神经网络作为函数逼近器可以将强化学习应用于大量数据的情况中。

设计强化学习算法的指导原则是贝尔曼方程,而马尔可夫决策过程(MDP)则用于对环境进行建模。

 

 

二、股票投资交易

为什么要使用深度强化学习?

 

股票交易的目标是在避免风险的同时最大化回报。

 

DRL通过最大化一段时间内来自未来行动的预期总回报来解决此优化问题。哲学上是完美契合的。


股票交易同时也是一个需要不断进化战略,从市场获得反馈并试图随着时间的推移优化交易策略的连续过程。 因此也契合马尔可夫决策过程,同时我们也能发现这是强化学习的基础。另一方面,相比于目前现有的解决方案,深度强化学习有很多独有的优势。、
 

2.1 VS经典投资组合理论

投资交易首先离不开的金字标准是现代投资组合理论(英语:Modern Portfolio Theory)。

 

该理论归纳了理性投资者如何利用分散投资来优化他们的投资组合。是用于组合资产组合的数学框架,使得对于给定的风险水平,预期收益最大化。
 

但MPT近年来也是收到广泛挑战,与强化学习相比其有几个重要的不足之处:

1. MPT在样本外数据中的表现不佳。

2. MPT对异常值非常敏感。

3. MPT仅基于库存收益进行计算,如果我们要考虑其他相关因素,例如移动平均收敛散度(MACD)和相对强度指数(RSI)等某些技术指标,MPT无法充分整合利用。

 

2.2 VS相比监督机器学习

1. DRL不需要大型的带标签的训练数据集。 这是一个重要的优势,因为如今的数据量呈指数级增长,因此标记大型数据集变得非常费时费力。

 

2. 与预测未来结果可能性的ML回归/分类模型相比,DRL使用奖励函数来优化未来奖励


 

2.3 优势总结

DRL应用于股票投资的优势总结:

1. 在许多复杂领域证明有超越人类玩家的潜力(围棋,电子竞技等)。

 

2. 最大化回报作为交易目标:通过将奖励函数定义为投资组合价值的变化,深度强化学习可以使投资组合价值随时间最大化,符合投资的最终目标。

 

3. 现实中股市提供顺序反馈。DRL可以在训练过程中提高模型性能,不断优化。

 

4. DRL可以平衡尝试各种新事物并充分利用所发现的事物,也不需要技术人员提供训练实例或标记的样品。

 

5. Q-learning是一种非常重要的RL算法,但是它不能处理大空间。DRL使用深度网络做有效的函数逼近器,它可以有效处理非常大的状态空间和动作空间,因此性能上更有优势


 

三、适用于自动交易的DRL算法

 

最新的研究趋势和市场应用的强化学习系统中考虑了离散或连续的状态和动作空间,并从以下几种方法中进行了选择:critic-only, actor-only, 或者是 actor-critic approach。

 

3.1 critic-only

critic-only是最常见的强化学习方法,使用Q learning,及其改进方法来解决离散的行动空间问题,并在单个股票或资产上训练agent。

 

critic-only的想法是使用Q值函数来学习最佳操作选择策略,该策略在给定当前状态的情况下最大化预期的未来奖励。其主要局限性在于,它仅适用于离散且有限的状态空间和动作空间,这对于大量价格连续的股票投资组合而言并不实际。

 

3.2 actor-only

actor-only的想法是agent直接学习最优策略本身。该策略本质上是对给定状态的策略分布,即对一种情况采取动作的可能性,可以处理连续的动作空间环境。

 

3.3 actor-critic approach

actor-critic方法是最近已在金融中应用的更复合的方法,想法是同时更新代表策略的actor网络和代表衡量价值功能的critic网络。

 

critic估计价值函数,而actor则用策略梯度更新策略概率分布。 随着时间的流逝,actor学会采取更好的行动,critic也变得更好地评估这些行动。

 

该方法能够学习并适应大型复杂的环境,非常适合大型股票投资组合的交易。其中,A2C, PPO 和DDPG 分别是三种各有侧重的方案。他们通过对agent,策略更新的不同调整来适应不同的情况。

 

3.4 集成

对于交易策略,需要稳定高效。因此,集成方法自动在PPO,A2C和DDPG中选择性能最佳的代理以基于Sharpe比率进行交易就是一种解决方案 。

 

使用几个月的窗口来同时对我们的三个算法的agent进行训练,通过使用验证滚动窗口来验证所有agent,然后挑选出具有最高Sharpe比率的性能最好的agent。之后使用具有最高Sharpe比率的最佳模型来预测和交易下一个季度。通过这种在线的模式来不断更新适应。


 

四、资料包推荐

我们收集了本文提到的算法相关的实战资料 (代码,数据,相关论文等),欢迎转发此文章,添加微信:fintech34 获取! 


 

近期热招: (点击标题,即可了解详情) 

招聘 | 高级期权交易员

招聘 | 北京/上海10家对冲基金秋季校招

招聘 | 投资经理 (高频CTA)-北京/上海-Global Pay

招聘 | Recruiter - 北京 - 对冲基金

招聘 | 股票量化研究-大雁资产-上海

更多岗位信息,请在官网查看!