一文读懂:强化模型如何运用交易?

大家好,我是Lucy@FinTech社区,今天的文章将为大家介绍强化模型如何运用交易。欢迎添加以下微信,加入FinTech社区-机器学习群,提认知,攒人脉,求职招聘,投资有术!

 

什么是强化学习?强化学习有四个要素:

  1. agent
  2. state
  3. action
  4. reward
  5. env

简单来说,agent 根据定义的 state 做 action ,然后 action 和 env 交互得到 reward,然后新的 state 来,做新的 action

 

用智能驾驶来举例子,就是:

汽车 看到

空旷的大路 (state)

加速(动作)

行驶5分钟没有出事故(env交互得到reward)

RL模型框架基于stable baseline

框架把A2C、AECR等模型进行了二次封装给用户调用。

那么在做市的角度来看,我们就可以对动作,state,奖励这三块做设计。

 

动作:

挂单价格

挂单数量

撤单时间

 

state:

各种盘口因子,例如

买卖不平衡(买盘-卖盘)/(买盘+卖盘)

资金流(主买-主量)/成交

 

env:

我们做的动作赚了钱还是亏钱了

 

reward:

直接定义赚钱还是亏钱是不行的,但是奖励设计是机密,我提一点吧,是夏普这种收益风险调整比例

我们注意因子主要是量价时三者的关系,即所谓高频界终极口诀 :

 

懂六同,得小同意思是懂了六同,终于有资格成为小同的大客户了!

 

同量比较价,同价比较量

同时比较价,同价比较量

同时比较量,同量比较时

 

这个口诀什么意思呢?

 

同量比较价:上1BTC成交量,价格变化20U,这1BTC成交量,价格变化了5U;

同量比较时:上1BTC成交量,花费了1S,这1BTC成交量,花费了15S

 

高频有个狭窄的定义,就是因子仅仅从分笔成交数据,和盘口数据中得到,我们可以看到数据的文件的含义:

bp: bidPrice

ap: askPrice

bv: bidVolume

av: askVolume

上述四个要素定义了盘口。

 

ld: lastDirection,即成交的主买还是主卖方向,主买的是,这笔交易是买方主动 taker 卖方成交

lv: lastVolume

lp: lastPrcie

上述三个要素定义了成交。

 

isu是把盘口和成交数据统一一张表的要素,定义了是盘口更新还是成交更新。

好啦,今天的干货分享到这里啦,后续更多精彩内容,欢迎关注!