数据资料 | 金融数据源百科全书!

大家好, 我是Lucy@FinTech社区。FinTech 社区是一个拥有50,000+会员的金融科技行业资源共享社区,旨在为金融科技行业赋能,致力于金融科技行业资源共享社群。我们目前有机器学习群,技术群,量化群,校招群,数据开发群等等。欢迎添加微信: lucylj66 加入社区, 攒人脉,提认知, 求职招聘。官网:www.fintechgl.com,微信公众号:FinTech社区

 

金融数据在量化研究领域就像石油至于工业,是最为重要的基础,那么大家在学习量化交易的过程中或者是真实实操时该如何简便得获得最为有价值的数据呢?

Fintech社区本期文章将为大家带来目前最为主流,也最被认可的金融数据来源,主要集中在更有实际操作意义的免费开源数据源上,希望能帮助大家轻松上手,丰富自己的数据来源。

 

目录:

  | 金融数据概览

  | 流行免费数据接口

  | 构建自己的数据系统

 

 

一、见山见水-金融数据概览

广义的金融数据可以涵盖涵盖了各种重要金融、经济、工业、农业等方面的数据,其中包含多行业、多方位的发展数据,包括金融、经济、工业、农业、自然资源与环境、基础设施、就业、教育、健康、科技、发展等等。对大家关心的量化交易来说,我们更多的集中在资产标的直接相关的市场数据和与资产间接相关的非结构化行业数据上。其中前者可以从简单的OHLC数据(既open开盘, high最高, low最低,close收盘),到逐笔行情数据,快照行情数据,又可以根据报单的档位,区分Level 1, Level 2行情数据,进一步又根据所属市场,所属交易所而不同。金融数据的世界纷杂而变化迅速,无数的历史和成功者都向我们证明,在不完全有效的市场中,更新更全面的信息是能够给参与者带来竞争优势的!那么相比财大气粗的专业投资机构,我们个人参与者如何能够快速而方便得获取想要的金融数据呢?

花钱购买收费数据源当然是解决方案,但在这里Fintech社区更建议大家能够发挥自己的力量,充分利用网络资源,搭建自己的数据系统!

 

二、轻松快捷-免费数据接口

金融数据被行业充分关注,随着爬虫技术,大数据处理技术的不断成熟,越来越多的社区和个人使用爬虫从全网范围抓取目标信息并进行整合,其中有几个佼佼者得到了广泛的关注和认可。对于数据接口来说,最需要关注的就是时效性,全面性和易用性。

 

2.1 Tushare

Tushare,是目前知名度比较高的免费量化数据接口,同时支持HTTP接口,python2.x和python3.x SDK,也支持R 以及Matlab SDK 获取等多种方式。数据可靠,用户稳定。内容包含股票、基金、期货、债券、外汇、数字货币、行业大数据,数据是从网络实时爬取依赖于用户的网速和数据源。但目前的问题在于论坛使用积分制,而对应的积分管理制度还有待优化。

更新日期:2020年3月

官网:http://tushare.org

 

2.2 Baostack

BaoStock也是比较新的免费的量化数据接口,同时也是开源项目,获得数据较为简洁,接口的函数设计较好,可以使用简单的函数获得较为完整的信息。例如行情数据(提供前后复权的数据)和较为详细的基本面数据。同时接口的数据获取、响应速度优秀。

同时数据类型支持较为方便,可以使用pandas DataFrame类型或者另存为csv文件。

更新日期 2019年1月

官网:www.baostock.com

 

2.3 DTshare

DTShare主要实现了股票、期货、指数、新闻资讯和一些另类数据的开发与接口服务。囊括了各类网站提供的优质的数据,DTShare发布的愿望和初衷是为各位个人投资者提供免费、便捷的数据,减少大家在数据上的投入,让大家有更多时间聚焦的各种的研究领域,可以说DTshare是在Tushare的基础上进行的开源免费数据项目实践,很多代码都有不错的借鉴意义。

更新日期:2020年3月

官网:http://dt-share.com/

 

三、终极解决之道-自建系统

 

3.1 为什么要自建?

了解了主流的免费数据接口之后,是不是满足了呢?但虽然直接使用开源数据接口已经可以满足大部分的量化需求,但是对于金融数据质量的追求是没有尽头的!为了构建符合自己需求的量化交易系统,数据系统也必须做出相应的优化,无论是获取数据的范围,具体的格式,还是至关重要的性能和稳定性,开源接口总有着不尽人意的地方,最终最优化的解决方案一定是自建数据系统!

 

3.2 如何自建?

自建系统可以按需扩展自己的渠道,对于数据来说,python爬虫技术是必会的,由于国内的法律法规,很多证券咨询和实时行情业务都是有门槛的,并不完全自由开发,因此很多没有授权的实体都有较高的风险,免费数据提供商并不稳定,这决定了系统不能依赖单一数据来源,应该多靠开源的基于python爬虫接口的代码来构建自己系统。通过借鉴上文提到的数据接口,加上学习python和对应的爬虫技术,相信你不仅能够自由选择爬取对象,还能及时根据渠道来源修改规则,保证渠道的稳定性。

同时自建渠道也要自行研究掌握某些衍生指标计算,很多数据接口都有各自不同的指标数据,例如上文提到的tushare和BaoStock都提供比如换手率,筹码分布的计算等等,能大大方便使用者。但如果需要自行搭建数据池,很多时候原始得到的数据只有OHLC或者tick 数据。那么换手率,筹码分布的计算等都需要自行掌握。

虽然对于自建系统来说需要学习的内容不少,但是这几乎是每一个成功的量化交易系统的必选项,想象一下当成功运行的时候,最新的行业数据市场数据尽入怀中的场景,那是多么的畅快!

 

四、总结

金融数据的获取是构建有效量化数据的重中之重,希望本期文章提供的行业资料可以帮助大家构建起满足自己需求的数据系统,进而进化自己的交易模型!

同时如果对文中提到的量化,Python感兴趣,我们也为大家准备了对应的高质量课程内容!具体请见以下链接:


掌握这个技能,你也可以量化掘金

写代码之外,如何再赚一份工资?

 

欢迎转发文章,添加微信:fintech12, 后台获得接口资料包。


近期热招: (点击标题,即可了解详情) 

招聘 | 高级期权交易员

招聘 | 北京/上海10家对冲基金秋季校招

招聘 | 投资经理 (高频CTA)-北京/上海

招聘 | Recruiter - 北京 - 对冲基金

招聘 | 股票量化研究-大雁资产-上海

更多岗位信息,请点击官网JOB分类查看!