【技术】11种需要掌握的数据科学技能

大家好,我是Lucy@FinTech社区,今天的文章将为大家介绍11种需要掌握的数据科学技能。欢迎添加以下微信,加入FinTech社区-数据群,提认知,攒人脉,求职招聘,投资有术!

图片无替代文字

 

No.1 统计学和数学

统计学和概率学是我们从数据当中获得见解的基础,而高级统计学是数据科学的支柱。

它应用于整个行业,包括数据可视化、数据建模、相关性识别、回归、特征转换、数据归因和降维等。

数据科学家需要牢牢掌握以下概念:

  • 平均值、中值和众数;
  • 标准差和方差;
  • 相关系数和协方差矩阵
  • 概率分布——二项分布(Binomial),泊松分布(Poisson),正态分布;
  • 假定制(p-value);
  • 贝叶斯定理(Bayes' Theorem')
  • 对混淆矩阵的精度、召回率、正预测值、负预测值、受试者工作特征(ROC)曲线、中心极限定理、R2分数、均方误差、A/B检验和蒙特卡罗模拟(Monte Carlo Simulation)进行分析。

 

No.2 多元微积分和线性代数

线性代数和多元微积分被数据科学的组织广泛应用,以操纵和转换数据并获得见解。线性代数在数据处理与转换、降维和模型评价等领域得到了广泛的应用。

数据科学家需要熟悉的核心线性代数主题包括向量、范数、矩阵、矩阵的转置和操作、点积、特征值和特征向量。

机器学习模型,特别是深度学习方法,依赖于矩阵数学和多变量微积分。

这是数据科学家熟悉多变量微积分概念,如导数和梯度,阶跃函数,sigmoid函数,logit函数,成本函数,最小/最大值,纠正线性单位函数和函数绘图的关键。

 

No.3 优化方法

除了核心的统计学和概率学知识,数据科学家需要了解如何优化函数、数据和算法来实现最终目标。

许多专注于预测应用的机器学习算法通过最小化目标函数学习应用于测试数据的权重来实现它们的目标,从而获得最终的预测。

为了获得更好的性能和准确性,其他需要优化的地方包括成本和误差函数,快速从大数据中确定值的方法,以及迭代。

数据科学家应该掌握的关键领域包括成本函数和目标函数、似然函数和误差函数、梯度下降算法及其变体。

 

No.4 数据可视化

从数据中获取数字或分类的见解,并以决策者能够理解的方式呈现它们,是数据科学家的一项重要技能。

数据可视化体现了创建图形、图表、图解和其他数据插图的概念,对于那些更擅长视觉信息而不是数字或量化数据的人来说,它是有帮助的。

在许多方面上,数据可视化是数据科学的一个创造性方向,并吸引那些具有设计思维或用户体验至上的人。数据可视化最重要的结果是使用人们容易理解的可视化方式成功地从数据构建故事。

 

数据科学家应该有各种数据绘制和图表的经验,包括以下方法:

  • 直方图;
  • 条形图和面积图,饼形图和折线图,瀑布图,温度计和烛台图;
  • 分割和聚类图;
  • 散点图和气泡图;
  • 分类空间可视化;
  • 探索性数据分析的可视化方法;
  • 框架图和树形图;
  • 漏斗图、文字云、热图、视频和图像注释;
  • 地图和地理空间可视化;
  • 使用各种各样的计量器、度量标准和措施。

 

No.5 数据处理,准备和争论

处理大数据需要大量的探索工作以获得正确数量和正确质量的数据。虽然数据工程是它自己的领域,但数据科学家至少需要一些核心知识和经验来访问大数据池,并将其处理成分析和运行所需的形状。

根据人工智能市场情报公司Cognilytica的说法,超过80%的人工智能和数据分析项目时间都花在了数据争论和处理任务上。

数据争论的要求之一是数据访问和收集。数据科学家应该有一些大数据访问的经验,通过最先进的和广泛接受的数据平台,包括Hadoop和Spark,以及更传统的数据访问方法,包括SQL和NoSQL方法。他们还应该有使用MongoDB和Postgres等常用数据库的经验。

此外,数据科学家应该熟悉如何使用数据选择、数据提取以及将庞大的数据集过滤到相关部分的方法来处理数据。

事实上,根据维拉诺瓦大学(Villanova University)一份关于数据分析人才缺口的报告,56%的数据科学家职位将SQL列为必备条件。

与数据选择同样重要的是应对质量有问题的数据。从多个数据源收集数据可能会导致许多问题,包括丢失、不正确、冲突或可能有偏差的数据。使用数据编程和收集方法,数据争论和数据准备需要解决所有这些形式的数据缺陷,并应用转换、操作、格式更改和增强来提高总体数据质量。

数据科学家将需要知道如何识别缺失或错误的数据,数据输入的方法,增加或增强数据集的方法,数据转换和乘法的方法,识别和处理异常值,数据类型的纠正,数据缩放和归一化,数据、重复数据删除和数据匿名的潜在偏差检测。

 

数据分析与建模

有了正确质量水平和正确数量的数据,以及对处理数据的统计学和数学方法的先决理解,数据科学家必须应用这些技能来建立模型,以便组织能够有效地用于分析和预测。

数据科学家需要知道如何创建模型,如何构建分析产品,如何制作实现方案,以便组织将其付诸行动。

 

No.6 数据分析

使用开源和商业产品时,数据科学家需要知道如何构建分析产品,从数据中生成预测、描述和投影结果。这些模型使用现有数据构建,以从未来数据生成结果。数据分析帮助组织将其数据知识应用于新信息,以产生更好的见解,并提供更强有力的决策。

这些模型通常与业务线和组织需求相关,从向客户推荐产品到预测销售和库存,从理解客户或患者数据的趋势到各种数据的分类。

数据分析使用各种各样的工具,包括Excel、大数据分析工具(如Hadoop和Spark)、商业分析产品(如SAS和MATLAB)以及使用R、Python、Java、Julia和其他语言的开源产品。了解这些工具并使用它们来实现数据分析目标对数据科学家的成功至关重要。

 

No.7 机器学习算法、建模与特征工程

机器学习已经成为现代数据科学家工作中最显著的方面,因为它要求他们使用机器学习方法和算法的技能从数据中建立模型。

 

数据科学家需要了解大量的机器学习算法,包括:

  • 决策树方法(decision trees),随机森林算法,bagged算法和提升树方法(boosted tree);
  • 贝叶斯算法(Bayesian methods);
  • 邻近算法(k-nearest neighbors);
  • 支持向量机(support vector machines);
  • 集成方法(ensemble methods);
  • 群集方法包括k均值( k-means)、高斯混合(gaussian mixture)和主元分析法(principal component analysis);
  • 马尔可夫模型(Markov models);
  • 循环神经网络,卷积神经网络和玻尔兹曼机(Boltzmann machines)。

 

数据科学家必须确保他们能跟上机器学习算法创新的步伐。

此外,数据科学家需要了解如何进行模型评估和超参数优化。这意味着进行交叉验证和模型优化步骤,以及理解ROC和学习曲线。

想要掌握机器学习技能的数据科学家还需要知道如何使用第三方模型来满足自己的需求,从而缩短整体模型开发时间。这意味着理解迁移学习以及如何增强模型。

 

熟练掌握平台和技术

通过将所有这些片段组合在一起,数据科学家还需要精通编程和技术,以便在自己的工作环境中有效地完成工作。

 

No.8 编程技能

在过去的几十年里,数据科学的很多技术都在不断发展。开源和商业产品提供了大量的工具、数据库、框架和支持数据科学家工作职责的整个生命周期的功能。

数据科学家需要精通一系列语言,包括Python、R、Julia和基于java的语言。

Python尤其成为了数据科学领域的明星。2018年,66%的数据科学家每天使用Python,超过R成为数据科学中最流行的语言。

Julia和其他语言有助于高速和大数据处理,甚至使用SAS和MATLAB的商业产品也有助于完成一系列的数据科学和分析任务,特别是在企业环境中,扩大项目的能力是很重要的。

数据科学家拥有的技术知识和技能越多越好。

 

No.9 分析和大数据处理工具

从大数据中提取有意义的见解,需要大数据和数据访问技术和工具。数据科学家应该对处理大数据的平台和框架有一定的了解,包括SQL、Spark、Hadoop、Hive和Pig。根据维拉诺瓦大学(Villanova University)的报告,49%的数据科学家将Apache Hadoop列为数据科学家的第二重要技能。

 

No.10 云平台和机器学习服务(MLaaS)

越来越多的数据科学和机器学习工程都是在云端完成的。数据科学家应该具有来自Amazon、Microsoft、谷歌和IBM等公司的基于云端的MLaaS环境的经验,并且在他们的组织所使用的这些环境中具有特定的专业知识。这些平台中有许多都有各种各样的工具、预先训练的模型,以及对模型开发和数据科学活动的完整生命周期的额外支持。

 

No.11 数据工程和操作工具

要完成这些数据准备和操作任务,数据科学家应该有使用大数据操作工具的经验,包括开源产品如Pandas,以及商业或基于云的提供商提供的工具。数据科学家还应该有处理非结构化数据的经验,比如来自不同渠道和来源的图像、视频、电子邮件和文档。