数据分析和数据科学的五大不同之处

发表于:2022-5-11 08:52

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:陈峻    来源:网络

  在大数据的世界里,您可能会经常听到两个词语:数据科学(Data Science)和数据分析(Data Analytics)。它们虽然从字面上有些相似,但是在大数据的背景下它们强调的是不同的能力和技能方面。下面,我将从职业决策与规划的角度,和您讨论两者之间的差异。
  一、知识储备
  无论是数据分析还是数据科学领域,都正在变得更加丰富、更加专业化。因此,如果您想进入这两种职业领域中的任何一种,都需要做好充分的准备,以满足各项实际工作的需求。其中:
  数据分析
  数据分析领域的相关工作,往往需要事先对RDBMS(关系数据库管理系统,Relational Database Management System)和操作数据结构模式(Structure Schema)的SQL、以及查询开发等方面有所了解。同时,您也需要具备使用R或Python语言,进行统计编程的相关知识。此外,机器学习(Machine Learning,ML)、人工智能(Artificial Intelligence,AI)、自定义算法的开发、以及围绕着信息收集与存储的数据管理知识,也会让您达到事半功倍的效果。简而言之,您需要拥有IT、计算机科学、数学、以及统计学的相关应用知识与技能。
  数据科学
  数据科学家往往具有计算机科学、信息技术、应用数学或统计学的教育背景。这些核心知识可以为您开展提供、收集、组织、处理和建模业务数据,做好准备。同时,您也可以了解并掌握有关数据可视化、基于API的数据收集与准备等方面的专业知识。这些对于您开展探索性数据分析,遵循和建立模型,以及对模型进行定制化设计与测试等工作,都十分有益。此外,您在基于AI的预测性建模时,前面提到的ML和AI领域的相关技能也总归是技不压身的。
  2. 工作角色和职责
  无论是数据分析师还是数据科学家,根据专业水平和企业性质的差异,他们的日常角色和工作职能也会有所不同。主要体现在:
  数据分析
  数据分析师往往主要聚焦于分析、可视化、以及挖掘那些特定于业务的数据。其角色职能包括:
  ·清理、处理、验证、以及例证(exemplify)数据的完整性
  · 对大型数据集进行探索性数据分析
  · 实施ETL(抽取extract、转换transform、加载load)管道,并进行数据挖掘
  · 使用逻辑回归、KNN(K最邻近,K-NearestNeighbor分类算法)、随机森林、以及决策树,进行统计分析
  · 在编写自动化代码的同时,构建和管理机器学习(ML)库
  · 使用ML工具和算法获得新的数据洞见
  · 识别数据模型,进而做出明智的、以数据为支持的预测
  数据科学
  数据科学主要涉及到从业务的上下文数据中,获得洞见并得出推论。其角色职能包括:
  · 收集和解释数据
  · 识别数据集中的相关模式
  · 执行基于SQL的数据查询和子查询
  · 使用SQL、Python、SAS(统计分析软件)等RDBMS工具去查询数据
  · 熟练掌握各种预测性、规范性、描述性和诊断性的分析工具
  · 掌握Tableau和IBM Cognos Analytics等可视化工具的使用
  3. 基本技能组合
  由于这两个角色都属于专业领域,因此它们需要特定的技能集,才能胜任日常的基本工作。具体而言:
  数据分析
  除了具有问题解决能力的中级统计(intermediate statistics)知识和高级分析技能外,数据分析师的技能还包括:
  · 能够通过Microsoft Excel和SQL数据库,对数据进行切片和切块
  · 运用商业智能工具生成相关报告
  · 通过运用Python、R和SAS等工具,来管理、操作和使用数据集
  · 相对于IT工程经验,数据分析师更需要掌握学习统计、数据库管理、数据建模、以及预测分析等技能。
  数据科学
  作为数据科学家,您除了需要精通数学、高级统计学、预测性建模、以及机器学习之外,还需要掌握如下领域的软件知识:
  · Hadoop和Spark针对大数据工具的专业知识
  · SQL、NoSQL和PostgreSQL数据库方面的专业知识
  · 了解数据可视化工具和诸如Scala和Python之类的语言
  4. 工具谱
  常言道:“工欲善其事,必先利其器。”好的工具无论是对于数据分析,还是数据科学都是至关重要。为了便于下载和选用,我将当前市场上的工具,有针对性地进行了分类:
  数据分析
  · 数据可视化类:Splunk、QlikView、Power BI、以及Tableau
  · ETL类:Talend
  · 大数据处理类:Spark和RapidMiner
  · 数据分析类:Microsoft Excel、R、以及Python
  数据科学
  · 应用数据科学类:SAS、KNIME、RapidMiner、PowerBI、以及DataRobot
  · ETL类:Apache Kafka
  · 大数据处理类:Apache Hadoop、Spark
  · 数据可视化类:Tableau、BigML、Trifacta、QlikView、MicroStrategy、以及Google Analytics
  · 数据分析类:Microsoft Excel、Apache Flink、SAP Hana、MongoDB、MiniTab、以及SPSS
  · 编程类:R、Julia、以及Python
  · 编程库类:可用于针对基于Python数据建模的TensorFlow
  5. 职业机会
  有了前面的信息,您一定想知道在企业中,会有哪些适合数据分析和数据科学领域的热门职业可供选择呢?
  数据分析
  · 商业智能分析师
  · 数据分析师
  · 定量分析师
  · 数据分析顾问
  · 运营分析师
  · 营销分析师
  · 项目经理
  · IT系统分析师
  · 运输物流专家
  数据科学
  · 数据分析师
  · 数据工程师
  · 数据库管理员
  · 机器学习工程师
  · 数据科学家
  · 数据架构师
  · 统计员
  · 业务分析师
  · 数据和分析经理
  小结
  根据上述比较,我们不难发现企业对于数据科学家本身、以及技能上的要求,要比对普通数据分析师的要求高出一些。不过,在职场上,人们通常会以数据分析师的身份开始他们的职业生涯,然后再逐渐转向数据科学领域。对于初学者而言,您也可以从数据架构、以及数据工程的相关职位开始,不断打磨和历练自己,最终成为该领域的专家。

  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号