跳到主内容

什么是数据科学?

数据科学是一门多学科的数据科学研究,旨在提取重要的数据和信息来获取可操作见解。

什么是数据科学家?

数据科学家负责领导研究项目,从大数据中提取有价值的信息,并且精通技术、数学、商业和沟通。组织使用这些有价值的信息制定更加明智的决策、解决复杂问题、提升运营效率。通过揭露隐藏在大型数据集中的切实可行的见解,数据科学家可以显著提高公司实现其目标的能力。这就是数据科学家在商业世界中的需求量很高甚至被视为"摇滚明星"的原因。

数据科学定义

数据科学是从数据中获取知识的科学研究。该领域结合了多个学科,旨在从大规模数据集中提取知识,帮助组织制定明智决策和预测。数据科学家、数据分析人员、数据架构师、数据工程师、统计信息员、数据库管理员和业务分析人员的工作领域都属于数据科学。

随着数据量呈指数增长且公司更加依赖分析来推动收入和创新,对数据科学的需求增长迅速。例如,随着业务交互变得更加数字化,企业将会创建更多数据,从而提供新的机会,深入了解如何提供更出色的个性化体验、提高服务和客户满意度、开发新的增强产品以及提高销售额。此外,在商业世界以及其他领域,数据科学有可能帮助我们解决全球最艰巨的一些挑战。

数据科学家有哪些工作内容?

数据科学家负责收集、分析和解释大数据,来发现模式和见解、进行预测并创建切实可行的计划。可将大数据定义为种类、卷数和速度比使用先前数据管理方法所处理的更大的数据集。数据科学家使用多种类型的大数据,其中包括:

  • 结构化数据,通常以行和列为排列形式,包括姓名、日期和信用卡信息等字词和数字。例如,公共事业的数据科学家可能会分析发电量和使用量表格,帮助相关单位降低成本并检测可能导致设备故障的模式。
  • 未结构化数据,其中包括文档文件、社交媒体和移动数据、网站内容和视频中的文本。例如,零售行业的数据科学家可能会通过分析非结构化呼叫中心笔记、电子邮件、调查表和社交媒体帖子来回答有关改善客户体验的问题。

此外,数据集的特征可描述为定量、结构化数字数据或定性或分类数据,这些数据集不通过数值表示,可根据类别进行分组。数据科学家必须了解其正在使用的数据类型,因为这直接影响他们执行的分析类型,以及可用于可视化数据的图形类型。

若要从所有这些数据类型中获取知识,数据科学家要在以下方面灵活运用自身技能:

  • 计算机编程。数据科学家使用 Julia、R 或 Python 之类的语言编写查询,从所在公司的数据库中提取数据。Python 是许多数据科学家的首选语言,因为它易于学习和使用,甚至对没有编码经验的人也是如此,并且它提供预生成的数据科学模块用于进行数据分析。
  • 数学、统计学和概率。数据科学家利用这些技能来分析数据、测试假设和生成机器学习模型(即,数据科学家训练来识别特定类型的模式的文件)。数据科学家使用经过训练的机器学习模型来发现数据中的关系、对数据进行预测,并找出问题的解决方案。数据科学家还可利用自动化机器学习来访问生产就绪机器学习模型,而不必从头开始构建和训练模型。
  • 域知识。为了将数据转换为推动业务成果的相关见解和有意义的见解,数据科学家还需要掌握域知识,即了解行业和公司的处境。下面一些示例,介绍了数据科学家如何应用其域知识来解决行业特定的问题。

数据科学项目的类型

工业 数据科学项目的类型
商业 新产品开发和产品增强功能
供应链和库存管理
客户服务改进
为电子商务客户提供产品建议
娱乐 了解媒体内容使用模式
基于目标市场数据开发内容
内容绩效度量
基于用户首选项提供自定义建议
金融和银行 防止欺诈和其他安全漏洞
投资组合的风险管理
帮助客户解决问题的虚拟助手
政府 政策决定
选民满意度监视
欺诈检测,如冒领残障人员社保金
医疗保健 基于证据的药物治疗,确保新药的成本效益
实时跟踪疾病爆发
可穿戴跟踪器,增强对于患者的护理
电信 根据用户首选项和位置提升服务质量
最大程度减少通话中断和其他服务问题
公共事业 智能水电燃气表分析,减少水电燃气使用量,提高客户满意度
改进资产和员工管理

要想回答"数据科学家有哪些工作内容?",离不开另一项至关重要的技能,那就是将分析结果有效地传达给经理、主管和其他利益干系人。数据科学家需要让非技术受众轻松理解其发现,以便他们可以使用见解制定明智的决策。因此,数据科学家需要熟练掌握以下技能:

  • 通信、公开演讲和数据可视化。出色的数据科学家拥有很强的语言沟通能力,包括讲故事和公开演讲。在数据科学领域,千言万语也抵不过一张图片来得吸引人。使用图形和图表演示数据科学结果,使受众能够在 5 秒或更短的时间内快速了解数据。因此,成功的数据科学家像看重其分析一样看重其数据可视化。

数据科学流程

数据科学家遵循类似的过程来完成项目:

  1. 定义业务问题

    数据科学家与利益干系人合作,明确他们要解决或需要回答的问题,以及项目目标和解决方案需求。

  2. 定义分析方法

    数据科学家根据业务问题来决定要采用的分析方法:

    • 用于详细了解当前状态的描述性方法。
    • 用于了解发生的情况和发生原因的诊断方法。
    • 用于预测将发生的情况的预测性方法。
    • 用于了解如何解决问题的规范性方法。
  3. 获取数据

    数据科学家标识并获取取得目标成果所需的数据。其中可能涉及查询数据库、从网站提取信息(Web 擦除)或从文件中获取数据。数据可能在内部可用,或者团队可能需要购买数据。在某些情况下,组织可能需要收集新数据才能成功运行某个项目。

  4. 清理数据,也称为清理

    通常,这一步是最耗费时间的。若要创建用于建模的数据集,数据科学家会将所有数据转换为相同的格式、整理数据、删除不需要的数据,并替换任何缺少的数据。

  5. 浏览数据

    清理数据后,数据科学家会对数据进行研究,并应用统计分析技术来揭示数据特征之间的关系以及数据特征与它们预测的值(称为“标签”)之间的统计关系。预测得到的标签可以是定量值,例如未来某物的财物价值或航班延误时长(以分钟为单位)。

    探索和准备通常涉及到大量交互式数据分析和可视化 - 通常在专门为此任务设计的交互式工具和环境中使用 Python 和 R 等语言。用于探索数据的脚本通常托管在 Jupyter Notebook 等专用环境中。借助这些工具,数据科学家能够以编程方式探索数据,同时记录和共享他们发现的见解。

  6. 建立数据模型

    数据科学家生成并训练规范性或描述性模型,然后测试和评估模型以确保模型能够回答问题或解决业务问题。最简单的情况下,模型是一段提取输入然后生成输出的代码。创建机器学习模型涉及到选择算法、为其提供数据以及优化超参数。超参数是允许数据科学家控制模型训练过程的可调参数。例如,数据科学家可以决定神经网络每个层中隐藏层的数目和节点数。超参数调优也称为超参数优化,是寻找超参数配置从而获得最佳性能的过程。

    人们经常会问“我应使用哪种机器学习算法?”机器学习算法将数据集转换为模型。数据科学家选择的算法主要取决于数据科学方案的两个不同方面:

    • 数据科学家通过学习过去的数据想要回答哪些业务问题?
    • 数据科学方案有哪些要求,包括精确度、训练时间、线性、参数数量和功能数量?

    为了帮助回答这些问题,Azure 机器学习提供全面的算法组合,例如多类决策林建议系统神经网络回归多类神经网络以及K-Means 聚类等。每种算法都旨在解决不同类型的机器学习问题。此外,Azure 机器学习算法速查表可帮助数据科学家选择正确的算法来解答业务问题。

  7. 部署模型

    数据科学家负责交付包含文档的最终模型,并在测试后将新数据集部署到生产环境中,以便模型可以在业务中起作用。已部署模型提供的预测可用于制定业务决策。

  8. 可视化和传达发现结果

    可视化工具,例如 Microsoft Power BI、Tableau、Apache wSuperset 和 Metabase,使数据科学家能够轻松地浏览数据并生成精美的可视化效果,让非技术受众更容易地理解他们的发现成果。

数据科学家还可能在整个过程中使用基于 Web 的数据科学笔记本(如 Zeppelin Notebooks)用于数据引入、发现、分析、可视化和协作。

数据科学方法

数据科学家使用假设测试、因子分析、回归分析和群集等统计方法,来揭示在统计学上具有可靠依据的见解。

数据科学文档

虽然数据科学文档因项目和行业而异,但它通常包括文档,用于显示数据来源以及数据的修改方式。有助于数据团队的其他成员有效地使用数据继续推进项目进度。例如,文档可帮助业务分析人员使用可视化工具来解释数据集。

数据科学文档的类型包括:

  • 项目计划用于确定项目的业务目标、评估指标、资源、日程表和预算。
  • 数据科学用户案例为数据科学项目生成创意。数据科学家从利益干系人的角度撰写案例,描述利益干系人想要实现的目标以及请求项目的原因。
  • 数据科学模型文档用于记录数据集、试验的设计以及算法。
  • 支持系统文档包括用户指南、用于进行系统维护的基础结构文档和代码文档。

如何成为一名数据科学家

有多种途径都可以成为一名数据科学家。要求通常包括信息技术或计算机科学学位。但是,一些 IT 专业人员通过参加集训营和在线课程学习数据科学,其他人则通过获得数据科学硕士学位或认证。

若要了解如何成为数据科学家,请利用这些为帮助你而设计的 Microsoft 培训资源:

  • 快速入门。阅读免费的 Packt 电子书《数据科学原则》,这本指南面向统计技术和理念的初学者。你将学习统计分析和机器学习、关键术语和数据科学流程的基础知识。
  • 借助 Microsoft 云平台 Azure 培养机器学习技能。探索 Azure 机器学习,获取数据科学家资源,包括免费培训视频、示例解决方案体系结构和客户案例。
  • 只需 4 周即可在 Azure 上免费获得机器学习专业知识。每天花一个小时来了解如何为复杂问题创建创新解决方案。你将一直学习使用最新工具和框架缩放机器学习项目的基础知识。按照自己的节奏开始从零到精通的学习之旅,也可以帮助你为获得 Azure 数据科学家协会认证做好准备。
  • 获取全面的培训。采用 Microsoft 数据科学家学习路径并从自己安排学习节奏和讲师主导的课程中进行选择。了解如何创建机器学习模型、使用可视工具、在云中运行数据科学工作负载,以及如何生成支持自然语言处理的应用程序。

数据科学家认证

认证是展示数据科学资质并快速开始职业发展的好方法。Microsoft 认证的专业人员的需求量很大,有很多岗位都在招聘 Azure 数据科学家。了解最受雇主追捧的数据科学家认证:

  • Microsoft 认证: Azure 数据科学家协会。应用数据科学和机器学习知识,以使用 Azure 机器学习服务在 Azure 上实现和运行机器学习工作负载。
  • Microsoft 认证: 客户数据平台专家。实施解决方案,以提供对客户画像的见解并跟踪互动活动,帮助企业改善客户体验,提高客户保留率。

数据分析人员和数据科学家之间的区别

与数据科学家一样,数据分析人员也使用大型数据集来发现数据中的趋势。但是,数据科学家通常是具有更多专业知识和责任感的技术团队成员,例如启动和领导数据科学项目、构建和训练机器学习模型,以及向主管和在会议上展示其项目成果。某些数据科学家执行上述所有任务,而其他一些人则专注于某些特定任务,如训练算法或构建模型。许多数学科学家其生涯开端都是从数据分析人员开始的,而数据分析人员在几年内便可以晋升到数据科学家的岗位。

数据科学家与数据分析师

不可用 数据分析师 数据科学家
角色 统计数据分析 使用大数据开发满足复杂业务需求的解决方案
典型工具 Microsoft Excel、SQL、Tableau、Power BI SQL, Python, R, Julia, Hadoop, Apache Spark, SAS, Tableau, 机器学习, Apache 超集, Power BI, 数据科学笔记本
分析数据类型 结构化数据 结构化和非结构化数据
任务和职责
  • 与利益干系人合作,定义由管理层分配的项目。
  • 使用 SQL 查询数据源并收集正确的数据集。
  • 标识、清理和分析数据。
  • 通过摘要报告向利益干系人解释、可视化和呈现发现结果。
  • 根据自己的域知识自行启动项目。
  • 利用更前沿的技术进行统计、数据挖掘、分析和建模,包括机器学习。
  • 将发现结果转换为推动业务成果的建议。
  • 有效地可视化发现成果并向利益干系人呈现相关成果。

有关数据科学的常见问题解答

  • 数据科学家负责挖掘大数据来提取有价值的信息。组织使用此信息来完善他们制定决策、解决问题和优化运营的方式。

    了解数据科学家角色

  • 数据科学是指研究数据来获取知识。它结合了各种科学学科,旨在从大量数据集中提取知识来帮助制定明智决策和预测。

    获取数据科学简介

  • 数据科学家领导研究项目,从大数据中提取有价值的信息和切实可行的见解。具体职责包括确定要解决的问题、编写查询以从数据库中提取正确数据、清理和排序数据、生成和训练机器学习模型,以及使用数据可视化技术将发现结果有效传达给利益干系人。

    了解数据科学家如何从数据中提取知识

  • 虽然数据科学文档因项目和行业而异,但它通常包括项目计划、用户案例、模型文档和支持系统文档,如用户指南。

    了解数据科学文档

  • 一些 IT 专业人员通过获得数据科学硕士学位/认证或参加集训营和在线课程来学习数据科学。认证是展示数据科学资格并快速开始职业生涯的好方法。Microsoft 认证专业人员的需求量很大,目前大量岗位都在招聘 Azure 数据科学家。

    了解数据科学培训资源和认证

  • 数据分析师和数据科学家都使用大型数据集来发现数据中的趋势。但是,数据科学家在启动他们的研究项目时,通常有更多的技术专长和责任。例如,可能要求数据分析师完成统计数据分析,而可能要求数据科学家通过挖掘大数据来开发复杂业务需求的解决方案。

    请查看数据科学家与数据分析员在责任方面的比较

  • 数据科学项目因行业和组织需求而异。例如,在商业情景中,数据科学家可能会领导一个研究项目来了解如何改善客户服务体验。所需的数据不仅包括网站和事务指标等结构化数据,还包括非结构化数据,例如用户评论和来自客户服务团队的备注。对所有这些不同数据源进行详细分析将生成见解,有助于告知对当前流程的建议更改。
  • 在商业中,数据科学的最常见目标是改善组织的运作方式。通过同时分析大量组织数据得到的见解可帮助解决现有挑战,或者产生关于新的业务展开方式的想法。
  • 是,但数据科学家可能不需要像程序员那样精通编码。数据科学家可能会使用 Julia、R 或 Python 之类的编程语言来编写查询。Python 也很受欢迎,因为它学习和使用起来相对容易。
  • 数据科学角色的要求可能有所不同,但通常都至少包含下面其中一项要求:

    • 信息技术或计算机科学学位。
    • 完成数据科学集训营或在线课程。
    • 数据科学硕士学位或认证。

    Microsoft 提供了大量的培训资源和学习路径,助你开始成为一名数据科学家。

开始使用 Azure 免费帐户

免费享受 12 个月的 Azure 热门服务,始终免费使用超过 55 项服务,并在前 30 天内享用 $200 额度。

与 Azure AI 销售专家联系

获取有关 Azure AI 中入门的建议。提出问题、了解定价和最佳做法,并获取解决方案设计帮助以满足你的需求。

可以给你提供什么帮助?