什么是数据科学?
数据科学是一项多学科的数据科学研究,旨在提取重要数据和信息以获得切实可行的见解。
什么是数据科学家?
数据科学家领导研究项目以从大数据中提取有价值的信息,并具备技术、数学、商业和沟通方面的专业技能。组织使用此类信息做出更加明智的决策、解决复杂的问题,以及提升运营效率。数据科学家可以揭示隐藏在大型数据集中的可操作见解,借此显著提高公司实现其目标的能力。因此,数据科学家相当炙手可热,在商业领域甚至被视为“摇滚明星”。
数据科学的定义
数据科学是对数据的科学研究,可用来获取知识。该领域结合了多个学科,可从大规模数据集中提取知识,旨在帮助组织做出明智的决策和预测。数据科学家、数据分析师、数据架构师、数据工程师、统计信息员、数据库管理员和业务分析师的工作领域都属于数据科学范畴。
随着数据量呈指数增长且公司更加依赖分析来提高收入和推动创新,对数据科学的需求也在迅速增长。举例来说,随着商业互动变得更加数字化,将会产生更多数据,随之也会带来深入探索的新机会,可进一步了解如何提供更出色的个性化体验、提高服务和客户满意度、开发新的增强型产品以及提高销售额。此外,在商业领域以及其他领域,数据科学有可能帮助我们解决全球最艰巨的一些挑战。
数据科学家的职责是什么?
数据科学家负责收集、分析和解释大数据,来发现模式和见解、进行预测并创建切实可行的计划。可将大数据分析大数据定义为种类、卷数和速度比使用先前数据管理方法所处理的更大的数据集。数据科学家使用多种类型的大数据,其中包括:
- 结构化数据,通常以行和列为排列形式,包括姓名、日期和信用卡信息等字词和数字。例如,公共事业的数据科学家可能会分析发电量和使用量数据表格,帮助相关单位降低成本并检测可能导致设备故障的模式。
- 非结构化数据,其中包括文档文件、社交媒体和移动数据、网站内容和视频中的文本。例如,零售行业的数据科学家可能会通过分析非结构化呼叫中心笔记、电子邮件、调查表和社交媒体帖子来回答有关改善客户体验的问题。
此外,数据集的特征可描述为定量、结构化数字数据或定性或分类数据,这些数据集不通过数值表示,可根据类别进行分组。数据科学家必须了解其正在使用的数据类型,因为这直接影响他们执行的分析类型,以及可用于可视化数据的图形类型。
若要从所有这些数据类型中获取知识,数据科学家要在以下方面灵活运用自身技能:
- 计算机编程。数据科学家使用 Julia、R 或 Python 之类的语言编写查询,从所在公司的数据库中提取数据。Python 是许多数据科学家的首选语言,因为它易于学习和使用,甚至对没有编码经验的人也是如此,并且它还提供预生成的数据科学模块以进行数据分析。
- 数学、统计学和概率。数据科学家利用这些技能来分析数据、测试假设以及生成机器学习模型(数据科学家为了识别特定类型的模式而训练的文件)。数据科学家使用经过训练的机器学习模型来发现数据中的关系、对数据进行预测,并找出问题的解决方案。数据科学家还可利用自动化机器学习来访问生产就绪机器学习模型,而不必从头开始构建和训练模型。
- 领域知识。为了将数据转换为推动业务成果的相关且有意义的见解,数据科学家还需要掌握特定领域知识,也就是要了解他们所在的行业和公司。下面的示例介绍了数据科学家如何应用他们的领域知识来解决行业特定的问题。
数据科学项目的类型
行业 | 数据科学项目的类型 |
---|---|
商业 | 新产品开发和产品增强功能 供应链和库存管理 客户服务改进 为电子商务客户提供产品建议 |
娱乐 | 了解媒体内容使用模式 基于目标市场数据开发内容 内容绩效度量 基于用户首选项提供自定义建议 |
金融和银行 | 防止欺诈和其他安全漏洞 投资组合的风险管理 帮助客户解决问题的虚拟助理 |
政府 | 政策决定 选民满意度监视 欺诈检测,例如冒领残障人员社保金 |
医疗保健 | 基于证据的药物治疗,确保新药的成本效益 实时跟踪疾病爆发 可穿戴跟踪器,改善患者护理 |
电信 | 根据用户首选项和位置提升服务质量 最大程度减少通话中断和其他服务问题 |
公共事业 | 智能水电燃气表分析,减少水电燃气使用量,提高客户满意度 改进资产和员工管理 |
要回答“数据科学家的职责是什么?”这一问题,离不开另一项至关重要的技能,那就是将分析结果有效地传达给经理、主管和其他利益干系人,这也是数据科学家最重要的工作内容之一。数据科学家需要让非技术受众轻松理解其发现,以便他们可以使用见解做出明智的决策。因此,数据科学家需要具备以下技能:
- 沟通、公开演讲和数据可视化。出色的数据科学家拥有很强的语言沟通能力,包括讲故事和公开演讲。在数据科学领域,一张图片胜过千言万语。使用图形和图表演示数据科学结果,使受众能够在 5 秒或更短的时间内快速了解数据。因此,成功的数据科学家会像看重其分析一样看重其数据可视化。
数据科学流程
数据科学家遵循类似的过程来完成项目:
1. 定义业务问题
数据科学家与利益干系人合作,明确地界定他们要解决或需要回答的问题,以及项目目标和解决方案需求。
2. 定义分析方法
数据科学家根据业务问题来决定要采用的分析方法:
- 用于详细了解当前状态的描述性方法。
- 用于了解发生的情况和发生原因的诊断方法。
- 用于预测将发生的情况的预测性方法。
- 用于了解如何解决问题的规范性方法。
3. 获取数据
数据科学家标识并获取取得理想结果所需的数据。这可能涉及查询数据库、从网站提取信息(Web 擦除)或从文件中获取数据。数据可能在内部可用,或者团队可能需要购买数据。在某些情况下,组织可能需要收集新数据才能成功运行某个项目。
4. 清理数据,也称为清理
通常,这一步最耗费时间。为了创建用于建模的数据集,数据科学家会将所有数据转换为相同的格式、整理数据、删除不需要的数据,并替换任何缺少的数据。
5. 浏览数据
清理数据后,数据科学家会对数据进行探索,并应用统计分析技术来揭示数据特征之间的关系,以及数据特征与预测值(称为标签)之间的统计关系。预测得到的标签可以是一个量值,例如未来某物的财物价值或航班延误时长(以分钟为单位)。
探索和准备工作通常涉及到大量交互式数据分析和可视化 - 通常是在专门为此任务设计的交互式工具和环境中使用 Python 和 R 等语言。用于探索数据的脚本通常托管在 Jupyter Notebook 等专用环境中。借助这些工具,数据科学家能够以编程方式探索数据,同时记录和共享他们发现的见解。
6. 建立数据模型
数据科学家生成并训练规范性或描述性模型,然后测试和评估模型以确保模型能够回答问题或解决业务问题。最简单的情况下,模型是一段提取输入然后生成输出的代码。创建机器学习模型将涉及到选择算法、为其提供数据以及优化超参数。超参数是允许数据科学家控制模型训练过程的可调参数。例如,数据科学家可以决定神经网络每个层中隐藏层的数目和节点数。对模型进行超参数调优超参数调优(也称为超参数优化)是查找超参数的配置以获得最佳性能的过程。
一个常见的问题是:“我应使用哪种机器学习算法?” 机器学习算法可将数据集转换为模型。数据科学家选择的算法主要取决于数据科学方案的两个不同方面:
- 数据科学家通过学习过去的数据想要解决哪些业务问题?
- 数据科学方案有哪些要求?(包括正确性、训练时间、线性、参数数目和特征数目)
为了帮助解决这些问题,Azure 机器学习提供全面的算法组合,例如多类决策林组件多类决策林、建议系统、神经网络回归、多类神经网络组件多类神经网络和 K-Means 群集。每种算法都旨在解决不同类型的机器学习问题。此外,Azure 机器学习算法速查表可帮助数据科学家选择正确的算法来解答业务问题。
7. 部署模型
数据科学家负责交付包含文档的最终模型,并在测试后将新数据集部署到生产环境中,以便模型可以在业务中起作用。已部署模型提供的预测可用于制定业务决策。
8. 可视化并传达结果
数据科学家可使用可视化工具(例如 Microsoft Power BI、Tableau、Apache wSuperset 和 Metabase)轻松地浏览数据并生成精美的可视化效果,让非技术受众更容易地理解他们的发现成果。
在数据引入、发现、分析、可视化和协作的整个过程中,数据科学家还可使用基于 Web 的数据科学笔记本(例如 Zeppelin Notebooks)。
数据科学方法
数据科学家使用统计方法(如假设测试、因素分析、回归分析和聚类分析)来揭示在统计学上具有可靠依据的见解。
数据科学文档
虽然数据科学文档因项目和行业而异,但它通常包括文档,用于显示数据来源以及数据的修改方式。文档有助于数据团队的其他成员有效地使用数据继续推进项目进度。例如,文档可帮助业务分析人员使用可视化工具来解释数据集。
数据科学文档的类型包括:
- 项目计划,用于确定项目的业务目标、评估指标、资源、日程表和预算。
- 数据科学用户案例,可为数据科学项目提供想法。数据科学家从利益干系人的角度撰写案例,描述利益干系人想要实现的目标,以及利益干系人请求项目的原因。
- 数据科学模型文档,用于记录数据集、试验的设计和算法。
- 支持系统文档,包括用户指南、用于进行系统维护的基础结构文档和代码文档。
如何成为数据科学家
成为数据科学家有多种途径。要求通常包括信息技术或计算机科学学位。但是,一些 IT 专业人员通过参加集训营和在线课程学习数据科学,其他人则通过获得数据科学硕士学位或认证。
若要了解如何成为数据科学家,请利用以下这些专为帮助你而设计的 Microsoft 培训资源:
- 快速入门。阅读免费的 Packt 电子书《数据科学原则 - 统计技术和理论入门指南》。你将学习统计分析和机器学习、关键术语和数据科学流程的基础知识。
- 借助 Microsoft 云平台 Azure 培养机器学习技能。探索适用于数据科学家的 Azure 机器学习资源,包括免费培训视频、示例解决方案体系结构和客户案例。
- 只需 4 周即可在 Azure 上免费获得机器学习专业知识。每天花一个小时来了解如何为复杂问题创建创新解决方案。你将学习使用最新工具和框架缩放机器学习项目的所有基础知识。自定进度的开始从零到精通的机器学习路径从零到精通的机器学习路径还可帮助你为获得 Azure 数据科学家助理认证做好准备。
- 获取全面的培训。采用 Microsoft 数据科学家学习路径并从自定进度和讲师引导式课程中进行选择。了解如何创建机器学习模型、使用可视工具、在云中运行数据科学工作负载,以及如何生成支持自然语言处理的应用程序。
数据科学家认证
认证是展示数据科学资质并快速开始职业发展的好方法。Microsoft 认证的专业人员的需求量很大,目前有很多岗位都在招聘 Azure 数据科学家。了解最受雇主追捧的数据科学家认证:
- Microsoft 认证:Azure 数据科学家助理。运用数据科学和机器学习知识,以使用 Azure 机器学习服务在 Azure 上实现并运行机器学习工作负载。
- Microsoft 认证:客户数据平台专业。实施解决方案以了解客户概况并跟踪互动活动,帮助企业改善客户体验,提高客户保留率。
数据分析师和数据科学家之间的区别
与数据科学家一样,数据分析师也使用大型数据集来发现数据中的趋势。但是,数据科学家通常是具有更多专业知识和责任感的技术团队成员,例如启动和领导数据科学项目、构建和训练机器学习模型,以及向主管和在会议上展示其项目成果。某些数据科学家执行上述所有任务,而其他一些人则专注于某些特定任务,如训练算法或构建模型。许多数学科学家的职业生涯都是从数据分析师开始的,而数据分析师在几年内便可晋升到数据科学家的岗位。
数据科学家与数据分析师
数据分析师 | 数据科学家 | |
---|---|---|
角色 | 统计数据分析 | 使用大数据开发满足复杂业务需求的解决方案 |
典型工具 | Microsoft Excel、SQL、Tableau、Power BI | SQL、Python、R、Julia、Hadoop、Apache Spark、SAS、Tableau、机器学习、Apache 超集、Power BI、数据科学笔记本 |
数据类型分析 | 结构化数据 | 结构化和非结构化数据 |
任务和职责 |
|
|
有关数据科学的常见问题解答
-
数据科学家负责挖掘大数据来提取有价值的信息。组织使用此信息来完善他们制定决策、解决问题和优化运营的方式。
-
数据科学是指研究数据来获取知识。它结合了各种科学学科,旨在从大量数据集中提取知识来帮助制定明智决策和预测。
-
数据科学家负责领导研究项目,旨在从大数据中提取有价值的信息和切实可行的见解。具体职责包括确定要解决的问题、编写查询以从数据库中提取正确数据、清理和排序数据、生成和训练机器学习模型,以及使用数据可视化技术将发现结果有效传达给利益干系人。
-
虽然数据科学文档因项目和行业而异,但它通常包括项目计划、用户案例、模型文档和支持系统文档(如用户指南)。
-
一些 IT 专业人员通过获得数据科学硕士学位/认证或参加集训营和在线课程来学习数据科学。认证是展示数据科学资质并快速开始职业发展的好方法。Microsoft 认证的专业人员的需求量很大,目前有很多岗位都在招聘 Azure 数据科学家。
-
数据分析师和数据科学家都使用大型数据集来发现数据中的趋势。但是,数据科学家在启动他们的研究项目时,通常拥有更多的技术专业知识和责任。例如,可能要求数据分析师完成统计数据分析,而可能要求数据科学家通过挖掘大数据来开发复杂业务需求的解决方案。
-
数据科学项目因行业和组织需求而异。例如,在业务情景中,数据科学家可能会领导一个研究项目来了解如何改善客户服务体验。所需的数据不仅包括结构化数据(例如网站和事务指标),还包括非结构化数据(例如用户评论和来自客户服务团队的备注)。对所有这些不同数据源进行详细分析将生成见解,有助于告知对当前流程的建议更改。
-
在商界,数据科学的最常见目标就是改进组织的运作方式。通过同时分析大量组织数据得到的见解可帮助解决现有挑战,或者产生关于新的业务展开方式的想法。
-
是,不过数据科学家可能不需要像程序员那样精通编码。数据科学家可能会使用 Julia、R 或 Python 等编程语言来编写查询。Python 也很受欢迎,因为它在学习和使用上相对简单。
-
数据科学角色的要求可能有所不同,但通常都至少包含下面其中一项要求:
- 信息技术或计算机科学学位。
- 完成数据科学训练营或在线课程。
- 数据科学硕士学位或认证。
Microsoft 提供了各种培训资源和学习路径,帮助你开始成为一名数据科学家。
开始使用 Azure 免费帐户
免费享有 12 个月的 Azure 热门服务、超过 55 项始终免费的服务,以及可在前 30 天内享用的 USD$200 额度。
与 Azure AI 销售专家联系
获取有关 Azure AI 入门的建议。提出问题、了解定价和最佳做法,并获得帮助设计解决方案来满足你的需求。