你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是 HDInsight on AKS 中的 Apache Spark™? (预览版)

重要

此功能目前以预览版提供。 Microsoft Azure 预览版的补充使用条款包含适用于 beta 版、预览版或其他尚未正式发布的 Azure 功能的更多法律条款。 有关此特定预览版的信息,请参阅 Azure HDInsight on AKS 预览版信息。 如有疑问或功能建议,请在 AskHDInsight 上提交请求并附上详细信息,并关注我们以获取 Azure HDInsight Community 的更多更新。

Apache Spark™ 是并行处理框架,支持使用内存中处理来提升大数据分析应用程序的性能。

Apache Spark™ 提供用于内存中群集计算的基元。 Spark 作业可以将数据加载和缓存到内存中并重复地对其进行查询。 内存中计算比基于磁盘的应用程序(例如通过 Hadoop 分布式文件系统 (HDFS) 共享数据的 Hadoop)快。 Apache Spark 允许与 Scala 和 Python 编程语言相集成,使你可以像处理本地集合一样处理分布式数据集。 无需将所有内容构造为映射和化简操作。

关系图显示 HDInsight on AKS 中的 Spark 概述。

使用 HDInsight on AKS 的 Apache Spark 群集

Azure HDInsight 是适用于企业的分析服务,具有托管、全面且开源的特点。

Azure HDInsight on AKS 中的 Apache Spark™ 是 Microsoft Azure 中的托管 Spark 服务。 借助 Azure HDInsight on AKS 中的 Apache Spark,可以在 Azure 中存储和处理所有数据。 HDInsight 中的 Spark 群集与Azure Data Lake Storage Gen2兼容,允许在现有数据存储上应用 Spark 处理。

用于 AKS 上 HDInsight 的 Apache Spark 框架使用内存中处理功能实现快速数据分析和群集计算。 使用 Jupyter Notebook,可以与数据进行交互、将代码和 Markdown 文本结合使用,以及进行简单的可视化。

HDInsight 中的 Apache Spark on AKS 由多个组件组成,作为 Pod。

群集控制器

群集控制器负责安装和管理各自的服务。 在 Spark 群集中安装和管理各种控制器。

Apache Spark 服务组件

Zookeeper 服务:三节点 Zookeeper 群集,充当其他服务的分布式协调器或高可用性存储。

Yarn 服务: Hadoop Yarn 群集,Spark 作业会在群集中计划为 Yarn 应用程序。

客户端接口: HDInsight on AKS 中的 Apache Spark 群集提供各种客户端接口。 Livy Server、Jupyter Notebook、Spark History Server 向 AKS 上的 HDInsight 用户提供 Spark 服务。

参考