你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在 AKS 上的 HDInsight 中创建 Spark 群集(预览版)

重要

此功能目前以预览版提供。 Microsoft Azure 预览版的补充使用条款包含适用于 beta 版、预览版或其他尚未正式发布的 Azure 功能的更多法律条款。 有关此特定预览版的信息,请参阅 Azure HDInsight on AKS 预览版信息。 如有疑问或功能建议,请在 AskHDInsight 上提交请求并附上详细信息,并关注我们以获取 Azure HDInsight Community 的更多更新。

完成订阅先决条件资源先决条件步骤并部署群集池后,请继续使用 Azure 门户创建 Spark 群集。 可以使用 Azure 门户在群集池中创建 Apache Spark 群集。 然后,可以创建一个 Jupyter Notebook,并使用它针对 Apache Hive 表运行 Spark SQL 查询。

  1. 在 Azure 门户中,键入群集池,并选择群集池以转到群集池页。 在“群集池”页上,选择可在其中添加新 Spark 群集的群集池。

  2. 在特定的群集池页上,单击“+ 新建群集”

    屏幕截图显示如何新建 Spark 群集。

    此步骤将打开群集创建页。

    屏幕截图显示创建群集“基本信息”页。

    properties 说明
    订阅 在“先决条件”部分中注册用于 AKS 上的 HDInsight 的 Azure 订阅
    资源组 将预填充与群集池相同的资源组
    区域 将预先填充群集池和虚拟区域
    群集池 将预填充群集池的名称
    HDInsight 池版本 将从池创建选择中预填充群集池版本
    AKS 版本的 HDInsight 在 AKS 版本上指定 HDI
    群集类型 从下拉列表中选择“Spark”
    群集版本 选择要使用的映像版本的版本
    群集名称 输入新群集的名称
    用户分配的托管标识 选择用户分配的托管标识,该标识将用作存储的连接字符串
    存储帐户 选择预创建的存储帐户,该帐户将用作群集的主存储
    容器名称 如果预先创建或创建新容器,请选择容器名称(唯一)
    Hive 目录(可选) 选择预先创建的 Hive 元存储 (Azure SQL DB)
    适用于 Hive 的 SQL 数据库 从下拉列表中,选择要在其中添加 hive 元存储表的 SQL 数据库。
    SQL 管理员用户名 SQL 管理员用户名
    密钥保管库 从下拉列表中选择密钥保管库,其中包含具有 SQL 管理员用户名密码的机密
    SQL 密码机密名称 从存储 SQL DB 密码的密钥保管库中输入机密名称

    注意

    • 目前 HDInsight 仅支持 MS SQL Server 数据库。
    • 由于 Hive 的限制,不支持在元存储数据库名称中包含“-”字符(连字符)。
  3. 选择“下一步:配置 + 定价”继续。

    屏幕截图显示定价选项卡 1。

    屏幕截图显示定价选项卡 2。

    屏幕截图显示 ssh 选项卡。

    properties 说明
    节点大小 选择要用于 Spark 节点的节点大小
    工作器节点数 选择 Spark 群集的节点数。 在这些节点中,为协调器和系统服务保留三个节点,其余节点专用于 Spark 辅助角色,每个节点一个工作器。 例如,在五节点群集中,有两个辅助角色
    自动缩放 单击切换按钮以启用自动缩放
    自动缩放类型 从基于负载的或基于计划的自动缩放中进行选择
    正常退役超时 指定正常解除授权超时
    无默认工作器节点 选择自动缩放的节点数
    时区 选择时区
    自动缩放规则 选择工作器节点的日期、开始时间、结束时间、数字
    启用 SSH 如果已启用,则允许定义 SSH 节点的前缀和编号
  4. 单击“下一步:集成”启用并选择 Log Analytics 进行日志记录。

    可以在创建群集后启用用于监视和指标的 Azure Prometheus。

    屏幕截图显示“集成”选项卡。

  5. 单击“下一步:标记”继续转到下一页。

    屏幕截图显示“标记”选项卡。

  6. 在“标记”页上,输入要添加到资源的任何标记。

    properties 说明
    名称 可选。 输入 HDInsight on AKS 专用预览版等名称,以轻松识别与资源关联的所有资源
    将此项留空
    资源 已选择“选择所有资源”
  7. 单击“下一步: 查看 + 创建”。

  8. 在“审阅 + 创建页面”中,查找页面顶部的验证成功消息,然后单击“创建”

  9. 显示“部署正在处理”页面,其中创建了群集。 创建群集需要 5-10 分钟。 创建群集后,会显示消息“部署完成”。 如果离开页面,可以检查通知的状态。

  10. 转到“群集概述页”,可在其中查看终结点链接。

    显示了群集概述页的屏幕截图。