你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

AKS 上的 HDInsight 常见问题解答

本文介绍了有关 AKS 上的 Azure HDInsight 的一些常见问题。

常规

  • 什么是 AKS 上的 HDInsight?

    AKS 上的 HDInsight 是一个新的 HDInsight 版本,它为企业就绪的托管群集服务提供了新的开源分析项目,如 Apache Flink(用于流式处理)、Trino(用于临时分析和 BI),以及 Apache Spark。 有关详细信息,请参阅概述

  • AKS 上的 HDInsight 支持哪些群集形状?

    AKS 上的 HDInsight 支持 Trino、Apache Flink 和 Apache Spark。 但是,其他群集形状(如 Kafka、Hive 等)都在路线图中。

  • 如何开始使用 AKS 上的 HDInsight?

    若要开始,请访问 Azure 市场并搜索 AKS 服务上的 Azure HDInsight,并参阅入门

  • VM 和当前运行的群集上的现有 HDInsight 会发生什么情况?

    现有 HDInsight(VM 上的 HDInsight)没有更改。 所有现有群集继续运行,可以继续创建新的 HDInsight 群集并缩放。

  • AKS 上的 HDInsight 支持哪种操作系统?

    AKS 上的 HDInsight 基于 Mariner OS。 有关详细信息,请参阅 OS 版本

  • AKS 上的所有区域有哪些 HDInsight 可用?

    有关受支持的区域列表,请参阅区域可用性

  • 在 AKS 群集上部署 HDInsight 的成本是多少’?

    有关定价的详细信息,请参阅有关 AKS 定价的 HDInsight。

群集管理

  • 是否可以同时运行多个群集?

    可以,可以同时为每个群集池运行任意数量的群集。 但是,请确保不受订阅配额的约束。 群集池中允许的最大节点数为 250(公共预览版)。

  • 是否可以在群集上安装或添加更多插件/库?

    是的,可以根据群集形状安装自定义插件和库。

  • 是否可以通过 SSH 连接到群集?

    是的,可以通过 Webssh 通过 SSH 连接到群集,并直接从该处执行查询并提交作业。

元存储

  • 是否可以使用外部元存储连接到群集?

    是的,可以使用外部元存储。 但是,我们仅支持 Azure SQL 数据库作为外部自定义元存储。

  • 是否可在多个群集之间共享元存储?

    可以,可以在 AKS 的多个 HDInsight 之间共享元存储。

  • 支持 Hive 元存储的版本是什么?

    Hive metastore version 3.1.2

工作负荷

Trino

  • 什么是 Trino?

    Trino 是一个开源联合和分布式 SQL 查询引擎,可用于查询驻留在不同数据源上的数据,而无需移动到中央数据仓库。 可以使用 ANSI SQL 查询数据,无需学习新语言。 有关详细信息,请参阅 Trino 概述

  • 支持哪些连接器?

    AKS Trino 上的 HDInsight 支持多个连接器。 有关详细信息,请参阅此 Trino 连接器列表。 在开源版本中提供新连接器时,我们会继续添加新连接器。

  • 是否可以将目录添加到现有群集?

    是的,可以向现有群集添加支持的目录。 有关详细信息,请参阅将目录添加到现有群集

  • 什么是 Apache Flink?

    Apache Flink 是一种最佳的开源分析引擎,用于流处理,并针对未绑定和有限数据流执行有状态计算。 它可以以内存中的速度和任何规模执行计算。 AKS 上的 HDInsight 上的 Flink 提供托管的开源 Apache Flink。 有关详细信息,请参阅 Flink 概述

  • 是否支持 Apache Flink 中的会话和应用模式?

    在 AKS 上的 HDInsight 中,Flink 当前支持会话模式群集。

  • 什么是状态后端管理以及如何在 AKS 上的 HDInsight 中完成?

    后端确定存储状态的位置。 激活检查点时,状态将保留在检查点上,以防止数据丢失并一致地恢复。 状态在内部表示的方式,以及检查点上保留状态的方式和位置取决于所选的状态后端。 有关详细信息,请参阅 Flink 概述

Apache Spark

  • 什么是 Apache Spark?

    Apache Spark 是一种数据处理框架,可快速在大型数据集上执行处理任务,还可以单独或与其他分布式计算工具一起跨多台计算机分发数据处理任务。

  • Spark 支持哪些语言 API?

    AKS 上的 Azure HDInsight 支持 Python 和 Scala。

  • AKS Spark 上的 HDInsight 是否支持外部元存储?

    AKS 上的 HDInsight 支持外部元存储连接。 目前仅支持作为外部元存储的 Azure SQL DB。

  • 在 AKS Spark 上的 HDInsight 中提交作业的各种方法有哪些?

    可以使用 Jupyter Notebook、Zeppelin Notebook、SDK 和群集终端在 AKS Spark 上的 HDInsight 上提交作业。 有关详细信息,请参阅在 AKS 上的 HDInsight 中的 Spark 群集上提交和管理作业