你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure HDInsight on AKS 上的群集创建错误

本文介绍如何排查和解决在创建 Azure HDInsight on AKS 群集时可能发生的错误。

Sr.否 错误消息 原因 解决方法
1 InternalServerError UnrecognizableError 此错误可能指示使用的模板不正确。 目前,仅允许通过 ARM 模板使用数据库连接器。 因此,无法在模板上验证配置。
2 InvalidClusterSpec - ServiceDependencyFailure - 配置无效 每个节点的最大内存错误。 请参阅属性值类型的最大内存配置。
3 WaitingClusterResourcesReadyTimeOut - 元存储服务未就绪 此错误可能是由于容器名称只能包含小写字母、数字和连字符。 容器名称必须以字母或数字开头。 每个连字符的前后必须为非连字符字符。 名称的长度还必须介于 3 到 63 个字符之间。
4 InvalidClusterSpec - 配置无效 - ClusterUpsertActivity 错误:属性 hive.metastore.uri: may not be null 配置无效。 请参阅 Hive 连接器文档
5 InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call 重试该操作或向 Azure HDInsight 团队开具支持工单。
6 RP 代码中出现 InternalServerError - ObjectDisposedException 重试该操作或向 Azure HDInsight 团队开具支持工单。
7 PreconditionFailed - 由于用户订阅的配额限制,操作失败。 创建群集前会进行配额验证。 但当在同一个订阅下同时创建多个群集时,可能会出现第一个群集占用配额,而另一个群集因配额不足而失败的情况。 确认有足够的配额并重试群集/群集池的创建操作。
8 ReconcileApplicationSecurityGroupError - 内部 AKS 错误 重试该操作或向 Azure HDInsight 团队开具支持工单。
9 ResourceGroupBeingDeleted 在创建或更新 HDI on AKS 资源期间,用户还可删除相关资源组中的某些资源。 创建或更新 HDI on AKS 资源时,请勿删除 HDI 相关资源组中的资源。
10 UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out AKS 问题 - 可能是由于操作时特定区域中的流量较高。 稍后重试操作。 如果是这样,请使用另一个区域。
11 Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} 1-p 服务原则未被载入租户。 执行命令,在要载入的新租户上预配 1-p 服务原则。
12 NotFound - ARM/AKS sdk error 用户尝试更新 HDI on AKS 群集,但已删除相应的代理池。 已删除相应的代理池。 不建议直接操作 AKS 代理池。
13 AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi 缺少执行操作的权限。 请检查你拥有的错误消息中是否提到服务主体应用 ID。 如果是,请根据错误消息授予权限。 如果否,请向 Azure HDInsight 团队开具支持工单。
14 DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} RP 意外切换到新角色实例。 重试该操作或向 Azure HDInsight 团队开具支持工单。
15 EntityStoreOperationError - ARM/AKS sdk error 群集更新期间 AKS 端的数据库操作失败。 稍后重试操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
16 InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} 此错误是由于各种问题引起的。 重试该操作或向 Azure HDInsight 团队开具支持工单。
17 InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} 此错误是由于各种问题引起的。 请稍后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
18 InternalServerError - Null reference exception occurs in RP code 此错误是由于各种问题引起的。 重试该操作或向 Azure HDInsight 团队开具支持工单。
19 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} 此错误是由于各种问题引起的。 重试该操作或向 Azure HDInsight 团队开具支持工单。
20 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} 此错误是由于各种问题引起的。 重试该操作或向 Azure HDInsight 团队开具支持工单。
21 OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. 另一个代理池操作(缩放)正在进行中。 此错误是重新启动 RP Service Fabric 导致的。 请等待上一个操作完成,然后再启动新操作。 如果重试后问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
22 ReconcileVMSSAgentPoolFailed 创建群集前会进行配额验证。 但当在同一个订阅下同时创建多个群集时,可能会出现第一个群集占用配额,而另一个群集因配额不足而失败的情况。 确认有足够的配额并重试群集/群集池的创建操作。
23 ReconcileVMSSAgentPoolFailed - 无法从代理建立出站连接 AKS/VMSS 端问题:VM 报告了一个故障。 请稍后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
24 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} 此错误是由于暂时性 SQL 连接问题导致的。 请稍后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
25 NotLatestOperation - ARM/AKS SDK error 操作无法继续。 操作已被另一个操作抢占,或者操作所需的信息未能保存(或尚未保存)。 请稍后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
26 ReconcileVMSSAgentPoolFailed - Agent pool drain failed 纵向缩减操作时出现问题。 请向 Azure HDInsight 团队开具支持工单。
27 ResourceNotFound - ARM/AKS SDK error 当用户移除/删除所需的资源时,就会出现此错误。 请确保错误消息中提到的资源存在,然后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
28 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] 由于 SQL Server 或存储相关问题,HMS 初始化可能会超时。 请向 Azure HDInsight 团队开具支持工单。
29 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] 由于无法访问 keyvault 或密钥不可用,可能会出现此错误。 在某些情况下,此错误可能是群集节点上 Pod 标识基础结构初始化速度较慢造成的。 如果已启用 Log Analytics,请检查 secretprovider-validate job 的日志以确定原因。如果问题仍然存在,请稍后再重试操作,或者向 Azure HDInsight 团队开具支持工单。
30 FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} 出现此错误的原因有多种,例如映像拉取问题、控制器 Pod 未就绪或 MSI 出现问题。 请稍后重试该操作,如果错误仍然存在,请向 Azure HDInsight 团队开具支持工单。
31 FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} 出现此错误的原因有多种,例如映像拉取问题、控制器 Pod 未就绪或 MSI 出现问题。 请稍后重试该操作,如果错误仍然存在,请向 Azure HDInsight 团队开具支持工单。
32 InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' 如果服务配置包含不允许的组件,则可能会出现此错误。 请验证服务配置组件并重试。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
33 InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies 此错误可能是 HMS、SPARK、YARN 服务未启动导致的,此错误可能与存储相关。 请向 Azure HDInsight 团队开具支持工单。
34 WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. 请向 Azure HDInsight 团队开具支持工单。
35 WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} 此错误可能是 HMS、SPARK、YARN 服务未启动导致的,此错误可能与存储相关。 请向 Azure HDInsight 团队开具支持工单。
36 InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] 在服务配置中传递不支持的文件时,可能会出现此错误。 请验证服务配置组件并重试。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
37 InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." 身份验证参数无效 - 存储位置不可访问。 请更正身份验证参数并重试。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
38 InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] 计划 HMS Pod 时,如果 Pod 标识资源在节点上启动时间过长,则可能会出现此错误。 请重试该操作,如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。

后续步骤