Installation et utilisation de Hue sur des clusters HDInsight Hadoop

Apprenez comment installer Hue sur les clusters HDInsight et utiliser le tunnel pour acheminer les demandes de Hue.

Notes

Hue n’est pas pris en charge dans HDInsight 4.0 et versions ultérieures.

Qu’est-ce que Hue ?

Hue est un ensemble d’applications web permettant d’interagir avec un cluster Apache Hadoop. Vous pouvez utiliser Hue pour parcourir le stockage associé à un cluster Hadoop (WASB, dans le cas de clusters HDInsight), exécuter les travaux Hive et les scripts Pig, etc. Les composants suivants sont disponibles avec l’installation de Hue sur un cluster HDInsight Hadoop.

  • Éditeur Beeswax Hive
  • Apache Pig
  • Gestionnaire de Metastore
  • Apache Oozie
  • FileBrowser (qui communique avec le conteneur WASB par défaut)
  • Explorateur de travaux

Avertissement

Les composants fournis avec le cluster HDInsight bénéficient d’une prise en charge totale, et le support Microsoft vous aidera à identifier et à résoudre les problèmes liés à ces composants.

Les composants personnalisés bénéficient d’un support commercialement raisonnable pour vous aider à résoudre le problème. Cela signifie SOIT que le problème pourra être résolu, SOIT que vous serez invité à affecter les ressources disponibles pour les technologies Open Source. Il existe par exemple de nombreux sites communautaires qu’il est possible d’utiliser, comme : Page de questions Microsoft Q&A sur HDInsight, https://stackoverflow.com. En outre, les projets Apache ont des sites de projet sur https://apache.org, par exemple : Hadoop.

Installer Hue à l’aide d’actions de script

Utilisez les informations du tableau ci-dessous pour votre action de script. Pour obtenir des instructions sur l’utilisation des actions de script, consultez Personnaliser des clusters HDInsight à l’aide d’actions de script.

Notes

Pour installer Hue sur des clusters HDInsight, il est recommandé d’utiliser une taille de nœud principal égale ou supérieure à A4 (8 cœurs, 14 Go de mémoire).

Propriété Valeur
Type de script : - Personnalisé
Nom Installer Hue
URI de script bash https://hdiconfigactions.blob.core.windows.net/linuxhueconfigactionv02/install-hue-uber-v02.sh
Types de nœud : Head

Exécution d'une tâche Hive

  1. À partir du portail Hue, sélectionnez Éditeurs de requête, puis sélectionnez Hive pour ouvrir l’éditeur Hive.

    HDInsight hue portal use hive editor.

  2. Sous l’onglet Aide, sous Base de données, vous devez voir hivesampletable. Il s’agit d’une table d’échantillon qui est livrée avec tous les clusters Hadoop sur HDInsight. Saisissez un exemple de requête dans le volet de droite et vérifiez la sortie sur l’onglet Résultats dans le volet inférieur ci-dessous, comme illustré dans la capture d’écran.

    HDInsight hue portal hive query.

    Vous pouvez également utiliser l’onglet Graphique pour afficher une représentation visuelle du résultat.

Parcourir le stockage de cluster

  1. Dans le portail Hue,sélectionnez Explorateur de fichiers dans l’angle supérieur droit de la barre de menus.

  2. Par défaut, l’explorateur de fichiers s’ouvre sur le répertoire /user/myuser . Sélectionnez la barre oblique située juste avant le répertoire de l’utilisateur dans le chemin pour accéder à la racine du conteneur de stockage Azure associé au cluster.

    HDInsight hue portal file browser.

  3. Cliquez avec le bouton droit sur un fichier ou un dossier pour afficher les opérations disponibles. Utilisez le bouton Télécharger situé dans le coin droit pour télécharger des fichiers dans le répertoire actif. Utilisez le bouton Nouveau pour créer des fichiers ou répertoires.

Notes

L’Explorateur de fichiers Hue peut afficher uniquement le contenu du conteneur par défaut associé au cluster HDInsight. Les comptes/conteneurs de stockage supplémentaires que vous avez peut-être associés au cluster ne seront pas accessibles via l’Explorateur de fichiers. Toutefois, les autres conteneurs associés au cluster seront toujours accessibles pour les travaux Hive. Par exemple, si vous saisissez la commande dfs -ls wasbs://newcontainer@mystore.blob.core.windows.net dans l’éditeur Hive, vous pouvez voir le contenu des conteneurs supplémentaires. Dans cette commande, newcontainer n’est pas le conteneur par défaut associé à un cluster.

Points importants à prendre en compte

  1. Le script utilisé pour installer Hue exécute l’opération uniquement sur le nœud principal primaire du cluster.

  2. Pendant l’installation, plusieurs services Hadoop (HDFS, fils, RM2, Oozie) sont redémarrés pour mettre à jour la configuration. Une fois que le script a terminé l’installation de Hue, le démarrage d’autres services Hadoop peut prendre du temps. Cela peut affecter dans un premier temps les performances de Hue. Une fois que tous les services ont démarré, Hue est complètement fonctionnel.

  3. Hue ne comprend pas les travaux Apache Tez, qui est le paramétrage par défaut actuel pour Hive. Si vous souhaitez utiliser MapReduce comme moteur d’exécution de Hive, mettez à jour le script pour utiliser la commande suivante dans votre script :

    set hive.execution.engine=mr;

  4. Avec les clusters Linux, vous pouvez avoir un scénario dans lequel vos services fonctionnent sur le nœud principal primaire alors que le Gestionnaire de ressources s’exécute sur le nœud principal secondaire. Un tel scénario peut entraîner des erreurs (illustrées ci-dessous) lors de l’utilisation de Hue pour afficher les détails des travaux EN COURS sur le cluster. Toutefois, vous pouvez afficher les détails du travail lorsque la tâche est terminée.

    Hue portal error sample message.

    Il s’agit d’un problème connu. Pour résoudre ce problème, modifiez Ambari afin que le Gestionnaire de ressources actif s’exécute également sur le nœud principal primaire.

  5. Hue connaît WebHDFS, tandis que les clusters HDInsight utilisent le stockage Azure à l’aide de wasbs://. Par conséquent, le script personnalisé utilisé avec l’action de script installe WebWasb, qui est un service compatible WebHDFS permettant de communiquer avec WASB. Donc, bien que le portail Hue indique HDFS à certains endroits (comme lorsque vous déplacez votre souris sur l’ Explorateur de fichiers), il doit être compris comme WASB.

Étapes suivantes

Personnaliser des clusters HDInsight à l’aide d’actions de script