Tutorial: Análisis de datos de Apache Spark mediante Power BI en HDInsight

En este tutorial, aprenderá a utilizar Microsoft Power BI para visualizar datos en un clúster de Apache Spark en Azure HDInsight.

En este tutorial, aprenderá a:

  • Visualizar datos de Spark mediante Power BI

Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.

Prerrequisitos

Comprobación de los datos

La instancia de Jupyter Notebook que creó en el tutorial anterior incluye código para crear una tabla hvac. Esta tabla se basa en el archivo CSV en todos los clústeres de Spark de HDInsight en \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Use el siguiente procedimiento para comprobar los datos.

  1. Del cuaderno de Jupyter Notebook, pegue el siguiente código y presione MAYÚS + ENTRAR. El código comprueba la existencia de las tablas.

    %%sql
    SHOW TABLES
    

    El resultado tendrá una apariencia similar a la siguiente:

    Captura de pantalla que muestra tablas en Spark.

    Si ha cerrado el bloc de notas antes de iniciar este tutorial, hvactemptable se limpia, por lo que no se incluye en los resultados. Desde las herramientas de BI, solo se puede acceder a las tablas de Hive almacenadas en Metastore (indicadas como False en la columna isTemporary). En este tutorial, se conecta a la tabla hvac que ha creado.

  2. Pegue el siguiente código en una celda vacía y presione MAYÚS + ENTRAR. El código comprueba los datos de la tabla.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    El resultado tendrá una apariencia similar a la siguiente:

    Captura de pantalla que muestra las filas de la tabla hvac en Spark.

  3. En el menú File (Archivo) del cuaderno, seleccione Close and Halt (Cerrar y detener). Cierre el cuaderno para liberar los recursos.

Visualización de los datos

En esta sección, se usa Power BI para crear visualizaciones, informes y paneles de datos a partir de los datos de clúster de Spark.

Creación de un informe en Power BI Desktop

Los primeros pasos para trabajar con Spark pasan por conectarse al clúster de Power BI Desktop, cargar datos del clúster y crear una visualización básica basada en dichos datos.

  1. Abra Power BI Desktop. Cierre la pantalla de presentación inicial si se abre.

  2. En la pestaña Inicio, vaya a Obtener datos>Más... .

    Captura de pantalla que muestra la obtención de datos en Power BI Desktop desde HDInsight Apache Spark.

  3. Escriba Spark en el cuadro de búsqueda, seleccione Azure HDInsight Spark y, luego, seleccione Conectar.

    Captura de pantalla que muestra cómo obtener datos en Power BI desde la inteligencia empresarial de Apache Spark.

  4. Escriba la dirección URL del clúster (en el formulario mysparkcluster.azurehdinsight.net) en el cuadro de texto Servidor.

  5. En Modo de conectividad de datos, seleccione DirectQuery. Después, seleccione Aceptar.

    Puede usar cualquier modo de conectividad de datos con Spark. Si usa DirectQuery, los cambios se reflejan en los informes sin tener que actualizar el conjunto de datos completo. Si importa los datos, deberá actualizar el conjunto de datos para ver los cambios. Para obtener más información sobre cómo y cuándo se debe usar DirectQuery, consulte Uso de DirectQuery en Power BI.

  6. Escriba la información de la cuenta de inicio de sesión de HDInsight y seleccione Conectar. El nombre de cuenta predeterminado es admin.

  7. Seleccione la tabla hvac, espere para obtener una vista previa de los datos y seleccione Cargar.

    Captura de pantalla que muestra el nombre de usuario y la contraseña del clúster de Spark.

    Power BI Desktop tiene toda la información necesaria para conectarse a los datos de carga y al clúster de Spark desde la tabla hvac. La tabla y las columnas que la forman se muestran en el panel Campos.

  8. Visualice la variación entre la temperatura objetivo y la real para cada edificio:

    1. En el panel VISUALIZACIONES, seleccione Gráfico de áreas.

    2. Arrastre el campo BuildingID a Eje y arrastre los campos ActualTemp y TargetTemp a Valor.

      Captura de pantalla que muestra la adición de columnas de valor.

      El diagrama tiene el siguiente aspecto:

      Captura de pantalla que muestra la suma del gráfico de áreas.

      De manera predeterminada, la visualización muestra la suma de ActualTemp y TargetTemp. Seleccione la flecha abajo junto a ActualTemp y TragetTemp en el panel Visualizaciones; puede ver que Suma se ha seleccionado.

    3. Seleccione las flechas abajo junto a ActualTemp y TragetTemp en el panel Visualizaciones, seleccione Media para obtener un promedio de temperaturas reales y objetivo para cada edificio.

      Captura de pantalla que muestra el promedio de los valores.

      La visualización de datos debe parecerse a la que se muestra en la captura de pantalla. Mueva el cursor sobre la visualización para obtener información sobre herramientas con datos relevantes.

      Captura de pantalla que muestra el gráfico de áreas

  9. Vaya a Archivo>Guardar, escriba el nombre BuildingTemperature para el archivo y, a continuación, seleccione Guardar.

Publicar el informe en el servicio Power BI (opcional)

El servicio Power BI le permite compartir informes y paneles a través de su organización. En esta sección, primero publica el conjunto de datos y el informe. A continuación, puede anclar el informe a un panel. Los paneles suelen usarse para centrarse en un subconjunto de datos de un informe. Solo tiene una visualización del informe, pero sigue siendo útil seguir los pasos.

  1. Abra Power BI Desktop.

  2. Desde la pestaña Inicio, seleccione Publicar.

    Captura de pantalla que muestra la publicación desde Power BI Desktop.

  3. Seleccione un área de trabajo en la que publicar el conjunto de datos y el informe, y seleccione Seleccionar. En la siguiente imagen, está seleccionado el valor predeterminado Mi área de trabajo.

    Captura de pantalla que muestra la selección del área de trabajo donde se publicará el conjunto de datos y el informe.

  4. Después de que la publicación se haya realizado correctamente, seleccione Abrir 'BuildingTemperature.pbix' en Power BI.

    Captura de pantalla que muestra la publicación correcta y clicar para escribir las credenciales.

  5. En el servicio Power BI, seleccione Escribir credenciales.

    Captura de pantalla que muestra cómo introducir credenciales en el servicio Power BI.

  6. Seleccione Editar credenciales.

    Captura de pantalla que muestra la edición de credenciales en el servicio Power BI.

  7. Escriba la información de la cuenta de inicio de sesión de HDInsight y seleccione Iniciar sesión. El nombre de cuenta predeterminado es admin.

    Captura de pantalla que muestra el inicio de sesión en el clúster de Spark.

  8. En el panel izquierdo, vaya a Áreas de trabajo>Mi área de trabajo>INFORMES y seleccione BuildingTemperature.

    Captura de pantalla que muestra un informe incluido en los informes del panel izquierdo.

    También verá BuildingTemperature en el panel izquierdo, debajo de CONJUNTOS DE DATOS.

    Ahora el objeto visual creado en Power BI Desktop está disponible en el servicio Power BI.

  9. Mantenga el cursor sobre la visualización y seleccione el icono de anclaje en la esquina superior derecha.

    Captura de pantalla que muestra un informe en el servicio Power BI.

  10. Seleccione "Nuevo panel", escriba el nombre Building temperature y después seleccione Anclar.

    Captura de pantalla en la que se muestra cómo anclar al nuevo panel.

  11. En el informe, seleccione Ir al panel.

El objeto visual se ancla al panel. Puede agregar otros elementos visuales al informe y anclarlos al mismo panel. Para más información acerca de los informes y paneles, consulte Informes de Power BI y Paneles de Power BI.

Limpieza de recursos

Después de completar el tutorial, puede ser conveniente eliminar el clúster. Con HDInsight, los datos se almacenan en Azure Storage, por lo que puede eliminar un clúster de forma segura cuando no se esté usando. Los clústeres de HDInsight se cobran aunque no se estén usando. Como en muchas ocasiones los cargos por el clúster son mucho más elevados que los cargos por el almacenamiento, desde el punto de vista económico tiene sentido eliminar clústeres cuando no se usen.

Para eliminar un clúster, consulte Eliminación de un clúster de HDInsight con el explorador, PowerShell o la CLI de Azure.

Pasos siguientes

En este tutorial, ha aprendido a utilizar Microsoft Power BI para visualizar datos en un clúster de Apache Spark en Azure HDInsight. Vaya al siguiente artículo para saber cómo crear una aplicación de Machine Learning.