Conexión de Excel a Apache Hadoop en Azure HDInsight con el controlador ODBC de Microsoft Hive

La solución de macrodatos de Microsoft integra componentes de inteligencia empresarial (BI) de Microsoft con clústeres de Apache Hadoop implementados en HDInsight. Un ejemplo es la posibilidad de conectar Excel al almacenamiento de datos de Hive de un clúster de Hadoop. Conéctese con el controlador de conectividad abierta de bases de datos (ODBC) de Microsoft Hive.

Puede conectar los datos asociados a un clúster de HDInsight desde Excel con el complemento Microsoft Power Query para Excel. Para más información, consulte Conexión de Excel a HDInsight con Power Query.

Requisitos previos

Antes de empezar este artículo, debe tener los siguientes elementos:

  • Un clúster de Hadoop de HDInsight: Para crear uno, vea Introducción a HDInsight de Azure.
  • Una estación de trabajo con Office Professional Plus 2010 o posterior, o Excel 2010 o posterior.

Instalación de Microsoft Hive ODBC Driver

Descargue e instale Microsoft Hive ODBC Driver. Elija la versión que coincida con la versión de la aplicación en la que va a usar el controlador ODBC. En este artículo, el controlador se usa para Office Excel.

Creación de un origen de datos de Apache Hive ODBC

En los siguientes pasos se explica cómo crear un origen de datos de Hive ODBC.

  1. En Windows, vaya a Inicio > Herramientas administrativas de Windows > Orígenes de datos ODBC (32 bits)/(64 bits). Esta acción abre la ventana Administrador de orígenes de datos ODBC.

    OBDC data source administrator.

  2. Desde la pestaña DSN del usuario, seleccione Agregar para abrir la ventana Crear nuevo origen de datos.

  3. Seleccione Microsoft Hive ODBC Driver y, luego, seleccione Finalizar para abrir la ventana Microsoft Hive ODBC Driver DSN Setup (Configuración de DSN de Microsoft Hive ODBC Driver).

  4. Escriba o seleccione los valores siguientes:

    Propiedad Descripción
    Data Source Name Asigne un nombre al origen de datos
    Host(s) Escriba HDInsightClusterName.azurehdinsight.net. Por ejemplo, myHDICluster.azurehdinsight.net. Nota: se admite HDInsightClusterName-int.azurehdinsight.net siempre y cuando la VM de cliente esté emparejada a la misma red virtual.
    Port Use 443. (Este puerto se ha cambiado de 563 a 443).
    Base de datos Use el valor predeterminado.
    Mechanism Seleccione Servicio HDInsight de Microsoft Azure.
    Nombre de usuario Escriba el nombre de usuario HTTP del clúster de HDInsight. El nombre de usuario predeterminado es admin.
    Contraseña Escriba la contraseña del usuario del clúster de HDInsight. Seleccione la casilla Save Password (Encrypted) [Guardar contraseña (cifrada)].
  5. Opcional: Seleccione Opciones avanzadas...

    Parámetro Descripción
    Use Native Query Cuando esta opción está seleccionada, el controlador ODBC NO trata de convertir TSQL en HiveQL. Solo debe usarla si está totalmente seguro de que va a enviar instrucciones de HiveQL puras. Al conectarse a SQL Server o a Azure SQL Database, debe dejar esta opción desactivada.
    Rows fetched per block Al capturar un gran volumen de registros, es posible que sea necesario ajustar este parámetro para garantizar un rendimiento óptimo.
    Default string column length, Binary column length, Decimal column scale La longitud y precisión del tipo de datos pueden afectar a la forma en que se devuelven los datos. Pueden dar lugar a que se devuelva información incorrecta debido a la pérdida de precisión o al truncamiento.

    Advanced DSN configuration options.

  6. Seleccione Probar para probar el origen de datos. Cuando el origen de datos esté configurado correctamente, el resultado de la prueba mostrará SUCCESS (Correcto).

  7. Seleccione Aceptar para cerrar la ventana Probar.

  8. Seleccione Aceptar para cerrar la ventana Microsoft Hive ODBC Driver DSN Setup.

  9. Seleccione Aceptar para cerrar la ventana Administrador de orígenes de datos ODBC.

Importación de datos en Excel desde HDInsight

En los pasos siguientes se describe cómo importar datos desde una tabla de Hive a un libro de Excel mediante el origen de datos ODBC creado en la sección anterior.

  1. Abra un libro de Excel nuevo o existente.

  2. Desde la pestaña Datos, vaya a Obtener datos>Desde otros orígenes>Desde ODBC para iniciar la ventana Desde ODBC.

    Open Excel data connection wizard.

  3. De la lista desplegable, seleccione el nombre del origen de datos que creó en la sección anterior y luego seleccione Aceptar.

  4. Para el primer uso, se abrirá el cuadro de diálogo Controlador ODBC. Seleccione Windows en el menú izquierdo. Seleccione Conectar para abrir la ventana del Navegador.

  5. Desde Navegador, vaya a HIVE>default>hivesampletable y, luego, seleccione Cargar. La importación de los datos a Excel tarda un momento.

    HDInsight Excel Hive ODBC navigator.

Pasos siguientes

En este artículo se proporciona información sobre cómo usar el controlador ODBC de Microsoft Hive para recuperar datos del servicio HDInsight en Excel. De manera similar, puede recuperar datos del servicio HDInsight en la SQL Database. También es posible cargar datos en un servicio HDInsight. Para obtener más información, consulte: