Omitir navegación

¿Qué es Lago de datos?

Vea cómo difieren los lagos de datos de los almacenes de datos y los almacenes de lagos de datos. Descubra cómo crear una base escalable para todos sus análisis con Azure.

¿Qué es un lago de datos?

En esta guía introductoria se exploran las numerosas ventajas y casos de uso de un lago de datos. Obtenga información sobre qué es un lago de datos, por qué es importante y en qué se diferencia de un almacenamiento de datos o un almacén de lago de datos. Pero en primer lugar, vamos a definir el lago de datos como término.

Un lago de datos es un repositorio centralizado que ingiere y almacena grandes volúmenes de datos en su forma original. Después, los datos se pueden procesar y usar como base para una variedad de necesidades analíticas. Debido a su arquitectura abierta y escalable, un lago de datos puede alojar todos los tipos de datos de cualquier origen, desde estructurados (tablas de base de datos, hojas de Excel), semiestructurados (archivos XML, páginas web) hasta no estructurados (imágenes, archivos de audio, tweets), todo ello sin sacrificar la fidelidad. Los archivos de datos normalmente se almacenan en zonas preconfiguradas sin procesar, limpias y protegidas para que distintos tipos de usuarios puedan usar los datos en sus diferentes formas para satisfacer sus necesidades. Los lagos de datos proporcionan coherencia de datos principales en una variedad de aplicaciones, lo que impulsa el análisis de macrodatos, el aprendizaje automático, el análisis predictivo y otras formas de acción inteligente.

¿Son importantes los lagos de datos?

El mundo altamente conectado y orientado a la información de hoy no será posible sin la incorporación de soluciones de lago de datos. Esto se debe a que las organizaciones se basan en plataformas de lago de datos completas, como Azure Data Lake, para mantener los datos sin procesar consolidados, integrados, seguros y accesibles. Las herramientas de almacenamiento escalables, como Azure Data Lake Storage, pueden almacenar y proteger datos en un único lugar, eliminando los silos a un costo óptimo. Esto establece las bases para que los usuarios realicen una amplia variedad de categorías de cargas de trabajo, como el procesamiento de macrodatos, consultas SQL, minería de texto, análisis de streaming y aprendizaje automático. A continuación, los datos se pueden usar para la visualización de datos ascendentes y las necesidades de informes ad hoc. Una plataforma de datos moderna de un extremo a otro, como Azure Synapse Analytics, satisface las necesidades completas de una arquitectura de macrodatos centrada en el lago de datos.

Casos de uso de lago de datos

Con una solución bien diseñada, el potencial de innovación es infinito. Estos son solo algunos ejemplos de cómo las organizaciones de una variedad de sectores usan plataformas de lago de datos para optimizar su crecimiento:

  • Transmisión de contenido multimedia. Las empresas de streaming basadas en suscripciones recopilan y procesan información sobre el comportamiento de los clientes, que pueden usar para mejorar su algoritmo de recomendación.
  • Finanzas. Las empresas de inversión usan los datos de mercado más actualizados, que se recopilan y almacenan en tiempo real, para administrar eficazmente los riesgos de cartera.
  • Atención sanitaria. Las organizaciones sanitarias confían en los macrodatos para mejorar la calidad de la atención a los pacientes. Los hospitales usan grandes cantidades de datos históricos para simplificar los caminos de los pacientes, lo que genera mejores resultados y un costo reducido de la atención.
  • Distribuidor omnicanal. Los minoristas usan lagos de datos para capturar y consolidar los datos que proceden de varios puntos de contacto, como el móvil, las redes sociales, el chat, el boca a boca y en persona.
  • IoT. Los sensores de hardware generan enormes cantidades de datos semiestructurados a no estructurados en el mundo físico adyacente. Los lagos de datos proporcionan un repositorio central para que esta información resida en él para un análisis futuro.
  • Cadena de suministro digital. Los Lagos de datos ayuda a los fabricantes a consolidar datos de almacenamiento diferentes, incluidos los sistemas EDI, XML y JSON.
  • Ventas. Los científicos de datos y los ingenieros de ventas suelen crear modelos predictivos para ayudar a determinar el comportamiento de los clientes y reducir el abandono general.

Lago de datos frente a almacenamiento de datos

Ahora ya sabe qué es un lago de datos, por qué es importante y cómo se usa en una variedad de organizaciones. Pero, ¿cuál es la diferencia entre un lago de datos y un almacén de datos? ¿Y cuándo es adecuado usar uno sobre el otro?

Aunque los lagos de datos y los almacenes de datos son similares, ya que almacenan y procesan datos, cada uno tiene sus propias características y, por lo tanto, sus propios casos de uso. Por eso es habitual que una organización de nivel empresarial incluya un lago de datos y un almacén de datos en su ecosistema de análisis. Ambos repositorios funcionan juntos para formar un sistema seguro y de un extremo a otro para el almacenamiento, el procesamiento y el tiempo de conclusión más rápido.

Un lago de datos captura datos relacionales y no relacionales de una variedad de orígenes, aplicaciones empresariales, aplicaciones móviles, dispositivos IoT, redes sociales o streaming sin tener que definir la estructura o el esquema de los datos hasta que se leen. El esquema en lectura garantiza que cualquier tipo de datos se puede almacenar en su forma sin formato. Como resultado, los lagos de datos pueden contener una amplia variedad de tipos de datos, desde estructurados, semiestructurados a no estructurados, en cualquier escala. Su naturaleza flexible y escalable los hace esenciales para realizar formas complejas de análisis de datos mediante diferentes tipos de herramientas de procesamiento de procesos, como Apache Spark o Azure Machine Learning.

Por el contrario, un almacenamiento de datos es relacional por naturaleza. La estructura o el esquema está modelado o predefinido por requisitos empresariales y de producto mantenidos, conformes y optimizados para las operaciones de consulta SQL. Mientras que un lago de datos contiene datos de todos los tipos de estructura, incluidos los datos en bruto y sin procesar, un almacenamiento de datos almacena los datos que se han tratado y transformado teniendo en cuenta un propósito específico, que luego se puede usar para generar informes analíticos u operativos. Esto hace que los almacenamientos de datos sean ideales para producir formas más estandarizadas de análisis de BI o para atender un caso de uso empresarial que ya se ha definido.

No disponible Lago de datos Almacenamiento de datos
Tipo Estructurado, semiestructurado, no estructurado Estructurado
No disponible Relacional, no relacional Relacional
Esquema Esquema al leer Esquema en escritura
Formato Sin procesar, sin filtrar Procesado, revisado
Orígenes Macrodatos, IoT, redes sociales, datos de streaming Aplicación, negocios, datos transaccionales, informes por lotes
Escalabilidad Fácil escalado a bajo costo Difícil y caro de escalar
Usuarios Científicos de datos, ingenieros de datos Profesionales de almacenamiento de datos, analistas de negocios
Casos de uso Aprendizaje automático, análisis predictivo, análisis en tiempo real Informes principales, BI

¿Qué es un almacén de lago de datos?

Ahora ya conoce la diferencia entre un lago de datos y un almacén de datos. Pero, ¿cuál es la diferencia entre un lago de datos y un almacén de lago de datos? ¿Es necesario tener ambos?

A pesar de sus numerosas ventajas, un lago de datos tradicional no deja de tener algunos inconvenientes. Dado que los lagos de datos pueden alojar todos los tipos de datos de todo tipo de orígenes, pueden producirse problemas relacionados con el control de calidad, datos dañados y particiones incorrectas. Un lago de datos mal administrado no solo retrasa la integridad de los datos, sino que también puede provocar cuellos de botella, un rendimiento lento y riesgos de seguridad.

Aquí es donde entra en juego el almacén de lago de datos. Un almacén de lago de datos es una solución de almacenamiento basada en estándares abiertos y de naturaleza polifacética Puede abordar las necesidades de los científicos de datos e ingenieros que realizan un análisis y procesamiento profundos de los datos, así como las necesidades de los profesionales de almacenamiento de datos tradicionales que se encargan de mantener y publicar datos con fines de inteligencia empresarial y creación de informes. La belleza del almacén de lago es que cada carga de trabajo puede funcionar sin problemas sobre el lago de datos sin tener que duplicar los datos en otra base de datos predefinida estructuralmente. Esto garantiza que todos los usuarios trabajen con los datos más actualizados, a la vez que se reducen las redundancias.

Los almacenes de lagos de datos abordan los desafíos de los lagos de datos tradicionales agregando una Capa de almacenamiento de Delta Lake directamente sobre el lago de datos en la nube. La capa de almacenamiento proporciona una arquitectura analítica flexible que puede controlar transacciones ACID (atomicidad, coherencia, aislamiento y durabilidad) para la confiabilidad de los datos, integraciones de streaming y características avanzadas, como el control de versiones de datos y la aplicación de esquemas. Esto permite una variedad de actividad analítica a través del lago, todo ello sin poner en peligro la coherencia de los datos principales. Aunque la necesidad de un almacenamiento de lago depende de lo compleja que sean sus necesidades, su flexibilidad y su alcance lo convierten en una solución óptima para muchas organizaciones empresariales.

No disponible Lago de datos Almacén de lago de datos
Tipo Estructurado, semiestructurado, no estructurado Estructurado, semiestructurado, no estructurado
No disponible Relacional, no relacional Relacional, no relacional
Esquema Esquema al leer Esquema en lectura, esquema en escritura
Formato Sin procesar, sin filtrar, procesado, mantenido Archivos sin formato, sin filtrar, procesados, mantenidos, con formato delta
Orígenes Macrodatos, IoT, redes sociales, datos de streaming Macrodatos, IoT, redes sociales, datos de streaming, aplicación, negocios, datos transaccionales, informes por lotes
Escalabilidad Fácil escalado a bajo costo Fácil escalado a bajo costo
Usuarios Científicos de datos Analistas de negocios, ingenieros de datos, científicos de datos
Casos de uso Aprendizaje automático, análisis predictivo Informes principales, BI, aprendizaje automático, análisis predictivo

¿Qué es la arquitectura de lago de datos?

En esencia, un lago de datos es un repositorio de almacenamiento sin una arquitectura de conjunto propia. Para aprovechar al máximo sus capacidades, requiere una amplia gama de herramientas, tecnologías y motores de proceso que ayudan a optimizar la integración, el almacenamiento y el procesamiento de los datos. Estas herramientas funcionan conjuntamente para crear una arquitectura superpuesta de forma coherente, una que se informe mediante macrodatos y se ejecute sobre el lago de datos. Esta arquitectura también puede formar la estructura operativa de un almacenamiento de lago de datos. Cada organización tiene su propia configuración única, pero la mayoría de las arquitecturas de almacén de lago de datos presentan lo siguiente:

  • Orquestación y administración de recursos. Un administrador de recursos permite al lago de datos ejecutar tareas de forma coherente mediante la asignación de la cantidad correcta de datos, recursos y capacidad informática a los lugares adecuados.
  • Conectores para facilitar el acceso. Una variedad de flujos de trabajo permiten a los usuarios acceder fácilmente y compartir los datos que necesitan de la forma que los necesitan.
  • Análisis confiable. Un buen servicio de análisis debe ser rápido, escalable y distribuido. También debe admitir una amplia gama de categorías de cargas de trabajo en varios idiomas.
  • Clasificación de datos. La generación de perfiles de datos, la catalogación y el archivado ayudan a las organizaciones a realizar un seguimiento del contenido, la calidad, la ubicación y el historial de los datos.
  • Extraer, cargar, transformar (ELT) procesos. ELT hace referencia a los procesos por los que los datos se extraen de varios orígenes y se cargan en la zona sin procesar del lago de datos, luego se limpian y transforman después de la extracción para que las aplicaciones puedan usarlos fácilmente.
  • Seguridad y soporte técnico. Las herramientas de protección de datos, como el enmascaramiento, la auditoría, el cifrado y la supervisión de acceso, garantizan que los datos permanezcan seguros y privados.
  • Gobernanza y administración. Para que la plataforma del lago de datos se ejecute lo más fluidamente posible, los usuarios deben estar informados sobre su configuración arquitectónica, así como los procedimientos recomendados para la administración de datos y operaciones.

Preguntas más frecuentes

  • Un lago de datos es un repositorio centralizado que ingiere, almacena y permite el procesamiento de grandes volúmenes de datos en su forma original. Puede dar cabida a todos los tipos de datos, que luego se usan para impulsar el análisis de macrodatos, el aprendizaje automático, y otras formas de acción inteligente.

    Más información sobre los lagos de datos

  • Los lagos de datos almacenan todos los tipos de datos sin procesar, que los científicos de datos pueden usarlos para una variedad de proyectos. Los almacenamientos de datos almacenan datos limpios y procesados, que luego se pueden usar para generar informes analíticos u operativos, así como casos de uso de BI específicos.

    Explorar lagos de datos frente a almacenamiento de datos

  • Un almacén de lago de datos combina elementos de un lago de datos y un almacenamiento de datos para formar una solución flexible y completa con fines de ciencia de datos e inteligencia empresarial.

    Más información sobre los almacenamientos de lago de datos

  • Absolutamente. Las principales organizaciones de todos los sectores confían en las grandes cantidades de datos almacenados en lagos de datos para impulsar la acción inteligente, obtener conclusiones y crecer.

    Descubrir las ventajas de los lagos de datos

  • La arquitectura de Lago de datos hace referencia a la configuración específica de herramientas y tecnologías que ayudan a mantener los datos del lago de datos integrados, accesibles, organizados y seguros.

    Explore los procedimientos recomendados para la arquitectura de lago de datos

Comience a utilizar una cuenta gratuita de Azure

Disfrute de servicios de análisis populares gratis durante 12 meses, más de 25 servicios gratis para siempre y $200 crédito para usar en los primeros 30 días.

Póngase en contacto con un especialista en ventas de Azure

Obtenga consejos sobre cómo empezar a trabajar con los análisis de Azure. Haga preguntas, obtenga información sobre precios y procedimientos recomendados y obtenga ayuda para diseñar soluciones que satisfagan sus necesidades.

¿Podemos ayudarle?