What is a Data Lake?
Learn about the difference between data lakes and data warehouses. Discover how to build a scalable foundation for all your analytics with Azure.
Définition du lac de données
This introductory guide explores the many benefits and use cases of a data lake. Learn what a data lake is, why it matters, and discover the difference between data lakes and data warehouses. But first, let's define data lake as a term.
A data lake is a centralized repository that ingests and stores large volumes of data in its original form. The data can then be processed and used as a basis for a variety of analytic needs. Due to its open, scalable architecture, a data lake can accommodate all types of data from any source, from structured (database tables, Excel sheets) to semi-structured (XML files, webpages) to unstructured (images, audio files, tweets), all without sacrificing fidelity. The data files are typically stored in staged zones—raw, cleansed, and curated—so that different types of users may use the data in its various forms to meet their needs. Data lakes provide core data consistency across a variety of applications, powering big data analytics, machine learning, predictive analytics, and other forms of intelligent action.
Why are data lakes important for businesses?
Le monde d’aujourd’hui, fortement connecté et piloté par les insights, ne serait pas possible sans le besoin des solutions de lac de données. Cela est dû au fait que les organisations s’appuient sur des plateformes complètes de lacs de données, telles qu’Azure Data Lake, pour conserver les données brutes consolidées, intégrées, sécurisées et accessibles. Des outils de stockage évolutifs tels qu'Azure Data Lake Storage peuvent conserver et protéger les données en un lieu central, éliminant ainsi les silos à un coût optimal. Cela jette les bases permettant aux utilisateurs d'effectuer une grande variété de catégories de charges de travail, telles que le traitement des Big Data, les requêtes SQL, l'exploration de texte, l'analyse en continu et l'apprentissage automatique. Les données peuvent ensuite être utilisées pour alimenter la visualisation des données en amont et les besoins de reporting ad hoc. Une plateforme de données moderne et de bout en bout comme Azure Synapse Analytics répond à l'ensemble des besoins d'une architecture big data centrée sur le lac de données.
Cas d’utilisation de lac de données
Avec une solution bien architecturée, le potentiel d'innovation est infini. Voici quelques exemples de la manière dont les organisations de divers secteurs d'activité utilisent les plateformes de lacs de données pour optimiser leur croissance :
- Médias de diffusion en continu. les entreprises de diffusion en continu basées sur les abonnements recueillent et traitent des insights sur le comportement des clients, qu’elles peuvent utiliser pour améliorer leur algorithme de recommandation.
- Finance. Les entreprises d'investissement utilisent les données les plus récentes du marché, qui sont collectées et stockées en temps réel, pour gérer efficacement les risques du portefeuille.
- Soins de santé. Les organismes de santé s'appuient sur le Big Data pour améliorer la qualité des soins prodigués aux patients. Les hôpitaux utilisent de grandes quantités de données historiques pour rationaliser les parcours des patients, ce qui se traduit par de meilleurs résultats et une réduction du coût des soins.
- Détaillant omnicanal. Les détaillants utilisent des lacs de données pour capturer et consolider les données provenant de plusieurs points de contact, notamment les téléphones mobiles, les réseaux sociaux, les conversations, le bouche-à-oreille et les visites en personne.
- Capteurs matériel IoT. génèrent d’importantes quantités de données semi-structurées en données non structurées sur le monde physique voisin. Les passerelles de données fournissent un référentiel central dans lequel ces informations doivent résider pour une analyse ultérieure.
- Chaîne d’approvisionnement numérique. Les fabricants d’aide sur les données consolident les données d’entrepôt de données, notamment les systèmes EDI, XML et JSON.
- Ventes. Les scientifiques des données et les ingénieurs commerciaux créent souvent des modèles prédictifs pour aider à déterminer le comportement des clients et à réduire l’évolution globale.
Lac de données ou entrepôt de données
Now you know what a data lake is, why it matters, and how it's used across a variety of organizations. But what's the difference between a data lake and a data warehouse? And when is it appropriate to use one over the other?
While data lakes and data warehouses are similar in that they both store and process data, each have their own specialties, and therefore their own use cases. That's why it's common for an enterprise-level organization to include a data lake and a data warehouse in their analytics ecosystem. Both repositories work together to form a secure, end-to-end system for storage, processing, and faster time to insight.
Un lac de données capture à la fois des données relationnelles et non relationnelles à partir d’une variété de sources (applications métier, applications mobiles, appareils IoT, réseaux sociaux ou diffusion en continu), sans avoir à définir la structure ou le schéma des données tant qu’elles n’ont pas été lues. Le schéma en lecture garantit que tout type de données peut être stocké sous sa forme brute. Par conséquent, les lacs de données peuvent contenir une grande variété de types de données, qu'elles soient structurées, semi-structurées ou non structurées, à n'importe quelle échelle. Leur nature flexible et évolutive les rend essentiels pour effectuer des formes complexes d'analyse de données à l'aide de différents types d'outils de traitement informatique, tels que Apache Spark ou Azure Machine Learning.
Par contre, un entrepôt de données est de nature relationnelle. La structure ou le schéma est modélisé ou prédéfini par des exigences métier et de produit organisées, conformes et optimisées pour les opérations de requête SQL. Alors qu’un lac de données contient des données de tous les types de structure, y compris les données brutes et non traitées, un entrepôt de données stocke les données qui ont été traitées et transformés avec un objectif spécifique à l’esprit, qui peut ensuite être utilisé pour sourcer des rapports analytiques ou opérationnels. Cela permet aux entrepôts de données de produire des formes d’analyse décisionnel plus normalisées ou de servir un cas d’utilisation métier déjà défini.
Data Lake | Data Warehouse | |
---|---|---|
Type | Structuré, semi-structuré, non structuré | Structuré |
Relationnel, non relationnel | Relationnelle | |
Schéma | Schéma lors de la lecture | Schéma en écriture |
Format | Brut, non filtré | Traité, vérifié |
Sources | Big Data, IoT, réseaux sociaux, données de diffusion en continu | Application, entreprise, données transactionnelles, création de rapports par lots |
Extensibilité | Facile à mettre à l’échelle à moindre coût | Difficile et coûteux à mettre à l’échelle |
Utilisateurs | Scientifiques des données, ingénieurs de données | Professionnels de l’entrepôt de données, analystes professionnels |
Cas d'utilisation | Machine Learning, analyse prédictive, analyse en temps réel | Création de rapports de base, DÉCISIONNEL |
Data lake vs. data lakehouse
Now you know the difference between a data lake vs. a data warehouse. But what's the difference between a data lake and a data lakehouse? And is it necessary to have both?
Malgré ses nombreux avantages, un lac de données traditionnel n'est pas sans inconvénients. Comme les lacs de données peuvent accueillir tous les types de données provenant de toutes sortes de sources, des problèmes liés au contrôle de la qualité, à la corruption des données et à un partitionnement inapproprié peuvent survenir. Un lac de données mal géré ne ternit pas seulement l'intégrité des données, mais il peut également entraîner des goulets d'étranglement, des performances lentes et des risques de sécurité.
That's where the data lakehouse comes into play. A data lakehouse is an open standards-based storage solution that is multifaceted in nature. It can address the needs of data scientists and engineers who conduct deep data analysis and processing, as well as the needs of traditional data warehouse professionals who curate and publish data for business intelligence and reporting purposes. The beauty of the lakehouse is that each workload can seamlessly operate on top of the data lake without having to duplicate the data into another structurally predefined database. This ensures that everyone is working on the most up-to-date data, while also reducing redundancies.
Les data lakehouses permettent de relever les défis des lacs de données traditionnels en ajoutant unecouche de stockage Delta Lake directement au-dessus du lac de données cloud. La couche de stockage fournit une architecture analytique flexible capable de gérer les transactions ACID (atomicité, cohérence, isolation et durabilité) pour la fiabilité des données, les intégrations en continu et les fonctionnalités avancées telles que le versionnage des données et l'application des schémas. Cela permet une gamme d'activités analytiques sur le lac, sans compromettre la cohérence des données de base. Si la nécessité d'un lac dépend de la complexité de vos besoins, sa flexibilité et sa portée en font une solution optimale pour de nombreuses entreprises.
Data Lake | Data lakehouse | |
---|---|---|
Type | Structuré, semi-structuré, non structuré | Structuré, semi-structuré, non structuré |
Relationnel, non relationnel | Relationnel, non relationnel | |
Schéma | Schéma lors de la lecture | Schéma en lecture, schéma en écriture |
Format | Brut, non filtré, traité, curé | Fichiers bruts, non filtrés, traités, organisés, au format delta |
Sources | Big Data, IoT, réseaux sociaux, données de diffusion en continu | Big Data, IoT, réseaux sociaux, données de streaming, application, entreprise, données transactionnelles, rapports par lot |
Extensibilité | Facile à mettre à l’échelle à moindre coût | Facile à mettre à l’échelle à moindre coût |
Utilisateurs | Scientifiques des données | Analystes métier, ingénieurs de données, scientifiques des données |
Cas d'utilisation | Machine Learning, analyse prédictive | Création de rapports de base, décisionnel, Machine Learning, analyse prédictive |
Qu’est-ce que l’architecture du lac de données ?
À la base, un lac de données est un référentiel de stockage qui ne possède pas d'architecture propre. Pour tirer le meilleur parti de ses capacités, il nécessite un large éventail d'outils, de technologies et de moteurs de calcul qui contribuent à optimiser l'intégration, le stockage et le traitement des données. Ces outils fonctionnent ensemble pour créer une architecture cohérente en couches, qui s'appuie sur le big data et fonctionne au-dessus du lac de données. Cette architecture peut également constituer la structure opérationnelle d'un data lakehouse. Chaque organisation a sa propre configuration, mais la plupart des architectures de data lakehouse présentent les caractéristiques suivantes :
- Gestion et orchestration des ressources. Un gestionnaire de ressources permet au lac de données d'exécuter des tâches de manière cohérente en allouant la bonne quantité de données, de ressources et de puissance de calcul aux bons emplacements.
- Connecteurs pour un accès facile. Divers flux de travail permettent aux utilisateurs d’accéder facilement aux données dont ils ont besoin, et de les partager, sous la forme dans laquelle ils en ont besoin.
- Analyses fiables. Un bon service d'analyse doit être rapide, évolutif et distribué. Il doit également prendre en charge un large éventail de catégories de charges de travail dans plusieurs langues.
- Classification des données. Le profilage, le catalogage et l'archivage des données aident les organisations à garder la trace du contenu, de la qualité, de l'emplacement et de l'historique des données.
- Processus d'extraction, de chargement et de transformation (ELT). ELT désigne les processus par lesquels les données sont extraites de sources multiples et chargées dans la zone brute du lac de données, puis nettoyées et transformées après l'extraction afin que les applications puissent les utiliser facilement.
- Sécurité et support. Les outils de protection des données tels que le masquage, l’audit, le chiffrement et le contrôle d’accès garantissent que vos données restent sécurisées et privées.
- Gouvernance et gérance. Pour que la plateforme de lac de données s'exécute aussi bien que possible, les utilisateurs doivent être formés à sa configuration architecturale, ainsi qu'aux meilleures pratiques de gestion des données et des opérations.
Ressources supplémentaires
Explorer
Idées de solution
Forum Aux Questions
-
Un lac de données est un référentiel centralisé qui ingère, stocke et permet le traitement de grands volumes de données sous sa forme d’origine. Il peut contenir tous les types de données, qui sont ensuite utilisés pour activer l’analyse Big Data, le Machine Learning et d’autres formes d’action intelligente.
-
Organizations across a range of industries, including retail, finance, and entertainment, use data lake platforms to store data, gather insights, and improve the overall quality of their services. Investment firms, for example, use data lakes to collect and process up-to-market data, allowing them to manage portfolio risks more efficiently.
-
Les lacs de données stockent tous les types de données brutes que les scientifiques des données peuvent ensuite utiliser pour divers projets. Les entrepôts de données stockent des données nettoyées et traitées, qui peuvent ensuite être utilisées pour générer des rapports analytiques ou opérationnels, ainsi que des cas d’utilisation décisionnel spécifiques.
Explorer les lacs de données par rapport aux entrepôts de données
-
A data lakehouse combines elements of a data lake and a data warehouse to form a flexible, end-to-end solution for data science and business intelligence purposes.
-
Absolument. Les principales organisations, tous secteurs confondus, s'appuient sur les quantités massives de données stockées dans les lacs de données pour mener des actions intelligentes, obtenir des informations et se développer.
-
Large volumes of data, including raw and unstructured data, can be difficult to manage, leading to bottlenecks, data corruption, quality control issues, and performance issues. That's why it's important to maintain good governance and stewardship practices to help you run your data lake platform smoothly.
-
L'architecture du lac de données fait référence à la configuration spécifique des outils et des technologies qui permettent de maintenir les données du lac de données intégrées, accessibles, organisées et sécurisées.
Explorez les meilleures pratiques en matière d'architecture de lac de données
Compte gratuit
Essayez les services Azure Cloud Computing gratuitement pendant 30 jours.
À l'utilisation
Démarrez avec le paiement à l’utilisation. Il n’y a pas d’engagement préalable. Annulation possible à tout moment.