Qu’est-ce qu’un lac de données ?
Découvrez la différence entre les lacs de données et les entrepôts de données. Découvrez comment créer une base évolutive pour toutes vos analyses avec Azure.
Définition du lac de données
Ce guide d’introduction explore les nombreux avantages et cas d’utilisation d’un lac de données. Découvrez ce qu’est un lac de données, pourquoi il est important et découvrez la différence entre les lacs de données et les entrepôts de données. Mais tout d’abord, définissons lac de données en tant que terme.
Un lac de données est un référentiel centralisé qui ingère et stocke de grands volumes de données dans sa forme d’origine. Les données peuvent ensuite être traitées et utilisées comme base pour divers besoins analytiques. En raison de son architecture ouverte et évolutive, un lac de données peut prendre en charge tous les types de données de n’importe quelle source, du structuré (tables de base de données, feuilles Excel) aux semi-structurées (fichiers XML, pages web) aux non structurées (images, fichiers audio, tweets), le tout sans sacrifier la fidélité. Les fichiers de données sont généralement stockés dans des zones—intermédiaires brutes, nettoyées et organisées—afin que différents types d’utilisateurs puissent utiliser les données sous ses différentes formes pour répondre à leurs besoins. Les lacs de données assurent la cohérence des données de base dans diverses applications, en mettant big data analytics, machine learning, l’analytique prédictive et d’autres formes d’action intelligente.
Pourquoi les lacs de données sont-ils importants pour les entreprises ?
Le monde d’aujourd’hui, fortement connecté et piloté par les insights, ne serait pas possible sans le besoin des solutions de lac de données. Cela est dû au fait que les organisations s’appuient sur des plateformes complètes de lacs de données, telles qu’Azure Data Lake, pour conserver les données brutes consolidées, intégrées, sécurisées et accessibles. Des outils de stockage évolutifs tels qu'Azure Data Lake Storage peuvent conserver et protéger les données en un lieu central, éliminant ainsi les silos à un coût optimal. Cela jette les bases permettant aux utilisateurs d'effectuer une grande variété de catégories de charges de travail, telles que le traitement des Big Data, les requêtes SQL, l'exploration de texte, l'analyse en continu et l'apprentissage automatique. Les données peuvent ensuite être utilisées pour alimenter la visualisation des données en amont et les besoins de reporting ad hoc. Une plateforme de données moderne et de bout en bout comme Azure Synapse Analytics répond à l'ensemble des besoins d'une architecture big data centrée sur le lac de données.
Cas d’utilisation de lac de données
Avec une solution bien architecturée, le potentiel d'innovation est infini. Voici quelques exemples de la manière dont les organisations de divers secteurs d'activité utilisent les plateformes de lacs de données pour optimiser leur croissance :
- Médias de diffusion en continu. les entreprises de diffusion en continu basées sur les abonnements recueillent et traitent des insights sur le comportement des clients, qu’elles peuvent utiliser pour améliorer leur algorithme de recommandation.
- Finance. Les entreprises d'investissement utilisent les données les plus récentes du marché, qui sont collectées et stockées en temps réel, pour gérer efficacement les risques du portefeuille.
- Soins de santé. Les organismes de santé s'appuient sur le Big Data pour améliorer la qualité des soins prodigués aux patients. Les hôpitaux utilisent de grandes quantités de données historiques pour rationaliser les parcours des patients, ce qui se traduit par de meilleurs résultats et une réduction du coût des soins.
- Détaillant omnicanal. Les détaillants utilisent des lacs de données pour capturer et consolider les données provenant de plusieurs points de contact, notamment les téléphones mobiles, les réseaux sociaux, les conversations, le bouche-à-oreille et les visites en personne.
- Capteurs matériel IoT. génèrent d’importantes quantités de données semi-structurées en données non structurées sur le monde physique voisin. Les passerelles de données fournissent un référentiel central dans lequel ces informations doivent résider pour une analyse ultérieure.
- Chaîne d’approvisionnement numérique. Les fabricants d’aide sur les données consolident les données d’entrepôt de données, notamment les systèmes EDI, XML et JSON.
- Ventes. Les scientifiques des données et les ingénieurs commerciaux créent souvent des modèles prédictifs pour aider à déterminer le comportement des clients et à réduire l’évolution globale.
Lac de données ou entrepôt de données
Vous savez désormais ce qu’est un lac de données, pourquoi il est important et comment il est utilisé au sein d’une variété d’organisations. Mais quelle est la différence entre un lac de données et un entrepôt de données ? Et quand est-il approprié d’utiliser l’un sur l’autre ?
Bien que les lacs de données et les entrepôts de données soient similaires en ce qu’ils stockent et traitent des données, chacun d’eux a ses propres spécialisations et, par conséquent, ses propres cas d’utilisation. C’est pourquoi il est courant pour une organisation d’entreprise d’inclure un lac de données et un entrepôt de données dans son écosystème analytique. Les deux dépôts fonctionnent ensemble pour former un système sécurisé de bout en bout pour le stockage, le traitement et un délai d’insight plus rapide.
Un lac de données capture à la fois des données relationnelles et non relationnelles à partir d’une variété de sources (applications métier, applications mobiles, appareils IoT, réseaux sociaux ou diffusion en continu), sans avoir à définir la structure ou le schéma des données tant qu’elles n’ont pas été lues. Le schéma en lecture garantit que tout type de données peut être stocké sous sa forme brute. Par conséquent, les lacs de données peuvent contenir une grande variété de types de données, qu'elles soient structurées, semi-structurées ou non structurées, à n'importe quelle échelle. Leur nature flexible et évolutive les rend essentiels pour effectuer des formes complexes d'analyse de données à l'aide de différents types d'outils de traitement informatique, tels que Apache Spark ou Azure Machine Learning.
Par contre, un entrepôt de données est de nature relationnelle. La structure ou le schéma est modélisé ou prédéfini par des exigences métier et de produit organisées, conformes et optimisées pour les opérations de requête SQL. Alors qu’un lac de données contient des données de tous les types de structure, y compris les données brutes et non traitées, un entrepôt de données stocke les données qui ont été traitées et transformés avec un objectif spécifique à l’esprit, qui peut ensuite être utilisé pour sourcer des rapports analytiques ou opérationnels. Cela permet aux entrepôts de données de produire des formes d’analyse décisionnel plus normalisées ou de servir un cas d’utilisation métier déjà défini.
Data Lake | Data Warehouse | |
---|---|---|
Type | Structuré, semi-structuré, non structuré | Structuré |
Relationnel, non relationnel | Relationnelle | |
Schéma | Schéma lors de la lecture | Schéma en écriture |
Format | Brut, non filtré | Traité, vérifié |
Sources | Big Data, IoT, réseaux sociaux, données de diffusion en continu | Application, entreprise, données transactionnelles, création de rapports par lots |
Extensibilité | Facile à mettre à l’échelle à moindre coût | Difficile et coûteux à mettre à l’échelle |
Utilisateurs | Scientifiques des données, ingénieurs de données | Professionnels de l’entrepôt de données, analystes professionnels |
Cas d'utilisation | Machine Learning, analyse prédictive, analyse en temps réel | Création de rapports de base, DÉCISIONNEL |
Lac de données ou Data lakehouse
Vous connaissez maintenant la différence entre un lac de données et un entrepôt de données. Mais quelle est la différence entre un lac de données et un data lakehouse ? Et est-il nécessaire d'avoir les deux ?
Malgré ses nombreux avantages, un lac de données traditionnel n'est pas sans inconvénients. Comme les lacs de données peuvent accueillir tous les types de données provenant de toutes sortes de sources, des problèmes liés au contrôle de la qualité, à la corruption des données et à un partitionnement inapproprié peuvent survenir. Un lac de données mal géré ne ternit pas seulement l'intégrité des données, mais il peut également entraîner des goulets d'étranglement, des performances lentes et des risques de sécurité.
C'est là que le data lakehouse entre en jeu. Un data lakehouse est une solution de stockage basée sur des normes ouvertes qui présente de multiples facettes. Elle peut répondre aux besoins des scientifiques et des ingénieurs qui effectuent des analyses et des traitements approfondis des données, ainsi qu'aux besoins des professionnels des entrepôts de données traditionnels qui conservent et publient les données à des fins de veille stratégique et de reporting. La beauté du lac de données est que chaque charge de travail peut fonctionner de manière transparente sur le lac de données sans avoir à dupliquer les données dans une autre base de données structurellement prédéfinie. Cela garantit que chacun travaille sur les données les plus récentes, tout en réduisant les redondances.
Les data lakehouses permettent de relever les défis des lacs de données traditionnels en ajoutant unecouche de stockage Delta Lake directement au-dessus du lac de données cloud. La couche de stockage fournit une architecture analytique flexible capable de gérer les transactions ACID (atomicité, cohérence, isolation et durabilité) pour la fiabilité des données, les intégrations en continu et les fonctionnalités avancées telles que le versionnage des données et l'application des schémas. Cela permet une gamme d'activités analytiques sur le lac, sans compromettre la cohérence des données de base. Si la nécessité d'un lac dépend de la complexité de vos besoins, sa flexibilité et sa portée en font une solution optimale pour de nombreuses entreprises.
Data Lake | Data lakehouse | |
---|---|---|
Type | Structuré, semi-structuré, non structuré | Structuré, semi-structuré, non structuré |
Relationnel, non relationnel | Relationnel, non relationnel | |
Schéma | Schéma lors de la lecture | Schéma en lecture, schéma en écriture |
Format | Brut, non filtré, traité, curé | Fichiers bruts, non filtrés, traités, organisés, au format delta |
Sources | Big Data, IoT, réseaux sociaux, données de diffusion en continu | Big Data, IoT, réseaux sociaux, données de streaming, application, entreprise, données transactionnelles, rapports par lot |
Extensibilité | Facile à mettre à l’échelle à moindre coût | Facile à mettre à l’échelle à moindre coût |
Utilisateurs | Scientifiques des données | Analystes métier, ingénieurs de données, scientifiques des données |
Cas d'utilisation | Machine Learning, analyse prédictive | Création de rapports de base, décisionnel, Machine Learning, analyse prédictive |
Qu’est-ce que l’architecture du lac de données ?
À la base, un lac de données est un référentiel de stockage qui ne possède pas d'architecture propre. Pour tirer le meilleur parti de ses capacités, il nécessite un large éventail d'outils, de technologies et de moteurs de calcul qui contribuent à optimiser l'intégration, le stockage et le traitement des données. Ces outils fonctionnent ensemble pour créer une architecture cohérente en couches, qui s'appuie sur le big data et fonctionne au-dessus du lac de données. Cette architecture peut également constituer la structure opérationnelle d'un data lakehouse. Chaque organisation a sa propre configuration, mais la plupart des architectures de data lakehouse présentent les caractéristiques suivantes :
- Gestion et orchestration des ressources. Un gestionnaire de ressources permet au lac de données d'exécuter des tâches de manière cohérente en allouant la bonne quantité de données, de ressources et de puissance de calcul aux bons emplacements.
- Connecteurs pour un accès facile. Divers flux de travail permettent aux utilisateurs d’accéder facilement aux données dont ils ont besoin, et de les partager, sous la forme dans laquelle ils en ont besoin.
- Analyses fiables. Un bon service d'analyse doit être rapide, évolutif et distribué. Il doit également prendre en charge un large éventail de catégories de charges de travail dans plusieurs langues.
- Classification des données. Le profilage, le catalogage et l'archivage des données aident les organisations à garder la trace du contenu, de la qualité, de l'emplacement et de l'historique des données.
- Processus d'extraction, de chargement et de transformation (ELT). ELT désigne les processus par lesquels les données sont extraites de sources multiples et chargées dans la zone brute du lac de données, puis nettoyées et transformées après l'extraction afin que les applications puissent les utiliser facilement.
- Sécurité et support. Les outils de protection des données tels que le masquage, l’audit, le chiffrement et le contrôle d’accès garantissent que vos données restent sécurisées et privées.
- Gouvernance et gérance. Pour que la plateforme de lac de données s'exécute aussi bien que possible, les utilisateurs doivent être formés à sa configuration architecturale, ainsi qu'aux meilleures pratiques de gestion des données et des opérations.
Ressources supplémentaires
Explorer
Idées de solution
Guides
Forum Aux Questions
-
Un lac de données est un référentiel centralisé qui ingère, stocke et permet le traitement de grands volumes de données sous sa forme d’origine. Il peut contenir tous les types de données, qui sont ensuite utilisés pour activer l’analyse Big Data, le Machine Learning et d’autres formes d’action intelligente.
-
Les organisations au sein d’un large éventail d’secteurs, notamment la vente au détail, les finances et le divertissement, utilisent les plateformes de lac de données pour stocker des données, collecter des insights et améliorer la qualité globale de leurs services. Les entreprises d’investissement, par exemple, utilisent des lacs de données pour collecter et traiter les données de mise à jour, ce qui leur permet de gérer les risques de portefeuille plus efficacement.
-
Les lacs de données stockent tous les types de données brutes que les scientifiques des données peuvent ensuite utiliser pour divers projets. Les entrepôts de données stockent des données nettoyées et traitées, qui peuvent ensuite être utilisées pour générer des rapports analytiques ou opérationnels, ainsi que des cas d’utilisation décisionnel spécifiques.
Explorer les lacs de données par rapport aux entrepôts de données
-
Un data lakehouse combine des éléments d’un lac de données et d’un entrepôt de données pour former un entrepôt flexible, une solution de bout en bout pour la science des données et business intelligence.
-
Absolument. Les principales organisations, tous secteurs confondus, s'appuient sur les quantités massives de données stockées dans les lacs de données pour mener des actions intelligentes, obtenir des informations et se développer.
-
De grands volumes de données, notamment des données brutes et non structurées, peuvent être difficiles à gérer, ce qui peut entraîner des goulots d’étranglement, des données endommagées, des problèmes de contrôle qualité et des problèmes de performances. C’est pourquoi il est important de maintenir de bonnes pratiques de gouvernance et de gouvernance pour vous aider à exécuter votre plateforme lac de données sans problème.
-
L'architecture du lac de données fait référence à la configuration spécifique des outils et des technologies qui permettent de maintenir les données du lac de données intégrées, accessibles, organisées et sécurisées.
Explorez les meilleures pratiques en matière d'architecture de lac de données
Compte gratuit
Essayez les services Azure Cloud Computing gratuitement pendant 30 jours.
À l'utilisation
Démarrez avec le paiement à l’utilisation. Il n’y a pas d’engagement préalable. Annulation possible à tout moment.