Ignorez la navigation

Qu’est-ce que le lac de données ?

Découvrez la différence entre les lacs de données et les data lakehouses. Découvrez comment construire une base évolutive pour toutes vos analyses avec Azure.

Qu’est-ce qu’un lac de données ?

Ce guide d'introduction explore les nombreux avantages et cas d'utilisation d'un lac de données. Découvrez ce qu'est un lac de données, pourquoi il est important et en quoi il diffère d'un entrepôt de données ou d'un data lakehouse. Mais tout d'abord, définissons le terme lac de données.

Un lac de données est un référentiel centralisé qui ingère et stocke de grands volumes de données sous sa forme d’origine. Les données peuvent ensuite être traitées et utilisées comme base pour différents besoins analytiques. En raison de son architecture ouverte et scalable, un lac de données peut prendre en charge tous les types de données de n’importe quelle source, du structuré (tables de base de données, feuilles Excel) aux fichiers semi-structurés (fichiers XML, pages web) aux non structurés (images, fichiers audio, tweets), le tout sans fidélité sans fidélité. Les fichiers de données sont généralement stockés dans des zones intermédiaires (brutes, nettoyées et organisées) de sorte que différents types d’utilisateurs puissent utiliser les données sous ses différentes formes pour répondre à leurs besoins. Les secteurs de données fournissent une cohérence des données de base dans une variété d’applications, ce qui active l’analyse Big Data, le Machine Learning, l’analyse prédictive et d’autres formes d’action intelligente.

Les lacs de données sont-ils importants ?

Le monde d’aujourd’hui, fortement connecté et piloté par les insights, ne serait pas possible sans le besoin des solutions de lac de données. Cela est dû au fait que les organisations s’appuient sur des plateformes complètes de lacs de données, telles qu’Azure Data Lake, pour conserver les données brutes consolidées, intégrées, sécurisées et accessibles. Des outils de stockage évolutifs tels qu'Azure Data Lake Storage peuvent conserver et protéger les données en un lieu central, éliminant ainsi les silos à un coût optimal. Cela jette les bases permettant aux utilisateurs d'effectuer une grande variété de catégories de charges de travail, telles que le traitement des Big Data, les requêtes SQL, l'exploration de texte, l'analyse en continu et l'apprentissage automatique. Les données peuvent ensuite être utilisées pour alimenter la visualisation des données en amont et les besoins de reporting ad hoc. Une plateforme de données moderne et de bout en bout comme Azure Synapse Analytics répond à l'ensemble des besoins d'une architecture big data centrée sur le lac de données.

Cas d’utilisation de lac de données

Avec une solution bien architecturée, le potentiel d'innovation est infini. Voici quelques exemples de la manière dont les organisations de divers secteurs d'activité utilisent les plateformes de lacs de données pour optimiser leur croissance :

  • Médias de diffusion en continu. les entreprises de diffusion en continu basées sur les abonnements recueillent et traitent des insights sur le comportement des clients, qu’elles peuvent utiliser pour améliorer leur algorithme de recommandation.
  • Finance. Les entreprises d'investissement utilisent les données les plus récentes du marché, qui sont collectées et stockées en temps réel, pour gérer efficacement les risques du portefeuille.
  • Soins de santé. Les organismes de santé s'appuient sur le Big Data pour améliorer la qualité des soins prodigués aux patients. Les hôpitaux utilisent de grandes quantités de données historiques pour rationaliser les parcours des patients, ce qui se traduit par de meilleurs résultats et une réduction du coût des soins.
  • Détaillant omnicanal. Les détaillants utilisent des lacs de données pour capturer et consolider les données provenant de plusieurs points de contact, notamment les téléphones mobiles, les réseaux sociaux, les conversations, le bouche-à-oreille et les visites en personne.
  • Capteurs matériel IoT. génèrent d’importantes quantités de données semi-structurées en données non structurées sur le monde physique voisin. Les passerelles de données fournissent un référentiel central dans lequel ces informations doivent résider pour une analyse ultérieure.
  • Chaîne d’approvisionnement numérique. Les fabricants d’aide sur les données consolident les données d’entrepôt de données, notamment les systèmes EDI, XML et JSON.
  • Ventes. Les scientifiques des données et les ingénieurs commerciaux créent souvent des modèles prédictifs pour aider à déterminer le comportement des clients et à réduire l’évolution globale.

Lac de données ou entrepôt de données

Vous savez désormais ce qu’est un lac de données, pourquoi il est important et comment il est utilisé au sein d’une variété d’organisations. Mais quelle est la différence entre un lac de données et un entrepôt de données ? Et quand est-il approprié d’utiliser l’un sur l’autre ?

Bien que les entrepôts de données et les entrepôts de données soient similaires en ce qu’ils stockent et traitent des données, chacun d’eux a ses propres spécialisations et, par conséquent, ses propres cas d’utilisation. C’est pourquoi il est courant pour une organisation d’entreprise d’inclure un lac de données et un entrepôt de données dans son écosystème analytique. Les deux dépôts fonctionnent ensemble pour former un système sécurisé de bout en bout pour le stockage, le traitement et un délai d’insight plus rapide.

Un lac de données capture à la fois des données relationnelles et non relationnelles à partir d’une variété de sources (applications métier, applications mobiles, appareils IoT, réseaux sociaux ou diffusion en continu), sans avoir à définir la structure ou le schéma des données tant qu’elles n’ont pas été lues. Le schéma en lecture garantit que tout type de données peut être stocké sous sa forme brute. Par conséquent, les lacs de données peuvent contenir une grande variété de types de données, qu'elles soient structurées, semi-structurées ou non structurées, à n'importe quelle échelle. Leur nature flexible et évolutive les rend essentiels pour effectuer des formes complexes d'analyse de données à l'aide de différents types d'outils de traitement informatique, tels que Apache Spark ou Azure Machine Learning.

Par contre, un entrepôt de données est de nature relationnelle. La structure ou le schéma est modélisé ou prédéfini par des exigences métier et de produit organisées, conformes et optimisées pour les opérations de requête SQL. Alors qu’un lac de données contient des données de tous les types de structure, y compris les données brutes et non traitées, un entrepôt de données stocke les données qui ont été traitées et transformés avec un objectif spécifique à l’esprit, qui peut ensuite être utilisé pour sourcer des rapports analytiques ou opérationnels. Cela permet aux entrepôts de données de produire des formes d’analyse décisionnel plus normalisées ou de servir un cas d’utilisation métier déjà défini.

Non disponible Data Lake Data Warehouse
Type Structuré, semi-structuré, non structuré Structuré
Non disponible Relationnel, non relationnel Relationnelle
Schéma Schéma lors de la lecture Schéma en écriture
Format Brut, non filtré Traité, vérifié
Sources Big Data, IoT, réseaux sociaux, données de diffusion en continu Application, entreprise, données transactionnelles, création de rapports par lots
Extensibilité Facile à mettre à l’échelle à moindre coût Difficile et coûteux à mettre à l’échelle
Utilisateurs Scientifiques des données, ingénieurs de données Professionnels de l’entrepôt de données, analystes professionnels
Cas d'utilisation Machine Learning, analyse prédictive, analyse en temps réel Création de rapports de base, DÉCISIONNEL

Qu’est-ce qu’un data lakehouse ?

Vous connaissez maintenant la différence entre un lac de données et un entrepôt de données. Mais quelle est la différence entre un lac de données et un data lakehouse ? Et est-il nécessaire d'avoir les deux ?

Malgré ses nombreux avantages, un lac de données traditionnel n'est pas sans inconvénients. Comme les lacs de données peuvent accueillir tous les types de données provenant de toutes sortes de sources, des problèmes liés au contrôle de la qualité, à la corruption des données et à un partitionnement inapproprié peuvent survenir. Un lac de données mal géré ne ternit pas seulement l'intégrité des données, mais il peut également entraîner des goulets d'étranglement, des performances lentes et des risques de sécurité.

C'est là que le data lakehouse entre en jeu. Un data lakehouse est une solution de stockage basée sur des normes ouvertes qui présente de multiples facettes. Elle peut répondre aux besoins des scientifiques et des ingénieurs qui effectuent des analyses et des traitements approfondis des données, ainsi qu'aux besoins des professionnels des entrepôts de données traditionnels qui conservent et publient les données à des fins de veille stratégique et de reporting. La beauté du lac de données est que chaque charge de travail peut fonctionner de manière transparente sur le lac de données sans avoir à dupliquer les données dans une autre base de données structurellement prédéfinie. Cela garantit que chacun travaille sur les données les plus récentes, tout en réduisant les redondances.

Les data lakehouses permettent de relever les défis des lacs de données traditionnels en ajoutant unecouche de stockage Delta Lake directement au-dessus du lac de données cloud. La couche de stockage fournit une architecture analytique flexible capable de gérer les transactions ACID (atomicité, cohérence, isolation et durabilité) pour la fiabilité des données, les intégrations en continu et les fonctionnalités avancées telles que le versionnage des données et l'application des schémas. Cela permet une gamme d'activités analytiques sur le lac, sans compromettre la cohérence des données de base. Si la nécessité d'un lac dépend de la complexité de vos besoins, sa flexibilité et sa portée en font une solution optimale pour de nombreuses entreprises.

Non disponible Data Lake Data lakehouse
Type Structuré, semi-structuré, non structuré Structuré, semi-structuré, non structuré
Non disponible Relationnel, non relationnel Relationnel, non relationnel
Schéma Schéma lors de la lecture Schéma en lecture, schéma en écriture
Format Brut, non filtré, traité, curé Fichiers bruts, non filtrés, traités, organisés, au format delta
Sources Big Data, IoT, réseaux sociaux, données de diffusion en continu Big Data, IoT, réseaux sociaux, données de streaming, application, entreprise, données transactionnelles, rapports par lot
Extensibilité Facile à mettre à l’échelle à moindre coût Facile à mettre à l’échelle à moindre coût
Utilisateurs Scientifiques des données Analystes métier, ingénieurs de données, scientifiques des données
Cas d'utilisation Machine Learning, analyse prédictive Création de rapports de base, décisionnel, Machine Learning, analyse prédictive

Qu’est-ce que l’architecture du lac de données ?

À la base, un lac de données est un référentiel de stockage qui ne possède pas d'architecture propre. Pour tirer le meilleur parti de ses capacités, il nécessite un large éventail d'outils, de technologies et de moteurs de calcul qui contribuent à optimiser l'intégration, le stockage et le traitement des données. Ces outils fonctionnent ensemble pour créer une architecture cohérente en couches, qui s'appuie sur le big data et fonctionne au-dessus du lac de données. Cette architecture peut également constituer la structure opérationnelle d'un data lakehouse. Chaque organisation a sa propre configuration, mais la plupart des architectures de data lakehouse présentent les caractéristiques suivantes :

  • Gestion et orchestration des ressources. Un gestionnaire de ressources permet au lac de données d'exécuter des tâches de manière cohérente en allouant la bonne quantité de données, de ressources et de puissance de calcul aux bons emplacements.
  • Connecteurs pour un accès facile. Divers flux de travail permettent aux utilisateurs d’accéder facilement aux données dont ils ont besoin, et de les partager, sous la forme dans laquelle ils en ont besoin.
  • Analyses fiables. Un bon service d'analyse doit être rapide, évolutif et distribué. Il doit également prendre en charge un large éventail de catégories de charges de travail dans plusieurs langues.
  • Classification des données. Le profilage, le catalogage et l'archivage des données aident les organisations à garder la trace du contenu, de la qualité, de l'emplacement et de l'historique des données.
  • Processus d'extraction, de chargement et de transformation (ELT). ELT désigne les processus par lesquels les données sont extraites de sources multiples et chargées dans la zone brute du lac de données, puis nettoyées et transformées après l'extraction afin que les applications puissent les utiliser facilement.
  • Sécurité et support. Les outils de protection des données tels que le masquage, l’audit, le chiffrement et le contrôle d’accès garantissent que vos données restent sécurisées et privées.
  • Gouvernance et gérance. Pour que la plateforme de lac de données s'exécute aussi bien que possible, les utilisateurs doivent être formés à sa configuration architecturale, ainsi qu'aux meilleures pratiques de gestion des données et des opérations.

Forum Aux Questions

  • Un lac de données est un référentiel centralisé qui ingère, stocke et permet le traitement de grands volumes de données sous sa forme d’origine. Il peut contenir tous les types de données, qui sont ensuite utilisés pour activer l’analyse Big Data, le Machine Learning et d’autres formes d’action intelligente.

    En savoir plus sur les lacs de données

  • Les lacs de données stockent tous les types de données brutes que les scientifiques des données peuvent ensuite utiliser pour divers projets. Les entrepôts de données stockent des données nettoyées et traitées, qui peuvent ensuite être utilisées pour générer des rapports analytiques ou opérationnels, ainsi que des cas d’utilisation décisionnel spécifiques.

    Explorer les lacs de données par rapport aux entrepôts de données

  • Un data lakehouse combine des éléments d'un lac de données et d'un entrepôt de données pour former une solution flexible de bout en bout à des fins de science des données et d’intelligence commerciale.

    En savoir plus sur les data lakehouses

  • Absolument. Les principales organisations, tous secteurs confondus, s'appuient sur les quantités massives de données stockées dans les lacs de données pour mener des actions intelligentes, obtenir des informations et se développer.

    Découvrez les avantages des lacs de données

  • L'architecture du lac de données fait référence à la configuration spécifique des outils et des technologies qui permettent de maintenir les données du lac de données intégrées, accessibles, organisées et sécurisées.

    Explorez les meilleures pratiques en matière d'architecture de lac de données

Mise en route avec un compte Azure gratuit

Profitez de services d’analyse populaires gratuits pendant 12 mois, de plus de 25 services toujours gratuits et $200 d’un crédit à utiliser au cours de vos 30 premiers jours.

Contactez un spécialiste des ventes Azure

Obtenez des conseils pour démarrer avec l'analytique dans Azure. Posez des questions, découvrez les prix et les meilleures pratiques, et obtenez de l'aide pour concevoir une solution répondant à vos besoins.