Qu’est-ce que Data Lake ?
Découvrez la différence entre les lacs de données et les entrepôts de données. Découvrez comment créer une base évolutive pour toutes vos analyses avec Azure.
Définition d’un lac de données
Ce guide d’introduction explore les nombreux avantages et cas d’utilisation d’un lac de données. Découvrez ce qu’est un lac de données, pourquoi il est important et découvrez la différence entre les lacs de données et les entrepôts de données. Mais tout d’abord, définissons data lake en tant que terme.
Un lac de données est un référentiel centralisé qui ingère et stocke de grands volumes de données dans sa forme d’origine. Les données peuvent ensuite être traitées et utilisées comme base pour divers besoins analytiques. En raison de son architecture ouverte et évolutive, un lac de données peut prendre en charge tous les types de données de n’importe quelle source, du structuré (tables de base de données, feuilles Excel) aux semi-structurées (fichiers XML, pages web) aux non structurées (images, fichiers audio, tweets), le tout sans sacrifier la fidélité. Les fichiers de données sont généralement stockés dans des zones intermédiaires brutes, nettoyées et organisées afin que différents types d’utilisateurs puissent utiliser les données sous ses différentes formes pour répondre à leurs besoins. Les lacs de données fournissent une cohérence des données de base sur une variété d’applications, alimentant analytique Big Data, machine learning, l’analytique prédictive et d’autres formes d’action intelligente.
Pourquoi les lacs de données sont-ils importants pour les entreprises ?
Le monde d’aujourd’hui hautement connecté et piloté par les insights ne serait pas possible sans l’avent des solutions data lake. Cela est dû au fait que les organisations s’appuient sur des plateformes complètes de lacs de données, telles qu’Azure Data Lake, pour conserver les données brutes consolidées, intégrées, sécurisées et accessibles. Les outils de stockage évolutifs tels que Azure Data Lake Storage peuvent stocker et protéger les données dans un emplacement central, éliminant ainsi les silos à un coût optimal. Cela permet aux utilisateurs d’effectuer un large éventail de catégories de charge de travail, telles que le traitement big data, les requêtes SQL, l’exploration de texte, l’analyse de streaming et le Machine Learning. Les données peuvent ensuite être utilisées pour alimenter la visualisation des données en amont et les besoins de création de rapports ad hoc. Une plateforme de données moderne de bout en bout comme Azure Synapse Analytics répond aux besoins complets d’une architecture Big Data centrée autour du lac de données.
Cas d’utilisation de Data Lake
Avec une solution bien conçue, le potentiel d’innovation est infini. Voici quelques exemples de la façon dont les organisations d’un large éventail de secteurs utilisent les plateformes data lake pour optimiser leur croissance :
- Diffusion multimédia en continu. Les sociétés de diffusion en continu basées sur les abonnements collectent et traitent des insights sur le comportement des clients, qu’elles peuvent utiliser pour améliorer leur algorithme de recommandation.
- Finance. Les entreprises d’investissement utilisent les données de marché les plus récentes, collectées et stockées en temps réel, pour gérer efficacement les risques de portefeuille.
- Santé. Les organisations de santé s’appuient sur le Big Data pour améliorer la qualité des soins pour les patients. Les hôpitaux utilisent de grandes quantités de données historiques pour simplifier les parcours des patients, ce qui améliore les résultats et réduit le coût des soins.
- Détaillant Omnichannel. Les détaillants utilisent des lacs de données pour capturer et consolider les données provenant de plusieurs points de contact, notamment les réseaux mobiles, les réseaux sociaux, les conversations, le mot de la bouche et en personne.
- IoT. Les capteurs matériels génèrent d’énormes quantités de données semi-structurées en données non structurées sur le monde physique environnant. Les lacs de données fournissent un référentiel central dans lequel ces informations doivent résider pour une analyse ultérieure.
- Chaîne d’approvisionnement numérique. Les lacs de données aident les fabricants à consolider des données d’entreposage disparates, notamment des systèmes EDI, XML et JSON.
- Ventes. Les scientifiques des données et les ingénieurs commerciaux créent souvent des modèles prédictifs pour aider à déterminer le comportement des clients et à réduire l’évolution globale.
Data Lake et entrepôt de données
Maintenant, vous savez ce qu’est un lac de données, pourquoi il est important et comment il est utilisé au sein d’une variété d’organisations. Mais quelle est la différence entre un lac de données et un entrepôt de données ? Et quand est-il approprié d’utiliser l’un sur l’autre ?
Bien que les lacs de données et les entrepôts de données soient similaires en ce sens qu’ils stockent et traitent des données, chacun d’eux possède ses propres spécialisations et, par conséquent, ses propres cas d’utilisation. C’est pourquoi il est courant pour une organisation au niveau de l’entreprise d’inclure un lac de données et un entrepôt de données dans son écosystème d’analytique. Les deux référentiels fonctionnent ensemble pour former un système sécurisé de bout en bout pour le stockage, le traitement et un délai d’analyse plus rapide.
Un lac de données capture à la fois des données relationnelles et non relationnelles provenant de diverses sources d’applications métier, d’applications mobiles, d’appareils IoT, de réseaux sociaux ou de diffusion en continu sans avoir à définir la structure ou le schéma des données tant qu’elles ne sont pas lues. Le schéma en lecture garantit que tout type de données peut être stocké dans sa forme brute. Par conséquent, les lacs de données peuvent contenir un large éventail de types de données, de structurés à semi-structurés en non structurés, à n’importe quelle échelle. Leur nature flexible et évolutive les rend essentielles pour effectuer des formes complexes d’analyse des données à l’aide de différents types d’outils de traitement de calcul tels que Apache Spark or Azure Machine Learning.
En revanche, un entrepôt de données est relationnel par nature. La structure ou le schéma est modélisé ou prédéfini par des exigences métier et de produit organisées, conformes et optimisées pour les opérations de requête SQL. Alors qu’un lac de données contient des données de tous les types de structure, y compris les données brutes et non traitées, un entrepôt de données stocke les données qui ont été traitées et transformées avec un objectif spécifique à l’esprit, qui peuvent ensuite être utilisées pour sourcer des rapports analytiques ou opérationnels. Cela rend les entrepôts de données idéales pour produire des formes plus standardisées d’analyse décisionnelle ou pour traiter un cas d’usage métier déjà défini.
Data Lake | Entrepôt de données | |
---|---|---|
Type | Données structurées, semi-structurées, non structurées | Données structurées |
Données relationnelles, non relationnelles | Données relationnelles | |
Schéma | Schéma lors de la lecture | Schéma lors de l’écriture |
Format | Brut, non filtré | Traité, vérifié |
Sources | Big Data, IoT, réseaux sociaux, données de streaming | Application, entreprise, données transactionnelles, reporting par lots |
Extensibilité | Facilité de mise à l’échelle à moindre coût | Mise à l’échelle difficile et coûteuse |
Utilisateurs | Scientifiques des données, ingénieurs données | Professionnels de l’entrepôt de données, analystes d’entreprise |
Cas d’usage | Machine Learning, analyse prédictive, analytique en temps réel | Reporting de base, décisionnel |
Data lake et data lakehouse
Vous connaissez maintenant la différence entre un lac de données et un entrepôt de données. Mais quelle est la différence entre un lac de données et un data lakehouse ? Est-il nécessaire d’avoir les deux ?
Malgré ses nombreux avantages, un lac de données traditionnel n’est pas sans inconvénients. Étant donné que les lacs de données peuvent prendre en charge tous les types de données provenant de toutes sortes de sources, des problèmes liés au contrôle de la qualité, à l’altération des données et à un partitionnement incorrect peuvent se produire. Un lac de données mal géré ternit non seulement l’intégrité des données, mais il peut également entraîner des goulots d’étranglement, des performances lentes et des risques de sécurité.
C’est là que le data lakehouse entre en jeu. Un data lakehouse est une solution de stockage ouverte basée sur des normes qui est multifacettes par nature. Il peut répondre aux besoins des scientifiques des données et des ingénieurs qui effectuent une analyse et un traitement approfondis des données, ainsi qu’aux besoins des professionnels traditionnels de l’entrepôt de données qui organisent et publient des données à des fins d’aide à la décision et de création de rapports. La beauté du lac est que chaque charge de travail peut fonctionner en toute transparence sur le lac de données sans avoir à dupliquer les données dans une autre base de donnéesstructurellement prédéfinie. Cela garantit que tout le monde travaille sur les données les plus récentes, tout en réduisant les redondances.
Les data lakehouses répondent aux défis des lacs de données traditionnels en ajoutant une couche de stockage Delta Lake directement au-dessus du lac de données cloud. La couche de stockage fournit une architecture analytique flexible qui peut gérer les transactions ACID (atomicité, cohérence, isolation et durabilité) pour la fiabilité des données, les intégrations de streaming et les fonctionnalités avancées telles que le contrôle de version des données et l’application du schéma. Cela permet une gamme d’activités analytiques sur le lac, le tout sans compromettre la cohérence des données de base. Bien que la nécessité d’un lakehouse dépend de la complexité de vos besoins, sa flexibilité et sa plage en font une solution optimale pour de nombreuses organisations d’entreprise.
Data Lake | Data Lakehouse | |
---|---|---|
Type | Données structurées, semi-structurées, non structurées | Données structurées, semi-structurées, non structurées |
Données relationnelles, non relationnelles | Données relationnelles, non relationnelles | |
Schéma | Schéma lors de la lecture | Schéma en lecture, schéma en écriture |
Format | Brut, non filtré, traité, organisé | Fichiers bruts, non filtrés, traités, organisés, au format delta |
Sources | Big Data, IoT, réseaux sociaux, données de streaming | Big Data, IoT, réseaux sociaux, données de streaming, application, entreprise, données transactionnelles, rapports par lots |
Extensibilité | Facilité de mise à l’échelle à moindre coût | Facilité de mise à l’échelle à moindre coût |
Utilisateurs | Scientifiques des données | Analystes d’entreprise, ingénieurs données, scientifiques des données |
Cas d’usage | Machine Learning, analytique prédictive | Rapports de base, BI, apprentissage automatique, analyse prédictive |
Qu’est-ce que l’architecture data lake ?
À la base, un lac de données est un référentiel de stockage sans architecture de jeu propre. Pour tirer le meilleur parti de ses fonctionnalités, elle nécessite un large éventail d’outils, de technologies et de moteurs de calcul qui permettent d’optimiser l’intégration, le stockage et le traitement des données. Ces outils fonctionnent ensemble pour créer une architecture en couches cohérentes, qui est informée par le Big Data et s’exécute sur le lac de données. Cette architecture peut également former la structure d’exploitation d’un data lakehouse. Chaque organisation a sa propre configuration unique, mais la plupart des architectures data lakehouse présentent les caractéristiques suivantes :
- Gestion des ressources et d’orchestration. Un gestionnaire de ressources permet au lac de données d’exécuter de manière cohérente des tâches en allouant la quantité appropriée de données, de ressources et de puissance de calcul aux bons emplacements.
- Connecteurs pour un accès facile. Divers flux de travail permettent aux utilisateurs d’accéder et de partager facilement les données dont ils ont besoin sous la forme dans laquelle ils en ont besoin.
- Analytique fiable. Un bon service d’analytique doit être rapide, évolutif et distribué. Il doit également prendre en charge un large éventail de catégories de charge de travail dans plusieurs langues.
- Classification des données. Le profilage, le catalogage et l’archivage des données aident les organisations à suivre le contenu, la qualité, l’emplacement et l’historique des données.
- Processus ELT (Extract, load, transform). ELT fait référence aux processus par lesquels les données sont extraites de plusieurs sources et chargées dans la zone brute du lac de données, puis nettoyées et transformées après l’extraction afin que les applications puissent les utiliser facilement.
- Sécurité et support. Les outils de protection des données tels que le masquage, l’audit, le chiffrement et la surveillance de l’accès garantissent que vos données restent sécurisées et privées.
- Gouvernance et intendance. Pour que la plateforme data lake s’exécute aussi facilement que possible, les utilisateurs doivent être informés de sa configuration architecturale, ainsi que des meilleures pratiques pour la gestion des données et des opérations.
Ressources supplémentaires
Explorer
Questions fréquentes
-
Un lac de données est un référentiel centralisé qui ingère, stocke et permet le traitement de grands volumes de données dans sa forme d’origine. Il peut prendre en charge tous les types de données, qui sont ensuite utilisés pour alimenter l’analytique big data, le Machine Learning et d’autres formes d’action intelligente.
-
Les organisations d’un large éventail de secteurs, notamment la vente au détail, la finance et le divertissement, utilisent des plateformes Data Lake pour stocker des données, recueillir des insights et améliorer la qualité globale de leurs services. Les entreprises d’investissement, par exemple, utilisent des lacs de données pour collecter et traiter des données de mise sur le marché, ce qui leur permet de gérer les risques de portefeuille plus efficacement.
-
Les lacs de données stockent tous les types de données brutes, que les scientifiques des données peuvent ensuite utiliser pour divers projets. Les entrepôts de données stockent des données nettoyées et traitées, qui peuvent ensuite être utilisées pour sourcer des rapports analytiques ou opérationnels, ainsi que des cas d’usage décisionnel spécifiques.
-
Un data lakehouse combine des éléments d’un lac de données et d’un entrepôt de données pour former une solution flexible et de bout en bout pour science des données et des objectifs décisionnels.
-
Absolument. Les principales organisations de tous les secteurs s’appuient sur les quantités massives de données stockées dans les lacs de données pour alimenter une action intelligente, obtenir des insights et croître.
-
De grands volumes de données, y compris des données brutes et non structurées, peuvent être difficiles à gérer, ce qui entraîne des goulots d’étranglement, une altération des données, des problèmes de contrôle de qualité et des problèmes de performances. C’est pourquoi il est important de maintenir de bonnes pratiques de gouvernance et de gestion pour vous aider à exécuter votre plateforme Data Lake sans problème.
-
L’architecture data lake fait référence à la configuration spécifique d’outils et de technologies qui permet de conserver les données du lac de données intégrées, accessibles, organisées et sécurisées.
Explorer les meilleures pratiques pour l’architecture data lake
Compte gratuit
Essayez les services Azure de cloud computing gratuitement pendant 30 jours maximum.
Paiement à l’utilisation
Commencez en optant pour une tarification à l’utilisation. Pas d’engagement initial. Annulation possible à tout moment.