Qu’est-ce qu’Azure Data Lake Storage Gen1 ?

Notes

Azure Data Lake Storage Gen1 est maintenant mis hors service. Consultez l’annonce de mise à la retraite ici. Data Lake Storage Gen1 ressources ne sont plus accessibles. Si vous avez besoin d’aide spéciale, contactez-nous.

Azure Data Lake Storage Gen1 est un référentiel d’entreprise à très grande échelle pour les charges de travail d’analyse du Big Data. Azure Data Lake vous permet de capturer les données de toute taille, de tout type et à toute vitesse d'ingestion dans un emplacement unique en vue d'une analyse opérationnelle et exploratoire.

Data Lake Storage Gen1 est accessible à partir de Hadoop (disponible avec le cluster HDInsight) avec les API REST compatibles WebHDFS. Il est conçu pour permettre l’analyse des données stockées et met l’accent sur les performances des scénarios d’analyse des données. Data Lake Storage Gen1 intègre toutes les capacités de qualité professionnelle requises en matière de sécurité, de facilité de gestion, d’extensibilité, de fiabilité et de disponibilité.

Azure Data Lake

Fonctionnalités clés

Voici quelques-unes des fonctionnalités clés de Data Lake Storage Gen1.

Conçu pour Hadoop

Data Lake Storage Gen1 est un système de fichiers Apache Hadoop compatible avec HDFS (Hadoop Distributed File System) et fonctionnant avec l’écosystème Hadoop. Vos applications ou services HDInsight existants, qui utilisent l’API WebHDFS, peuvent s’intégrer facilement à Data Lake Storage Gen1. Data Lake Storage Gen1 offre également une interface REST compatible WebHDFS pour les applications.

Vous pouvez facilement analyser les données stockées dans Data Lake Storage Gen1 avec les infrastructures d’analyse Hadoop, comme MapReduce ou Hive. Vous pouvez approvisionner et configurer les clusters Azure HDInsight pour accéder directement aux données stockées dans Data Lake Storage Gen1.

Stockage illimité, fichiers de l’ordre du pétaoctet

Data Lake Storage Gen1 offre un stockage illimité et peut stocker une grande variété de données à des fins d’analyse. Il n’impose aucune limite de taille de compte, de taille de fichier ou de quantité de données stockées dans un Data Lake. La taille des fichiers individuels peut varier d’un kilooctet à plusieurs pétaoctets. Les données sont stockées durablement en créant des copies multiples. De plus, il n’existe aucune limite de durée de stockage des données dans le lac de données.

Performances optimisées pour l'analyse du Big Data

Data Lake Storage Gen1 est conçu pour faire fonctionner des systèmes d’analyse à grande échelle, nécessitant un débit élevé pour interroger et analyser de grands volumes de données. Le lac de données répartit les différentes parties des fichiers sur plusieurs serveurs de stockage distincts. Cela améliore le débit de lecture lors de la lecture du fichier en parallèle de l'analyse de données.

Service adapté aux entreprises : sécurisé et hautement disponible

Data Lake Storage Gen1 offre une fiabilité et une disponibilité aux normes industrielles. Vos données sont stockées durablement en créant des copies redondantes pour vous prémunir contre toute défaillance imprévue.

Data Lake Storage Gen1 fournit également une sécurité de niveau entreprise des données stockées. Pour plus d’informations, consultez Sécurisation des données dans Azure Data Lake Storage Gen1.

Toutes les données

Data Lake Storage Gen1 peut stocker des données dans leur format natif, sans nécessiter de transformations préalables. Data Lake Storage Gen1 ne requiert pas la définition d’un schéma avant le chargement des données, laissant ainsi à l’infrastructure d’analyse individuelle le soin d’interpréter les données et de définir un schéma au moment de l’analyse. La possibilité de stocker les fichiers de formats et de tailles arbitraires rend possible la gestion par Data Lake Storage Gen1 de données structurées, semi-structurées et non structurées.

Les conteneurs Data Lake Storage Gen1 pour données sont essentiellement des dossiers et des fichiers. Vous travaillez sur les données stockées à l’aide de SDK, du Portail Azure et d’Azure PowerShell. Si vous placez vos données dans le magasin en utilisant ces interfaces et les conteneurs appropriés, vous pouvez stocker n’importe quel type de données. Data Lake Storage Gen1 n’effectue aucune opération particulière sur les données en fonction du type de données qu’il contient.

Sécurisation des données

Data Lake Storage Gen1 utilise Microsoft Entra ID pour l’authentification et les listes de contrôle d’accès (ACL) pour gérer l’accès à vos données.

Fonctionnalité Description
Authentification Data Lake Storage Gen1 s’intègre à Microsoft Entra ID pour la gestion des identités et des accès pour toutes les données stockées dans Data Lake Storage Gen1. Grâce à l’intégration, Data Lake Storage Gen1 bénéficie de toutes les fonctionnalités Microsoft Entra telles que l’authentification multifacteur, l’accès conditionnel, le contrôle d’accès en fonction du rôle Azure, la surveillance de l’utilisation des applications, la surveillance de la sécurité et les alertes, etc. Data Lake Storage Gen1 prend en charge le protocole OAuth 2.0 pour l’authentification auprès de l’interface REST. Consultez Data Lake Storage Gen1 authentication (Authentification Data Lake Storage Gen1).
Contrôle d’accès Data Lake Storage Gen1 offre un contrôle d’accès grâce à la prise en charge des autorisations de type POSIX exposées par le protocole WebHDFS. Vous pouvez activer les ACL au niveau du dossier racine, des sous-dossiers et des fichiers individuels. Pour plus d’informations sur le fonctionnement des listes ACL dans le contexte de Data Lake Storage Gen1, consultez Contrôle d’accès dans Data Lake Storage Gen1.
Chiffrement Data Lake Storage Gen1 assure également le chiffrement des données stockées dans le compte. Vous spécifiez les paramètres de chiffrement lors de la création d’un compte Data Lake Storage Gen1. Vous pouvez choisir de chiffrer vos données ou non. Pour plus d’informations, consultez l’article Chiffrement dans Data Lake Storage Gen1. Pour savoir comment définir une configuration avec chiffrement, consultez Prise en main de Data Lake Storage Gen1 à l’aide du Portail Azure.

Pour savoir comment sécuriser les données dans Data Lake Storage Gen1, consultez Sécurisation des données dans Azure Data Lake Storage Gen1.

Compatibilité des applications

Data Lake Storage Gen1 est compatible avec la plupart des composants open source de l’écosystème Hadoop. Par ailleurs, il s’intègre facilement avec d’autres services Azure. Pour en savoir plus sur l’utilisation de Data Lake Storage Gen1 avec des composants open source et d’autres services Azure, suivez les liens suivants :

Système de fichiers Data Lake Storage Gen1

Data Lake Storage Gen1 est accessible via le système de fichiers AzureDataLakeFilesystem (adl://) dans les environnements Hadoop (disponible avec le cluster HDInsight). Les applications et les services qui utilisent adl:// peuvent tirer parti d’autres optimisations des performances, qui ne sont actuellement pas disponibles dans WebHDFS. Par conséquent, Data Lake Storage Gen1 vous laisse la liberté, soit de bénéficier de performances optimales en utilisant adl:// (option recommandée), soit de maintenir le code existant en continuant d’utiliser l’API WebHDFS directement. Azure HDInsight tire pleinement parti du système de fichiers AzureDataLakeFilesystem pour optimiser les performances sur Data Lake Storage Gen1.

Vous pouvez accéder à vos données dans Data Lake Storage Gen1 à l’aide de adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Pour plus d’informations sur la façon d’accéder aux données dans Data Lake Storage Gen1, consultez Afficher les propriétés des données stockées.

Étapes suivantes