Le 7 février 2019, nous avons annoncé la mise à disposition générale d'Azure Data Lake Storage (ADLS) Gen2. Azure est désormais le seul fournisseur de services cloud à offrir une solution de stockage cloud sans compromis, rapide, sécurisée, extrêmement évolutive, économique et parfaitement capable d'exécuter les charges de travail de production les plus exigeantes. Dans ce billet de blog, nous nous pencherons sur les bases techniques d'ADLS pour alimenter les scénarios d'analyse de bout en bout exigés par nos clients.
ADLS est le seul service de stockage cloud spécialement dédié à l'analytique du Big Data. Il est conçu pour s'intégrer à un large éventail de cadres analytiques permettant de créer un véritable lac de données d'entreprise, d'optimiser les performances via une véritable sémantique de système de fichiers et de s'adapter aux besoins des charges de travail analytiques les plus exigeantes. En outre, il est facturé aux tarifs de stockage des objets cloud et sa flexibilité lui permet de prendre en charge un large éventail de charges de travail afin de vous éviter de créer des silos pour vos données.
Un élément fondamental de la plateforme
La plateforme Azure Analytics propose non seulement un grand lac de données pour stocker vos données avec ADLS, mais elle comprend également de nombreux services supplémentaires et un écosystème dynamique pour vos pipelines d'analyse de bout en bout.
Azure propose des services tels que HDInsight et Azure Databricks pour le traitement des données, Azure Data Factory pour l'entrée et l'orchestration des données, Azure SQL Data Warehouse, Azure Analysis Services et Power BI pour l'utilisation de vos données selon un modèle connu sous le nom de Modern Data Warehouse, vous permettant ainsi d'optimiser les avantages de votre lac de données d'entreprise.
En outre, tout un écosystème d'outils et de cadres analytiques s'intègre à ADLS pour vous permettre de concevoir la solution qui répond à vos besoins.
« La gestion et la gouvernance des données sont des priorités pour les clients qui implémentent des solutions d'analytique cloud. L'équipe d'Azure Data Lake Storage Gen2 a été pour nous un excellent partenaire qui a assuré une intégration étroite afin d'offrir à nos clients une expérience de premier plan à l'heure où ils adoptent ADLS Gen2 ».
– Ronen Schwartz, vice-président principal et directeur général chargé de l'intégration des données et du cloud, Informatica
« La technologie de réplication de données Fusion de WANDisco, associée à Azure Data Lake Storage Gen2, offre à nos clients une solution LiveData convaincante pour l'analytique hybride en facilitant l'accès à Azure Data Services sans imposer de temps d'arrêt et sans interrompre les opérations locales ».
– David Richards, cofondateur et PDG, WANdisco
« Microsoft continue d'innover en fournissant un cadre évolutif et sécurisé adapté à la mission de Cloudera, qui consiste à fournir des services de cloud d'entreprise. Nous sommes très heureux de voir qu'Azure Data Lake Storage Gen2 se déploie à l'échelle mondiale. Nos clients mutuels peuvent tirer parti de la simplicité d'administration offerte par cette option de stockage lorsqu'elle est combinée à notre plateforme analytique ».
– Vikram Makhija, directeur général chargé du cloud, Cloudera
Performances
Les performances constituent le principal facteur de création de valeur pour les charges de travail de l'analytique du Big Data. La raison est simple : plus la couche de stockage est performante, moins il faut de calculs (la partie la plus coûteuse !) pour extraire la valeur de vos données. Par conséquent, non seulement vous bénéficiez d'un avantage concurrentiel en accédant plus rapidement aux informations, mais cela vous coûte également beaucoup moins cher.
« Nous avons constaté une amélioration de 40 % de nos performances et une réduction significative de notre empreinte de stockage après avoir testé l'un de nos workflows d'analyse des risques commerciaux sur Azure Data Lake Storage Gen2 chez Investment Management, à Zurich ».
– Valerio Bürker, chef de programme, solutions d'information sur les investissements, Zurich Insurance
Voyons maintenant comment ADLS parvient à réaliser de telles performances. La fonctionnalité la plus notable est l'espace de noms hiérarchique (HNS), qui permet à ce service de stockage extrêmement évolutif d'organiser vos données comme un système de fichiers avec une hiérarchie de répertoires. Tous les cadres analytiques (Spark, Hive, etc.) reposent sur l'hypothèse implicite que le service de stockage sous-jacent est un système de fichiers hiérarchique. Cela est particulièrement évident lorsque les données sont écrites dans des répertoires temporaires renommés une fois le travail accompli. Pour les magasins d'objets traditionnels basés sur le cloud, il s'agit d'une opération complexe O(n), n copies et suppressions, qui a un impact considérable sur les performances. Dans ADLS, ce changement de nom est une opération unique au niveau des métadonnées atomiques.
L'autre facteur qui contribue aux performances est le pilote Azure Blob FileSystem (ABFS). Ce pilote tire parti du fait que le point de terminaison ADLS est optimisé pour les charges de travail de l'analytique du Big Data. Ces charges de travail sont particulièrement sensibles à l'optimisation du débit via des opérations d'E/S étendues, à la différence d'autres magasins cloud à usage général qui doivent être optimisés pour une gamme beaucoup plus étendue d'opérations d'E/S. Ce niveau d'optimisation conduit à des améliorations significatives des performances d'E/S, qui profitent directement aux aspects de performances et de coût liés à l'exécution de charges de travail de l'analytique du Big Data sur Azure. Le pilote ABFS est fourni avec Apache Hadoop® et est disponible dans HDInsight et Azure Databricks, ainsi que dans d'autres distributions commerciales Hadoop.
Évolutive
L'évolutivité est également d'une importance capitale pour l'analytique du Big Data. Il ne sert à rien d'avoir une solution qui fonctionne bien pour quelques To de données, mais qui s'effondre lorsque, inévitablement, la taille des données augmente. Le taux de croissance des projets d'analytique du Big Data a tendance à être non linéaire compte tenu de la plus grande diversité et de l'accessibilité accrue des sources de données. La plupart des projets bénéficient du principe selon lequel plus vous disposez de données, meilleurs sont les insights. Toutefois, cela pose des problèmes de conception tels que le système doit évoluer au même rythme que la croissance des données. L'un des grands axes de conception des cadres analytiques du Big Data, tels que Hadoop et Spark, est l'évolution horizontale de ceux-ci. Cela signifie qu'à mesure que les données et/ou le traitement augmentent, il vous suffit d'ajouter des nœuds à votre cluster pour que le traitement se poursuive sans relâche. Cela nécessite toutefois une mise à l'échelle linéaire de la couche de stockage.
C'est là que réside l'intérêt de créer ADLS au-dessus du service Azure Blob existant. L'échelle EB de ce service s'applique désormais à ADLS, ce qui permet de veiller à l'absence de limite en matière de volume de données à stocker ou à consulter. Concrètement, les clients peuvent stocker des centaines de Po de données qui sont accessibles avec un débit suffisant pour satisfaire les charges de travail les plus exigeantes.
Sécurisé
Pour les clients qui souhaitent créer un lac de données afin de desservir toute l'entreprise, la sécurité ne doit pas être prise à la légère. La sécurité de bout en bout de votre lac de données comporte de nombreux aspects :
- Authentification : les jetons du porteurOAuth d'Azure Active Directory fournissent les mécanismes d'authentification standard, en s'appuyant sur le même service d'identité que dans Azure et Office365.
- Contrôle d'accès : combinaison de contrôle d'accès en fonction du rôle d'Azure (RBAC) et de listes de contrôle d'accès (ACL) compatibles POSIX pour fournir un contrôle d'accès flexible et évolutif. Les ACL POSIX reposent sur le même mécanisme que celui utilisé dans Hadoop.
- Chiffrement des données au repos et en transit : les données stockées dans ADLS sont chiffrées à l'aide d'une clé fournie par le système ou par le client. De plus, les données sont chiffrées à l'aide de TLS 1.2 pendant leur transit.
- Sécurité du transport sur le réseau : étant donné qu'ADLS expose les points de terminaison sur l'Internet public, les protections utilisées au niveau du transport sont fournies via des pare-feu de stockage qui restreignent de manière sécurisée l'accès aux données et sont appliquées au niveau des paquets.
L'intégration étroite à des cadres analytiques permet d'obtenir un pipeline sécurisé de bout en bout. Le Pack Sécurité Entreprise HDInsight assure l'authentification de l'utilisateur final à travers le cluster et vers les données du lac de données.
Commencez dès aujourd'hui !
Nous sommes impatients de connaître votre avis sur Azure Data Lake Storage ! Lancez-vous dès maintenant et faites-nous part de vos commentaires.
- Bien démarrer avec Azure Data Lake Storage.
- Regardez la vidéo, « Créer votre premier lac de données ADLS Gen2 ».
- Lisez l'annonce de la mise à disposition générale.
- Découvrez comment ADLS améliore la plateforme analytique Azure dans le billet de blog « Individuellement géniaux, collectivement inégalés : Annonce de mises à jour de 3 excellents services de données Azure ».
- Reportez-vous à la documentation consacrée à Azure Data Lake Storage Gen1.
- Apprenez à déployer un cluster HDInsight avec ADLS.
- Déployez un espace de travail Azure Databricks avec ADLS.
- Ingérez des données dans ADLS à l'aide d'Azure Data Factory.