L’explosion de la prise de décision basée sur les données incite les entreprises à adopter une stratégie de données permettant de fournir une meilleure expérience aux clients, d’améliorer l’efficacité opérationnelle et de prendre des décisions en temps réel sur la base de données. Étant donné que les entreprises sont de plus en plus tournées vers les données, davantage de clients créent des lacs de données sur Azure. Par ailleurs, nous entendons que l’optimisation des coûts et l’augmentation des performances sont deux des caractéristiques les plus importantes de l’architecture de lac de données sur Azure. Normalement, ces deux qualités s’excluent l’une l’autre : si vous souhaitez de meilleures performances, vous devez payer plus. À l’inverse, si vous voulez réaliser des économies, vous devez vous attendre à une diminution de votre courbe de performances.
C’est la raison pour laquelle, nous annonçons aujourd’hui la préversion de Query Acceleration for Azure Data Lake Storage, une nouvelle fonctionnalité d’Azure Data Lake Storage, qui améliore les performances tout en permettant de réaliser des économies. Désormais disponible, cette fonctionnalité devrait permettre aux clients de bénéficier de ces avantages et d’améliorer le déploiement de leur lac de données sur Azure.
Comment Query Acceleration for Azure Data Lake améliore les performances et permet de réaliser des économies
Les infrastructures analytiques Big Data, telles que Spark, Hive et autres applications de traitement de données à grande échelle, fonctionnent en lisant toutes les données à l’aide d’une plateforme informatique distribuée horizontalement évolutive, utilisant des techniques telles que MapReduce. Toutefois, pour atteindre son objectif, une requête ou transformation spécifique n’a généralement pas besoin de toutes les données. Par conséquent, les applications impliquent généralement les frais de lecture, de transfert sur le réseau, d’analyse en mémoire et enfin de filtrage de la majorité des données qui ne sont pas requises. Étant donné l’ampleur des déploiements de ces lacs de données, ces coûts deviennent un facteur majeur qui a un impact sur la conception et sur l’ambition que l’on peut avoir. En améliorant à la fois le facteur coût et les performances, vous augmentez la quantité d’informations précieuses que vous pouvez extraire de vos données.
Query Acceleration for Azure Data Lake Storage permet aux applications et aux infrastructures de « pousser vers le bas » les prédicats et les projections en colonnes, afin qu’ils puissent être appliqués au moment de la première lecture des données, ce qui signifie que toute la gestion des données en aval est épargnée du coût de filtrage et de traitement des données non requises.
Le schéma suivant illustre comment une application classique utilise Query Acceleration pour traiter les données :
- L’application cliente demande les données de fichier en spécifiant les prédicats et les projections en colonnes.
- Query Acceleration analyse la requête spécifiée et distribue le travail pour analyser et filtrer les données.
- Les processeurs lisent les données à partir du disque, les analysent en utilisant le format approprié, puis les filtrent en appliquant les prédicats et les projections en colonnes spécifiés.
- Query Acceleration combine les partitions de réponse à retransmettre à l’application cliente.
- L’application cliente reçoit et analyse la réponse transmise. L’application n’a pas besoin de filtrer de données supplémentaires et peut appliquer directement la transformation ou le calcul souhaité.
Azure offre de puissants services analytiques
Nous nous engageons à faire d’Azure l’endroit par excellence où les organisations peuvent obtenir des informations transformationnelles à partir de toutes les données. Query Acceleration for Azure Data Lake Storage est un nouvel exemple de cet engagement. Les clients peuvent bénéficier d’une étroite intégration avec d’autres services Azure pour créer de puissantes solutions analytiques de bout en bout à l’échelle du cloud. Ces solutions garantissent une prise en charge simple et plus économique de l’entreposage de données moderne, de l’analytique avancée et de l’analytique en temps réel.
Nous nous sommes également engagés à rester une plateforme ouverte où les solutions open source les plus performantes peuvent toutes de la même manière tirer parti des innovations se produisant à tous les points de la plateforme. Grâce à Azure Data Lake Storage qui sous-tend un écosystème complet de puissants services analytiques, les clients peuvent extraire des informations transformationnelles de toutes les ressources de données.
En savoir plus
Pour en savoir plus sur Query Acceleration for Azure Data Lake Storage, vous disposez des possibilités suivantes :
- Vous inscrire au programme Préversion d’Azure Data Lake Storage.
- Lire la documentation consacrée à Azure Data Lake Storage.
- Découvrir comment utiliser Query Acceleration for Java et .NET.
- Prendre connaissance du modèle de tarification de Query Acceleration.
- En savoir plus sur Azure Data Lake Storage.