Passer la navigation

Individuellement géniaux, collectivement inégalés : Annonce de mises à jour de 3 excellents services de données Azure

Publié le 7 février, 2019

General Manager, Azure Storage

Comme Julia White l’a mentionné dans son blog aujourd’hui, nous sommes heureux d’annoncer la disponibilité générale d’Azure Data Lake Storage Gen2 et d’Azure Data Explorer. Nous avons également annoncé la préversion de la fonctionnalité de mappage de flux de données d’Azure Data Factory. Grâce à ces mises à jour, Azure continue d’être le meilleur cloud pour l’analytique, avec un rapport performances/prix et une sécurité inégalés. Dans ce billet de blog, nous allons examiner de plus près les capacités techniques de ces nouvelles fonctionnalités.

Azure Data Lake Storage – Le Data Lake sans compromis

Azure Data Lake Storage (ADLS) associe l’extensibilité, la rentabilité, le modèle de sécurité et les nombreuses fonctionnalités du Stockage Blob Azure à un système de fichiers hautes performances conçu pour l’analytique et compatible avec le système de fichiers DFS Hadoop. Les clients n’ont plus à trouver de compromis entre rentabilité et performances lors du choix d’un Data Lake cloud.

L’une de nos priorités était de faire en sorte qu’ADLS soit compatible avec l’écosystème Apache. Nous y sommes parvenus en développant le pilote Azure Blob File System (ABFS). Le pilote ABFS fait officiellement partie d’Apache Hadoop et Spark et est incorporé dans de nombreuses distributions commerciales. Le pilote ABFS définit un schéma d’URI qui permet d’adresser des fichiers et dossiers de façon distincte comme suit :

abfs[s]://file_system@account_name.dfs.core.windows.net/<chemin>/<chemin>/<nom_fichier>

Il est important de noter que la sémantique du système de fichiers est implémentée côté serveur. Cette approche élimine le besoin d’un pilote complexe côté client et garantit des transactions de système de fichiers haute fidélité.

Pour améliorer encore les performances de l’analytique, nous avons implémenté un espace de noms hiérarchique (HNS) qui prend en charge les opérations atomiques sur des fichiers et dossiers. C’est important car cela réduit le coût associé au traitement du Big Data sur un Stockage Blob. Cela accélère l’exécution des travaux et réduit les coûts, car moins d’opérations de calcul sont nécessaires.

Le pilote ABFS et le HNS améliorent considérablement les performances d’ADLS, en supprimant les goulots d’étranglement de la mise à l’échelle.  Cette amélioration des performances est désormais disponible au même coût modique que le Stockage Blob Azure.

ADLS offre les puissantes fonctionnalités de sécurité des données intégrées dans Stockage Blob Azure, par exemple :

  • Chiffrement des données en transit et au repos via TLS 1.2
  • Pare-feu de compte de stockage
  • Intégration de réseau virtuel
  • Sécurité d’accès en fonction du rôle

De plus, le système de fichiers d’ADLS prend en charge les listes de contrôle d’accès (ACL) compatibles POSIX. Cette approche vous permet de fournir une protection de sécurité granulaire qui restreint l’accès aux seuls utilisateurs, groupes ou principaux de service autorisés, et protège les données des fichiers et objets.

Diagramme Azure Data Lake Storage.jpg

ADLS est étroitement intégré avec Azure Databricks, Azure HDInsight, Azure Data Factory, Azure SQL Data Warehouse et Power BI, ce qui permet un flux de travail analytique de bout en bout fournissant des perspectives d’affaires à tous les niveaux de votre organisation. De plus, ADLS est pris en charge par un réseau mondial d’éditeurs de logiciels indépendants d’analytique du Big Data et d’intégrateurs système incluant Cloudera et Hortonworks.

Étapes suivantes

Azure Data Explorer – Le service d’analytique données rapide et hautement évolutif

Azure Data Explorer (ADX) est un service d’analytique données rapide et complètement managé pour l’analyse en temps réel de volumes importants de données de streaming. ADX est capable d’interroger 1 milliard d’enregistrements en moins d’une seconde, sans qu’aucune modification des données ou des métadonnées soit requise. ADX inclut également des connecteurs natifs à Azure Data Lake Storage, Azure SQL Data Warehouse et Power BI, ainsi qu’un langage de requête intuitif permettant aux clients d’obtenir des insights en quelques minutes.

Conçu pour la rapidité et la simplicité, ADX est architecturé avec deux services distincts qui fonctionnent en tandem : le service Moteur et le service Gestion des données. Les deux services sont déployés en tant que clusters de nœuds de calcul (machines virtuelles) dans Azure.

Diagramme Azure Data Explorer

Le service Gestion des données ingère divers types de données brutes et gère les tâches d’échec, de régulation de flux et de nettoyage des données si nécessaire. Le service Gestion des données permet également une ingestion rapide des données grâce à une méthode unique d’indexation et de compression automatiques.

Le service Moteur est responsable du traitement des données brutes entrantes ainsi que des requêtes des utilisateurs. Il utilise une combinaison de mise à l’échelle automatique et de partitionnement des données pour atteindre la vitesse et l’échelle nécessaires. Le langage de requête en lecture seule est conçu pour faciliter la lecture, la création et l’automatisation de la syntaxe. Le langage permet une progression naturelle à partir de requêtes d’une ligne vers des scripts de traitement de données complexes pour une exécution efficace des requêtes.

Disponible dans 41 régions Azure, ADX est pris en charge par un écosystème croissant de partenaires, dont des éditeurs de logiciels indépendants et des intégrateurs système.

Étapes suivantes

Fonctionnalité de mappage de flux de données d’Azure Data Factory – Expérience visuelle sans code pour la transformation de données

Azure Data Factory (ADF) est un service hybride d’intégration de données basé sur le cloud permettant d’orchestrer et d’automatiser le déplacement et la transformation de données. ADF fournit plus de 80 connecteurs intégrés vers des sources de données structurées, semi-structurées et non structurées.

La fonctionnalité de mappage de flux de données d’ADF permet aux clients de concevoir, générer et gérer visuellement des processus de transformation de données devoir apprendre Spark ou acquérir une compréhension approfondie de leur infrastructure distribuée.

Fonctionnalité de mappage de flux de données d’Azure Data Factory

La fonctionnalité de mappage de flux de données combine un langage riche en expressions avec un débogueur interactif pour exécuter, déclencher et surveiller facilement les travaux ETL et les processus d’intégration de données.

Déjà disponible dans 21 régions, Azure Data Factory est en pleine expansion. Il est pris en charge par un vaste écosystème de partenaires, incluant des éditeurs de logiciels indépendants et des intégrateurs système.

Étapes suivantes

Azure est la solution idéale pour l’analytique données

Avec les innovations techniques annoncées aujourd’hui, Azure continue d’être le meilleur cloud pour l’analytique. Découvrez pourquoi l’analytique dans Azure est tout simplement inégalée.