Questions? Feedback? powered by Olark live chat software
Passer la navigation

Hadoop

Qu'est-ce que Hadoop ?

Apache Hadoop est un logiciel open source destiné au stockage et à l'analyse d'énormes quantités de données, structurées et non structurées. Il peut s'agir de téraoctets, voire davantage, de toutes sortes d'informations : messages électroniques, lectures de capteurs, journaux de serveurs, flux Twitter, signaux GPS, etc. Hadoop peut traiter des ensembles volumineux de données, pas toujours ordonnées, afin d'en acquérir une compréhension et de trouver des réponses, ce qui permet d'en dégager des informations significatives.

Bref historique de Hadoop

Créé en 2005 par Mike Cafarella et Doug Cutting (qui lui a donné le nom de l'éléphant jouet de son fils), Hadoop était destiné à l'origine au traitement de données de recherche en relation avec le web. Aujourd'hui, il s'agit d'un projet open source, basé sur une communauté, conduit par l'Apache Software Foundation, et utilisé dans toutes sortes d'organisations et de secteurs. Microsoft contribue activement à l'effort de développement de la communauté.

Microsoft
L'année dernière, Microsoft a consacré plus de 6 000 heures d'ingénierie à la validation de code et à l'apport d'innovation en partenariat avec la communauté open source dans le cadre d'une série de projets Hadoop. De plus, Microsoft dispose de validateurs experts de Hadoop, et Chris Douglas, employé de Microsoft, est Président du groupe de travail Apache pour Hadoop.

–David Campbell, membre de Microsoft et directeur technique

Conçu pour les serveurs traitant quotidiennement de grandes quantités de données

L'une des raisons de la popularité de Hadoop est purement économique. Il fut un temps où le traitement de grandes quantités de données nécessitait de disposer de supercalculateurs et d'autres ressources matérielles spécialisées et coûteuses. Hadoop permet d'effectuer des opérations de calcul fiables, extensibles et distribuées sur des serveurs standard. Vous pouvez ainsi traiter des pétaoctets de données, voire davantage, à moindre coût. Hadoop est également conçu pour pouvoir évoluer d'un simple serveur à des milliers d'ordinateurs, et ainsi détecter et gérer les défaillances au niveau de la couche Application pour offrir une meilleure fiabilité.

Virginia Tech
Les chercheurs de Virginia Tech utilisent Hadoop pour analyser des pétaoctets de données d'ADN afin d'élaborer des thérapies contre le cancer et des antibiotiques.

Interprétation de tous types de données

Selon certaines estimations, jusqu'à 80 % des données aujourd'hui traitées par les organisations ne sont pas de celles qui sont clairement organisées en colonnes et en lignes. Il s'agit au contraire de monceaux désordonnés de messages, flux de médias sociaux, images satellite, signaux GPS, journaux de serveurs et autres fichiers non structurés et non relationnels. Hadoop est capable de traiter pratiquement tout fichier ou format (autre avantage majeur), ce qui permet aux organisations de poser des questions auxquelles elles n'auraient jamais imaginé qu'il fût possible de répondre.

Barcelone
Grâce à Azure, HDInsight et SQL Server 2012, nous pouvons collecter, analyser et générer presque en temps réel des informations d'aide à la décision basées sur les données volumineuses que nous collectons à partir de flux de médias sociaux, de signaux GPS et de systèmes gouvernementaux.

–Luis Sanz Marco, Ville de Barcelone

Voir comment la ville de Barcelone utilise Hadoop sur Microsoft Azure

Pourquoi Hadoop dans le cloud ?

Vous pouvez déployer Hadoop dans un centre de données local traditionnel. Certaines entreprises, dont Microsoft, proposent également Hadoop sous la forme d'un service basé sur le cloud. Une question évidente se pose : pourquoi utiliser Hadoop dans le cloud ? Voici pourquoi un nombre croissant d'organisations choisissent cette option.

Le cloud permet d'économiser du temps et de l'argent

« Open source » ne veut pas dire gratuit. Un déploiement local de Hadoop nécessite des serveurs et des experts qualifiés dans Hadoop, pour assurer la configuration, le réglage et la maintenance. Un service cloud vous permet de démarrer un cluster Hadoop en quelques minutes sans frais initiaux.

Virginia Tech
Voyez comment Virginia Tech utilise le cloud de Microsoft au lieu de dépenser des millions de dollars pour mettre en place leur propre centre de supercalcul.

Le cloud est flexible et s'adapte rapidement

Dans le cloud Microsoft Azure, vous payez uniquement pour les ressources de calcul et de stockage que vous utilisez, quand vous les utilisez. Démarrez un cluster Hadoop, analysez vos données, puis arrêtez-le pour interrompre la mesure.

NHS
Nous avons rapidement démarré le cluster Azure HDInsight et traité six années de données en quelques heures, puis nous l'avons arrêté&ellipsis; Le traitement des données dans le cloud a rendu l'opération très abordable.

–Paul Henderson, National Health Service (R.-U.)

Le cloud vous rend agile

Créez un cluster Hadoop en quelques minutes, puis ajoutez des nœuds à la demande. Le cloud offre aux organisations un résultat immédiat.

Chr Hansen
Il a été extraordinairement plus rapide de faire cela dans le cloud avec Azure. Nous avons pu implémenter la solution et commencer à traiter des données en moins d'une semaine.

–Morten Meldgaard, Chr. Hansen

Rencontrer HDInsight : Hadoop dans le cloud Azure

Microsoft Azure HDInsight est un service basé à 100 % sur Apache Hadoop dans le cloud Azure. Il offre tous les avantages de Hadoop, ainsi que la capacité d'intégration avec Excel, vos clusters Hadoop locaux et l'écosystème Microsoft de logiciels et services de gestion.

Voir une présentation de HDInsight