Passer la navigation

Hadoop

Qu'est-ce que Hadoop ?

Apache Hadoop est un logiciel open source destiné au stockage et à l'analyse d'énormes quantités de données, structurées et non structurées. Il peut s'agir de téraoctets, voire davantage, de toutes sortes d'informations : messages électroniques, lectures de capteurs, journaux de serveurs, flux Twitter, signaux GPS, etc. Hadoop peut traiter des ensembles volumineux de données, pas toujours ordonnées, afin d'en acquérir une compréhension et de trouver des réponses, ce qui permet d'en dégager des informations significatives.

Bref historique de Hadoop

Créé en 2005 par Mike Cafarella et Doug Cutting (qui lui a donné le nom de l'éléphant jouet de son fils), Hadoop était destiné à l'origine au traitement de données de recherche en relation avec le web. Aujourd'hui, il s'agit d'un projet open source, basé sur une communauté, conduit par l'Apache Software Foundation, et utilisé dans toutes sortes d'organisations et de secteurs. Microsoft contribue activement à l'effort de développement de la communauté.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, membre de Microsoft et directeur technique

Conçu pour les serveurs traitant quotidiennement de grandes quantités de données

L'une des raisons de la popularité de Hadoop est purement économique. Il fut un temps où le traitement de grandes quantités de données nécessitait de disposer de supercalculateurs et d'autres ressources matérielles spécialisées et coûteuses. Hadoop permet d'effectuer des opérations de calcul fiables, extensibles et distribuées sur des serveurs standard. Vous pouvez ainsi traiter des pétaoctets de données, voire davantage, à moindre coût. Hadoop est également conçu pour pouvoir évoluer d'un simple serveur à des milliers d'ordinateurs, et ainsi détecter et gérer les défaillances au niveau de la couche Application pour offrir une meilleure fiabilité.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Interprétation de tous types de données

Selon certaines estimations, jusqu'à 80 % des données aujourd'hui traitées par les organisations ne sont pas de celles qui sont clairement organisées en colonnes et en lignes. Il s'agit au contraire de monceaux désordonnés de messages, flux de médias sociaux, images satellite, signaux GPS, journaux de serveurs et autres fichiers non structurés et non relationnels. Hadoop est capable de traiter pratiquement tout fichier ou format (autre avantage majeur), ce qui permet aux organisations de poser des questions auxquelles elles n'auraient jamais imaginé qu'il fût possible de répondre.

Barcelone
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, Ville de Barcelone

Voir comment la ville de Barcelone utilise Hadoop sur Microsoft Azure

Pourquoi Hadoop dans le cloud ?

Vous pouvez déployer Hadoop dans un centre de données local traditionnel. Certaines entreprises, dont Microsoft, proposent également Hadoop sous la forme d'un service basé sur le cloud. Une question évidente se pose : pourquoi utiliser Hadoop dans le cloud ? Voici pourquoi un nombre croissant d’organisations choisissent cette option.

Le cloud permet d'économiser du temps et de l'argent

« Open source » ne veut pas dire gratuit. Un déploiement local de Hadoop nécessite des serveurs et des experts qualifiés dans Hadoop, pour assurer la configuration, le réglage et la maintenance. Un service cloud vous permet de démarrer un cluster Hadoop en quelques minutes sans frais initiaux.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

Le cloud est flexible et s'adapte rapidement

Dans le cloud Microsoft Azure, vous payez uniquement pour les ressources de calcul et de stockage que vous utilisez, quand vous les utilisez. Démarrez un cluster Hadoop, analysez vos données, puis arrêtez-le pour interrompre la mesure.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, National Health Service (R.-U.)

Le cloud vous rend agile

Créez un cluster Hadoop en quelques minutes, puis ajoutez des nœuds à la demande. Le cloud offre aux organisations un résultat immédiat.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

Rencontrer HDInsight : Hadoop dans le cloud Azure

Microsoft Azure HDInsight est un service basé à 100 % sur Apache Hadoop dans le cloud Azure. Il offre tous les avantages de Hadoop, ainsi que la capacité d'intégration avec Excel, vos clusters Hadoop locaux et l'écosystème Microsoft de logiciels et services de gestion.

Voir ce que HDInsight peut faire pour vous

Voir une présentation de HDInsight