Ignora esplorazione

Hadoop

Che cos'è Hadoop?

Apache Hadoop è un software open source per l'archiviazione e l'analisi di quantità elevatissime di dati strutturati e non strutturati. È possibile gestire diversi terabyte (e oltre) di dati di qualsiasi tipo, da elementi di posta elettronica a letture di sensori, fino log di server, feed di Twitter, segnali GPS e altro ancora. Il notevole interesse per Hadoop è dovuto, tra le altre caratteristiche, alla sua capacità di elaborare set di dati complessi di grandi dimensioni, per offrire analisi approfondite e risposte.

Breve storia di Hadoop

Creato nel 2005 da Mike Cafarella e Doug Cutting, che per il nome si è ispirato all'elefante giocattolo del figlio, Hadoop era in origine destinato a gestire dati di ricerca correlati al Web. Attualmente è un progetto open source, generato dalla community per la Apache Software Foundation ed è usato in organizzazioni e aziende di qualsiasi tipo. Microsoft contribuisce attivamente all'impegno della community per lo sviluppo.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, Microsoft Fellow e CTO

Progettato per Big Data con server normali

Uno dei motivi della popolarità di Hadoop è la semplice convenienza economica. Per l'elaborazione di set di Big Data erano in precedenza necessari supercomputer e altro hardware costoso e specializzato. Hadoop rende possibile l'elaborazione affidabile, scalabile e distribuita in server standard del settore, permettendoti di gestire diversi petabyte di dati, e oltre, con budget ridotti. Hadoop è progettato anche per poter essere ridimensionato da un singolo server a migliaia di computer e per rilevare e gestire errori al livello dell'applicazione per una maggiore affidabilità.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Approfondimenti da tutti i tipi di dati

Secondo alcune stime, circa l'80% dei dati attualmente gestiti dalle organizzazione non è strutturato in colonne e righe ben definite. Si tratta piuttosto di una valanga confusa di messaggi di posta elettronica, feed di social media, immagini da satellite, segnali GPS, log di server e altri file non strutturati e non relazionali. Un altro grande vantaggio di Hadoop è la sua capacità di gestire praticamente tutti i tipi di file o formati, permettendo alle organizzazioni di ottenere risposte ritenute impossibili in passato.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, Città di Barcellona

Scopri in che modo la città di Barcellona usa Hadoop su Microsoft Azure

Perché usare Hadoop nel cloud?

Puoi distribuire Hadoop in un data center locale tradizionale. Alcune società, tra cui Microsoft, offrono Hadoop anche come servizio basato sul cloud. La domanda più ovvia è: perché usare Hadoop nel cloud? Ecco perché un numero crescente di organizzazioni sceglie questa opzione.

Il cloud permette di risparmiare tempo e denaro

Open source non significa gratuito. Per la distribuzione locale di Hadoop sono comunque necessari server ed esperti di Hadoop per configurarli, ottimizzarli e gestirli. Un servizio cloud ti permette di accelerare la creazione di un cluster Hadoop in pochi minuti senza costi iniziali.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

Il cloud è flessibile e rapidamente scalabile

Nel cloud di Microsoft Azure puoi pagare solo per le risorse di calcolo e di archiviazione effettivamente usate e solo quando le usi. Puoi accelerare l'esecuzione di un cluster Hadoop, analizzare i dati e quindi arrestarlo per interrompere il contatore.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, National Health Service (U.K.)

Il cloud rende agili

Puoi creare un cluster Hadoop in pochi minuti e aggiungere nodi on demand. Il cloud permette alle organizzazioni di realizzare valore più rapidamente.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

Scopri HDInsight: Hadoop nel cloud di Azure

Microsoft Azure HDInsight è un servizio basato al 100% su Apache Hadoop nel cloud di Azure. Oltre a tutti i vantaggi di Hadoop, questo servizio può essere integrato con Excel, con i cluster Hadoop locali e con l'ecosistema Microsoft di software e servizi aziendali.

Scopri cosa può offrirti HDInsight

Guarda un'introduzione a HDInsight