Hadoop

Cos'è Hadoop?

Apache Hadoop è un software open source per l'archiviazione e l'analisi di quantità elevatissime di dati strutturati e non strutturati. È possibile gestire diversi terabyte (e oltre) di dati di qualsiasi tipo, da elementi di posta elettronica a letture di sensori, fino log di server, feed di Twitter, segnali GPS e altro ancora. Il notevole interesse per Hadoop è dovuto, tra le altre caratteristiche, alla sua capacità di elaborare set di dati complessi di grandi dimensioni, per offrire analisi approfondite e risposte.

Breve storia di Hadoop

Creato nel 2005 da Mike Cafarella e Doug Cutting, che per il nome si è ispirato all'elefante giocattolo del figlio, Hadoop era in origine destinato a gestire dati di ricerca correlati al Web. Attualmente è un progetto open source, generato dalla community per la Apache Software Foundation ed è usato in organizzazioni e aziende di qualsiasi tipo. Microsoft contribuisce attivamente all'impegno della community per lo sviluppo.

Microsoft
Microsoft ha dedicato oltre 6.000 ore di progettazione nell'ultimo anno, creando codice e stimolando l'innovazione in collaborazione con la community open source in diversi progetti Hadoop. Alcuni committer, inoltre, si dedicano a Hadoop e Chris Douglas, dipendente Microsoft, è il responsabile del gruppo di lavoro relativo ad Apache per Hadoop.

–David Campbell, Microsoft Fellow e CTO

Progettato per Big Data con server normali

Uno dei motivi della popolarità di Hadoop è la semplice convenienza economica. Per l'elaborazione di set di Big Data erano in precedenza necessari supercomputer e altro hardware costoso e specializzato. Hadoop rende possibile l'elaborazione affidabile, scalabile e distribuita in server standard del settore, permettendoti di gestire diversi petabyte di dati, e oltre, con budget ridotti. Hadoop è progettato anche per poter essere ridimensionato da un singolo server a migliaia di computer e per rilevare e gestire errori al livello dell'applicazione per una maggiore affidabilità.

Virginia Tech
I ricercatori presso Virginia Tech usano Hadoop per esaminare petabyte di dati relativi al DNA, per scoprire nuove terapie per il cancro e nuovi antibiotici.

Approfondimenti da tutti i tipi di dati

Secondo alcune stime, circa l'80% dei dati attualmente gestiti dalle organizzazione non è strutturato in colonne e righe ben definite. Si tratta piuttosto di una valanga confusa di messaggi di posta elettronica, feed di social media, immagini da satellite, segnali GPS, log di server e altri file non strutturati e non relazionali. Un altro grande vantaggio di Hadoop è la sua capacità di gestire praticamente tutti i tipi di file o formati, permettendo alle organizzazioni di ottenere risposte ritenute impossibili in passato.

Barcelona
Grazie ad Azure, HDInsight e SQL Server 2012 possiamo raccogliere, analizzare e generare BI quasi in tempo reale con Big Data raccolti da feed di social media, segnali GPS e dati da sistemi governativi.

–Luis Sanz Marco, Città di Barcellona

Scopri in che modo la città di Barcellona usa Hadoop su Microsoft Azure

Perché usare Hadoop nel cloud?

Puoi distribuire Hadoop in un data center locale tradizionale. Alcune società, tra cui Microsoft, offrono Hadoop anche come servizio basato sul cloud. La domanda più ovvia è: perché usare Hadoop nel cloud? Ecco perché un numero crescente di organizzazioni sceglie questa opzione.

Il cloud permette di risparmiare tempo e denaro

Open source non significa gratuito. Per la distribuzione locale di Hadoop sono comunque necessari server ed esperti di Hadoop per configurarli, ottimizzarli e gestirli. Un servizio cloud ti permette di accelerare la creazione di un cluster Hadoop in pochi minuti senza costi iniziali.

Virginia Tech
Scopri in che modo Virginia Tech usa il cloud di Microsoft invece di spendere milioni di dollari per stabilire il proprio centro di supercomputer.

Il cloud è flessibile e rapidamente scalabile

Nel cloud di Microsoft Azure puoi pagare solo per le risorse di calcolo e di archiviazione effettivamente usate e solo quando le usi. Puoi accelerare l'esecuzione di un cluster Hadoop, analizzare i dati e quindi arrestarlo per interrompere il contatore.

NHS
Abbiamo creato rapidamente il cluster Azure HDInsight e abbiamo elaborato in poche ore una quantità di dati pari a sei anni, quindi abbiamo arrestato il cluster. L'elaborazione dei dati nel cloud è molto conveniente.

–Paul Henderson, National Health Service (U.K.)

Il cloud rende agili

Puoi creare un cluster Hadoop in pochi minuti e aggiungere nodi on demand. Il cloud permette alle organizzazioni di realizzare valore più rapidamente.

Chr Hansen
Eseguire questa operazione nel cloud con Azure è stato semplicemente più veloce. Abbiamo potuto implementare la soluzione e iniziare a lavorare con i dati in meno di una settimana.

–Morten Meldgaard, Chr. Hansen

Scopri HDInsight: Hadoop nel cloud di Azure

Microsoft Azure HDInsight è un servizio basato al 100% su Apache Hadoop nel cloud di Azure. Oltre a tutti i vantaggi di Hadoop, questo servizio può essere integrato con Excel, con i cluster Hadoop locali e con l'ecosistema Microsoft di software e servizi aziendali.

Scopri cosa può offrirti HDInsight

Guarda un'introduzione a HDInsight