Apache Spark per Azure HDInsight

Apache Spark nel cloud per distribuzioni di importanza strategica

Che cos'è Apache Spark?

Apache Spark è un framework di elaborazione open source in grado di eseguire applicazioni di analisi dei dati su larga scala. Basato su un motore di calcolo in memoria, Spark assicura prestazioni di query elevate sui Big Data. Sfrutta un framework di elaborazione parallela dei dati che, se necessario, salva in modo permanente i dati in memoria e su disco. In questo modo, Spark può offrire velocità 100 volte superiori e un modello di esecuzione comune per attività di vario tipo, come ETL (estrazione, trasformazione e caricamento), query interattive e batch, nonché altre attività sui dati in Apache Hadoop Distributed File System (HDFS). Azure rende Apache Spark semplice e conveniente da distribuire, senza alcuna necessità di acquistare hardware o di configurare software e con un'esperienza notebook completa per la creazione di narrazioni accattivanti, nonché integrazione con gli strumenti di business intelligence dei partner.

Guarda un video di presentazione su Apache Spark

Il motore principale di Apache Spark fornisce un framework di elaborazione in grado di combinare diversi tipi di elaborazione, tra cui Spark SQL, Spark Streaming, MLlib (apprendimento automatico) e GraphX (calcolo grafico).

Un unico modello di esecuzione per più attività

Apache Spark sfrutta un modello di esecuzione comune per diverse attività, come ETL (estrazione, trasformazione e caricamento), query interattive e batch, streaming in tempo reale, Machine Learning ed elaborazione grafica sui dati archiviati in Azure Data Lake Store. Puoi così usare Spark per Azure HDInsight per risolvere quasi in tempo reale le problematiche relative ai Big Data, come rilevamento delle frodi, analisi clickstream, avvisi finanziari, telemetria da sensori e dispositivi connessi IoT (Internet of Things, Internet delle cose), analisi dei dati dei social media, pipeline ETL sempre attive e monitoraggio di rete.

Elaborazione in memoria per scenari interattivi

Oggi i clienti si aspettano di ottenere risposte rapide alle proprie domande, senza aspettare minuti, ore o giorni. Apache Spark risponde a questa esigenza salvando in modo permanente i dati in memoria per garantire query fino a 100 volte più veloci con elaborazione di set di dati di grandi dimensioni in Hadoop. Ciò rende Spark per Azure HDInsight ideale per rendere più veloci le applicazioni Big Data intensive.

Esperienze di sviluppo native e debug remoto con IntelliJ IDEA

Per semplificare lo sviluppo in Spark, abbiamo introdotto un'integrazione estesa con IntelliJ IDEA per permetterti di scrivere codice con supporto per la creazione nativa per Scala e Java. Puoi eseguire il debug remoto, che ti offre flessibilità nel ciclo di vita di sviluppo e la possibilità di inviare l'applicazione ad Azure non appena è pronta. Nei cluster Spark per HDInsight sono anche precaricate le più diffuse librerie Python (Anaconda) per Machine Learning.

Strumenti di business intelligence per l'analisi interattiva dei Big Data

Per i business analyst, offriamo l'integrazione con Power BI insieme ad altri strumenti di business intelligence, come Tableau, SAP BusinessObjects Lumira e QlikView. In questo modo, puoi creare visualizzazioni interattive di dati di qualsiasi dimensione. Oltre ai dashboard tradizionali, Power BI offre un connettore per lo streaming che include l'integrazione con Spark, per pubblicare eventi in tempo reale dallo streaming di Spark direttamente in Power BI.

Esperienza notebook integrata

Diversamente da altre offerte Spark, con le quali devi installare i tuoi notebook o sfruttarne di proprietari, Spark per HDInsight offre integrazione predefinita con Jupyter (iPython), il notebook open source più diffuso nel mercato. Gli utenti potranno creare narrazioni che combinano codice, equazioni statistiche e visualizzazioni, per raccontare la storia dei dati. Per semplificare l'integrazione, abbiamo collaborato con la community di Jupyter per il miglioramento del kernel, permettendo l'esecuzione di Spark tramite un endpoint REST in grado di offrire ai data scientist un'esperienza estremamente accattivante.

La più grande libreria di analisi parallela e Machine Learning compatibile con R integrata con R Server

Puoi usare Spark per Azure HDInsight come motore per l'esecuzione di R Server, che offre la più grande libreria di analisi parallela e Machine Learning creata per l'uso con il linguaggio R open source. Ciò ti consente di sfruttare l'esperienza acquisita su R, con la scalabilità di livello aziendale di R Server in esecuzione in Spark. Le librerie di risorse matematiche multithread e la parallelizzazione trasparente di R Server combinate con Spark ti permettono di gestire dati con dimensioni fino a 1.000 volte maggiori e con velocità fino a 50 volte superiore rispetto al semplice linguaggio R open source, in modo da eseguire il training di modelli più accurati per stime migliori rispetto al passato.

Disponibilità massima per la continuità aziendale

Per eseguire Spark su scala molto più estesa, Microsoft offre il contratto di servizio con la disponibilità più elevata del settore garantita al 99,9%, per assicurare al tuo business continuità e protezione contro eventi catastrofici. Abbiamo ottenuto questo risultato collaborando con Cloudera sul progetto Livy per creare un servizio Web REST con licenza Apache open source per la gestione di contesti Spark a esecuzione prolungata e per l'invio di processi Spark. Questa nuova funzionalità è stata progettata per incrementare la solidità di Spark come back-end per l'esecuzione di notebook interattivi e permettere ad altre applicazioni di sfruttare Spark per i propri carichi di lavoro interattivi.

Analisi di dati di qualsiasi dimensione senza modifiche con l'aumentare dei dati

Per garantire l'esecuzione di Spark su vasta scala, lo abbiamo integrato con Azure Data Lake Store. Questa integrazione è offerta esclusivamente da Microsoft e permette a Spark di archiviare ed elaborare dati con scalabilità in base a qualsiasi dimensione, senza forzare modifiche all'applicazione con l'aumentare dei dati. Grazie a questa integrazione, potrai anche implementare controlli di accesso in base al ruolo al livello dell'archiviazione.

Elaborazione in tempo reale per scenari in tempo reale

Il mondo connesso odierno è definito dai Big Data ricevuti in tempo reale. Lo streaming Spark per HDInsight è ideale per gli impegnativi scenari in tempo reale. Questa soluzione offre numerose opportunità, tra cui scenari IoT (Internet delle cose, Internet of Things) come gestione e monitoraggio remoti in tempo reale o recupero di informazioni dettagliate da dispositivi come telefoni cellulari e automobili connesse.

Semplice installazione, risultati veloci

Con Spark per HDInsight, non sono necessarie lunghe procedure di installazione o configurazione. Azure esegue tutto automaticamente. In pochi minuti avrai la massima operatività e potrai distribuire Spark senza acquistare nuovo hardware e senza costi iniziali.

Capacità elastica per Big Data

Spark per HDInsight sfrutta la potenza di Azure, semplificando la creazione di cluster di ogni dimensione per l'elaborazione di qualsiasi quantità di dati on demand. Paghi solo le risorse di calcolo e di archiviazione che usi.

Prova gratuitamente HDInsight