Apache Spark for Azure HDInsight

O Apache Spark na nuvem para implantações críticas

O que é o Apache Spark?

O Apache Spark é uma estrutura de processamento de software livre que executa aplicativos de análise de dados em grande escala. O Spark é criado em um mecanismo de computação em memória, o que permite consulta de alto desempenho em Big Data. Ele aproveita uma estrutura paralela de processamento de dados que persiste dados na memória e no disco, se necessário. Isso permite que o Spark forneça uma velocidade 100 vezes mais rápida e um modelo de execução comum para tarefas como extrair, transformar, carregar (ETL), lote, consultas interativas e outros em dados em um HDFS (Sistema de Arquivos Distribuído Apache Hadoop). O Azure torna implantação do Apache Spark fácil e de baixo custo, sem a necessidade de comprar nenhum hardware, nem configurar nenhum software, uma experiência completa do bloco de notas para criar narrativas atraentes e integração com ferramentas de business intelligence de parceiros.

Assista a um vídeo de visão geral do Apache Spark

O mecanismo central do Apache Spark oferece uma estrutura que pode combinar tipos diferentes de processamento, incluindo o Spark SQL, o Spark Streaming, o MLlib (Machine Learning) e o GraphX (computação gráfica).

Um modelo de execução para várias tarefas

O Apache Spark utiliza um modelo de execução comum para realizar diversas tarefas, como ETL, consultas em lote, consultas interativas, streaming em tempo real, Machine Learning e processamento de gráfico em dados armazenados no Azure Data Lake Store. Isso permite que você use o Spark para Azure HDInsight para resolver os desafios de Big Data quase em tempo real, como detecção de fraudes, análise de fluxo de cliques, alertas financeiros, telemetria de sensores e dispositivos IoT (Internet das Coisas), análises sociais, pipelines de ETL sempre ativos e monitoramento de rede.

Processamento na memória para cenários interativos

Os clientes de hoje em dia esperam respostas rápidas para suas perguntas em vez de aguardarem minutos, horas ou dias. O Apache Spark proporciona isso com a persistência de dados na memória para obter consultas até 100 vezes mais rápidas ao processar grandes conjuntos de dados no Hadoop. Isso torna o Spark for Azure HDInsight ideal para acelerar aplicativos intensivos de Big Data.

Use o IntelliJ IDEA para obter experiências de desenvolvedor nativo e depuração remota

Para tornar o desenvolvimento no Spark mais fácil, apresentamos a integração aprofundada com o IntelliJ IDEA para permitir que você codifique com suporte nativo à autoria para Scala e Java. Você pode fazer uma depuração remota, o que dá a flexibilidade em seu ciclo de vida de desenvolvimento e a capacidade de enviar o aplicativo ao Azure quando ele estiver pronto. Os clusters do Spark para HDInsight virão pré-carregados também com as bibliotecas Python mais populares (Anaconda) para Machine Learning.

Aproveite as ferramentas do BI para analisar interativamente Big Data

Para analistas de negócios, oferecemos integração com o Power BI junto com outras ferramentas de business intelligence, como Tableau, SAP BusinessObjects Lumira e QlikView. Isso permite que você compile visualizações interativas em dados de qualquer tamanho. Além dos painéis tradicionais, o Power BI oferece um conector de streaming que se integra com o Spark, o que permite a publicação de eventos em tempo real do Spark Streaming diretamente para o Power BI.

Experiência do bloco de notas pronto para uso

Diferente de outras ofertas do Spark, que requerem que você instale seus próprios blocos de anotações ou utilize blocos de anotações proprietários, o Spark para HDInsight tem integração pronta para uso com o Jupyter (iPython), o bloco de anotações de software livre mais popular no mercado. Isso permite que você crie narrativas que combinem código, equações estatísticas e visualizações que contam uma história sobre os dados. Para simplificar a integração dos nossos clientes, trabalhamos com a comunidade Jupyter para aprimorar o kernel e permitir a execução do Spark por meio de um ponto de extremidade REST, que fornece uma experiência atraente para cientistas de dados.

Integrado com o R Server, uma grande biblioteca de Machine Learning e de análise paralela compatível com R

Use o Spark para Azure HDInsight como um mecanismo para executar o R Server, que tem uma grande biblioteca de Machine Learning e análise paralela criada para trabalhar com a linguagem R de software livre. Isso permite que você aproveite a familiaridade do R, com escala empresarial do R Server em execução no Spark. As bibliotecas de matemática de vários threads e a paralelização transparente no R Server, combinadas com o Spark, manipulam uma quantidade de dados até mil vezes maior e até 50 vezes mais rápida que o R de software livre, o que ajuda você a treinar modelos mais precisos para obter previsões melhores que as anteriores.

Maior disponibilidade para a continuidade de negócios

Para executar o Spark na escala mais alta, a Microsoft fornece o SLA de disponibilidade mais alto da indústria em 99,9%, para garantir a continuidade e a proteção dos negócios contra eventos catastróficos. Lideramos o projeto Livy em conjunto com a Cloudera para criar um serviço Web REST licenciado para Apache de software livre para gerenciar contextos de Spark de execução longa e enviar trabalhos do Spark. Essa nova funcionalidade foi projetada a fim de tornar o Spark um back-end mais robusto para executar blocos de anotações interativos e permitir que outros aplicativos utilizem o Spark para suas cargas de trabalho interativas.

Analise qualquer dado de qualquer tamanho sem mudanças conforme os dados crescerem

Para certificar que o Spark é executado em escala, integramos o Spark ao Azure Data Lake Store. A Microsoft disponibiliza exclusivamente esta integração, que permite que o Spark armazene e processe dados dimensionados para qualquer tamanho sem forçar mudanças no seu aplicativo à medida que os dados crescem. Por meio dessa integração, é possível implementar controles de acesso a dados baseados em função no nível de armazenamento.

Processamento em tempo real para cenários em tempo real

O mundo conectado de hoje é definido por Big Data que chega em tempo real. O Spark Stream for HDInsight é ideal para cenários desafiadores e em tempo real. Ele possibilita várias oportunidades, incluindo cenários de IoT (Internet das Coisas), como o monitoramento e o gerenciamento remotos em tempo real, e o recebimento de insights de dispositivos, como telefones celulares ou carros conectados.

Configuração fácil, resultados rápidos

Não há nenhuma instalação ou configuração demoradas com o Spark para HDInsight. O Azure faz isso por você. Tudo estará funcionando em questão de minutos e você poderá implantar o Spark sem comprar um novo hardware ou ter de pagar outros custos iniciais.

Capacidade elástica para Big Data

O Spark para HDInsight aproveita o poder do Azure, facilitando a criação de clusters de qualquer tamanho para processar qualquer quantidade de dados sob demanda. Você só paga pela computação e pelo armazenamento que usar.

Teste o HDInsight gratuitamente