Apache Spark para Azure HDInsight

Apache Spark na cloud para implementações de importância capital

O que é o Apache Spark?

O Apache Spark é uma arquitetura de processamento de código aberto que executa aplicações de análise de dados em grande escala. O Spark é baseado num motor de computação dentro da memória, o que permite consultas de elevado desempenho em macrodados. Tira partido de uma arquitetura de processamento de dados paralela que persiste dados na memória e no disco, se necessário. Isto permite ao Spark uma velocidade cem vezes superior e um modelo de execução comum para as tarefas, como extrair, transformar, carregar (ETL), consultas em lote, consultas interativas e outras nos dados, num Sistema de Ficheiros Distribuído Apache Hadoop (HDFS). O Azure permite a implementação do Apache Spark fácil e económica sem necessidade de adquirir hardware e sem software a configurar, uma experiência completa de bloco de notas para a criação de narrativas apelativas, e a integração com ferramentas de business intelligence de parceiros.

Veja um vídeo de descrição geral do Apache Spark

O motor principal do Apache Spark fornece uma arquitetura de processamento que pode combinar diferentes tipos de processamento, incluindo Spark SQL, Spark Streaming, MLlib (aprendizagem automática) e GraphX (computação de grafo).

Um modelo de execução para múltiplas tarefas

O Apache Spark tira partido de um modelo de execução comum para efetuar múltiplas tarefas, como ETL, consultas em lote, consultas interativas, transmissão em fluxo em tempo real, machine learning e processamento de gráficos em dados armazenados no Arquivo do Azure Data Lake. Isto permite-lhe utilizar o Spark para Azure HDInsight para ultrapassar desafios de macrodados praticamente em tempo real, como deteção de fraudes, análises de fluxos de cliques, alertas financeiros, telemetria de sensores e dispositivos de Internet das Coisas (IoT), análises sociais, pipelines ETL sempre ativos e monitorização de rede.

Processamento na memória para cenários interativos

Atualmente, os clientes contam com respostas rápidas às suas perguntas, em vez de terem de esperar minutos, horas ou dias. O Apache Spark consegue isto com a persistência de dados em memória de modo a obter consultas até cem vezes mais rápidas enquanto processa grandes conjuntos de dados no Hadoop. Esta característica torna o Spark para Azure HDInsight ideal para acelerar aplicações intensivas de macrodados.

Utilize IntelliJ IDEA para experiências de desenvolvimento nativas e depuração remota

Para tornar o desenvolvimento no Spark mais fácil, introduzimos uma integração profunda com o IntelliJ IDEA, de forma a permitir-lhe programar com suporte de criação nativo para Scala e Java. A depuração remota é possível, o que permite flexibilidade no ciclo de vida de desenvolvimento e a capacidade de submeter a aplicação ao Azure uma vez pronta. Os clusters do Spark para HDInsight também estão pré-carregados com as bibliotecas Python mais populares (Anaconda) para machine learning.

Tire partido das ferramentas de BI para analisar macrodados interativamente

Para analistas empresariais, oferecemos a integração com o PowerBI juntamente com outras ferramentas de business intelligence, como Tableau, SAP, BusinessObjects Lumira e QlikView. Isto permite-lhe construir visualizações interativas sobre dados de qualquer tamanho. Para além dos dashboards tradicionais, o Power BI proporciona-lhe um conector de transmissão em fluxo que se integra com o Spark, permitindo-lhe publicar eventos em tempo real do Spark Streaming diretamente para o Power BI.

Experiência de blocos de notas completa

Ao contrário das outras ofertas Spark, que requerem que instale os seus próprios blocos de notas ou tire partido de blocos de notas proprietários, o Spark para HDInsight tem total integração com o Jupyter (iPython), o bloco de notas de código aberto mais popular do mercado. Isto permite-lhe criar narrativas que combinam código, equações estatísticas e visualizações que contam uma história sobre os dados. Para lhe facilitar a integração, trabalhámos com a comunidade Jupyter para melhorar o kernel e permitir a execução do Spark através de um ponto final REST, o que possibilita uma experiência apelativa para os cientistas de dados.

Integrado no R Server – uma extensa biblioteca de machine learning e de análise paralela compatível com a linguagem R

Utilize o Spark para Azure HDInsight como um motor para executar o R Server, o qual tem uma grande biblioteca de machine learning e análise paralela criada para funcionar com a linguagem R de código aberto. Desta forma, pode tirar partido da familiaridade da linguagem R, com o dimensionamento empresarial do R Server em execução no Spark. As bibliotecas matemáticas com múltiplos threads e paralelização transparente no R Server, combinadas com o Spark, tornam possível o processamento de dados até mil vezes maiores e velocidades 50x mais rápidas do que o R de código aberto, permitindo-lhe preparar modelos mais precisos para obter melhores predições do que anteriormente.

Maior disponibilidade para a continuidade do negócio

Para executar o Spark na escala mais elevada, a Microsoft oferece-lhe um SLA de 99,9%, o SLA de maior disponibilidade da indústria, para assegurar a continuidade do negócio e a proteção contra eventos catastróficos. Liderámos, em conjunto com a Cloudera, o projeto Livy, para criar um serviço Web REST de código aberto licenciado para Apache para gerir contextos do Spark de longa execução e submeter tarefas do Spark. Esta nova capacidade foi concebida para tornar o Spark num back-end mais robusto para a execução de blocos de notas interativos e para permitir que outras aplicações tirem partido do Spark para as respetivas cargas de trabalho interativas.

Analise quaisquer dados e de qualquer tamanho sem alterações à medida que aumentam

Para garantir a execução do Spark em escala, integrámo-lo no Arquivo do Azure Data Lake. Esta integração está disponível exclusivamente na Microsoft e permite ao Spark armazenar e processar dados de qualquer tamanho, sem impor alterações na aplicação à medida que aumentam. Através desta integração, pode implementar controlos de acesso a dados baseados em funções ao nível do armazenamento.

Processamento em tempo real para cenários em tempo real

O mundo ligado atual é definido por dados de grandes dimensões que chegam em tempo real. O Spark Stream para HDInsight é ideal para cenários em tempo real desafiantes. Permite várias oportunidades, incluindo cenários de Internet das Coisas (IoT), gestão e monitorização remotas em tempo real e a obtenção de informações de dispositivos como telemóveis ou veículos com acesso à Internet.

Configuração fácil, resultados rápidos

Com o Spark para HDInsight, não existem instalações nem configurações morosas. O Azure faz tudo por si. Estará operacional numa questão minutos e poderá implementar o Spark sem ter de comprar hardware novo ou de incorrer noutros custos iniciais.

Capacidade elástica para dados de grandes dimensões

O Spark para HDInsight tira partido do poder do Azure, permitindo-lhe criar facilmente clusters de qualquer tamanho para processar qualquer quantidade de dados a pedido. Paga apenas pela computação e armazenamento que utilizar.

Experimentar o HDInsight gratuitamente