Ignorar navegação

Hadoop

O que é o Hadoop?

O Apache Hadoop é um software livre para armazenamento e análise de grandes quantidades de dados estruturados e não estruturados – terabytes ou mais de tudo, desde emails a leituras de sensor, logs de servidor, feeds do Twitter, sinais de GPS e qualquer outra coisa que você possa imaginar. O Hadoop pode processar grandes conjuntos de dados desorganizados para insights e respostas – o que ajuda a explicar sua ótima aceitação.

Breve histórico do Hadoop

Criado em 2005 por Mike Cafarella e Doug Cutting (que o batizou em homenagem ao elefante de brinquedo de seu filho), o Hadoop foi originalmente projetado para dados de pesquisa relacionados à Web. Hoje, é um projeto livre criado pela comunidade da Apache Software Foundation que é usado em todos os tipos de organizações e setores. A Microsoft é uma colaboradora ativa do esforço de desenvolvimento da comunidade.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, Microsoft Fellow e CTO

Criado para Big Data e servidores usados no dia a dia

Uma das razões da popularidade do Hadoop é simples economia. Processar conjuntos de Big Data antes exigia supercomputadores e outros itens de hardware especializados e caros. O Hadoop proporciona uma computação confiável, escalonável e distribuída em servidores padrão do setor, permitindo trabalhar com petabytes de dados ou mais, com orçamentos menores. O Hadoop também foi projetado para escalonar de um único servidor para milhares de máquinas e detectar e lidar com falhas na camada de aplicativo para melhor confiabilidade.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Insights a partir de todos os tipos de dados

De acordo com estimativas, 80% dos dados com que as organizações lidam atualmente não são dados em pacotes organizados em colunas e linhas. Em vez disso, eles se apresentam em um confuso emaranhado de emails, feeds de mídias sociais, imagens de satélite, sinais de GPS, logs de servidor e outros arquivos não estruturados e não relacionais. O Hadoop pode lidar com praticamente qualquer arquivo ou formato – que é outra grande vantagem – pois as organizações podem fazer perguntas que jamais pensaram ser possíveis.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, cidade de Barcelona

Veja como a cidade de Barcelona está usando o Hadoop no Microsoft Azure

Por que usar o Hadoop em nuvem?

Você pode implantar o Hadoop em um datacenter local tradicional. Algumas empresas – inclusive a Microsoft – também oferecem o Hadoop como serviço baseado em nuvem. Uma pergunta óbvia é: por que usar Hadoop na nuvem? Veja por que um número crescente de organizações está escolhendo essa opção.

A nuvem economiza tempo e dinheiro

Software livre não significa gratuito. Implantar o Hadoop no local ainda requer servidores e especialistas em Hadoop para configurá-lo, ajustá-lo e mantê-lo. Um serviço de nuvem permite criar um cluster Hadoop em minutos sem custos antecipados.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

A nuvem é flexível e oferece dimensionamento rápido

Na nuvem do Microsoft Azure, você paga somente pela computação e o armazenamento usados. Crie um cluster Hadoop, analise seus dados e desligue-o para interromper o medidor.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, Serviço Nacional de Saúde do Reino Unido

A nuvem deixa você mais ágil

Crie um cluster Hadoop em minutos – e adicione nós sob demanda. A nuvem oferece às organizações tempo de retorno imediato.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

Conheça o HDInsight: Hadoop na nuvem do Azure

O Microsoft Azure HDInsight é um serviço 100% baseado no Apache Hadoop na nuvem do Azure. Ele oferece todas as vantagens do Hadoop, além da capacidade de integração com Excel, seus clusters Hadoop locais e o ecossistema de serviços e softwares comerciais da Microsoft.

Veja o que o HDInsight pode fazer por você

Assista a uma introdução ao HDInsight