Hadoop

O que é o Hadoop?

O Apache Hadoop é um software livre para armazenamento e análise de grandes quantidades de dados estruturados e não estruturados – terabytes ou mais de tudo, desde emails a leituras de sensor, logs de servidor, feeds do Twitter, sinais de GPS e qualquer outra coisa que você possa imaginar. O Hadoop pode processar grandes conjuntos de dados desorganizados para insights e respostas – o que ajuda a explicar sua ótima aceitação.

Breve histórico do Hadoop

Criado em 2005 por Mike Cafarella e Doug Cutting (que o batizou em homenagem ao elefante de brinquedo de seu filho), o Hadoop foi originalmente projetado para dados de pesquisa relacionados à Web. Hoje, é um projeto livre criado pela comunidade da Apache Software Foundation que é usado em todos os tipos de organizações e setores. A Microsoft é uma colaboradora ativa do esforço de desenvolvimento da comunidade.

Microsoft
A Microsoft já registrou mais de 6 mil horas de engenharia no último ano, fornecendo códigos e impulsionando a inovação em parceria com a comunidade de código aberto em uma ampla gama de projetos do Hadoop. Além disso, temos pessoas dedicadas ao Hadoop, sendo o funcionário da Microsoft Chris Douglas o Líder do Grupo de Trabalho Apache para o Hadoop.

–David Campbell, Microsoft Fellow e CTO

Criado para Big Data e servidores usados no dia a dia

Uma das razões da popularidade do Hadoop é simples economia. Processar conjuntos de Big Data antes exigia supercomputadores e outros itens de hardware especializados e caros. O Hadoop proporciona uma computação confiável, escalonável e distribuída em servidores padrão do setor, permitindo trabalhar com petabytes de dados ou mais, com orçamentos menores. O Hadoop também foi projetado para escalonar de um único servidor para milhares de máquinas e detectar e lidar com falhas na camada de aplicativo para melhor confiabilidade.

Virginia Tech
Pesquisadores da Virginia Tech estão usando o Hadoop para filtrar petabytes de dados de DNA em busca de novas terapias contra o câncer e antibióticos.

Insights a partir de todos os tipos de dados

De acordo com estimativas, 80% dos dados com que as organizações lidam atualmente não são dados em pacotes organizados em colunas e linhas. Em vez disso, eles se apresentam em um confuso emaranhado de emails, feeds de mídias sociais, imagens de satélite, sinais de GPS, logs de servidor e outros arquivos não estruturados e não relacionais. O Hadoop pode lidar com praticamente qualquer arquivo ou formato – que é outra grande vantagem – pois as organizações podem fazer perguntas que jamais pensaram ser possíveis.

Barcelona
Usando o Azure, HDInsight e o SQL Server 2012, podemos coletar, analisar e gerar BI com Big Data quase em tempo real coletado de feeds de mídias sociais, sinais de GPS e dados de sistemas governamentais

–Luis Sanz Marco, cidade de Barcelona

Veja como a cidade de Barcelona está usando o Hadoop no Microsoft Azure

Por que usar o Hadoop em nuvem?

Você pode implantar o Hadoop em um datacenter local tradicional. Algumas empresas – inclusive a Microsoft – também oferecem o Hadoop como serviço baseado em nuvem. Uma pergunta óbvia é: por que usar Hadoop na nuvem? Veja por que um número crescente de organizações está escolhendo essa opção.

A nuvem economiza tempo e dinheiro

Software livre não significa gratuito. Implantar o Hadoop no local ainda requer servidores e especialistas em Hadoop para configurá-lo, ajustá-lo e mantê-lo. Um serviço de nuvem permite criar um cluster Hadoop em minutos sem custos antecipados.

Virginia Tech
Veja como a Virginia Tech está usando a nuvem da Microsoft em vez de gastar milhões de dólares para estabelecer seu próprio centro de supercomputação.

A nuvem é flexível e oferece dimensionamento rápido

Na nuvem do Microsoft Azure, você paga somente pela computação e o armazenamento usados. Crie um cluster Hadoop, analise seus dados e desligue-o para interromper o medidor.

NHS
Criamos rapidamente o cluster do Azure HDInsight e processamos seis anos de dados em apenas algumas horas, depois desativamos&ellipsis. Processar os dados na nuvem torna o processo muito acessível.

–Paul Henderson, Serviço Nacional de Saúde do Reino Unido

A nuvem deixa você mais ágil

Crie um cluster Hadoop em minutos – e adicione nós sob demanda. A nuvem oferece às organizações tempo de retorno imediato.

Chr Hansen
É simplesmente muito mais rápido fazer isto na nuvem com o Azure. Conseguimos implantar a solução e começar a trabalhar com os dados em menos de uma semana.

–Morten Meldgaard, Chr. Hansen

Conheça o HDInsight: Hadoop na nuvem do Azure

O Microsoft Azure HDInsight é um serviço 100% baseado no Apache Hadoop na nuvem do Azure. Ele oferece todas as vantagens do Hadoop, além da capacidade de integração com Excel, seus clusters Hadoop locais e o ecossistema de serviços e softwares comerciais da Microsoft.

Veja o que o HDInsight pode fazer por você

Assista a uma introdução ao HDInsight