Hadoop

O que é o Hadoop?

O Apache Hadoop é um software de código-fonte aberto para armazenar e analisar enormes quantidades de terabytes de dados estruturados e não estruturados – ou mais de tudo, desde correio eletrónico a leituras de sensores, registos do servidor, feeds do Twitter, sinais de GPS e qualquer outra coisa em que possa pensar. O Hadoop consegue processar grandes conjuntos de dados desorganizados para a obtenção de conhecimento e respostas – o que nos permite perceber a agitação que existe à volta dele.

Uma breve história do Hadoop

Criado em 2005 por Mike Cafarella e Doug Cutting (que lhe deu o nome na sequência do elefante de brinquedo do seu filho), o Hadoop destinava-se originalmente a dados de pesquisa relacionados com a Web. Atualmente, é um projeto de código-fonte aberto da Apache Software Foundation, construído pela comunidade, que é usado em todos os tipos de organizações e setores. A Microsoft é um contribuinte ativo no esforço de desenvolvimento da comunidade.

Microsoft
A Microsoft já registou mais de 6000 horas de engenharia no último ano, envolvendo-se na criação de código e impulsionando a inovação em parceria com a comunidade de código-fonte aberto numa série de projetos do Hadoop. Além disso, temos pessoas envolvidas no Hadoop, e o funcionário da Microsoft Chris Douglas é o Presidente do Grupo de Trabalho do Apache para o Hadoop.

–David Campbell, Funcionário da Microsoft e CTO

Construídos para macrodados, servidores de todos os dias

Uma das razões para a popularidade do Hadoop é puramente económica. Anteriormente, o processamento de macrodados exigia supercomputadores e outro hardware especializado caro. O Hadoop torna possível a computação dimensionável, fiável e distribuída em servidores que são norma da indústria e que lhe permitem fazer frente a petabytes de dados e mais além com orçamentos menores. O Hadoop foi concebido também para se dimensionar de um único servidor para milhares de máquinas, e detetar e lidar com falhas na camada de aplicação para melhor fiabilidade.

Virginia Tech
Investigadores da Virginia Tech estão a usar o Hadoop na filtragem de petabytes de dados de ADN para novas terapias e antibióticos para o cancro.

Conhecimento a partir de todo o tipo de dados

Segundo algumas estimativas, até 80% dos dados com os quais as organizações lidam atualmente não são do tipo que vêm perfeitamente empacotados em colunas e linhas. Em vez disso, é uma avalanche desorganizada de mensagens de correio eletrónico, feeds de redes sociais, imagens de satélite, sinais de GPS, registos do servidor e outros ficheiros não estruturados, não-relacionais. O Hadoop consegue lidar com praticamente qualquer ficheiro ou formato – outra das suas grandes vantagens – portanto, as organizações podem colocar questões que nunca pensaram ser possíveis.

Barcelona
Ao usar o Windows Azure, HDInsight e SQL Server 2012, é possível recolher, analisar e gerar quase em tempo real BI com grandes volumes de dados recolhidos de feeds de redes sociais, sinais de GPS e dados de sistemas do governo.

–Luis Sanz Marco, cidade de Barcelona

Veja como a cidade de Barcelona está a usar o Hadoop no Microsoft Azure

Porquê o Hadoop na nuvem?

Pode implementar o Hadoop num centro de dados no local tradicional. Algumas empresas – incluindo a Microsoft – também oferecem o Hadoop como um serviço baseado na nuvem. Uma pergunta óbvia é: para quê usar o Hadoop na nuvem? Eis a razão pela qual um número cada vez maior de organizações está a escolher esta opção.

A nuvem poupa tempo e dinheiro

Código-fonte aberto não significa gratuito. A implementação do Hadoop no local continua a exigir servidores e especialistas do Hadoop qualificados para os configurar, ajustar e manter. Um serviço em nuvem permite lançar um cluster Hadoop em minutos, sem custos iniciais.

Virginia Tech
Veja como a Virginia Tech está a usar a nuvem da Microsoft em vez de gastar milhões de dólares na criação do seu próprio centro de supercomputação.

A nuvem é flexível e dimensiona-se rapidamente.

Na nuvem do Microsoft Azure paga somente pela computação e armazenamento que usa, quando usa. Lance um cluster Hadoop, analise os seus dados e, em seguida, desligue-o para parar o contador.

NHS
Lançámos rapidamente o cluster do Azure HDInsight, processámos ​​seis anos de dados em apenas algumas horas e desligámo-lo em seguida&ellipsis; o processamento dos dados na nuvem tornou-o muito acessível.

–Paul Henderson, Serviço Nacional de Saúde (Reino Unido)

A nuvem torna-o ágil

Crie um cluster do Hadoop em minutos – e adicione nós por solicitação. A nuvem oferece rendimento imediato às organizações.

Chr Hansen
Foi simplesmente muito mais rápido fazer isto na nuvem com o Windows Azure. Fomos capazes de implementar a solução e começar a trabalhar com dados em menos de uma semana.

–Morten Meldgaard, Chr. Hansen

Conheça o HDInsight: Hadoop na nuvem do Azure

O Microsoft Azure HDInsight é um serviço 100% baseado no Apache Hadoop na nuvem do Azure. Este oferece todas as vantagens do Hadoop, para além da capacidade de integração com o Excel, dos seus clusters Haddop no local e do ecossistema Microsoft de software e serviços de negócio.

Veja o que o HDInsight pode fazer por si

Veja uma introdução do HDInsight