Ignorar Navegação

Hadoop

O que é o Hadoop?

O Apache Hadoop é um software de código-fonte aberto para armazenar e analisar enormes quantidades de terabytes de dados estruturados e não estruturados – ou mais de tudo, desde correio eletrónico a leituras de sensores, registos do servidor, feeds do Twitter, sinais de GPS e qualquer outra coisa em que possa pensar. O Hadoop consegue processar grandes conjuntos de dados desorganizados para a obtenção de conhecimento e respostas – o que nos permite perceber a agitação que existe à volta dele.

Uma breve história do Hadoop

Criado em 2005 por Mike Cafarella e Doug Cutting (que lhe deu o nome na sequência do elefante de brinquedo do seu filho), o Hadoop destinava-se originalmente a dados de pesquisa relacionados com a Web. Atualmente, é um projeto de código-fonte aberto da Apache Software Foundation, construído pela comunidade, que é usado em todos os tipos de organizações e setores. A Microsoft é um contribuinte ativo no esforço de desenvolvimento da comunidade.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, Funcionário da Microsoft e CTO

Construídos para macrodados, servidores de todos os dias

Uma das razões para a popularidade do Hadoop é puramente económica. Anteriormente, o processamento de macrodados exigia supercomputadores e outro hardware especializado caro. O Hadoop torna possível a computação dimensionável, fiável e distribuída em servidores que são norma da indústria e que lhe permitem fazer frente a petabytes de dados e mais além com orçamentos menores. O Hadoop foi concebido também para se dimensionar de um único servidor para milhares de máquinas, e detetar e lidar com falhas na camada de aplicação para melhor fiabilidade.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Conhecimento a partir de todo o tipo de dados

Segundo algumas estimativas, até 80% dos dados com os quais as organizações lidam atualmente não são do tipo que vêm perfeitamente empacotados em colunas e linhas. Em vez disso, é uma avalanche desorganizada de mensagens de correio eletrónico, feeds de redes sociais, imagens de satélite, sinais de GPS, registos do servidor e outros ficheiros não estruturados, não-relacionais. O Hadoop consegue lidar com praticamente qualquer ficheiro ou formato – outra das suas grandes vantagens – portanto, as organizações podem colocar questões que nunca pensaram ser possíveis.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, cidade de Barcelona

Veja como a cidade de Barcelona está a usar o Hadoop no Microsoft Azure

Porquê o Hadoop na cloud?

Pode implementar o Hadoop num datacenter no local tradicional. Algumas empresas – incluindo a Microsoft – também oferecem o Hadoop como um serviço com base na cloud. Uma pergunta óbvia é: para quê usar o Hadoop na cloud? Eis a razão pela qual um número cada vez maior de organizações está a escolher esta opção.

A cloud poupa tempo e dinheiro

Código-fonte aberto não significa gratuito. A implementação do Hadoop no local continua a exigir servidores e especialistas do Hadoop qualificados para os configurar, ajustar e manter. Um serviço cloud permite lançar um cluster Hadoop em minutos, sem custos iniciais.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

A cloud é flexível e dimensiona-se rapidamente.

Na cloud do Microsoft Azure paga somente pela computação e armazenamento que usa, quando usa. Lance um cluster Hadoop, analise os seus dados e, em seguida, desligue-o para parar o contador.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, Serviço Nacional de Saúde (Reino Unido)

A cloud torna-o ágil

Crie um cluster do Hadoop em minutos – e adicione nós por solicitação. A cloud oferece rendimento imediato às organizações.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

Conheça o HDInsight: Hadoop na cloud do Azure

O Microsoft Azure HDInsight é um serviço 100% baseado no Apache Hadoop na cloud do Azure. Este oferece todas as vantagens do Hadoop, para além da capacidade de integração com o Excel, dos seus clusters Haddop no local e do ecossistema Microsoft de software e serviços de negócio.

Veja o que o HDInsight pode fazer por si

Veja uma introdução do HDInsight