Omitir navegación

Hadoop

¿Qué es Hadoop?

Apache Hadoop es software de código abierto que sirve para almacenar y analizar cantidades masivas de datos, tanto estructurados como no estructurados: terabytes o más de correo electrónico, lecturas de sensores, registros de servidor, fuentes de Twitter, señales de GPS..., cualquier tipo de datos que pueda imaginar. Con Hadoop puede procesar grandes conjuntos de datos desordenados y obtener conocimiento y respuestas a partir de ellos, de ahí la expectación creada.

Resumen de la historia de Hadoop

Creado en 2005 por Mike Cafarella y Doug Cutting (que le puso el nombre del elefante de juguete de su hijo), Hadoop estaba destinado originalmente a la búsqueda de datos en Internet. Hoy en día, es un proyecto de código abierto comunitario de Apache Software Foundation que se usa en todo tipo de organizaciones e industrias. Microsoft colabora activamente en el trabajo de desarrollo de la comunidad.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, Director de tecnología y miembro de Microsoft

Creado para servidores de uso diario de macrodatos

Una de las razones del éxito de Hadoop es una simple cuestión económica. El procesamiento de conjuntos de macrodatos solía requerir equipos de alto rendimiento y hardware adicional especializado de precio elevado. Con Hadoop es posible realizar tareas de procesamiento confiable, escalable y distribuido en servidores estándar del sector, con capacidad para abordar petabytes de datos y sin que los presupuestos más reducidos supongan un problema. Hadoop también está diseñado para escalar de un único servidor a miles de máquinas, así como para detectar y controlar errores en el nivel de aplicación para mayor confiabilidad.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Información de todos los tipos de datos

Según algunas estimaciones, hasta un 80 % de los datos con los que las organizaciones trabajan hoy en día no vienen perfectamente clasificados en columnas y filas. Más bien se trata de una avalancha desordenada de correos electrónicos, fuentes de medios sociales, imágenes de satélites, señales de GPS, registros de servidor y otros archivos no relacionales sin estructurar. Hadoop puede administrar prácticamente cualquier archivo o formato (su otra gran ventaja), de manera que las organizaciones pueden plantearse cosas que nunca creyeron posibles.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, Ciudad de Barcelona

Vea cómo usa Hadoop la ciudad de Barcelona en Microsoft Azure

¿Por qué usar Hadoop en la nube?

Puede implementar Hadoop en un centro de datos tradicional en la oficina. Algunas compañías, incluida Microsoft, ofrecen también Hadoop como servicio en la nube. Una pregunta obvia sería: ¿por qué usar Hadoop en la nube? A continuación veremos por qué cada vez más organizaciones eligen esta opción.

La nube ahorra tiempo y dinero

Código abierto no significa que todo sea gratuito. La implementación de Hadoop localmente requiere el uso de servidores, así como de expertos en Hadoop, para configurarlos, adaptarlos y mantenerlos. Un servicio en la nube permite poner en marcha un clúster de Hadoop en cuestión de minutos sin costo inicial alguno.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

La nube es flexible y escala con rapidez

En la nube de Microsoft Azure, solo paga por el almacenamiento y los servicios de proceso que utilice, cuando los utilice. Puede poner en marcha un clúster de Hadoop, analizar los datos y apagarlo para detener el contador.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, National Health Service (Reino Unido)

Velocidad gracias a la nube

Cree un clúster de Hadoop en cuestión de minutos y agregue nodos a petición. La nube ofrece a las organizaciones un tiempo de amortización inmediato.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

Conozca HDInsight: Hadoop en la nube de Azure

Microsoft Azure HDInsight es un servicio en la nube de Azure basado en Apache Hadoop al 100 %. Ofrece todas las ventajas de Hadoop, además de la capacidad de integración con Excel, clústeres de Hadoop locales y el ecosistema de software y servicios empresariales de Microsoft.

Vea qué puede hacer HDInsight

Vea una introducción a HDInsight