Questions? Feedback? powered by Olark live chat software
Omitir navegación

Hadoop

¿Qué es Hadoop?

Apache Hadoop es software de código abierto que sirve para almacenar y analizar cantidades masivas de datos, tanto estructurados como no estructurados: terabytes o más de correo electrónico, lecturas de sensores, registros de servidor, fuentes de Twitter, señales de GPS..., cualquier tipo de datos que pueda imaginar. Con Hadoop puede procesar grandes conjuntos de datos desordenados y obtener conocimiento y respuestas a partir de ellos, de ahí la expectación creada.

Resumen de la historia de Hadoop

Creado en 2005 por Mike Cafarella y Doug Cutting (que le puso el nombre del elefante de juguete de su hijo), Hadoop estaba destinado originalmente a datos de búsqueda en Internet. Hoy en día, es un proyecto de código abierto comunitario de Apache Software Foundation que se usa en todo tipo de organizaciones e industrias. Microsoft colabora activamente en el trabajo de desarrollo de la comunidad.

Microsoft
Microsoft ha dedicado más de 6.000 horas de ingeniería durante el último año a crear código e impulsar la innovación en asociación con la comunidad de código abierto en una amplia gama de proyectos de Hadoop. Además, tenemos autores en Hadoop y el empleado de Microsoft Chris Douglas es el presidente del grupo de trabajo de Apache para Hadoop.

–David Campbell, Director de tecnología y miembro de Microsoft

Creado para servidores de uso diario de macrodatos

Una de las razones del éxito de Hadoop es una simple cuestión económica. El procesamiento de conjuntos de macrodatos solía requerir equipos de alto rendimiento y hardware adicional especializado de precio elevado. Con Hadoop es posible realizar tareas de procesamiento confiable, escalable y distribuido en servidores estándar del sector, con capacidad para abordar petabytes de datos y sin que los presupuestos más reducidos supongan un problema. Hadoop también está diseñado para escalar de un único servidor a miles de máquinas, así como para detectar y controlar errores en el nivel de aplicación para mayor confiabilidad.

Virginia Tech
Investigadores de Virginia Tech usan Hadoop para examinar petabytes de datos de DNA sobre nuevas terapias y antibióticos contra el cáncer.

Información de todos los tipos de datos

Según algunas estimaciones, hasta un 80 % de los datos con los que las organizaciones trabajan hoy en día no vienen perfectamente clasificados en columnas y filas. Más bien se trata de una avalancha desordenada de correos electrónicos, fuentes de medios sociales, imágenes de satélites, señales de GPS, registros de servidor y otros archivos no relacionales sin estructurar. Hadoop puede administrar prácticamente cualquier archivo o formato (su otra gran ventaja), de manera que las organizaciones pueden plantearse cosas que nunca creyeron posibles.

Barcelona
Con Windows Azure, HDInsight y SQL Server 2012, podemos recopilar, analizar y generar inteligencia empresarial prácticamente en tiempo real a partir de datos Big Data recopilados de fuentes de medios sociales, señales de GPS y datos de sistemas gubernamentales.

–Luis Sanz Marco, Ciudad de Barcelona

Vea cómo usa Hadoop la ciudad de Barcelona en Microsoft Azure

¿Por qué usar Hadoop en la nube?

Puede implementar Hadoop en un centro de datos tradicional en la oficina. Algunas compañías, incluida Microsoft, ofrecen también Hadoop como servicio en la nube. Una pregunta obvia sería: ¿por qué usar Hadoop en la nube? A continuación veremos por qué cada vez más organizaciones eligen esta opción.

La nube ahorra tiempo y dinero

Código abierto no significa que todo sea gratuito. La implementación de Hadoop localmente requiere el uso de servidores, así como de expertos en Hadoop, para configurarlos, adaptarlos y mantenerlos. Un servicio en la nube permite poner en marcha un clúster de Hadoop en cuestión de minutos sin costo inicial alguno.

Virginia Tech
Vea cómo Virginia Tech usa la nube de Microsoft en lugar de gastar millones de dólares en establecer su propio centro de supercomputación.

La nube es flexible y escala con rapidez

En la nube de Microsoft Azure, solo paga por el almacenamiento y los servicios de proceso que utilice, cuando los utilice. Puede poner en marcha un clúster de Hadoop, analizar los datos y apagarlo para detener el contador.

NHS
Pusimos en marcha el clúster de HDInsight de Azure rápidamente, procesamos los datos de seis años en tan solo unas horas y cerramos todo a continuación, lo que hizo el procesamiento de datos en la nube extraordinariamente rentable.

–Paul Henderson, National Health Service (Reino Unido)

Velocidad gracias a la nube

Cree un clúster de Hadoop en cuestión de minutos y agregue nodos a petición. La nube ofrece a las organizaciones un tiempo de amortización inmediato.

Chr Hansen
Resultó mucho más rápido realizar este proceso en la nube con Azure. Pudimos implementar la solución y empezar a trabajar con los datos en menos de una semana.

–Morten Meldgaard, Chr. Hansen

Conozca HDInsight: Hadoop en la nube de Azure

HDInsight de Microsoft Azure es un servicio en la nube de Azure basado en Apache Hadoop al 100 %. Ofrece todas las ventajas de Hadoop, además de la capacidad de integración con Excel, clústeres de Hadoop locales y el ecosistema de software y servicios empresariales de Microsoft.

Vea una introducción a HDInsight