There’s a new kid in town…

Hadoop lleva siendo en niño bonito del Big Data casi desde el principio, pero parece que ahora le ha salido un rival más joven y más guapo…

Apache Spark es un nuevo producto construído sobre el sistema de ficheros distribuídos de hadoop (HDFS-Hadoop Distributed File System) y otros (HBase…) y que promete velocidades de relámago (lightning fast) en el procesamiento complejo de análisis de datos (data analytics). Lleva un motor similar (pero distinto) a MapReduce y que aprovecha al máximo el almacenamiento de datos intermedios en memoria, siendo idóneo para tareas iterativas.

Las diferencias más importantes y la base de su asombrosa velocidad es que los resultados intermedios de los procesos pueden ser almacenados “in memory” y compartidos con otras tareas corriendo en paralelo (en especial en procesos multi-stage). Donde MapReduce debe replicar, serializar y leer y escribir a disco, spark coloca los resultados de los procesos en memoria. La base del asunto está en colecciones que pueden ser “cacheadas” en memoria entre diferentes nodos (Resilient Distributed Datasets). Además, diferentes procesos pueden acceder a ellas en paralelo. Anuncian velocidades “40x” sobre hadoop (¡!).

Shark es su motor de consulta, que es un “port” de Apache Hive, y que promete mejoras en la velocidad de hasta 100 veces (¡!) con respecto a hive/hadoop.

Entre sus ventajas están el particionamiento de información y el almacenamiento de los datos en columnas (como arrays de datos de tipos simples) en vez de colecciones de objetos java.

Apache Spark puede bajar con su documentación desde aquí.

Shark se puede bajar desde aquí.

Así que, como decían los Eagles, “There’s a new kid in town“…

Saludos.

Carlos.

Anuncios

2 respuestas a There’s a new kid in town…

  1. kiquenet dice:

    Interesante blog.

    Para torpes, alguna b uena referencia de Big Data – Hadoop para .NET ?

    saludos.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: