Teradata Innovation Forum 2016.

21 noviembre \21\UTC 2016

Hoy estuve en el Teradata Innovation Forum 2016 empapándome de las próximas tendencias del negocio.

TIF2016 1

Por supuesto, no podía faltar Stephen Brobst:

TIF2016 2

El evento nos permitió disfrutar una vez más de la sede (con foto con la Copa de la Undécima incluída), además del gustazo de poder saludar a antiguos clientes, colaboradores y compañeros.

Saludos.


SQL is not dead yet…

10 febrero \10\UTC 2015

Por mucho que los jóvenes cachorros del “big data” lo vayan diciendo por ahí, el “good old” SQL no está muerto

Saludos.

Carlos.


Teradata User Group (TUG) Madrid 2014

20 noviembre \20\UTC 2014

Ayer estuve en el Teradata User Group Madrid 2014 que se celebró ni más ni menos que en el estadio Santiago Bernabéu.

Al interés de las ponencias y de los conferenciantes se añadía el de la propia sede (al menos para algunos de los asistentes entre los que me encuentro).

TUG2014_1

TUG2014_1

Muy interesante fue la charla de Enrique Dans respecto a la infinidad de datos que generamos, su utilidad y los problemas de intimidad que pueden surgir (por favor, no uséis ‘privacidad’ en castellano: duelen los oídos).

Más interesante si cabe (por más técnica) fue la que ofrecieron “al alimón” Stephen Brobst (el auténtico guru de Teradata) y Duncan Ross sobre los errores a evitar a la hora de hacer análisis de big data. Además ofrecía la posibilidad de apreciar las diferencias entre el inglés yankee del primero y el muy británico del segundo.

El resto de las conferencias no desmereció tampoco (bueno, una sí, pero no diré cuál).

Finalmente pude charlar con compañeros, excompañeros, clientes y exclientes en un ambiente relajado en el cóctel que cerraba el acto. Estas charlas medio banales medio técnicas pueden devenir en conversaciones muy interesantes.

TUG2014_2

TUG2014_2

También hubo foto de familia en el mismísimo césped del Bernabéu. Hubo alguno que hasta se santiguó, aunque a algún colchonero -que también había- le salían ronchas sólo de estar allí 😉

TUG2014_3

TUG2014_3

Saludos.

Carlos.


There’s a new kid in town…

27 abril \27\UTC 2014

Hadoop lleva siendo en niño bonito del Big Data casi desde el principio, pero parece que ahora le ha salido un rival más joven y más guapo…

Apache Spark es un nuevo producto construído sobre el sistema de ficheros distribuídos de hadoop (HDFS-Hadoop Distributed File System) y otros (HBase…) y que promete velocidades de relámago (lightning fast) en el procesamiento complejo de análisis de datos (data analytics). Lleva un motor similar (pero distinto) a MapReduce y que aprovecha al máximo el almacenamiento de datos intermedios en memoria, siendo idóneo para tareas iterativas.

Las diferencias más importantes y la base de su asombrosa velocidad es que los resultados intermedios de los procesos pueden ser almacenados “in memory” y compartidos con otras tareas corriendo en paralelo (en especial en procesos multi-stage). Donde MapReduce debe replicar, serializar y leer y escribir a disco, spark coloca los resultados de los procesos en memoria. La base del asunto está en colecciones que pueden ser “cacheadas” en memoria entre diferentes nodos (Resilient Distributed Datasets). Además, diferentes procesos pueden acceder a ellas en paralelo. Anuncian velocidades “40x” sobre hadoop (¡!).

Shark es su motor de consulta, que es un “port” de Apache Hive, y que promete mejoras en la velocidad de hasta 100 veces (¡!) con respecto a hive/hadoop.

Entre sus ventajas están el particionamiento de información y el almacenamiento de los datos en columnas (como arrays de datos de tipos simples) en vez de colecciones de objetos java.

Apache Spark puede bajar con su documentación desde aquí.

Shark se puede bajar desde aquí.

Así que, como decían los Eagles, “There’s a new kid in town“…

Saludos.

Carlos.


Data Lake y el síndrome de Diógenes

18 abril \18\UTC 2014

Ya hay una nueva palabreja (buzzword) volando por ahí: Data Lake. Se viene a sumar a otras como “Big Data”. El responsable, una vez más, es Hadoop, ya que su principal ventaja, desde mi punto de vista, es lo barato que resulta almacenar y analizar gran cantidad de información. Hadoop ha propiciado la tendencia al almacenamiento de toda la información posible “por si acaso”. Es lo más parecido al síndrome de Diógenes que hay en el mundo TI (tendencia ya de por sí bastante extendida entre nosotros los “Datawarehousers“).

Pues bien, el concepto detrás de este Data Lake es precisamente ése: el almacenamiento  de cantidades ilimitadas de información de cualquier tipo o formato con el fin de tenerlas ahí para un posible (y seguramente a menudo poco probable) tratamiento a posteriori, que incluiría su filtrado, depuración, análisis e incluso incorporación de las pequeñas “pepitas de oro” que se pudieran extraer de allí a estructuras mas “serias”, como un Data Warehouse, por ejemplo.

Saludos.

Carlos.


Cookies are dead, long live the smartphones.

6 octubre \06\UTC 2013

Eso es lo que nos espera, según el New York Times: cookies are becoming irrelevant

Las “cookies” eran la principal fuente de información para el seguimiento y análisis de tendencias de los usuarios, pero los “smartphones” no usan “cookies”…

Saludos.

Carlos.


El impacto del “Big Data” está aun por llegar…

18 agosto \18\UTC 2013

Dice Krugman que el verdadero impacto económico del “Big Data” aun está por llegar (como ocurrió con la electricidad y las tecnologías de la información).
Saludos.
Carlos.