Instalando el Teradata ODBC driver en Linux 64 (CentOS 6)

6 marzo \06\UTC 2015

Por motivos que no vienen al caso, pero que están en cierto modo relacionados con esto, tuve que instalar el Teradata ODBC driver para Linux 64 en un CentOS 6.

Viendo la documentación, me pareció que había aspectos de la instalación que no estaban demasiado claros, cosa que pude comprobar después de consultar un poco la web. No obstante, como valiente que es uno, eso no me apartó del objetivo.

Lo primero, descargar el driver en http://downloads.teradata.com/download/connectivity/odbc-driver/linux

Es un “.tar.gz” que contiene los .rpm de tdicu (Teradata International Components for Unicode), tdgss (Teradata Generic Security Services) y tdodbc (el driver en sí).

Tras instalar tdicu, tdgss y tdodbc (rpm -ivh) es cuando vienen los puntos peliagudos:

Hay que copiar odbc.ini de /opt/teradata/client/15.00/odbc_64 a $HOME/.odbc.ini . Nótese que el fichero en $HOME debe ser ‘oculto’ comenzando con un punto: .odbc.ini

Una vez hecho esto, hay que editarlo para incluir el origen ODBC al cual queremos acceder (en nuestro caso, un Teradata 14.10 sobre SLES 11) agregando las entradas necesarias:

 

[ODBC Data Sources]
TD1410_SLES11=tdata.so
...

[TD1410_SLES11]
Driver=/opt/teradata/client/ODBC_64/lib/tdata.so
Description=Teradata 14.10 on SLES 11
DBCName=TD1410
...

Pero ahí no acaba todo, ya que nos quedan por fijar un par de variables de entorno sin las cuales la cosa no funciona.

Hay que fijar variables de entorno en .bash_profile:

#Teradata ODBC:
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/teradata/client/15.00/odbc_64/lib
export LD_LIBRARY_PATH

NLSPATH=/opt/teradata/client/15.00/odbc_64/msg/%N.cat
export NLSPATH

Porque la instalación fija variables de entorno en /etc/profile y en /etc/csh.login y éstas apuntan al entorno erróneo. Es por eso que suelen aparecer los errores “Specified driver could not be loaded” y “Unable to get catalog string“.

Una vez hecho todo esto, sólo hay que probar:

[carlos@centos-6 bin]$ ./tdxodbc 

Enter Data Source Name: TD1410_SLES11
Enter UserID: carlos
Enter Password: 

Connecting with SQLConnect(DSN=TD1410_SLES11,UID=carlos,PWD=*)...

.....ODBC connection successful.

ODBC version        = -03.52.0000-
DBMS name           = -Teradata-
DBMS version        = -14.10.0002  14.10.00.02-
Driver name         = -tdata.so-
Driver version      = -15.00.00.03-
Driver ODBC version = -03.51-

(type quit to terminate adhoc) 
Enter SQL string : SELECT DATE;

Executing SQLExecDirect("SELECT DATE;")...

SQL Statement [1]: 1 rows affected.

Date 
2015-03-05 

Enter SQL string : quit

'quit' command detected

ODBC connection closed.
[carlos@centos-6 bin]$ 

Y… ¡éxito!

Saludos.

Carlos.


DIRTY READS

13 febrero \13\UTC 2015

 

Teradata funciona en ISOLATION LEVEL SERIALIZABLE por defecto. Esto significa que para garantizar la integridad de los datos se implementan bloqueos que impiden modificaciones de los mismos por otras transacciones mientras estos están siendo leídos. Esta política de bloqueos es bastante restrictiva en sí (READERS BLOCK WRITERS) aunque es la más segura a la hora de garantizar integridad. Hay que tener en cuenta que en Datawarehouses lo normal es leer mucho y modificar poco (READERS DON’T BLOCK READERS). Otras bases de datos más orientadas a OLTP funcionan de otras formas (READ COMMITED en Oracle, por ejemplo. READERS DON’T BLOCK WRITERS)

Teradata nos permite relajar los bloqueos de lectura de forma que no interfiramos la actividad de actualización de tablas sobre las que únicamente queremos leer para que otras transacciones puedan desarrollar dichas actividades de actualización. La forma más habitual de hacerlo es con el modificador LOCKING … FOR ACCESS. Con este modificador podremos leer los datos sin bloquearlos, permitiendo actividades de actualización por parte de otras transacciones. Pero a un coste: estaremos permitiendo los llamados ‘dirty reads’: lectura de datos modificados por otras transacciones pero sobre los que no se ha hecho COMMIT (ISOLATION LEVEL READ UNCOMMITED). Esto puede tener consecuencias no deseadas.

Lo podemos ver con un ejemplo ‘de la vida real’. Uso la siguiente ‘query‘ para monitorizar la actividad sobre una tabla por parte de un agente externo que realiza constantes borrados e inserciones sobre ella:

 BTEQ -- Enter your SQL request or BTEQ command:
LOCKING TABLE THE_DATABASE.THE_TABLE FOR ACCESS
SELECT CURRENT_TIMESTAMP (FORMAT 'YYYY-MM-DDbhh:mi:ss') FECHA,
       ZEROIFNULL(SUM (CASE WHEN TS_PROCESADO IS NULL 
                            THEN 1 ELSE 0 END)) PENDIENTES,
       ZEROIFNULL(SUM (CASE WHEN TS_PROCESADO IS NOT NULL 
                            THEN 1 ELSE 0 END)) PROCESADOS,
       PENDIENTES + PROCESADOS TOTAL,
       MAX(TS_TIMESTAMP) ULTIMO_INSERTADO
  FROM THE_DATABASE.THE_TABLE
;


 *** Query completed. One row found. 6 columns returned.
 *** Total elapsed time was 1 second.

              FECHA PENDIENTES PROCESADOS TOTAL    ULTIMO_INSERTADO
------------------- ---------- ---------- ----- -------------------
2015-02-11 09:36:00          5         15    20 2015-02-11 09:36:00

 BTEQ -- Enter your SQL request or BTEQ command:
=1


 *** Query completed. One row found. 6 columns returned.
 *** Total elapsed time was 1 second.

              FECHA PENDIENTES PROCESADOS TOTAL    ULTIMO_INSERTADO
------------------- ---------- ---------- ----- -------------------
2015-02-11 09:36:02          0         20    20 2015-02-10 12:32:17

Aquí se ve como en la primera ejecución de la query estábamos leyendo datos modificados por una transacción del agente (había borrado cinco filas y las había vuelto a insertar como ‘pendientes’) pero sobre los que aun aun no había efectuado un COMMIT. Por algún problema en la transacción -o por una orden explícita- ésta es abortada con el consiguiente ROLLBACK, de tal forma que las segunda ejecución de nuestra SELECT (apenas dos segundos después) muestra los datos tal y como estaban al comienzo de la transacción abortada.

Hay que hacer notar que, al no existir un COMMIT, hemos leído datos que nunca han existido “realmente” en la base de datos.

Como siempre: no se trata de que esto sea algo malo o bueno, se trata de saber las necesidades y asumir los posibles efectos de aplicar las diferentes técnicas.

Nota: mis compañeros A. y N. lo vieron ‘in situ‘ y me animaron a escribir esto.

Saludos.

Carlos.


Teradata Unity implementation workshop

10 enero \10\UTC 2015

Esta semana la he pasado haciendo el Teradata Unity implementation workshop. Un ‘hands on workshop‘ que te da la oportunidad de conocer, utilizar y experimentar con los diferentes productos del ecosystem de Teradata Unity y las interacciones entre ellos.

El curso ha sido interesantísimo y el monitor, además de saber un montón, ha resultado ser un tipo encantador.

Teradata Unity implementation workshop

Teradata Unity implementation workshop

Una semana muy bien aprovechada…

Saludos.

Carlos.


Teradata Studio 15 sobre Mac OS X Snow Leopard

27 noviembre \27\UTC 2014

Nunca he sido muy aficionado a los Mac (aunque en chez CarlosAL últimamente han empezado a aparecer algunos dispositivos con la manzanita…). Me parecen los más cerrados de los sistemas (incluso más que Windows) y aunque son muy ‘cool‘ (o eso suelen decir sus propietarios) siendo -como soy básicamente- un desarrollador, no me he topado con demasiada gente que desarrolle sobre Mac.

Y Teradata debe de ser de mi misma opinión, ya que no existen apenas herramientas de desarrollo para Mac: Ni cliV2, ni TTU’s… apenas un ‘driver ODBC’… y Teradata Studio.

Aunque no veo muchas razones por las que se pueda querer instalar Teradata Studio en un Mac. Sólamente se me ocurre el “porque sí” (just for the hell of it) o simplemente porque al Bicho Nº2 le encanta la foto del leopardo en la nieve.

En cualquier caso, teniendo un Mac OS X Snow Leopard con runtime de java JRE 1.6 no hay más que bajarse el .zip que contiene el .pkg y proceder a su instalación. Luego no hay más que configurar la conexión a Teradata exactamente igual que en las versiones de Windows o Linux y el resultado es:

TD Studio 15 on Mac OS X Snow Leopard

TD Studio 15 on Mac OS X Snow Leopard

Ahora, también es cierto que no creo que lo use mucho.

Saludos.

Carlos.


Teradata User Group (TUG) Madrid 2014

20 noviembre \20\UTC 2014

Ayer estuve en el Teradata User Group Madrid 2014 que se celebró ni más ni menos que en el estadio Santiago Bernabéu.

Al interés de las ponencias y de los conferenciantes se añadía el de la propia sede (al menos para algunos de los asistentes entre los que me encuentro).

TUG2014_1

TUG2014_1

Muy interesante fue la charla de Enrique Dans respecto a la infinidad de datos que generamos, su utilidad y los problemas de intimidad que pueden surgir (por favor, no uséis ‘privacidad’ en castellano: duelen los oídos).

Más interesante si cabe (por más técnica) fue la que ofrecieron “al alimón” Stephen Brobst (el auténtico guru de Teradata) y Duncan Ross sobre los errores a evitar a la hora de hacer análisis de big data. Además ofrecía la posibilidad de apreciar las diferencias entre el inglés yankee del primero y el muy británico del segundo.

El resto de las conferencias no desmereció tampoco (bueno, una sí, pero no diré cuál).

Finalmente pude charlar con compañeros, excompañeros, clientes y exclientes en un ambiente relajado en el cóctel que cerraba el acto. Estas charlas medio banales medio técnicas pueden devenir en conversaciones muy interesantes.

TUG2014_2

TUG2014_2

También hubo foto de familia en el mismísimo césped del Bernabéu. Hubo alguno que hasta se santiguó, aunque a algún colchonero -que también había- le salían ronchas sólo de estar allí ;-)

TUG2014_3

TUG2014_3

Saludos.

Carlos.


Copiando estadísticas en Teradata.

18 noviembre \18\UTC 2014

A partir de la versión 13 Teradata ofrece la posibilidad de copiar estadísticas de una tabla a otra. Esta funcionalidad se revela muy útil -por ejemplo- en las ocasiones en las que queremos analizar e investigar planes de ejecución mediante EXPLAIN sobre tablas pequeñas (p. ej. en un entorno de desarrollo) y queremos que el optimizador las considere como si fueran grandes (p. ej. de un entorno de producción).

Mediante la sentencia COLLECT STATISTICS … FROM … Teradata copiará los datos de estadísticas de una tabla sobre las de otra sin efectuar cálculo alguno:

COLLECT STATISTICS ON <db_name>.<table_name> 
FROM <db_name>.<table_name> COLUMN(<column_name>);

Tras ejecutar esta sentencia, el optimizador calculará los planes de ejecución basándose en los valores de las estadísticas copiadas y por tanto considerará los valores de la demografía de los datos como si los de la tabla origen se tratase.

Hay otras situaciones para las que también puede ser de utilidad: si creamos una tabla a partir de otra para efectuar algún tipo de modificación de estructura mediante el método de ejecutar un INSERT … SELECT y RENAME posterior (y evitarnos un ALTER TABLE) no tenemos por qué volver a generar las estadísticas para la nueva tabla al final del proceso, sino que podemos copiarlas directamente de la tabla origen mediante esta técnica y ahorrarnos bastante tiempo.

Saludos.

Carlos.


Borrando filas duplicadas en Teradata (II)

21 octubre \21\UTC 2014

Es un asunto recurrente en cualquier foro de Teradata: ¿cómo borro filas duplicadas en una tabla MULTISET? El tema ya lo tratamos aquí, y el problema principal es que Teradata no maneja los ROWIDs a la manera de Oracle (y otros RDBMSs), de forma que no se puede acceder a las filas directamente mediante su ROWID para borrarlas de forma individual.

Hay varias formas de librarse de las molestas filas duplicadas, como crear tablas nuevas y llenarlas con SELECT DISTINCT… También con técnicas algo más más artificiosas, como vimos aquí. Hoy vamos a ver otra solución al problema, aunque es un poco más enrevesada…

Tenemos una tabla MULTISET con filas repetidas:

 BTEQ -- Enter your SQL request or BTEQ command:
SHOW TABLE CARLOS.PRUEBADUP;


 *** Text of DDL statement returned.
 *** Total elapsed time was 1 second.

-------------------------------------------------------------------
CREATE MULTISET TABLE CARLOS.PRUEBADUP ,
     NO FALLBACK ,
     NO BEFORE JOURNAL,
     NO AFTER JOURNAL,
     CHECKSUM = DEFAULT,
     DEFAULT MERGEBLOCKRATIO
     (
      ID_N INTEGER NOT NULL,
      C_TXT VARCHAR(10) CHARACTER SET LATIN CASESPECIFIC NOT NULL)
PRIMARY INDEX ( ID_N );


 BTEQ -- Enter your SQL request or BTEQ command:
SELECT * FROM CARLOS.PRUEBADUP;


 *** Query completed. 3 rows found. 2 columns returned.
 *** Total elapsed time was 1 second.

       ID_N  C_TXT
-----------  ----------
          1  UNO
          1  UNO
          1  UNO

Para eliminar los duplicados vamos a recurrir a un cursor y una cláusula WHERE CURRENT OF, que es ANSI 2011. Para ello creamos un procedimiento almacenado de la siguiente forma:

REPLACE PROCEDURE CARLOS.BORRADUPS()
BEGIN
   DECLARE iIndice INTEGER DEFAULT 1;
   FOR iFila AS cFila CURSOR FOR SELECT ID_N, C_TXT FROM CARLOS.PRUEBADUP
   DO
      IF iIndice > 1 THEN
         DELETE FROM CARLOS.PRUEBADUP
               WHERE CURRENT OF cFila;
      END IF;
      SET iIndice = iIndice + 1;
   END FOR;
END;

Así pues, lo compilamos…

 BTEQ -- Enter your SQL request or BTEQ command:
.COMPILE FILE C:\Carlos\TeradataStoredProcedures\BORRADUPS.sql;


 *** Procedure has been replaced.
 *** Total elapsed time was 1 second.


 BTEQ -- Enter your SQL request or BTEQ command:
COMMIT;


 *** COMMIT done.
 *** Total elapsed time was 1 second.

…y lo ejecutamos:

 BTEQ -- Enter your SQL request or BTEQ command:
CALL CARLOS.BORRADUPS();


 *** Procedure has been executed.
 *** Total elapsed time was 1 second.


 BTEQ -- Enter your SQL request or BTEQ command:
COMMIT;

 *** COMMIT done.
 *** Total elapsed time was 1 second.

Y, como por arte de magia, tenemos que:

 BTEQ -- Enter your SQL request or BTEQ command:
SELECT * FROM  CARLOS.PRUEBADUP;


 *** Query completed. One row found. 2 columns returned.
 *** Total elapsed time was 1 second.

       ID_N  C_TXT
-----------  ----------
          1  UNO

Las filas duplicadas han desaparecido de forma sencilla y limpia.

Aunque los más avispados se habrán extrañado al encontrarse con todos esos COMMITs… y con razón. Esto es así porque la cláusula WHERE CURRENT OF sólo funciona en sesiones en modo ANSI, por lo que antes de comenzar la sesión en bteq que compilaba el procedimiento almacenado hubo que ejecutar un:

.SET SESSION TRANSACTION ANSI

Y esto, aunque pueda parecer poco importante, tiene ciertas consecuencias, porque si abrimos otra sesión en modo BTET e intentamos ejecutar el procedimiento:

.LOGON SLES11/carlos
Password:

 *** Logon successfully completed.
 *** Teradata Database Release is 14.10.00.02
 *** Teradata Database Version is 14.10.00.02
 *** Transaction Semantics are BTET.
 *** Session Character Set Name is 'ASCII'.

 *** Total elapsed time was 1 second.

 BTEQ -- Enter your SQL request or BTEQ command:
 *** Warning: EOF on INPUT stream.
 BTEQ -- Enter your SQL request or BTEQ command:
CALL CARLOS.BORRADUPS();

 *** Failure 5510 Invalid session mode for procedure execution.
                Statement# 1, Info =0
 *** Total elapsed time was 1 second.

En efecto, un procedimiento almacenado que fue compilado en una sesión con modo ANSI no puede ser ejecutado en modo Teradata (BTET).

Well, nobody’s perfect! – Osgood Fielding III.

Por otra parte, un tratamiento row by row dista mucho de ser el tratamiento ideal (aunque, como siempre, puede haber determinados casos en los que pudiera ser aplicable, sobre todo definiendo bien el cursor y siempre y cuando no haya un gran número de filas duplicadas).

Saludos.

Carlos.


Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.

Únete a otros 62 seguidores