etl
Tiempo de lectura: 6 minutos

Si queremos aprovechar de las posibilidades del Big Data, necesitamos consolidar nuestras distintas fuentes de datos en un Data Warehouse. Y nuestro compañero de viaje en este proceso es una herramienta ETL.

Navegar en un océano de datos

La gran promesa del Big Data es dotarnos de una brújula que guíe las decisiones de negocio de nuestra empresa, mientras nos encontramos navegando en un océano de datos que estamos generando con nuestra misma actividad o que podemos obtener de fuentes externas.

Sin embargo, a menudo nos encontramos con que tenemos a disposición una gran cantidad de datos, pero no estamos en la condición de poder extraer de ellos el conocimiento que nos pueda ayudar a solucionar nuestros problemas de negocio y ser verdaderas empresas data driven.

De hecho, lo más natural para una empresa es poseer datos generados por los distintos departamentos (financiero, ingeniería, marketing, ventas, etc.), pero que se encuentran repartidos – y aislados – en distintos silos: base de datos relacionales, CRM, herramientas de automatización del marketing, soluciones de atención al cliente, entre otros. Pero se trata de datos que, a priori, no están almacenados en el mismo formato y con los mismos criterios.

Frente a este panorama, se hace necesario consolidar los distintos datos que poseemos en un mismo almacén, sobre el cual posteriormente se ejecutarán los análisis que nos permitirán extraer los insights significativos para nuestro negocio. Este lugar, que se denomina Data Warehouse, es una especial base de datos orientada a la analítica, en la cual los datos provenientes de las distintas fuentes se cargan regularmente y se preparan para facilitar su análisis. Está organizado en subconjuntos llamados Data Marts, orientados a departamentos y áreas empresariales concretas.

¿Qué es una herramienta ETL?

Una herramienta ETL es la “escalera mecánica” que nos permite elevar los datos desde las distintas base de datos y fuentes aisladas al repositorio central representado por el Data Warehouse. Y lo hace con un proceso compuesto por tres etapas distintas (de aquí el acrónimo ETL: Extract, Transform, Load) a través de las cuales los datos son “destilados” en información:

  • Extracción (Extract): La información es extraída desde todas nuestras fuentes de datos, sean estas bases de datos relacionales, XML, o ficheros no estructurados. El volumen de datos extraídos, así como el intervalo de tiempo entre extracciones, depende de las necesidades y requisitos del negocio.
  • Transformación (Transform): Se analizan los datos extraídos para luego transformarlos en el formato deseado manteniendo su integridad, y llevando a cabo operaciones como validación, cálculos, codificación, filtrado, remoción de duplicados.
  • Carga (Load): Se cargan los datos en un formato consistente y homogéneo en el almacén de destino, generalmente el Data Warehouse. Los datos están listos para ser explotados y convertidos en conocimiento.

Principales tipologías de ETL

Los procesos ETL existen desde los años ’70, cuando las empresas comenzaron a usar múltiples base de datos para almacenar distintos tipos de información y surgió la necesidad de integrar todos los datos.

Sin embargo, al comienzo de los ’90, el nacimiento de los Data Warehouse  propició un uso intensivo de los procesos ETL y su programación, que se realizaba mediante lenguajes clásicos, comenzó a volverse difícil de mantener. Así fue cuando grandes compañías lanzaron al mercado sus propias herramientas ETL orientadas al diseño y desarrollo de procesos, que han ido evolucionando con el tiempo. Los principales productos en esta categoría hoy en día son: IBM InfoSphere DataStage, Informatica PowerCenter, Oracle Data Integrator, Microsoft SSIS, SAS Data Manager y SAP Data Services.

Por otro lado, esta oferta se ha ido complementando con herramientas de tipo open source, nacidas para adecuarse a las necesidades de empresas de cualquier tamaño. Las más conocidas son Talend Open Studio y Pentaho Data Integration.

También existen distintas soluciones ETL proporcionadas como servicios en la nube, como Snaplogic, AWS EMR y AWS Glue de Amazon, Azure Data Factory de Microsoft y Google Cloud Dataflow.

Finalmente, hay empresas que eligen implementar sus propias herramientas ETL, lo que supone dedicar más esfuerzo para obtener a cambio una mayor flexibilidad.

¿Para qué sirve una herramienta ETL?

En resumen, los beneficios principales que una herramienta ETL puede proporcionar a nuestra empresas son:

  • Permite extraer y consolidar datos de múltiples fuentes
  • Proporciona un contexto histórico profundo sobre nuestra empresa y negocio
  • Facilita el análisis y el reporte de datos de una forma sencilla y eficiente, mediante representación visual
  • Aumenta la productividad y facilita el trabajo en equipo
  • Permite adaptarse a la evolución de las tecnologías e integrar nuevas fuentes de datos

Además, ETL es un instrumento potente que puede trabajar junto a otras herramientas de gestión e integración de datos para cumplir con los objetivos de nuestra compañía. Algunos casos de usos incluyen:

  • Migración de datos desde sistemas legacy con formatos de datos distintos.
  • Consolidación de datos como consecuencia de una fusión empresarial.
  • Recolección y fusión de datos desde proveedores o partners externos.
  • Integración de nuevas fuentes de datos como social media, videos, dispositivos conectados a internet de las cosas, entre otras.
  • Analítica “Self-Service” para ofrecer la posibilidad de hacer decisiones basadas en los datos a perfiles de negocio y sin conocimientos técnicos.
  • Integrarse con herramientas de Data Quality para asegurar que los datos sean confiables.
  • Trabajar con metadatos para permitir la trazabilidad de los datos.
  • Integrarse con sistemas transaccionales, almacenes de datos operativos, plataformas de Business Intelligence y sistemas de Master Data Management (MDM).

El futuro de ETL pasa por el Big Data

Como hemos visto, el modelo ETL lleva casi 50 años de historia, a lo largo de los cuales ha idos adaptándose tanto a las necesidades de las empresas como a la evolución tecnológica y al cloud, impulsado por la explosión de los datos. En este sentido, la creciente importancia del Big Data hará que las herramientas ETL sigan evolucionando e integrándose con plataformas como Hadoop y Spark.

El futuro de cualquier empresa pasa por tener el control de sus datos, y, por ello, ETL es una herramienta fundamental.