Tiempo de lectura: 7 minutos

Conocemos como ETL al proceso de extraer datos de múltiples sistemas de origen, transformarlos para adaptarlos a las necesidades del negocio y cargarlos en una base de datos de destino.

La gran mayoría de empresas poseen grandes cantidades de datos, a menudo acumulados desde años. Sin embargo, es muy probables que estos datos estén almacenados en distintos lugares y en formatos diferentes, lo que dificulta su explotación y la extracción de conocimiento.

Si queremos beneficiarnos al máximo de las oportunidades que nos ofrecen los datos, necesitamos antes combinarlos y consolidarlos en un único lugar, típicamente un almacén de datos (Data Warehouse). Y nuestro compañero de viaje en este proceso es una herramienta ETL.

Una mejor información conduce a mejores decisiones y ETL lo hace posible.

¿Qué es una herramienta ETL?

Una herramienta ETL nos permite consolidar los distintos datos que poseemos en un mismo almacén, sobre el cual posteriormente se ejecutarán los análisis que nos permitirán extraer los insights significativos para nuestro negocio. Este lugar, que se denomina Data Warehouse, es una especial base de datos orientada a la analítica, en la cual los datos provenientes de las distintas fuentes se cargan regularmente y se preparan para facilitar su análisis. Está organizado en subconjuntos llamados Data Marts, orientados a departamentos y áreas empresariales concretas.

Un proceso ETL se desarrolla por tres etapas distintas (de aquí el acrónimo ETL: Extract, Transform, Load) a través de las cuales los datos son “destilados” en información:

  • Extracción (Extract): La información es extraída desde todas nuestras fuentes de datos, sean estas bases de datos relacionales, XML, o ficheros no estructurados. El volumen de datos extraídos, así como el intervalo de tiempo entre extracciones, depende de las necesidades y requisitos del negocio.
  • Transformación (Transform): Se analizan los datos extraídos para luego transformarlos en el formato deseado manteniendo su integridad, y llevando a cabo operaciones como validación, cálculos, codificación, filtrado, remoción de duplicados.
  • Carga (Load): Se cargan los datos en un formato consistente y homogéneo en el almacén de destino, generalmente el Data Warehouse. Los datos están listos para ser explotados y convertidos en conocimiento.

Características de ETL

Cada empresa posee diferentes datos y necesidades distintas. Sin embargo hay características comunes a todo proceso ETL:

  • Complejidad. Las empresas se pueden encontrar con grandes cantidades de datos almacenadas durante mucho años y generadas por sus distintos departamentos (financiero, ingeniería, marketing, ventas, etc.). Además, estos datos se encuentran repartidos – y aislados – en distintos silos: base de datos relacionales, CRM, herramientas de automatización del marketing, soluciones de atención al cliente, entre otros. Extraer y consolidar toda esta información es una tarea extremadamente compleja.
  • Continuidad. Además, para realizar análisis precisas, es necesario mantener el Data Warehouse constantemente actualizado. Por esto, es importante que el proceso ETL se realice a intervalos regulares, detectando cambios en la información contenida en las fuentes, extraer los nuevos datos, transformarlos y cargarlos en el almacén de datos.
  • Criticidad. Generalmente, ninguno de los datos que poseen las empresas viene por defecto en una forma que esté lista para usar para resolver los problemas de su negocio. Sin los procesos ETL, las empresas se encontrarían con una gran cantidad de datos que no pueden utilizar.

etl

Principales tipologías de ETL

Los procesos ETL existen desde los años ’70, cuando las empresas comenzaron a usar múltiples base de datos para almacenar distintos tipos de información y surgió la necesidad de integrar todos los datos.

Sin embargo, al comienzo de los ’90, el nacimiento de los Data Warehouse  propició un uso intensivo de los procesos ETL y su programación, que se realizaba mediante lenguajes clásicos, comenzó a volverse difícil de mantener. Así fue cuando grandes compañías lanzaron al mercado sus propias herramientas ETL orientadas al diseño y desarrollo de procesos, que han ido evolucionando con el tiempo. Los principales productos en esta categoría hoy en día son: IBM InfoSphere DataStage, Informatica PowerCenter, Oracle Data Integrator, Microsoft SSIS, SAS Data Manager y SAP Data Services.

Por otro lado, esta oferta se ha ido complementando con herramientas de tipo open source, nacidas para adecuarse a las necesidades de empresas de cualquier tamaño. Las más conocidas son Talend Open Studio y Pentaho Data Integration.

También existen distintas soluciones ETL proporcionadas como servicios en la nube, como Snaplogic, AWS EMR y AWS Glue de Amazon, Azure Data Factory de Microsoft y Google Cloud Dataflow.

Finalmente, hay empresas que eligen implementar sus propias herramientas ETL, lo que supone dedicar más esfuerzo para obtener a cambio una mayor flexibilidad.

¿Para qué sirve una herramienta ETL?

ETL es un instrumento potente que puede trabajar junto a otras herramientas de gestión e integración de datos para cumplir con los objetivos de nuestra compañía. Algunos casos de usos incluyen:

  • Migración de datos desde sistemas legacy con formatos de datos distintos.
  • Consolidación de datos como consecuencia de una fusión empresarial.
  • Recolección y fusión de datos desde proveedores o partners externos.
  • Integración de nuevas fuentes de datos como social media, videos, dispositivos conectados a internet de las cosas, entre otras.
  • Analítica “Self-Service” para ofrecer la posibilidad de hacer decisiones basadas en los datos a perfiles de negocio y sin conocimientos técnicos.
  • Integrarse con herramientas de Data Quality para asegurar que los datos sean confiables.
  • Trabajar con metadatos para permitir la trazabilidad de los datos.
  • Integrarse con sistemas transaccionales, almacenes de datos operativos, plataformas de Business Intelligence y sistemas de Master Data Management (MDM).

Principales beneficios de ETL

En resumen, los beneficios principales que una herramienta ETL puede proporcionar a nuestra empresas son:

  • Permitir extraer y consolidar datos de múltiples fuentes.
  • Proporcionar un contexto histórico profundo sobre nuestra empresa y negocio.
  • Facilitra el análisis y el reporte de datos de una forma sencilla y eficiente, mediante representación visual.
  • Aumentar la productividad y facilitar el trabajo en equipo.
  • Permitir adaptarse a la evolución de las tecnologías e integrar nuevas fuentes de datos con las tradicionales.
  • Permitir la toma de decisión estratégica basadas en datos por parte de los directivos de la empresa.

En definitiva, ETL nos pone en condición de poder extraer de ellos el conocimiento que nos pueda ayudar a solucionar nuestros problemas de negocio y ser verdaderas empresas data driven.

Desafíos de ETL

Los procesos ETL son fundamentales para cada empresa. Sin embargo, se encuentran con importantes retos que tienes que superar para adaptarse a las nuevas necesidades:

  • Procesamiento de datos en tiempo real. Cada día más se necesita tomar decisiones con mayor velocidad, lo que contrasta con el funcionamiento en batch de los sistemas ETL tradicionales, que tiene que adecuarse para operar lo más cercano posible al tiempo real.
  • Aumentar la velocidad del procesamiento de datos. El aumento tanto de la cantidad como de la complejidad de los datos, dificulta a veces las tareas de transformación. En este sentido, nación el concepto de ELT (Extract, Load and Transformation), que pospone la transformación en último lugar, realizándose ya en el sistema destino, y aprovechando de la potencia de cálculo del motor de la base de datos.
  • Integración de nuevas fuentes de datos. En la actualidad, las empresas necesitan acceder a todo tipo de fuentes de datos heterogéneas: videos, redes sociales y hasta datos generados por máquinas (Internet de las cosas). Por esto, las herramientas ETL necesitan evolucionar y agregar nuevas transformaciones para soportar estas nuevas fuentes de datos y las que vendrán en futuro.

El futuro de ETL pasa por el Big Data

Como hemos visto, el modelo ETL lleva casi 50 años de historia, a lo largo de los cuales ha idos adaptándose tanto a las necesidades de las empresas como a la evolución tecnológica y al cloud, impulsado por la explosión de los datos. En este sentido, la creciente importancia del Big Data hará que las herramientas ETL sigan evolucionando e integrándose con plataformas como Hadoop y Spark.

El futuro de cualquier empresa pasa por tener el control de sus datos, y, por ello, ETL es una herramienta fundamental.

Material relacionado

Artículos

eBooks

New Call-to-action