ADN Cloud

Innovación en la sociedad digital

Categorías
New Call-to-action

Datastage: qué es, cómo funciona y cómo puede ayudar a tu empresa

datastage
Tiempo de lectura: 4 minutos

Datastage es una herramienta ETL que forma parte de la suite de soluciones de IBM Information Platforms e IBM InfoSphere.

Existen muchas herramientas ETL en el mercado, las más conocidas son: Oracle BI, Informatica PowerCenter, IBM DataStage, SAS Data Manager, SAP Data Services, Business Objects, Cognos, Microstrategy, Talend Open Studio y Pentaho Data Integration.

En este post vamos a descubrir qué es IBM InfoSphere Datastage, cómo funciona y cómo puede ayudarnos a integrar datos de múltiples fuentes.

¿Qué es Datastage y para qué sirve?

Datastage es una herramienta ETL que puede extraer datos, transformarlos, aplicar reglas de negocio y luego cargarlos en el destino deseado. Puede integrar todo tipo de datos, incluidos  Big Data.  DataStage facilita el análisis comercial al proporcionar datos de calidad para ayudar a obtener inteligencia empresarial. Además, proporciona una interfaz gráfica para construir soluciones de integración de datos.

Datastage fue creado por VMark a mediados de los años 90. Después de ser adquirido por IBM en 2005, se renombró a IBM WebSphere DataStage y más tarde a IBM InfoSphere.

Las fuentes de datos con las que puede trabajar Datastage son casi infinitas e incluyen archivos secuenciales, archivos indexados, bases de datos relacionales, bases de datos mainframe, fuentes de datos externas, aplicaciones empresariales, etc.

Podemos usar Datastage en nuestra empresa principalmente en los siguientes escenarios:

  • Creación y mantenimiento de Data Warehouse o Data Mart.
  • Integración de datos de diversas fuentes.
  • Migración de datos de varias fuentes.

Datastage: características principales

Datastage ofrece interesantes capacidades como:

  • Implementa reglas de validación de datos.
  • Es útil para procesar y transformar grandes cantidades de datos.
  • Utiliza un enfoque de procesamiento paralelo escalable.
  • Puede manejar transformaciones complejas y administrar múltiples procesos de integración.
  • Puede conectarse a aplicaciones empresariales tanto como fuentes como destinos de datos.
  • Usa metadatos para análisis y mantenimiento.
  • Puede funcionar en batch, en tiempo real o como un servicio web.

¿Cómo usar Datastage en mi empresa?

Existen dos versiones de Datastage:

  • Como herramienta ETL. En este caso, Datastage reside en el servidor y se conecta con las fuentes de datos. A continuación, procesa los datos en la aplicación. Puede funcionar en un solo servidor o en varias máquinas en clústeres o grids.
  • Como herramienta de diseño y supervisión de ETL. En esta modalidad, Datastage ofrece un conjunto de herramientas gráficas basadas en Windows, que se pueden usar para diseñar procesos ETL, administrar los metadatos asociados a ellos y, además, monitorear los procesos ETL.

Además, Datastage está disponible para ser instalado en diferentes variantes:

  • Server Edition: se ejecuta en un solo servidor y no permite paralelismo. Genera código en un lenguaje llamado DataStage BASIC.
  • Enterprise Edition: se ejecuta en una arquitectura que permite el paralelismo automático en un entorno SMP o clúster (MPP). Genera scripts OSH (Orchestrate shell).
  • Enterprise MVS edition: se utiliza para la ejecución de mainframe. Datastage genera COBOL y JCL que se transfieren y se ejecutan en el mainframe.

Datastage tutorial

A continuación vamos a ver de forma resumida cómo funciona Datastage:

  • La actividad ETL se realiza a través de trabajos (jobs). Un trabajo de Datasage es una unidad ejecutable que puede compilarse y ejecutarse de manera independiente o como parte de un flujo de datos. Un trabajo describe el flujo de datos desde una fuente de datos a un destino. Un trabajo contiene varias etapas (stages) individuales que están vinculadas entre sí a través de enlaces (links).
  • Una etapa consiste en un mínimo de una entrada de datos y una salida de datos. Entre las etapas que se pueden usar hay:
    • Transformación
    • Filtro
    • Agregador
    • Eliminación de duplicados
    • Join
    • Búsqueda
    • Copia
    • Ordenación
    • Contenedores
  • Los enlaces se utilizan para conectar varias etapas en un trabajo para definir el flujo de datos.

DataStage posee cuatro componentes principales:

  • Administrador: se usa para configurar usuarios, criterios de purga y crear y mover proyectos.
  • Manager: es la interfaz principal del repositorio. Se usa para el almacenamiento y la gestión de metadatos reutilizables
  • Designer: es una interfaz de diseño que se usa para crear aplicaciones o trabajos, que se compilan para crear un ejecutable que es programado por el Director y ejecutado por el Servidor.
  • Director: se usa para validar, programar, ejecutar y supervisar trabajos del servidor DataStage y trabajos paralelos.

¿Necesita mi empresa Datastage?

Si quieres transformar tu empresa en una organización data driven, necesitas acometer una serie de pasos clave, pero primero tienes que dotarte de un Data Warehouse y poner en marcha los procesos ETL que te ayuden a construirlo. En esta tarea, una herramienta como Datastage peude ser tu aliado fundamental.

¿Estás listo para aprovechar tus datos?

New Call-to-action

Entradas relacionadas

Deja un comentario

No hay comentarios

Todavía no hay ningún comentario en esta entrada.