jueves, 9 de enero de 2020

Procesos ETL


Un proceso ETL es aquel que nos permite mover datos de distintos orígenes para que les podamos dar el formato que se adapte a nuestras necesidades, realizar cálculos necesarios para nuestro negocio y por último ser cargados en un sistema de destino. Ese sistema puede ser otra Base de Datos, un Data Mart o un Data Warehouse.
Como dato histórico comentar que el concepto se hizo popular en los años 70 cuando las organizaciones necesitaban tener que usar los datos diferentes repositorios, bases de datos y almacenar diferentes tipos de información del negocio. Esa necesidad de integración de datos se hizo bastante popular y la necesidad creció rápidamente, el proceso comenzó a ser estándar. Posteriormente, en los años 80 y principios de los 90 apareció en escena el Data Warehouse y le dió otro impulso importante a estas soluciones. 
La propia palabra ETL significa Extract (Extraer), Tranform (Transformar) y Load (Cargar) que son las tres fases que conforman este proceso, cada una de las fases es definida a continuación con más detalle:
  •  Extract es la primera parte del proceso, se basa en obtener los datos de diferentes sistemas de origen, bases de datos relacionales o no relacionales, ficheros planos u otras estructuras diferentes. En esta parte se analizan los diferentes tipos de datos que hay para posteriormente preparalos para el paso siguiente que será la transformación. Al ser operaciones con gran cantidad de datos suelen programarse como procesos batch, para que el impacto en el sistema no afecte a otros procesos. Suelen realizarse de madrugada.
  •  Transform en esta fase entra en juego las reglas del negocio que quieran tratarse bien para hacer cálculos o excluir datos que no sean útiles por diversos motivos. También para poder tener los datos en el formato adecuado.
  •  Load es la última de las fases, es la culminación del proceso en cuestión. Es la fase que recibe los datos del paso anterior y que los va a cargar en el destino. Hay dos formas básicas de cargar los datos, la primera se conoce con el nombre de Acumulación Simple y Rolling.
Para concluir vamos a comentar las principales herramientas ETL que existen en el mercado ya  bien sean software empresarial como son,  Informática Power Center, IBM Infosphere DataStage, ODI (Oracle Data Integrator), SSIS (Microsoft SQL Server Integration Services) y por la rama de Open Source, están Kettle (Pentaho Data Integration), Talend Open Studio
 En futuras entradas hablaré de alguna de ellas y de algún ejemplo interesante.

No hay comentarios:

Publicar un comentario