Ir al contenido principal

Arquitectura Básica de un Data Warehouse

Concepto Data Warehousing

Data warehousing soporta el procesamiento informático al proveer una plataforma sólida, a partir de los datos históricos para hacer el análisis. Facilita la integración de sistemas de aplicación no integrados. Organiza y almacena los datos que se necesitan para el procesamiento analítico, informático sobre una amplia perspectiva de tiempo.

Un Data Warehouse o Depósito de Datos es una colección de datos orientado a temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales.

Se puede caracterizar un data warehouse haciendo un contraste de cómo los datos de un negocio almacenados en un data warehouse, difieren de los datos operacionales usados por las aplicaciones de producción.

Base de Datos Operacional
Data Warehouse
Datos Operacionales
Datos del negocio para Información
Orientado a la aplicación
Orientado al sujeto
Actual
Actual + histórico
Detallada
Detallada + más resumida
Cambia continuamente
Estable
El ingreso de datos en el data warehouse viene desde el ambiente operacional en casi todos los casos. El data warehouse es siempre un almacén de datos transformados y separados físicamente de la aplicación donde se encontraron los datos en el ambiente operacional.

Arquitectura Básica de un Data Warehouse

Una de las razones por las que el desarrollo de un data warehouse crece rápidamente, es que realmente es una tecnología muy entendible. De hecho, data warehousing puede representar mejor la estructura amplia de una empresa para administrar los datos informacionales dentro de la organización. A fin de comprender cómo se relacionan todos los componentes involucrados en una estrategia data warehousing, es esencial tener una Arquitectura Data Warehouse.






Elementos constituyentes de una Arquitectura Data Warehouse

Una Arquitectura Data Warehouse (Data Warehouse Architecture - DWA) es una forma de representar la estructura total de datos, comunicación, procesamiento y presentación, que existe para los usuarios finales que disponen de una computadora dentro de la empresa.
La arquitectura se constituye de un número de partes interconectadas:
  • Base de datos operacional / Nivel de base de datos externo
  • Nivel de acceso a la información
  • Nivel de acceso a los datos
  • Nivel de directorio de datos (Metadata)
  • Nivel de gestión de proceso
  • Nivel de mensaje de la aplicación
  • Nivel de data warehouse
  • Nivel de organización de datos
Base de datos operacional / Nivel de base de datos externo

Los sistemas operacionales procesan datos para apoyar las necesidades operacionales críticas. Para hacer eso, se han creado las bases de datos operacionales históricas que proveen una estructura de procesamiento eficiente, para un número relativamente pequeño de transacciones comerciales bien definidas.

Sin embargo, a causa del enfoque limitado de los sistemas operacionales, las bases de datos diseñadas para soportar estos sistemas, tienen dificultad al acceder a los datos para otra gestión o propósitos informáticos.
Esta dificultad en acceder a los datos operacionales es amplificada por el hecho que muchos de estos sistemas tienen de 10 a 15 años de antigüedad. El tiempo de algunos de estos sistemas significa que la tecnología de acceso a los datos disponible para obtener los datos operacionales, es así mismo antigua.

Ciertamente, la meta del data warehousing es liberar la información que es almacenada en bases de datos operacionales y combinarla con la información desde otra fuente de datos, generalmente externa.

Cada vez más, las organizaciones grandes adquieren datos adicionales desde bases de datos externas. Esta información incluye tendencias demográficas, econométricas, adquisitivas y competitivas (que pueden ser proporcionadas por Instituciones Oficiales - INEI). Internet o también llamada "information superhighway" (supercarretera de la información) provee el acceso a más recursos de datos todos los días.

Nivel de acceso a la información
El nivel de acceso a la información de la arquitectura data warehouse, es el nivel del que el usuario final se encarga directamente. En particular, representa las herramientas que el usuario final normalmente usa día a día. Por ejemplo: EXCEL, LOTUS 1-2-3, FOCUS, ACCESS, SAS, etc.

Este nivel también incluye el hardware y software involucrados en mostrar información en pantalla y emitir reportes de impresión, hojas de cálculo, gráficos y diagramas para el análisis y presentación. Hace dos décadas que el nivel de acceso a la información se ha expandido enormemente, especialmente a los usuarios finales quienes se han volcado a los PCS monousuarios y los PCS en redes.

Actualmente, existen herramientas más y más sofisticadas para manipular, analizar y presentar los datos, sin embargo, hay problemas significativos al tratar de convertir los datos tal como han sido recolectados y que se encuentran contenidos en los sistemas operacionales en información fácil y transparente para las herramientas de los usuarios finales. Una de las claves para esto es encontrar un lenguaje de datos común que puede usarse a través de toda la empresa.

Nivel de acceso a los datos
El nivel de acceso a los datos de la arquitectura data warehouse está involucrado con el nivel de acceso a la información para conversar en el nivel operacional. En la red mundial de hoy, el lenguaje de datos común que ha surgido es SQL. Originalmente, SQL fue desarrollado por IBM como un lenguaje de consulta, pero en los últimos veinte años ha llegado a ser el estándar para el intercambio de datos.

Uno de los adelantos claves de los últimos años ha sido el desarrollo de una serie de "filtros" de acceso a datos, tales como EDA/SQL para acceder a casi todo los Sistemas de Gestión de Base de Datos (Data Base Management Systems - DBMSs) y sistemas de archivos de datos, relacionales o no. Estos filtros permiten a las herramientas de acceso a la información, acceder también a la data almacenada en sistemas de gestión de base de datos que tienen veinte años de antigüedad.

El nivel de acceso a los datos no solamente conecta DBMSS diferentes y sistemas de archivos sobre el mismo hardware, sino también a los fabricantes y protocolos de red. Una de las claves de una estrategia data warehousing es proveer a los usuarios finales con "acceso a datos universales".

El acceso a los datos universales significa que, teóricamente por lo menos, los usuarios finales sin tener en cuenta la herramienta de acceso a la información o ubicación, deberían ser capaces de acceder a cualquier o todos los datos en la empresa que es necesaria para ellos, para hacer su trabajo.

El nivel de acceso a los datos entonces es responsable de la interfaces entre las herramientas de acceso a la información y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita. Sin embargo, en general, las organizaciones desarrollan un plan mucho más sofisticado para el soporte del data warehousing.

Nivel de Directorio de Datos (Metadata)
A fin de proveer el acceso a los datos universales, es absolutamente necesario mantener alguna forma de directorio de datos o repositorio de la información metadata. La metadata es la información alrededor de los datos dentro de la empresa.

Las descripciones de registro en un programa COBOL o .Net son metadata. También lo son las sentencias DIMENSION en un programa BI o las sentencias a crear en SQL.

A fin de tener un depósito totalmente funcional, es necesario tener una variedad de metadata disponibles, información sobre las vistas de datos de los usuarios finales e información sobre las bases de datos operacionales. Idealmente, los usuarios finales deberían de acceder a los datos desde el data warehouse (o desde las bases de datos operacionales), sin tener que conocer dónde residen los datos o la forma en que se han almacenados.

Nivel de Gestión de Procesos
El nivel de gestión de procesos tiene que ver con la programación de diversas tareas que deben realizarse para construir y mantener el data warehouse y la información del directorio de datos. Este nivel puede depender del alto nivel de control de trabajo para muchos procesos (procedimientos) que deben ocurrir para mantener el data warehouse actualizado.

Nivel de Mensaje de la Aplicación
El nivel de mensaje de la aplicación tiene que ver con el transporte de información alrededor de la red de la empresa. El mensaje de aplicación se refiere también como "subproducto", pero puede involucrar sólo protocolos de red. Puede usarse por ejemplo, para aislar aplicaciones operacionales o estratégicas a partir del formato de datos exacto, recolectar transacciones o los mensajes y entregarlos a una ubicación segura en un tiempo seguro.

Nivel Data Warehouse (Físico)
En el data warehouse (núcleo) es donde ocurre la data actual, usada principalmente para usos estratégicos. En algunos casos, uno puede pensar del data warehouse simplemente como una vista lógica o virtual de datos. En muchos ejemplos, el data warehouse puede no involucrar almacenamiento de datos.

En un data warehouse físico, copias, en algunos casos, muchas copias de datos operacionales y/o externos, son almacenados realmente en una forma que es fácil de acceder y es altamente flexible. Cada vez más, los data warehouses son almacenados sobre plataformas cliente/servidor, pero por lo general se almacenan sobre equipos de alto poder de almacenamiento para bases de datos. Es importante mencionar que un Data warehouse esta organizado por la formación de varios Data Marts.

Nivel de Organización de Datos
El componente final de la arquitectura data warehouse es la organización de los datos. Se llama también gestión de copia o réplica (STAGE), pero de hecho, incluye todos los procesos necesarios como seleccionar, editar, resumir, combinar y cargar datos en el depósito y acceder a la información desde bases de datos operacionales y/o externas.

La organización de datos involucra con frecuencia una programación compleja, pero cada vez más, están creándose las herramientas data warehousing para ayudar en este proceso. Involucra también programas de análisis de calidad de datos y filtros que identifican modelos y estructura de datos dentro de la data operacional existente.


Consulta más detalles con nuestros asesores de BI



Comentarios

Entradas más populares de este blog

AMS (Application Management Services)

Definición Soporte de Aplicaciones y Mantenimiento (AMS). AMS (Application Management Services) es la tercerización de los servicios de gestión, soporte y mantenimiento de aplicaciones capaz de proporcionar a los clientes mejoras operacionales relevantes . El modelo AMS (Application Management System) representa un enfoque avanzado de servicios TI mediante el cual Tasisoft asume la responsabilidad a medio/largo plazo del conjunto de tareas y actividades relativas tanto al desarrollo y mantenimiento de aplicaciones como al soporte y evolución de las mismas. Bajo el concepto de Tasi software ofrece servicios dedicados y compartidos para outsourcing de aplicaciones con desarrolladores altamente calificados y experiencia en las más variadas tecnologías del mercado. Las líneas de servicios ofrecidas dentro del Desarrollo y Mantenimiento de Aplicaciones (AMS), son: Mantenimiento Preventivo y Normativo Mantenimiento Correctivo Mantenimiento Evolutivo / Nuevos De

Desarrollo de Software: EDT (Estructura de desglose de trabajo) o WBS (Work Breakdown Structure)

Definición La EDT es una descomposición jerárquica-orientada a los entregables del proyecto- de los trabajos que ejecutara  el equipo de trabajo, para crear los productos requeridos. Es un paso muy importante en la definición del alcance de un proyecto. La EDT organiza y define el alcance total del proyecto, mediante la subdivisión de trabajo en piezas más pequeñas y manejables. En cada nivel inferior de la estructura se tiene un incremento en el detalle de los trabajos del proyecto. El trabajo incluido en el nivel más bajo de la WBS se le denomina paquetes de trabajo, los cuales pueden ser programados, monitoreados y supervisados. Principios Básicos de una EDT Una unidad de trabajo deberá aparecer en un solo lugar en la EDT . El contenido del trabajo de un elemento de la EDT es la suma de los elementos inferiores. Un elemento de la EDT es responsabilidad de una sola persona , a pesar de que muchas personas pueden estar trabajando en él. El EDT debe ser coherent

Business Intelligence Proceso de Carga de Datos ETL, Vista modo Componente

Este componente consiste en crear procesos que se ejecutan por medio de un programador de tareas de manera nocturna o por medio de una aplicación en ejecución manual por demanda,  cuya función es la de ayudar en el proceso de transporte de datos de un origen a un destino incluyendo procesos de limpieza, transformación de datos en caso de ser necesarios y generación de cálculos. El objetivo principal es contar con una base de datos diseñada bajo un esquema estrella, que facilite la carga de información a los modelos OLAP y la explosión de reportes. Normalmente se debe tener contemplado la realización de 1 proceso de carga de tipo transaccional (Tablas de Hechos) y de los catálogos (Tablas de Dimensiones). Es importante mencionar que este componente es importante para la validación de la integridad de los datos. El proceso funcionara bajo los siguientes pasos: a.      Extraer . La primera parte del proceso consiste en extraer los datos desde los sistemas de origen. Una parte