Concepto Data Warehousing
Data warehousing soporta
el procesamiento informático al proveer una plataforma sólida, a partir de los
datos históricos para hacer el análisis. Facilita la integración de sistemas de
aplicación no integrados. Organiza y almacena los datos que se necesitan para
el procesamiento analítico, informático sobre una amplia perspectiva de tiempo.
Un Data Warehouse o Depósito de Datos es
una colección de datos orientado a temas, integrado, no volátil, de tiempo
variante, que se usa para el soporte del proceso de toma de decisiones
gerenciales.
Se puede caracterizar un data warehouse
haciendo un contraste de cómo los datos de un negocio almacenados en un data
warehouse, difieren de los datos operacionales usados por las aplicaciones de
producción.
Base de Datos Operacional
|
Data Warehouse
|
Datos
Operacionales
|
Datos
del negocio para Información
|
Orientado
a la aplicación
|
Orientado
al sujeto
|
Actual
|
Actual
+ histórico
|
Detallada
|
Detallada
+ más resumida
|
Cambia
continuamente
|
Estable
|
El ingreso de datos en el data warehouse
viene desde el ambiente operacional en casi todos los casos. El data warehouse
es siempre un almacén de datos transformados y separados físicamente de la
aplicación donde se encontraron los datos en el ambiente operacional.
Arquitectura Básica de un Data Warehouse
Una de las razones por las que el
desarrollo de un data warehouse crece rápidamente, es que realmente es una
tecnología muy entendible. De hecho, data warehousing puede representar mejor
la estructura amplia de una empresa para administrar los datos informacionales
dentro de la organización. A fin de comprender cómo se relacionan todos los
componentes involucrados en una estrategia data warehousing, es esencial tener
una Arquitectura Data Warehouse.
Una Arquitectura Data Warehouse (Data
Warehouse Architecture - DWA) es una forma de representar la estructura total
de datos, comunicación, procesamiento y presentación, que existe para los usuarios
finales que disponen de una computadora dentro de la empresa.
La arquitectura se constituye de un número
de partes interconectadas:
- Base de
datos operacional / Nivel de base de datos externo
- Nivel de
acceso a la información
- Nivel de
acceso a los datos
- Nivel de
directorio de datos (Metadata)
- Nivel de
gestión de proceso
- Nivel de
mensaje de la aplicación
- Nivel de
data warehouse
- Nivel de
organización de datos
Los sistemas operacionales procesan datos
para apoyar las necesidades operacionales críticas. Para hacer eso, se han
creado las bases de datos operacionales históricas que proveen una estructura
de procesamiento eficiente, para un número relativamente pequeño de
transacciones comerciales bien definidas.
Sin embargo, a causa del enfoque limitado
de los sistemas operacionales, las bases de datos diseñadas para soportar estos
sistemas, tienen dificultad al acceder a los datos para otra gestión o
propósitos informáticos.
Esta dificultad en acceder a los datos
operacionales es amplificada por el hecho que muchos de estos sistemas tienen
de 10 a
15 años de antigüedad. El tiempo de algunos de estos sistemas significa que la
tecnología de acceso a los datos disponible para obtener los datos operacionales,
es así mismo antigua.
Ciertamente, la meta del data warehousing
es liberar la información que es almacenada en bases de datos operacionales y
combinarla con la información desde otra fuente de datos, generalmente externa.
Cada vez más, las organizaciones grandes
adquieren datos adicionales desde bases de datos externas. Esta información
incluye tendencias demográficas, econométricas, adquisitivas y competitivas
(que pueden ser proporcionadas por Instituciones Oficiales - INEI). Internet o
también llamada "information superhighway" (supercarretera de la
información) provee el acceso a más recursos de datos todos los días.
El nivel de acceso a la información de la
arquitectura data warehouse, es el nivel del que el usuario final se encarga
directamente. En particular, representa las herramientas que el usuario final
normalmente usa día a día. Por ejemplo: EXCEL, LOTUS 1-2-3, FOCUS, ACCESS, SAS,
etc.
Este nivel también incluye el hardware y
software involucrados en mostrar información en pantalla y emitir reportes de
impresión, hojas de cálculo, gráficos y diagramas para el análisis y
presentación. Hace dos décadas que el nivel de acceso a la información se ha
expandido enormemente, especialmente a los usuarios finales quienes se han
volcado a los PCS monousuarios y los PCS en redes.
Actualmente, existen herramientas más y más
sofisticadas para manipular, analizar y presentar los datos, sin embargo, hay
problemas significativos al tratar de convertir los datos tal como han sido
recolectados y que se encuentran contenidos en los sistemas operacionales en
información fácil y transparente para las herramientas de los usuarios finales.
Una de las claves para esto es encontrar un lenguaje de datos común que puede
usarse a través de toda la empresa.
El nivel de acceso a los datos de la
arquitectura data warehouse está involucrado con el nivel de acceso a la
información para conversar en el nivel operacional. En la red mundial de hoy,
el lenguaje de datos común que ha surgido es SQL. Originalmente, SQL fue
desarrollado por IBM como un lenguaje de consulta, pero en los últimos veinte
años ha llegado a ser el estándar para el intercambio de datos.
Uno de los adelantos claves de los últimos
años ha sido el desarrollo de una serie de "filtros" de acceso a
datos, tales como EDA/SQL para acceder a casi todo los Sistemas de Gestión de
Base de Datos (Data Base Management Systems - DBMSs) y sistemas de archivos de
datos, relacionales o no. Estos filtros permiten a las herramientas de acceso a
la información, acceder también a la data almacenada en sistemas de gestión de
base de datos que tienen veinte años de antigüedad.
El nivel de acceso a los datos no solamente
conecta DBMSS diferentes y sistemas de archivos sobre el mismo hardware, sino
también a los fabricantes y protocolos de red. Una de las claves de una
estrategia data warehousing es proveer a los usuarios finales con "acceso
a datos universales".
El acceso a los datos universales significa
que, teóricamente por lo menos, los usuarios finales sin tener en cuenta la
herramienta de acceso a la información o ubicación, deberían ser capaces de
acceder a cualquier o todos los datos en la empresa que es necesaria para
ellos, para hacer su trabajo.
El nivel de acceso a los datos entonces es
responsable de la interfaces entre las herramientas de acceso a la información
y las bases de datos operacionales. En algunos casos, esto es todo lo que un
usuario final necesita. Sin embargo, en general, las organizaciones desarrollan
un plan mucho más sofisticado para el soporte del data warehousing.
A fin de proveer el acceso a los datos
universales, es absolutamente necesario mantener alguna forma de directorio de
datos o repositorio de la información metadata. La metadata es la información
alrededor de los datos dentro de la empresa.
Las descripciones de registro en un
programa COBOL o .Net son metadata. También lo son las sentencias DIMENSION en un
programa BI o las sentencias a crear en SQL.
A fin de tener un depósito totalmente
funcional, es necesario tener una variedad de metadata disponibles, información
sobre las vistas de datos de los usuarios finales e información sobre las bases
de datos operacionales. Idealmente, los usuarios finales deberían de acceder a
los datos desde el data warehouse (o desde las bases de datos operacionales),
sin tener que conocer dónde residen los datos o la forma en que se han
almacenados.
El nivel de gestión de procesos tiene que
ver con la programación de diversas tareas que deben realizarse para construir
y mantener el data warehouse y la información del directorio de datos. Este
nivel puede depender del alto nivel de control de trabajo para muchos procesos
(procedimientos) que deben ocurrir para mantener el data warehouse actualizado.
El nivel de mensaje de la aplicación tiene
que ver con el transporte de información alrededor de la red de la empresa. El
mensaje de aplicación se refiere también como "subproducto", pero
puede involucrar sólo protocolos de red. Puede usarse por ejemplo, para aislar
aplicaciones operacionales o estratégicas a partir del formato de datos exacto,
recolectar transacciones o los mensajes y entregarlos a una ubicación segura en
un tiempo seguro.
En el data warehouse (núcleo) es donde
ocurre la data actual, usada principalmente para usos estratégicos. En algunos
casos, uno puede pensar del data warehouse simplemente como una vista lógica o
virtual de datos. En muchos ejemplos, el data warehouse puede no involucrar
almacenamiento de datos.
En un data warehouse físico, copias, en
algunos casos, muchas copias de datos operacionales y/o externos, son
almacenados realmente en una forma que es fácil de acceder y es altamente
flexible. Cada vez más, los data warehouses son almacenados sobre plataformas
cliente/servidor, pero por lo general se almacenan sobre equipos de alto poder de almacenamiento para bases de datos. Es importante mencionar que un Data warehouse esta organizado por la formación de varios Data Marts.
El componente final de la arquitectura data
warehouse es la organización de los datos. Se llama también gestión de copia o
réplica (STAGE), pero de hecho, incluye todos los procesos necesarios como seleccionar,
editar, resumir, combinar y cargar datos en el depósito y acceder a la
información desde bases de datos operacionales y/o externas.
La organización de datos involucra con
frecuencia una programación compleja, pero cada vez más, están creándose las
herramientas data warehousing para ayudar en este proceso. Involucra también
programas de análisis de calidad de datos y filtros que identifican modelos y
estructura de datos dentro de la data operacional existente.
Comentarios