Unidad vii esp parte 2 introduccion a data warehouse y datamining

Base de Datos
Ciclo I-2010
Ing. Elmer Arturo Carballo Ruiz

 Muchas organizaciones que usan tecnología de
base de datos para recopilar, almacenar y
procesar grandes cantidades de datos operativos,
ven importante el uso de almacenes de datos
actuales e históricos como fuentes de
información para tomar mejores decisiones
e m p r e s a r i a l e s E j .
 Donde abrir un nuevo almacén
 A que audiencia dirigir una campana electoral
 A cuales clientes otorgarles prestamos.
Se basan en un cuidadoso examen de los
patrones encontrados en los datos existentes.

 Los proveedores como Oracle e IBM,
rápidamente incorporaron características que
permitan almacenes de datos.
 Sql 1999 contiene extensiones que apoyan las
funciones requeridas por los almacenes de
datos.
 W. H. Inmon describe almacén de datos “
Una colección de datos orientada a un
sujeto, integrada, no volátil, variable en el
tiempo que se utiliza principalmente en toma
de decisiones organizacionales”

 Las base de datos operativas soportan
procesamiento de transacción en línea(OLTP),
que involucran un número limitado de
transacciones repetitivas, cada una de las cuales
afecta algunas tuplas en un momento de la base
de datos relacional.
 Esta diseñada para usuarios finales y operaciones
diarias.
 Gran volumen de transacciones
 Entrega de respuestas a consultas de los usuarios
 Se actualiza en tiempo real , conforme ocurren las
operaciones del negocio
 Actualizaciones se deben realizar rápidamente para
que la BD refleje el entorno actual de la empresa

 Almacenes de Datos soportan OLAP ( On line
Analytical Processing), asi como toma de
desiciones.
 Los datos de almacenes se pueden llevar
directamente de multiples BD operativas, en
diferentes periodos (datos historicos), datos de
otras fuentes, datos resumidos o metadatos. Las
fuentes pueden tener diferente modelos o
estándares pero el almacén integra los datos de
modo que el usuario ve un modelo consistente.
 Contiene una cantidad muy grande de datos, es
optimizado para un procesamiento eficiente de
las consultas y presentación de los resultados
para apoyo a las decisiones.

 Las actualizaciones no son tan frecuentes como
las OLTP, pero se realizan de manera periódica.
Los analistas examinan los datos usando
consultas complejas que generalmente utilizan
funciones de agregación y agrupamiento.
 El minado de datos es el proceso de descubrir
nueva información mediante búsquedas de
grandes cantidades de datos. El propósito es
descubrir patrones o tendencias en los datos que
serán útiles en la organización.

 Un almacén debe diseñarse para consultas ad
hoc y nuevos análisis, En la figura se muestra la
arquitectura típica. Los datos se toman de
múltiples fuentes.
 Los datos se deben extraer de las fuentes con el
empleo de herramientas externas al sistema que
puedan acomodar las diferencias entre las
fuentes heterogéneas.
 Los datos se reformatean en un formato
consistente.
 Los datos se pueden también verificar para
integridad y validez, un proceso denominado
limpieza de datos, para asegurar su calidad
antes de cargarlos al almacén.

Arquitectura de un almacén de
datos.

 El proceso de carga, es una transacción larga ,
por lo general esta involucrado un gran volumen
de datos, de modo que el sistema debe utilizar
herramientas de gestión de transacción para
garantizar recuperación adecuada en el evento
de falla durante la transacción de carga.
 El sistema de gestión de base de datos que
soporta al almacén de datos tiene un catalogo de
sistema que almacena metadatos, así como otros
componente de la BD.
 El almacén de datos se usa para soportar
consultas para OLAP. Con el fin de apoyar la
toma de decisiones que usan los administradores
para las estrategias. Proporcionar los datos para
el minado de datos que descubran nueva
información acerca de los patrones de datos.

 Ciertos segmentos de los datos están
organizados en subconjuntos denominados
“data marts” (mercado de datos,
subconjunto de datos de un data warehouse),
que se enfoca en sujetos específicos.
 Los datos deben refrescarse periódicamente ,
la política que debe definir es el espacio
disponible. El tiempo que tardará en el ETL y
la construcción de índices. La política actual
es hacer una regeneración parcial de
manera periódica.

 Los almacenes de datos generalmente usan un modelo
multidimensional.
 Los datos se pueden considerar como residentes en una
matriz multidimensional llamada cubo de datos. La figura
15.2(a) muestra un cubo de datos tridimensional llamado
ventas.
 El cubo se puede pivotear o rotar para mostrar una
dimensión de interés como se muestra en la figura 15.2(b)
.
 En un modelo multidimensional, es posible crear un nivel
granularidad más grueso al combinar o agregar datos, un
proceso llamado rollup ( exploración superficial) se
puede realizar un rollup por departamento , al combinar
datos de todos los departamentos de cada tienda, para
dar las ventas totales de cada tienda por cada mes, como
se muestra en la figura 15.3(a)

 El proceso inverso es drill down (exploración
minuciosa). Este proceso proporciona mas detalle
sobre cierta dimensión, usando granularidad mas fina
para los datos. La figura 13 b, muestra como se
detallan las categorias.
 Cuando el pivoteo y/o rollup de un cubo de datos da
por resultado un presentación bidimensional estilo
hoja de cálculo, es natural agregar totales para las
filas y columnas , lo que forma una tabulación
cruzada ( cross- tabulation) como se ilustra en la
figura 15.3 c.

 Si examina una porción del cubo de datos con el
uso de una selección donde especifique igualdad
de condiciones para una o mas dimensiones, este
tipo de operación también se le llama slice
(proyectar en dimensiones) , porque parece
como si el usuario hubiera cortado a través del
cubo en la dirección seleccionada, 15.2 a se
especifica la condición WHERE month =‘Julio’,
obtendría la hoja de cálculo para dicho mes
 Una operación adicional llamada dicing (
seleccionar sobre una dimensión) , se realizar si
especifica un rango de valores en una selección.

 No hay razón para limitar los datos a un cubo de
datos de dos o tres dimensiones como quieran, si
dichas dimensiones son de interés. Sin embargo, más
allá de la tercera dimensión no se puede dibujar una
representación física de los cubos de datos. Los cubos
de estas dimensiones superiores se conocen como
hipercubos. Todavía es posible aplicar el proceso de
pivoteo, rollup y drill down a los hipercubos.
 Los primeros almacenes de datos almacenaban los
datos usando arreglos multidimensionales, lo que
crea sistemas OLAP multidimensional ( MOLAP) . Si
en vez de ello se usa un modelo relacional , el
sistema se describe como un sistema OLAP
Relacional (ROLAP) . Un rolap consiste en multiples
tablas relacionales.

 Un esquema ampliamente usado para
almacenes de datos es un esquema estrella.
Hay una tabla central de datos en bruto,
llamada la tabla de hechos que almacena
datos observados no agregados. La tabla de
hechos tiene algunos atributos que
representan dimensiones y otros atributos
dependientes que son de interés. Cada
dimensión se representa mediante su propia
tabla, y las tablas de dimensiones se pueden
considerar como los puntos estrella cuyo
centro en la tabla de hechos.

Una variabilidad del esquema estrella es el
esquema copo de nieve (snowflake) en el
que las tablas de dimensión tienen ellas las
mismas dimensiones, porque están
normalizadas.

Minería de datos :
 Significa descubrir nueva información a partir de
conjunto de datos muy grandes. Por lo general el
conocimiento descubierto esta en forma de patrones
o reglas.
 Además de la tecnología de base de datos, la minería
utiliza técnicas de los campos de la estadística e
inteligencia artificial , de manera especial del
aprendizaje del lenguaje de máquinas.
 La minería se puede utilizar en OLTP siempre que
sea la BD lo suficientemente grande. Un almacén de
datos que use minería debe incluir datos
resumidos,así como datos en bruto tomados de las
fuentes originales.
 El minado de datos requiere conocimiento de
dominio. El formato mas común es el archivo plano.

 El diseño del almacén de datos debe crearse
tomando en cuenta la minería de datos.
 Propósito de la minería de datos
 Dar conocimiento para tener una ventaja
competitiva.
 Predecir el comportamiento futuro de los
atributos. Ej. Predecir ventas en base al ultimo
trimestre para el próximo año
 Clasificación de ítems al colocarlos en las
categorías correctas. Ej. Cual de los muchos
diagnósticos es el más apropiado para un
paciente en base a pacientes – síntomas.

 Identificar la existencia de una actividad o un
evento. Ej. Las compañías aseguradoras
estudian patrones y características de reclamos
previos conocidos como fraudulentos para
determinar cuales nuevas reclamaciones pueden
ser consideradas fraudulentas.
 Optimizar el uso de los recursos de la
organización. La minería puede modelar
escenarios para ayudar a determinar la
colocación del equipo, la forma más lucrativa
para invertir el dinero o la forma más eficiente
para usar el tiempo disponible con el objetivo de
maximizar la productividad o alcanzar otra
meta.

 Arboles de Decisión
 Regresión
 Redes Neuronales
 Clustering ( Agrupamiento)

 Venta al por menor: CRM, se usa para identificar
y anticipar las necesidades de los clientes, se le
sugerirá productos relacionados que comprará el
cliente.
 La administración de campaña de publicidad:
Identificar a los clientes que tendrán más
probabilidad de realizar compras en respuesta a
la publicidad, en base a las respuestas se
construye un modelo. Dicho modelo incluye
datos geográficos y demográficos.

 Banca y Finanzas
Calificaciones de créditos: para ver si se
extiende o no crédito a un cliente.
Detección de fraude: detecta transacciones
fraudulentas.
 Fabricación
Optimización del uso de recursos. Determinar
el despliegue de los recursos humanos, equipo
y materiales.
Optimización del proceso de fabricación: forma
efectiva en costo para elaborar productos
Diseño de productos : para eliminar partes
probables que sean defectuosas.

 Medicina
Determinación de la efectividad de los
tratamientos : Aspectos estadísticos y factores
ocultos
Análisis del efecto de medicamentos: Estudio
de los efectos de los medicamentos
Descubrimiento de relaciones: Relación entre
atención al cliente y el resultado del paciente.

Unidad vii esp parte 2 introduccion a data warehouse y datamining

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Unidad vii esp parte 2 introduccion a data warehouse y datamining

Similar to Unidad vii esp parte 2 introduccion a data warehouse y datamining (20)

More from Titiushko Jazz

More from Titiushko Jazz (20)

Unidad vii esp parte 2 introduccion a data warehouse y datamining