SlideShare a Scribd company logo
1 of 28
Base de Datos
Ciclo I-2010
Ing. Elmer Arturo Carballo Ruiz
 Muchas organizaciones que usan tecnología de
base de datos para recopilar, almacenar y
procesar grandes cantidades de datos operativos,
ven importante el uso de almacenes de datos
actuales e históricos como fuentes de
información para tomar mejores decisiones
e m p r e s a r i a l e s E j .
 Donde abrir un nuevo almacén
 A que audiencia dirigir una campana electoral
 A cuales clientes otorgarles prestamos.
Se basan en un cuidadoso examen de los
patrones encontrados en los datos existentes.
 Los proveedores como Oracle e IBM,
rápidamente incorporaron características que
permitan almacenes de datos.
 Sql 1999 contiene extensiones que apoyan las
funciones requeridas por los almacenes de
datos.
 W. H. Inmon describe almacén de datos “
Una colección de datos orientada a un
sujeto, integrada, no volátil, variable en el
tiempo que se utiliza principalmente en toma
de decisiones organizacionales”
 Las base de datos operativas soportan
procesamiento de transacción en línea(OLTP),
que involucran un número limitado de
transacciones repetitivas, cada una de las cuales
afecta algunas tuplas en un momento de la base
de datos relacional.
 Esta diseñada para usuarios finales y operaciones
diarias.
 Gran volumen de transacciones
 Entrega de respuestas a consultas de los usuarios
 Se actualiza en tiempo real , conforme ocurren las
operaciones del negocio
 Actualizaciones se deben realizar rápidamente para
que la BD refleje el entorno actual de la empresa
 Almacenes de Datos soportan OLAP ( On line
Analytical Processing), asi como toma de
desiciones.
 Los datos de almacenes se pueden llevar
directamente de multiples BD operativas, en
diferentes periodos (datos historicos), datos de
otras fuentes, datos resumidos o metadatos. Las
fuentes pueden tener diferente modelos o
estándares pero el almacén integra los datos de
modo que el usuario ve un modelo consistente.
 Contiene una cantidad muy grande de datos, es
optimizado para un procesamiento eficiente de
las consultas y presentación de los resultados
para apoyo a las decisiones.
 Las actualizaciones no son tan frecuentes como
las OLTP, pero se realizan de manera periódica.
Los analistas examinan los datos usando
consultas complejas que generalmente utilizan
funciones de agregación y agrupamiento.
 El minado de datos es el proceso de descubrir
nueva información mediante búsquedas de
grandes cantidades de datos. El propósito es
descubrir patrones o tendencias en los datos que
serán útiles en la organización.
 Un almacén debe diseñarse para consultas ad
hoc y nuevos análisis, En la figura se muestra la
arquitectura típica. Los datos se toman de
múltiples fuentes.
 Los datos se deben extraer de las fuentes con el
empleo de herramientas externas al sistema que
puedan acomodar las diferencias entre las
fuentes heterogéneas.
 Los datos se reformatean en un formato
consistente.
 Los datos se pueden también verificar para
integridad y validez, un proceso denominado
limpieza de datos, para asegurar su calidad
antes de cargarlos al almacén.
Arquitectura de un almacén de
datos.
 El proceso de carga, es una transacción larga ,
por lo general esta involucrado un gran volumen
de datos, de modo que el sistema debe utilizar
herramientas de gestión de transacción para
garantizar recuperación adecuada en el evento
de falla durante la transacción de carga.
 El sistema de gestión de base de datos que
soporta al almacén de datos tiene un catalogo de
sistema que almacena metadatos, así como otros
componente de la BD.
 El almacén de datos se usa para soportar
consultas para OLAP. Con el fin de apoyar la
toma de decisiones que usan los administradores
para las estrategias. Proporcionar los datos para
el minado de datos que descubran nueva
información acerca de los patrones de datos.
 Ciertos segmentos de los datos están
organizados en subconjuntos denominados
“data marts” (mercado de datos,
subconjunto de datos de un data warehouse),
que se enfoca en sujetos específicos.
 Los datos deben refrescarse periódicamente ,
la política que debe definir es el espacio
disponible. El tiempo que tardará en el ETL y
la construcción de índices. La política actual
es hacer una regeneración parcial de
manera periódica.
 Los almacenes de datos generalmente usan un modelo
multidimensional.
 Los datos se pueden considerar como residentes en una
matriz multidimensional llamada cubo de datos. La figura
15.2(a) muestra un cubo de datos tridimensional llamado
ventas.
 El cubo se puede pivotear o rotar para mostrar una
dimensión de interés como se muestra en la figura 15.2(b)
.
 En un modelo multidimensional, es posible crear un nivel
granularidad más grueso al combinar o agregar datos, un
proceso llamado rollup ( exploración superficial) se
puede realizar un rollup por departamento , al combinar
datos de todos los departamentos de cada tienda, para
dar las ventas totales de cada tienda por cada mes, como
se muestra en la figura 15.3(a)
Drill Drown
 El proceso inverso es drill down (exploración
minuciosa). Este proceso proporciona mas detalle
sobre cierta dimensión, usando granularidad mas fina
para los datos. La figura 13 b, muestra como se
detallan las categorias.
 Cuando el pivoteo y/o rollup de un cubo de datos da
por resultado un presentación bidimensional estilo
hoja de cálculo, es natural agregar totales para las
filas y columnas , lo que forma una tabulación
cruzada ( cross- tabulation) como se ilustra en la
figura 15.3 c.
 Si examina una porción del cubo de datos con el
uso de una selección donde especifique igualdad
de condiciones para una o mas dimensiones, este
tipo de operación también se le llama slice
(proyectar en dimensiones) , porque parece
como si el usuario hubiera cortado a través del
cubo en la dirección seleccionada, 15.2 a se
especifica la condición WHERE month =‘Julio’,
obtendría la hoja de cálculo para dicho mes
 Una operación adicional llamada dicing (
seleccionar sobre una dimensión) , se realizar si
especifica un rango de valores en una selección.
 No hay razón para limitar los datos a un cubo de
datos de dos o tres dimensiones como quieran, si
dichas dimensiones son de interés. Sin embargo, más
allá de la tercera dimensión no se puede dibujar una
representación física de los cubos de datos. Los cubos
de estas dimensiones superiores se conocen como
hipercubos. Todavía es posible aplicar el proceso de
pivoteo, rollup y drill down a los hipercubos.
 Los primeros almacenes de datos almacenaban los
datos usando arreglos multidimensionales, lo que
crea sistemas OLAP multidimensional ( MOLAP) . Si
en vez de ello se usa un modelo relacional , el
sistema se describe como un sistema OLAP
Relacional (ROLAP) . Un rolap consiste en multiples
tablas relacionales.
 Un esquema ampliamente usado para
almacenes de datos es un esquema estrella.
Hay una tabla central de datos en bruto,
llamada la tabla de hechos que almacena
datos observados no agregados. La tabla de
hechos tiene algunos atributos que
representan dimensiones y otros atributos
dependientes que son de interés. Cada
dimensión se representa mediante su propia
tabla, y las tablas de dimensiones se pueden
considerar como los puntos estrella cuyo
centro en la tabla de hechos.
Esquema Estrella
Una variabilidad del esquema estrella es el
esquema copo de nieve (snowflake) en el
que las tablas de dimensión tienen ellas las
mismas dimensiones, porque están
normalizadas.
Esquema Copo de Nieve.
Minería de datos :
 Significa descubrir nueva información a partir de
conjunto de datos muy grandes. Por lo general el
conocimiento descubierto esta en forma de patrones
o reglas.
 Además de la tecnología de base de datos, la minería
utiliza técnicas de los campos de la estadística e
inteligencia artificial , de manera especial del
aprendizaje del lenguaje de máquinas.
 La minería se puede utilizar en OLTP siempre que
sea la BD lo suficientemente grande. Un almacén de
datos que use minería debe incluir datos
resumidos,así como datos en bruto tomados de las
fuentes originales.
 El minado de datos requiere conocimiento de
dominio. El formato mas común es el archivo plano.
 El diseño del almacén de datos debe crearse
tomando en cuenta la minería de datos.
 Propósito de la minería de datos
 Dar conocimiento para tener una ventaja
competitiva.
 Predecir el comportamiento futuro de los
atributos. Ej. Predecir ventas en base al ultimo
trimestre para el próximo año
 Clasificación de ítems al colocarlos en las
categorías correctas. Ej. Cual de los muchos
diagnósticos es el más apropiado para un
paciente en base a pacientes – síntomas.
 Identificar la existencia de una actividad o un
evento. Ej. Las compañías aseguradoras
estudian patrones y características de reclamos
previos conocidos como fraudulentos para
determinar cuales nuevas reclamaciones pueden
ser consideradas fraudulentas.
 Optimizar el uso de los recursos de la
organización. La minería puede modelar
escenarios para ayudar a determinar la
colocación del equipo, la forma más lucrativa
para invertir el dinero o la forma más eficiente
para usar el tiempo disponible con el objetivo de
maximizar la productividad o alcanzar otra
meta.
 Arboles de Decisión
 Regresión
 Redes Neuronales
 Clustering ( Agrupamiento)
 Venta al por menor: CRM, se usa para identificar
y anticipar las necesidades de los clientes, se le
sugerirá productos relacionados que comprará el
cliente.
 La administración de campaña de publicidad:
Identificar a los clientes que tendrán más
probabilidad de realizar compras en respuesta a
la publicidad, en base a las respuestas se
construye un modelo. Dicho modelo incluye
datos geográficos y demográficos.
 Banca y Finanzas
Calificaciones de créditos: para ver si se
extiende o no crédito a un cliente.
Detección de fraude: detecta transacciones
fraudulentas.
 Fabricación
Optimización del uso de recursos. Determinar
el despliegue de los recursos humanos, equipo
y materiales.
Optimización del proceso de fabricación: forma
efectiva en costo para elaborar productos
Diseño de productos : para eliminar partes
probables que sean defectuosas.
 Medicina
Determinación de la efectividad de los
tratamientos : Aspectos estadísticos y factores
ocultos
Análisis del efecto de medicamentos: Estudio
de los efectos de los medicamentos
Descubrimiento de relaciones: Relación entre
atención al cliente y el resultado del paciente.

More Related Content

What's hot (20)

Información e informatica
Información e informaticaInformación e informatica
Información e informatica
 
3.1 data warehouse_conceptos_generales
3.1 data warehouse_conceptos_generales3.1 data warehouse_conceptos_generales
3.1 data warehouse_conceptos_generales
 
Teoría de la Información (Tema 1)
Teoría de la Información (Tema 1) Teoría de la Información (Tema 1)
Teoría de la Información (Tema 1)
 
2 preprocesado
2 preprocesado2 preprocesado
2 preprocesado
 
Data mart
Data martData mart
Data mart
 
U3 foro semana 14
U3 foro   semana 14U3 foro   semana 14
U3 foro semana 14
 
Microsoft access
Microsoft accessMicrosoft access
Microsoft access
 
Apuntes php mysql
Apuntes php mysqlApuntes php mysql
Apuntes php mysql
 
01 introduccion (1)my sql
01 introduccion (1)my sql01 introduccion (1)my sql
01 introduccion (1)my sql
 
Funciones de un DBA y Tipos de BD
Funciones de un DBA y Tipos de BDFunciones de un DBA y Tipos de BD
Funciones de un DBA y Tipos de BD
 
Aplicaciones Difusas Map Reduce
Aplicaciones Difusas Map ReduceAplicaciones Difusas Map Reduce
Aplicaciones Difusas Map Reduce
 
Trabajo final
Trabajo finalTrabajo final
Trabajo final
 
Fuentes de investigación
Fuentes de investigaciónFuentes de investigación
Fuentes de investigación
 
Fer 2 foro
Fer 2 foroFer 2 foro
Fer 2 foro
 
Sofwares que se aplica en las areas de trabajo
Sofwares que se aplica en las areas de trabajoSofwares que se aplica en las areas de trabajo
Sofwares que se aplica en las areas de trabajo
 
Tipos de base de datos
Tipos de base de datosTipos de base de datos
Tipos de base de datos
 
Consultas
ConsultasConsultas
Consultas
 
Diapositivas bd
Diapositivas bdDiapositivas bd
Diapositivas bd
 
base de datos
base de datos base de datos
base de datos
 
Base de datos
Base de datos Base de datos
Base de datos
 

Similar to Unidad vii esp parte 2 introduccion a data warehouse y datamining

Análisis y minería de datos
Análisis y minería de datosAnálisis y minería de datos
Análisis y minería de datosYovani Ziork
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningNintendo
 
Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Velmuz Buzz
 
Arquitectura de datos empresariales actividad 3
Arquitectura de datos empresariales   actividad 3Arquitectura de datos empresariales   actividad 3
Arquitectura de datos empresariales actividad 3CarlosTenelema1
 
Data Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdfData Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdfexpertoleonelmartine
 
Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Calzada Meza
 
Informe v2.2 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.2  Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme v2.2  Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.2 Base de Datos II - Proyecto TodoAutos : venta de carros del añoJuan Polo Cosme
 
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del añoJuan Polo Cosme
 
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del añoJuan Polo Cosme
 
Datawarehouse base datos
Datawarehouse base datosDatawarehouse base datos
Datawarehouse base datosjaimeja76
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Servicesbrobelo
 

Similar to Unidad vii esp parte 2 introduccion a data warehouse y datamining (20)

Almacén de datos
Almacén de datosAlmacén de datos
Almacén de datos
 
Unidad 3 tsbd olap
Unidad 3 tsbd olapUnidad 3 tsbd olap
Unidad 3 tsbd olap
 
Unidad 3 tsbd olap
Unidad 3 tsbd olapUnidad 3 tsbd olap
Unidad 3 tsbd olap
 
Unidad 3 tsbd olap
Unidad 3 tsbd olapUnidad 3 tsbd olap
Unidad 3 tsbd olap
 
Unidad 3 tsbd olap
Unidad 3 tsbd olapUnidad 3 tsbd olap
Unidad 3 tsbd olap
 
Análisis y minería de datos
Análisis y minería de datosAnálisis y minería de datos
Análisis y minería de datos
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-mining
 
Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Olap vs oltp bases datos 2
Olap vs oltp bases datos 2
 
Arquitectura de datos empresariales actividad 3
Arquitectura de datos empresariales   actividad 3Arquitectura de datos empresariales   actividad 3
Arquitectura de datos empresariales actividad 3
 
Data Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdfData Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdf
 
Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1
 
Informe v2.2 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.2  Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme v2.2  Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.2 Base de Datos II - Proyecto TodoAutos : venta de carros del año
 
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
 
Almacenes de datos
Almacenes de datosAlmacenes de datos
Almacenes de datos
 
Cuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utplCuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utpl
 
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del año
 
Datawarehouse base datos
Datawarehouse base datosDatawarehouse base datos
Datawarehouse base datos
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Services
 
Semana 1.pptx
Semana 1.pptxSemana 1.pptx
Semana 1.pptx
 
Presentacion (1)
Presentacion (1)Presentacion (1)
Presentacion (1)
 

More from Titiushko Jazz

Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Titiushko Jazz
 
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)Titiushko Jazz
 
Unidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingUnidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingTitiushko Jazz
 
Unidad vi esp parte 2 procesimientos en plsql y transact sql
Unidad vi esp parte 2 procesimientos en plsql y transact sqlUnidad vi esp parte 2 procesimientos en plsql y transact sql
Unidad vi esp parte 2 procesimientos en plsql y transact sqlTitiushko Jazz
 
Tarea pronosticos eily
Tarea pronosticos eilyTarea pronosticos eily
Tarea pronosticos eilyTitiushko Jazz
 
Proyecto teórico práctico
Proyecto teórico prácticoProyecto teórico práctico
Proyecto teórico prácticoTitiushko Jazz
 

More from Titiushko Jazz (20)

Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
 
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
 
Unidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingUnidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y datamining
 
Unidad vi esp parte 2 procesimientos en plsql y transact sql
Unidad vi esp parte 2 procesimientos en plsql y transact sqlUnidad vi esp parte 2 procesimientos en plsql y transact sql
Unidad vi esp parte 2 procesimientos en plsql y transact sql
 
Unidad ii esp parte 2
Unidad ii esp parte 2Unidad ii esp parte 2
Unidad ii esp parte 2
 
Unidad ii esp parte 1
Unidad ii esp parte 1Unidad ii esp parte 1
Unidad ii esp parte 1
 
Unidad i esp parte 2
Unidad i esp parte 2Unidad i esp parte 2
Unidad i esp parte 2
 
Unidad i esp parte 1
Unidad i esp parte 1Unidad i esp parte 1
Unidad i esp parte 1
 
Tarea pronosticos eily
Tarea pronosticos eilyTarea pronosticos eily
Tarea pronosticos eily
 
Sociedades limitadas
Sociedades limitadasSociedades limitadas
Sociedades limitadas
 
Rhu
RhuRhu
Rhu
 
Qué es un proyecto
Qué es un proyectoQué es un proyecto
Qué es un proyecto
 
Proyecto teórico práctico
Proyecto teórico prácticoProyecto teórico práctico
Proyecto teórico práctico
 
Presentacion1630
Presentacion1630Presentacion1630
Presentacion1630
 
Presentacion1410
Presentacion1410Presentacion1410
Presentacion1410
 
Presentacion1310
Presentacion1310Presentacion1310
Presentacion1310
 
Presentacion1210
Presentacion1210Presentacion1210
Presentacion1210
 
Presentacion1220
Presentacion1220Presentacion1220
Presentacion1220
 
Presentacion1001
Presentacion1001Presentacion1001
Presentacion1001
 
Presentacion810
Presentacion810Presentacion810
Presentacion810
 

Unidad vii esp parte 2 introduccion a data warehouse y datamining

  • 1. Base de Datos Ciclo I-2010 Ing. Elmer Arturo Carballo Ruiz
  • 2.  Muchas organizaciones que usan tecnología de base de datos para recopilar, almacenar y procesar grandes cantidades de datos operativos, ven importante el uso de almacenes de datos actuales e históricos como fuentes de información para tomar mejores decisiones e m p r e s a r i a l e s E j .  Donde abrir un nuevo almacén  A que audiencia dirigir una campana electoral  A cuales clientes otorgarles prestamos. Se basan en un cuidadoso examen de los patrones encontrados en los datos existentes.
  • 3.  Los proveedores como Oracle e IBM, rápidamente incorporaron características que permitan almacenes de datos.  Sql 1999 contiene extensiones que apoyan las funciones requeridas por los almacenes de datos.  W. H. Inmon describe almacén de datos “ Una colección de datos orientada a un sujeto, integrada, no volátil, variable en el tiempo que se utiliza principalmente en toma de decisiones organizacionales”
  • 4.  Las base de datos operativas soportan procesamiento de transacción en línea(OLTP), que involucran un número limitado de transacciones repetitivas, cada una de las cuales afecta algunas tuplas en un momento de la base de datos relacional.  Esta diseñada para usuarios finales y operaciones diarias.  Gran volumen de transacciones  Entrega de respuestas a consultas de los usuarios  Se actualiza en tiempo real , conforme ocurren las operaciones del negocio  Actualizaciones se deben realizar rápidamente para que la BD refleje el entorno actual de la empresa
  • 5.  Almacenes de Datos soportan OLAP ( On line Analytical Processing), asi como toma de desiciones.  Los datos de almacenes se pueden llevar directamente de multiples BD operativas, en diferentes periodos (datos historicos), datos de otras fuentes, datos resumidos o metadatos. Las fuentes pueden tener diferente modelos o estándares pero el almacén integra los datos de modo que el usuario ve un modelo consistente.  Contiene una cantidad muy grande de datos, es optimizado para un procesamiento eficiente de las consultas y presentación de los resultados para apoyo a las decisiones.
  • 6.  Las actualizaciones no son tan frecuentes como las OLTP, pero se realizan de manera periódica. Los analistas examinan los datos usando consultas complejas que generalmente utilizan funciones de agregación y agrupamiento.  El minado de datos es el proceso de descubrir nueva información mediante búsquedas de grandes cantidades de datos. El propósito es descubrir patrones o tendencias en los datos que serán útiles en la organización.
  • 7.  Un almacén debe diseñarse para consultas ad hoc y nuevos análisis, En la figura se muestra la arquitectura típica. Los datos se toman de múltiples fuentes.  Los datos se deben extraer de las fuentes con el empleo de herramientas externas al sistema que puedan acomodar las diferencias entre las fuentes heterogéneas.  Los datos se reformatean en un formato consistente.  Los datos se pueden también verificar para integridad y validez, un proceso denominado limpieza de datos, para asegurar su calidad antes de cargarlos al almacén.
  • 8. Arquitectura de un almacén de datos.
  • 9.  El proceso de carga, es una transacción larga , por lo general esta involucrado un gran volumen de datos, de modo que el sistema debe utilizar herramientas de gestión de transacción para garantizar recuperación adecuada en el evento de falla durante la transacción de carga.  El sistema de gestión de base de datos que soporta al almacén de datos tiene un catalogo de sistema que almacena metadatos, así como otros componente de la BD.  El almacén de datos se usa para soportar consultas para OLAP. Con el fin de apoyar la toma de decisiones que usan los administradores para las estrategias. Proporcionar los datos para el minado de datos que descubran nueva información acerca de los patrones de datos.
  • 10.  Ciertos segmentos de los datos están organizados en subconjuntos denominados “data marts” (mercado de datos, subconjunto de datos de un data warehouse), que se enfoca en sujetos específicos.  Los datos deben refrescarse periódicamente , la política que debe definir es el espacio disponible. El tiempo que tardará en el ETL y la construcción de índices. La política actual es hacer una regeneración parcial de manera periódica.
  • 11.  Los almacenes de datos generalmente usan un modelo multidimensional.  Los datos se pueden considerar como residentes en una matriz multidimensional llamada cubo de datos. La figura 15.2(a) muestra un cubo de datos tridimensional llamado ventas.  El cubo se puede pivotear o rotar para mostrar una dimensión de interés como se muestra en la figura 15.2(b) .  En un modelo multidimensional, es posible crear un nivel granularidad más grueso al combinar o agregar datos, un proceso llamado rollup ( exploración superficial) se puede realizar un rollup por departamento , al combinar datos de todos los departamentos de cada tienda, para dar las ventas totales de cada tienda por cada mes, como se muestra en la figura 15.3(a)
  • 12.
  • 14.  El proceso inverso es drill down (exploración minuciosa). Este proceso proporciona mas detalle sobre cierta dimensión, usando granularidad mas fina para los datos. La figura 13 b, muestra como se detallan las categorias.  Cuando el pivoteo y/o rollup de un cubo de datos da por resultado un presentación bidimensional estilo hoja de cálculo, es natural agregar totales para las filas y columnas , lo que forma una tabulación cruzada ( cross- tabulation) como se ilustra en la figura 15.3 c.
  • 15.
  • 16.  Si examina una porción del cubo de datos con el uso de una selección donde especifique igualdad de condiciones para una o mas dimensiones, este tipo de operación también se le llama slice (proyectar en dimensiones) , porque parece como si el usuario hubiera cortado a través del cubo en la dirección seleccionada, 15.2 a se especifica la condición WHERE month =‘Julio’, obtendría la hoja de cálculo para dicho mes  Una operación adicional llamada dicing ( seleccionar sobre una dimensión) , se realizar si especifica un rango de valores en una selección.
  • 17.  No hay razón para limitar los datos a un cubo de datos de dos o tres dimensiones como quieran, si dichas dimensiones son de interés. Sin embargo, más allá de la tercera dimensión no se puede dibujar una representación física de los cubos de datos. Los cubos de estas dimensiones superiores se conocen como hipercubos. Todavía es posible aplicar el proceso de pivoteo, rollup y drill down a los hipercubos.  Los primeros almacenes de datos almacenaban los datos usando arreglos multidimensionales, lo que crea sistemas OLAP multidimensional ( MOLAP) . Si en vez de ello se usa un modelo relacional , el sistema se describe como un sistema OLAP Relacional (ROLAP) . Un rolap consiste en multiples tablas relacionales.
  • 18.  Un esquema ampliamente usado para almacenes de datos es un esquema estrella. Hay una tabla central de datos en bruto, llamada la tabla de hechos que almacena datos observados no agregados. La tabla de hechos tiene algunos atributos que representan dimensiones y otros atributos dependientes que son de interés. Cada dimensión se representa mediante su propia tabla, y las tablas de dimensiones se pueden considerar como los puntos estrella cuyo centro en la tabla de hechos.
  • 20. Una variabilidad del esquema estrella es el esquema copo de nieve (snowflake) en el que las tablas de dimensión tienen ellas las mismas dimensiones, porque están normalizadas.
  • 21. Esquema Copo de Nieve.
  • 22. Minería de datos :  Significa descubrir nueva información a partir de conjunto de datos muy grandes. Por lo general el conocimiento descubierto esta en forma de patrones o reglas.  Además de la tecnología de base de datos, la minería utiliza técnicas de los campos de la estadística e inteligencia artificial , de manera especial del aprendizaje del lenguaje de máquinas.  La minería se puede utilizar en OLTP siempre que sea la BD lo suficientemente grande. Un almacén de datos que use minería debe incluir datos resumidos,así como datos en bruto tomados de las fuentes originales.  El minado de datos requiere conocimiento de dominio. El formato mas común es el archivo plano.
  • 23.  El diseño del almacén de datos debe crearse tomando en cuenta la minería de datos.  Propósito de la minería de datos  Dar conocimiento para tener una ventaja competitiva.  Predecir el comportamiento futuro de los atributos. Ej. Predecir ventas en base al ultimo trimestre para el próximo año  Clasificación de ítems al colocarlos en las categorías correctas. Ej. Cual de los muchos diagnósticos es el más apropiado para un paciente en base a pacientes – síntomas.
  • 24.  Identificar la existencia de una actividad o un evento. Ej. Las compañías aseguradoras estudian patrones y características de reclamos previos conocidos como fraudulentos para determinar cuales nuevas reclamaciones pueden ser consideradas fraudulentas.  Optimizar el uso de los recursos de la organización. La minería puede modelar escenarios para ayudar a determinar la colocación del equipo, la forma más lucrativa para invertir el dinero o la forma más eficiente para usar el tiempo disponible con el objetivo de maximizar la productividad o alcanzar otra meta.
  • 25.  Arboles de Decisión  Regresión  Redes Neuronales  Clustering ( Agrupamiento)
  • 26.  Venta al por menor: CRM, se usa para identificar y anticipar las necesidades de los clientes, se le sugerirá productos relacionados que comprará el cliente.  La administración de campaña de publicidad: Identificar a los clientes que tendrán más probabilidad de realizar compras en respuesta a la publicidad, en base a las respuestas se construye un modelo. Dicho modelo incluye datos geográficos y demográficos.
  • 27.  Banca y Finanzas Calificaciones de créditos: para ver si se extiende o no crédito a un cliente. Detección de fraude: detecta transacciones fraudulentas.  Fabricación Optimización del uso de recursos. Determinar el despliegue de los recursos humanos, equipo y materiales. Optimización del proceso de fabricación: forma efectiva en costo para elaborar productos Diseño de productos : para eliminar partes probables que sean defectuosas.
  • 28.  Medicina Determinación de la efectividad de los tratamientos : Aspectos estadísticos y factores ocultos Análisis del efecto de medicamentos: Estudio de los efectos de los medicamentos Descubrimiento de relaciones: Relación entre atención al cliente y el resultado del paciente.