El documento habla sobre la minería de datos y su evolución a través de las décadas. Explica que la minería de datos surge para ayudar a comprender grandes repositorios de datos mediante el uso de técnicas estadísticas y algoritmos de inteligencia artificial. También describe los pasos del proceso de minería de datos y algunas de sus aplicaciones principales como el comercio, empleo, medicina y lucha contra el terrorismo.
1. Instituto universitario de Tecnología
y Administración Industrial IUTA
Decreto 771 del 15-02-90
Región capital Ampliación Guarenas
Especialidad Informática
Sección 203 A1
Asignatura: Base de Datos
Alumnos:
Guajari Vallenilla
Carlos Garcés
Hector Gonzales
Caracas, Enero 2012
2. Es el conjunto de técnicas y tecnologías que permiten
explorar grandes bases de datos, de manera automática o
semiautomática, con el objetivo de encontrar patrones
repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado contexto.
Básicamente, el datamining surge para intentar ayudar
a comprender el contenido de un repositorio de datos. Con
este fin, hace uso de prácticas estadísticas y, en algunos
casos, de algoritmos de búsqueda próximos a la Inteligencia
Artificial y a las redes neuronales.
3. La idea de Minería de Datos no es nueva. Ya desde los
años sesenta los estadísticos manejaban términos como
Data Fishing, Data Mining (DM) o Data Archaeology con la
idea de encontrar correlaciones sin una hipótesis previa en
bases de datos
A principios de los años ochenta, Rakesh Agrawal,
GioWiederhold, Robert Blum y Gregory Piatetsky-Shapiro
entre otros, empezaron a consolidar los términos de Minería
de Datos y KDD.
Esta tecnología ha sido un buen punto de encuentro entre
personas pertenecientes al ámbito académico y al de los
negocios.
4. La evolución de sus herramientas en el transcurso del
tiempo puede dividirse en cuatro etapas principales:
•Colección de Datos (1960).
•Acceso de Datos (1980).
• Almacén de Datos y Apoyo a las Decisiones (principios de
la década de 1990).
• Minería de Datos Inteligente. (finales de la década de 1990).
5. Las líneas de desarrollo en el ámbito de
minería de datos tienen sus orígenes en tres
conceptos importantes:
•Estadística clásica.
•Inteligencia Artificial.
•Aprendizaje humano.
6. •Determinación de los objetivos: Trata de la delimitación de los objetivos que el
cliente desea bajo la orientación del especialista en data minina.
•Pre procesamiento de los datos: Se refiere a la selección, la limpieza, el
enriquecimiento, la reducción y la transformación de las bases de datos. Esta
etapa consume generalmente alrededor del setenta por ciento del tiempo total de
un proyecto de data minina.
•Determinación del modelo: Se comienza realizando unos análisis estadísticos de
los datos, y después se lleva a cabo una visualización gráfica de los mismos para
tener una primera aproximación. Según los objetivos planteados y la tarea que
debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes
áreas de la Inteligencia Artificial.
Análisis de los resultados: Verifica si los resultados obtenidos son coherentes y
los coteja con los obtenidos por los análisis estadísticos y de visualización
gráfica.
7. •Comercio: Conocer el patrón de compras del cliente para, por ejemplo,
diseñar mejores campañas de publicidad y aumentar las ventas.
•Empleo: Cuantificar las habilidades de los trabajadores para aprovecharlas
al máximo. Localizar trabajadores descontentos.
•Elecciones: Cotejar grandes bases de datos sobre hábitos de consumo y
encuestas para conocer con detalle las inquietudes y los intereses del
votante y así perfilar mejores campañas.
• Medicina: Reunir grandes bases de datos biológicos para emplearlas en la
detección a tiempo de tumores, demencias o alzhéimer.
•Lucha contra el terrorismo: Localización de relaciones, transacciones
económicas y movimientos de sospechosos.
8. •Explorar los datos que se encuentran en las profundidades de las bases de
datos, como los almacenes de datos, que algunas veces contienen información
almacenada durante varios años.
• En algunos casos, los datos se consolidan en un almacén de datos y en
mercados de datos; en otros, se mantienen en servidores de Internet e Intranet.
• El entorno de la minería de datos suele tener una arquitectura cliente -servidor.
• Las herramientas de la minería de datos ayudan a extraer el mineral de la
información enterrado en archivos corporativos o en registros públicos,
archivados.
• Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e
inesperados.
9. • El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programación, facultado por barrenadoras de datos y otras poderosas
herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente
respuestas.
• Las herramientas de la minería de datos se combinan fácilmente y pueden
analizarse y procesarse rápidamente.
• Debido a la gran cantidad de datos, algunas veces resulta necesario usar
procesamiento en paralelo para la minería de datos.
• La minería de datos produce cinco tipos de información:
— Asociaciones.
— Secuencias.
— Clasificaciones.
— Agrupamientos.
— Pronósticos.
• Los mineros de datos usan varias herramientas y técnicas. La minería de datos
es un proceso que invierte la dinámica del método científico.
10. El nombre de Data Mining deriva de las similitudes entre buscar
valiosa información de negocios en grandes bases de datos, las técnicas
pueden redituar los beneficios de automatización en las plataformas
de hardware y software existentes y puede ser implementadas en
sistemas nuevos a medida que las plataformas existentes se actualicen y
nuevos productos sean desarrollados.
Cuando las herramientas de data Mining son empleadas en
sistemas de procesamiento paralelo de alta performance, pueden analizar
bases de datos masivas en minutos. Procesamientos mas rápidos
significan que los usuarios pueden automáticamente experimentar con
mas modelos para entender datos complejos.
11. Para aplicar mejor técnicas avanzadas, estas deben estar
totalmente integradas con la data warehouse así como herramientas
flexibles e interactivas para el análisis de negocios.
Varias herramientas de data Mining actualmente operan fuera del
warehouse, requiriendo pasos extra para extraer, importar y analizar los
datos. Además, cuando nuevos conceptos requieren implementación
operacional la integración con el warehouse simplifica la aplicación de
los resultados desde data Mining.
12. El Data warehouse analítico resultante puede ser aplicado para
mejorar procesos de negocios en toda la organización, en áreas tales
como manejo de campañas promocionales, detección de fraudes,
lanzamientos de nuevos
productos, etc.
El punto de inicio ideal es un data warehouse que contenga una
combinación de datos de seguimiento e todos los clientes juntos con
datos externos de mercado acerca
de la actividad de los competidores.
Información histórica sobre potenciales clientes también provee
una excelente base. Este warehouse puede ser implementado en una
variedad de sistemas bases relacionales y debe ser optimizado para un
acceso a los datos flexibles y rápido.