SlideShare a Scribd company logo
1 of 24
Download to read offline
Minería de datos
Ruben Egiguren
18/06/2013
● Introducción
● KDD: Proceso de Extracción de conocimiento
● Procesos de un proyecto de minería de datos
● Técnicas de minería de datos
● Ciclo de un Proyecto de Minería de Datos
Índice
De donde venimos y hacia dónde
vamos
● La minería de datos (DM, Data Mining) consiste en la
extracción no trivial de información que reside de
manera implícita en los datos. Dicha información era
previamente desconocida y podrá resultar útil para
algún proceso. En otras palabras, la minería de datos
prepara, sondea y explora los datos para sacar la
información oculta en ellos.
¿Qué es la Minería de Datos?
Fuente: wikipedia
● Deducir conocimiento examinando los datos y realizando
predicciones
○ «examinar datos» examinar ejemplos de hechos conocidos
sobre «casos» utilizando sus atributos – «variables»
○ «conocimiento»: Patrones, Clusters, Reglas, Árboles de
Decisión, Redes Neuronales, Reglas de Asociación,….
● OLAP: Análisis orientado al modelo
● DM: Análisis orientado al dato
● Nombres alternativos: Análisis Predictivo
¿Qué es la Minería de Datos?
● La minería de datos (es la etapa de análisis de "Knowledge Discovery in
Databases" o KDD)
● Proceso de detectar la información procesable de los conjuntos
grandes de datos.
● Utiliza el análisis matemático para deducir los patrones y tendencias
que existen en los datos.
● Estos patrones no se pueden detectar mediante la exploración
tradicional de los datos porque las relaciones son demasiado complejas o
porque hay demasiado datos.
● Estos patrones y tendencias se pueden recopilar y definir como un
modelo de minería de datos.
¿Qué es la Minería de Datos?
KDD: Proceso de Extracción de
conocimiento
Como muestra la figura, las etapas del proceso KDD se
dividen en 5 fases y son:
1. Selección de datos
2. Preprocesamiento
3. Transformación
4. Data Mining
5. Interpretación y Evaluación
Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son:
1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de información
a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las
fuentes de datos.
2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos
desde las distintas fuentes de datos en una forma manejable, necesaria para las fases
posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en
blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de
datos adecuada para su posterior transformación.
3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación y
generación de nuevas variables a partir de las ya existentes con una estructura de datos
apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los
datos de una forma necesaria para la fase siguiente.
4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son
aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos,
potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.
5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente
interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados
obtenidos.
KDD: Proceso de Extracción de
conocimiento
Un proyecto de minería de datos tiene varias fases
necesarias que son, esencialmente:
● Comprensión del negocio y del problema que se quiere
resolver.
● Determinación, obtención y limpieza de los datos
necesarios.
● Creación de modelos matemáticos.
● Validación, comunicación, etc. de los resultados
obtenidos.
● Integración, si procede, de los resultados en un
sistema transaccional o similar.
Procesos de un proyecto de minería
de datos
● La relación entre todas estas fases sólo es
lineal sobre el papel. En realidad, es mucho
más compleja y esconde toda una jerarquía
de subfases. A través de la experiencia
acumulada en proyectos de minería de
datos se han ido desarrollando
metodologías que permiten gestionar esta
complejidad de una manera más o menos
uniforme.
Procesos de un proyecto de minería
de datos
● Generación de Recomendaciones
○ ¿Qué productos o servicios deberíamos de ofrecer a nuestros
clientes?
● Detección de anomalías
○ Detección de fraude
● Análisis de Rotación
○ ¿Qué clientes son más proclives de irse a la competencia?
● Gestión de Riesgos
○ ¿Debería de concederse el crédito?
● Segmentación de clientes
○ Clasificación de nuestros clientes
● Anuncios Orientados
○ Personalización de anuncios, contenido,…
Procesos de un proyecto de minería
de datos
● Previsión
○ ¿Cuánto venderemos el próximo semestre?
● Clasificación
○ Se asigna una categoría a cada caso. Cada caso tiene un conjunto de
atributos uno de ellos es el atributo clase.
○ Se busca un modelo que describa el atributo clase como una función
de los atributos de salida
● Agrupación
○ También conocido como segmentación
○ Identifica grupos naturales basándose en un conjunto de atributos
● Asociación
○ También conocido como análisis de cesta de la compra
● Regresión
○ Similar a clasificación pero con el objetivo de buscar patrones para
determinar un valor numérico
○ Ej.: Predicción de la velocidad del viento basada en temperatura
Procesos de un proyecto de minería
de datos
Las técnicas de la minería de datos provienen
de la Inteligencia artificial y de la estadística,
dichas técnicas, no son más que algoritmos,
más o menos sofisticados que se aplican sobre
un conjunto de datos para obtener unos
resultados.
Técnicas de minería de datos
Las técnicas más representativas son
● Redes neuronales
● Árboles de decisión
● Modelos estadísticos
● Agrupamiento o Clustering
● Algoritmos supervisados (o predictivos)
● Algoritmos no supervisados (o del descubrimiento
del conocimiento)
Técnicas de minería de datos
Redes neuronales
Son un paradigma de aprendizaje y procesamiento
automático inspirado en la forma en que funciona el
sistema nervioso de los animales. Se trata de un sistema
de interconexión de neuronas en una red que colabora
para producir un estímulo de salida. Algunos ejemplos de
red neuronal son:
● El Perceptrón
● El Perceptrón multicapa.
● Los Mapas Autoorganizados, también conocidos como
redes de Kohonen.
Técnicas de minería de datos
Árboles de decisión
Un árbol de decisión es un modelo de predicción utilizado
en el ámbito de la inteligencia artificial, dada una base de
datos se construyen estos diagramas de construcciones
lógicas, muy similares a los sistemas de predicción
basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de
forma sucesiva, para la resolución de un problema.
Ejemplos:
● Algoritmo ID3.
● Algoritmo C4.5.
Técnicas de minería de datos
Modelos estadísticos
● Es una expresión simbólica en forma de
igualdad o ecuación que se emplea en todos
los diseños experimentales y en la regresión
para indicar los diferentes factores que
modifican la variable de respuesta.
Técnicas de minería de datos
Agrupamiento o Clustering
Es un procedimiento de agrupación de una serie de
vectores según criterios habitualmente de distancia; se
tratará de disponer los vectores de entrada de forma que
estén más cercanos aquellos que tengan características
comunes.
Ejemplos:
● Algoritmo K-means.
● Algoritmo K-medoids.
Técnicas de minería de datos
Según el objetivo del análisis de los datos, los
algoritmos utilizados se clasifican en supervisados y
no supervisados (Weiss y Indurkhya, 1998):
● Algoritmos supervisados (o predictivos)
○ Predicen un dato (o un conjunto de ellos)
desconocido a priori, a partir de otros conocidos.
● Algoritmos no supervisados (o del descubrimiento del
conocimiento)
○ Se descubren patrones y tendencias en los datos.
Técnicas de minería de datos
Técnicas de minería de datos
Ejemplo
Comprador potencial de bicis:
Provincia Ciudad Edad Coche Distancia trabajo Bici
Ciclo de un Proyecto de Minería de
Datos
Muchas gracias por
vuestra atención
● dVelox
● KXEN
● KNIME
● Orange
● Powerhouse
● Quiterian
● RapidMiner
● R
● SPSS Clementine
● SAS Enterprise Miner
● STATISTICA Data Miner
● KEEL
● mahout
● Weka
Algunas herramientas
Referencias
● http://www.slideshare.net/antoniosql/minera-de-datos
● http://msdn.microsoft.com/es-es/library/ms174949.aspx
● http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
● http://www.slideshare.net/04071977/mineria-de-datos
● http://mahout.apache.org/
● https://www.youtube.com/watch?v=43mS9M1ZjU8

More Related Content

What's hot

Arquitecturas de pizarra o repositório
Arquitecturas de pizarra o repositórioArquitecturas de pizarra o repositório
Arquitecturas de pizarra o repositório
rehoscript
 
Diseño de Entradas
Diseño de EntradasDiseño de Entradas
Diseño de Entradas
tematico4
 
Integridad Y Seguridad En Las Bases De Datos
Integridad Y Seguridad En Las Bases De DatosIntegridad Y Seguridad En Las Bases De Datos
Integridad Y Seguridad En Las Bases De Datos
Drakonis11
 

What's hot (20)

Tecnicas y herramientas para el desarrollo de software
Tecnicas y herramientas para el desarrollo de softwareTecnicas y herramientas para el desarrollo de software
Tecnicas y herramientas para el desarrollo de software
 
Big data
Big dataBig data
Big data
 
Base de datos
Base de datosBase de datos
Base de datos
 
Sistemas críticos - Ingeniería de Sistemas
Sistemas críticos - Ingeniería de SistemasSistemas críticos - Ingeniería de Sistemas
Sistemas críticos - Ingeniería de Sistemas
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datos
 
Arquitecturas de pizarra o repositório
Arquitecturas de pizarra o repositórioArquitecturas de pizarra o repositório
Arquitecturas de pizarra o repositório
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Diagrama de Flujo de Datos (DFD)
Diagrama de Flujo de Datos (DFD)Diagrama de Flujo de Datos (DFD)
Diagrama de Flujo de Datos (DFD)
 
Ciclo de vida de un sistema de información
Ciclo de vida de un sistema de informaciónCiclo de vida de un sistema de información
Ciclo de vida de un sistema de información
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Diseño de Entradas
Diseño de EntradasDiseño de Entradas
Diseño de Entradas
 
Integridad Y Seguridad En Las Bases De Datos
Integridad Y Seguridad En Las Bases De DatosIntegridad Y Seguridad En Las Bases De Datos
Integridad Y Seguridad En Las Bases De Datos
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Tipos de Modelos de Datos : Ventajas y Desventajas
Tipos de Modelos de Datos : Ventajas y DesventajasTipos de Modelos de Datos : Ventajas y Desventajas
Tipos de Modelos de Datos : Ventajas y Desventajas
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Modelo entidad
Modelo entidadModelo entidad
Modelo entidad
 
Técnicas para la Obtención de Requerimientos
Técnicas para la Obtención de RequerimientosTécnicas para la Obtención de Requerimientos
Técnicas para la Obtención de Requerimientos
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 

Viewers also liked

Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
María Muñoz Parra
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all Employees
Talent Innovations
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
edmaga
 

Viewers also liked (18)

Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all Employees
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
MIneria de datos
MIneria de datosMIneria de datos
MIneria de datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 

Similar to Minería de datos

Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
Ana Delgado
 
Mineria de datos secuenciales
Mineria de datos secuencialesMineria de datos secuenciales
Mineria de datos secuenciales
Marilyn Jaramillo
 

Similar to Minería de datos (20)

Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
Tecnicas de minería de datos
Tecnicas de minería de datosTecnicas de minería de datos
Tecnicas de minería de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Parte1
Parte1Parte1
Parte1
 
Data science. todo lo que necesitas saber
Data science. todo lo que necesitas saberData science. todo lo que necesitas saber
Data science. todo lo que necesitas saber
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
 
Electiva iii parcial 2 - 02-minería de datos
Electiva iii   parcial 2 - 02-minería de datosElectiva iii   parcial 2 - 02-minería de datos
Electiva iii parcial 2 - 02-minería de datos
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datos
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Mineria de datos secuenciales
Mineria de datos secuencialesMineria de datos secuenciales
Mineria de datos secuenciales
 
SEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdfSEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdf
 
La Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica PredictivaLa Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica Predictiva
 
Mineria de datos ensayo
Mineria de datos ensayoMineria de datos ensayo
Mineria de datos ensayo
 
Mineria de Datos Dialnet.pdf
Mineria de Datos Dialnet.pdfMineria de Datos Dialnet.pdf
Mineria de Datos Dialnet.pdf
 

More from Keopx

More from Keopx (20)

[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10
[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10
[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10
 
[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9
[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9
[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9
 
Fucking copyright
Fucking copyrightFucking copyright
Fucking copyright
 
Segurtasuna sarean
Segurtasuna sareanSegurtasuna sarean
Segurtasuna sarean
 
[DrupalCampSpain2018] CircleCI
[DrupalCampSpain2018] CircleCI[DrupalCampSpain2018] CircleCI
[DrupalCampSpain2018] CircleCI
 
[DrupalCampSpain2018] Trabajando en remoto
[DrupalCampSpain2018] Trabajando en remoto[DrupalCampSpain2018] Trabajando en remoto
[DrupalCampSpain2018] Trabajando en remoto
 
[DrupalCampSpain2018] Contribuir a Drupal
[DrupalCampSpain2018] Contribuir a Drupal[DrupalCampSpain2018] Contribuir a Drupal
[DrupalCampSpain2018] Contribuir a Drupal
 
DrupalDay Bilbao 2014: Publica tu proyecto en drupal.org
DrupalDay Bilbao 2014: Publica tu proyecto en drupal.orgDrupalDay Bilbao 2014: Publica tu proyecto en drupal.org
DrupalDay Bilbao 2014: Publica tu proyecto en drupal.org
 
El poder de webform (antes yaml form)
El poder de webform (antes yaml form)El poder de webform (antes yaml form)
El poder de webform (antes yaml form)
 
Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]
Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]
Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]
 
[Drupal campspain2017] Contribuir a Drupal, de 0 a 100
[Drupal campspain2017] Contribuir a Drupal, de 0 a 100[Drupal campspain2017] Contribuir a Drupal, de 0 a 100
[Drupal campspain2017] Contribuir a Drupal, de 0 a 100
 
Contribuir a Drupal
Contribuir a DrupalContribuir a Drupal
Contribuir a Drupal
 
Contribuir a Drupal - Entorno
Contribuir a Drupal - EntornoContribuir a Drupal - Entorno
Contribuir a Drupal - Entorno
 
Uso practico de git
Uso practico de gitUso practico de git
Uso practico de git
 
WorkShop: Introducción a GIT
WorkShop: Introducción a GITWorkShop: Introducción a GIT
WorkShop: Introducción a GIT
 
Drupal 8 WorkShop - e-Ghost 2015
Drupal 8 WorkShop - e-Ghost 2015  Drupal 8 WorkShop - e-Ghost 2015
Drupal 8 WorkShop - e-Ghost 2015
 
Drupal 8 WorkShop
Drupal 8 WorkShopDrupal 8 WorkShop
Drupal 8 WorkShop
 
Herramientas de trabajo para entorno LAMP
Herramientas de trabajo para entorno LAMPHerramientas de trabajo para entorno LAMP
Herramientas de trabajo para entorno LAMP
 
Drupal Day Bilbao 2014 - Sesión de cierre
Drupal Day Bilbao 2014 - Sesión de cierreDrupal Day Bilbao 2014 - Sesión de cierre
Drupal Day Bilbao 2014 - Sesión de cierre
 
Drupal Day Bilbao 2014 - Sesión de apertura
Drupal Day Bilbao 2014 - Sesión de aperturaDrupal Day Bilbao 2014 - Sesión de apertura
Drupal Day Bilbao 2014 - Sesión de apertura
 

Recently uploaded

Recently uploaded (20)

CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismo
 
6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
biometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptxbiometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptx
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfPorcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 

Minería de datos

  • 1. Minería de datos Ruben Egiguren 18/06/2013
  • 2. ● Introducción ● KDD: Proceso de Extracción de conocimiento ● Procesos de un proyecto de minería de datos ● Técnicas de minería de datos ● Ciclo de un Proyecto de Minería de Datos Índice
  • 3. De donde venimos y hacia dónde vamos
  • 4. ● La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. ¿Qué es la Minería de Datos? Fuente: wikipedia
  • 5. ● Deducir conocimiento examinando los datos y realizando predicciones ○ «examinar datos» examinar ejemplos de hechos conocidos sobre «casos» utilizando sus atributos – «variables» ○ «conocimiento»: Patrones, Clusters, Reglas, Árboles de Decisión, Redes Neuronales, Reglas de Asociación,…. ● OLAP: Análisis orientado al modelo ● DM: Análisis orientado al dato ● Nombres alternativos: Análisis Predictivo ¿Qué es la Minería de Datos?
  • 6. ● La minería de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) ● Proceso de detectar la información procesable de los conjuntos grandes de datos. ● Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. ● Estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos. ● Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. ¿Qué es la Minería de Datos?
  • 7. KDD: Proceso de Extracción de conocimiento Como muestra la figura, las etapas del proceso KDD se dividen en 5 fases y son: 1. Selección de datos 2. Preprocesamiento 3. Transformación 4. Data Mining 5. Interpretación y Evaluación
  • 8. Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son: 1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las fuentes de datos. 2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de datos adecuada para su posterior transformación. 3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación y generación de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los datos de una forma necesaria para la fase siguiente. 4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos. 5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados obtenidos. KDD: Proceso de Extracción de conocimiento
  • 9. Un proyecto de minería de datos tiene varias fases necesarias que son, esencialmente: ● Comprensión del negocio y del problema que se quiere resolver. ● Determinación, obtención y limpieza de los datos necesarios. ● Creación de modelos matemáticos. ● Validación, comunicación, etc. de los resultados obtenidos. ● Integración, si procede, de los resultados en un sistema transaccional o similar. Procesos de un proyecto de minería de datos
  • 10. ● La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho más compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada en proyectos de minería de datos se han ido desarrollando metodologías que permiten gestionar esta complejidad de una manera más o menos uniforme. Procesos de un proyecto de minería de datos
  • 11. ● Generación de Recomendaciones ○ ¿Qué productos o servicios deberíamos de ofrecer a nuestros clientes? ● Detección de anomalías ○ Detección de fraude ● Análisis de Rotación ○ ¿Qué clientes son más proclives de irse a la competencia? ● Gestión de Riesgos ○ ¿Debería de concederse el crédito? ● Segmentación de clientes ○ Clasificación de nuestros clientes ● Anuncios Orientados ○ Personalización de anuncios, contenido,… Procesos de un proyecto de minería de datos
  • 12. ● Previsión ○ ¿Cuánto venderemos el próximo semestre? ● Clasificación ○ Se asigna una categoría a cada caso. Cada caso tiene un conjunto de atributos uno de ellos es el atributo clase. ○ Se busca un modelo que describa el atributo clase como una función de los atributos de salida ● Agrupación ○ También conocido como segmentación ○ Identifica grupos naturales basándose en un conjunto de atributos ● Asociación ○ También conocido como análisis de cesta de la compra ● Regresión ○ Similar a clasificación pero con el objetivo de buscar patrones para determinar un valor numérico ○ Ej.: Predicción de la velocidad del viento basada en temperatura Procesos de un proyecto de minería de datos
  • 13. Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Técnicas de minería de datos
  • 14. Las técnicas más representativas son ● Redes neuronales ● Árboles de decisión ● Modelos estadísticos ● Agrupamiento o Clustering ● Algoritmos supervisados (o predictivos) ● Algoritmos no supervisados (o del descubrimiento del conocimiento) Técnicas de minería de datos
  • 15. Redes neuronales Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son: ● El Perceptrón ● El Perceptrón multicapa. ● Los Mapas Autoorganizados, también conocidos como redes de Kohonen. Técnicas de minería de datos
  • 16. Árboles de decisión Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos: ● Algoritmo ID3. ● Algoritmo C4.5. Técnicas de minería de datos
  • 17. Modelos estadísticos ● Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. Técnicas de minería de datos
  • 18. Agrupamiento o Clustering Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos: ● Algoritmo K-means. ● Algoritmo K-medoids. Técnicas de minería de datos
  • 19. Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998): ● Algoritmos supervisados (o predictivos) ○ Predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. ● Algoritmos no supervisados (o del descubrimiento del conocimiento) ○ Se descubren patrones y tendencias en los datos. Técnicas de minería de datos
  • 20. Técnicas de minería de datos Ejemplo Comprador potencial de bicis: Provincia Ciudad Edad Coche Distancia trabajo Bici
  • 21. Ciclo de un Proyecto de Minería de Datos
  • 23. ● dVelox ● KXEN ● KNIME ● Orange ● Powerhouse ● Quiterian ● RapidMiner ● R ● SPSS Clementine ● SAS Enterprise Miner ● STATISTICA Data Miner ● KEEL ● mahout ● Weka Algunas herramientas
  • 24. Referencias ● http://www.slideshare.net/antoniosql/minera-de-datos ● http://msdn.microsoft.com/es-es/library/ms174949.aspx ● http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos ● http://www.slideshare.net/04071977/mineria-de-datos ● http://mahout.apache.org/ ● https://www.youtube.com/watch?v=43mS9M1ZjU8