SlideShare a Scribd company logo
1 of 19
Download to read offline
 
“Fundamentos de Data Mining con R” .	
  
	
  
	
  	
  www.sgcampus.com.mx	
  
Temario
1.  Minería de Datos
2.  Herramientas y requerimientos para Minería de datos
a)  R
b)  RStudio
c)  Shiny
d)  Miktex
3.  Auto-aprendizaje utilizando el lenguaje R.
4.  Modelos, técnicas y funciones.
a)  acceso a datos.
b)  Descarga
c)  lectura de archivos
d)  Limpieza básica
e)  Extracción de datos
f)  Técnicas y minería de datos
5.  Conclusiones
6.  Referencias
Objetivo
El participante conocerá algunos conceptos
fundamentales de la Minería de Datos a partir del uso de
funciones y paquetes del lenguaje R, para facilitar tanto
su comprensión y manejo del lenguaje, como de la
minería de datos, sus modelos y técnicas.
Minería de Datos
•  Minería de Datos, Inteligencia de Negocios y
Sistemas de soporte.
Minería de Datos
En	
   la	
   figura,	
   se	
   muestra	
   el	
   nivel	
   de	
   anidación	
   de	
   cada	
  
elemento	
  del	
  universo,	
  donde	
  se	
  enmarca	
  la	
  minería	
  de	
  
datos:	
  	
  un	
  entorno	
  o	
  ambiente	
  general,	
  en	
  el	
  que	
  se	
  sitúa	
  
el	
   Sistema	
   de	
   Soporte	
   para	
   la	
   toma	
   de	
   Decisiones	
  
(Decision	
   Support	
   Systems),	
   en	
   cuyo	
   seno	
   se	
   diseñan,	
  
conforman,	
   administran,	
   y	
   dirigen	
   los	
   negocios,	
   mismos	
  
que	
  crean	
  las	
  bases	
  de	
  datos	
  de	
  las	
  cuales	
  se	
  aplicará	
  la	
  
Inteligencia	
   de	
   Negocios(Bussines	
   Intelligence),	
   para	
   que	
  
emerja	
  el	
  KDD	
  (Knowledge	
  Discovery	
  Data),	
  que	
  sigue	
  una	
  
serie	
   de	
   pasos	
   o	
   procesos	
   entre	
   los	
   que	
   destaca	
   el	
   DM	
  
(Data	
  Mining),	
  herramienta	
  informáMca	
  del	
  KDD	
  en	
  la	
  cual	
  
se	
  aplican	
  métodos	
  inteligentes	
  para	
  extraer	
  patrones	
  de	
  
datos	
  (Han	
  &	
  Kamber,	
  2006).	
  	
  
Minería de Datos, Inteligencia de Negocios y
Sistemas de soporte.
Minería de Datos
	
  Existen	
  cuatro	
  metodologías:	
  1.-­‐	
  SEMMA,	
  2.-­‐	
  KDD	
  Roadmap,	
  3.-­‐	
  RAMSYS,	
  y	
  4.-­‐	
  DMIE.	
  Finalmente,	
  
CRISP-­‐DM	
  es	
  un	
  modelo	
  con	
  un	
  fuerte	
  componente	
  metodológico	
  (Marbán,	
  Mariscal,	
  &	
  Segovia,	
  2009).	
  	
  
Metodologías en Minería de Datos,.
Minería de Datos
Tipologías de la Minería de Datos
	
   La	
   Minería	
   de	
   Datos	
   es:	
   ‘…Extracción	
   no	
   trivial	
   de	
   información	
   implícita,	
   previamente	
  
desconocida	
  y	
  potencialmente	
  úMl	
  a	
  parMr	
  de	
  datos.”.	
  	
  
	
   Existen	
   algoritmos	
   tanto	
   de	
   aprendizaje	
   supervisado,	
   como	
   de	
   aprendizaje	
   no	
   supervisado	
  
cuyo	
   conocimiento	
   y	
   opMmización	
   facilita	
   el	
   descubrimiento	
   o	
   reconocimiento	
   de	
   patrones,	
   a	
  
través	
  de	
  la	
  clasificación	
  y	
  la	
  predicción.	
  	
  
	
  
	
  
	
  
	
  
	
  En	
  la	
  MDD,	
  algunas	
  variables	
  son	
  señaladas	
  como	
  el	
  objeMvo	
  y	
  existen	
  datos	
  sobre	
  su	
  desMno,	
  
mientras	
   que	
   en	
   la	
   MDI,	
   no	
   destaca	
   ninguna	
   variable	
   como	
   un	
   objeMvo,	
   pues	
   la	
   meta	
   es	
  
descubrir	
  algún	
  Mpo	
  de	
  relación	
  entre	
  todas	
  las	
  variables.	
  
Herramientas de Data Mining
Herramientas y requerimientos para Minería de datos
Auto-aprendizaje mediante R.
Requerimientos para el auto-aprendizaje
a)  Después de instalas las herramientas R , Rstudio, Shiny, Miktex, deberá continuar
con la instalación de algunos paquetes adicionales, tales como rmarkdown,
laticce, knitr, etc., los cuales podrá ir siguiendo durante la presentación.
b)  En esta primera parte les recomiendo el paquete swirl, install.packages(“swirl"),
después d edla instalación deberás escribir library(swirl) para poder utilizarlo.
c)  Después de instalarlo deberán abrirlo a fin de poder obtener información básica,
pero podemos empezar a trabajar con él. En este caso, si no sabes mucho sobre
matrices te recomiendo el primer modulo, de otra forma, toma el segundo
modulo sobre modelos de regresión. Un buen repaso a nadie le perjudica
	
  
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
a)  acceso a datos.
b)  Descarga
c)  lectura de archivos
d)  Limpieza básica
e)  Extracción de datos
f)  Técnicas y minería de datos
Modelos, técnicas y funciones	
  
•  Ejemplos	
  
a)  acceso a datos.
library(XML)	
  
url<-­‐	
  'hgp://en.wikipedia.org/wiki/World_populaMon'	
  
tbls	
  <-­‐readHTMLTable	
  (url)	
  
length(tbls)	
  
	
  
tbl	
  <-­‐readHTMLTable	
  (url,which=4)	
  
tbl[,c(1:3,5)]	
  
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
Descarga
# fileUrl <- "link?accessType=DOWNLOAD"
if(!file.exists(".UCI_HAR_Dataset")){dir.create("./UCI_HAR_Dataset")}
fileUrl <- "https://d396qusza40orc.cloudfront.net/getdata%2Fprojectfiles%2FUCI%20HAR%20Dataset.zip?accessType=DOWNLOAD"
# download.file(fileUrl, destfile = "directorio/nombre_archivo.csv", method = "curl")
download.file(fileUrl, destfile = "/Users/administrador/Specialization/UCI_HAR_Dataset/UCI_HAR_Dataset.zip", method = "curl”)
list.files("../Specialization")
dateDownloaded <- date()
dateDownloaded
### Step two
# Unzziped the file
# Set working directory setwd()
# Unzipped the data set in 'UCI_HAR_Dataset'
# The dataset directory is same as this script.
setwd("../Specialization/UCI_HAR_Dataset")
	
  
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
lectura de archivos
#	
  Package	
  Check	
  and	
  Install	
  
library(reshape2)	
  
#	
  or	
  	
  
pkg	
  <-­‐	
  "reshape2"	
  
if	
  (!require(pkg,	
  character.only	
  =	
  TRUE))	
  {	
  
	
  	
  install.packages(pkg)	
  
	
  	
  if	
  (!require(pkg,	
  character.only	
  =	
  TRUE))	
  	
  
	
  	
  	
  	
  stop(paste("Load	
  failure:	
  ",	
  pkg))	
  
}	
  
	
  
#	
  Read	
  dataset	
  
acMviMes	
  <-­‐	
  read.table(paste0(dataBaseDirectory,	
  "acMvity_labels.txt"),	
  header=FALSE,	
  stringsAsFactors=FALSE)	
  
features	
  <-­‐	
  read.table(paste0(dataBaseDirectory,	
  "features.txt"),	
  header=FALSE,	
  stringsAsFactors=FALSE)	
  
	
  
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
lectura de archivos
# Import and prepare the test Data
subject_test <- read.table(paste0(dataTestDirectory, "subject_test.txt"), header=FALSE)
x_test <- read.table(paste0(dataTestDirectory, "X_test.txt"), header=FALSE)
y_test <- read.table(paste0(dataTestDirectory, "y_test.txt"), header=FALSE)
tmp <- data.frame(Activity = factor(y_test$V1, labels = activities$V2))
testData <- cbind(tmp, subject_test, x_test)
# Import and prepare the train Data
subject_train <- read.table(paste0(dataTrainDirectory, "subject_train.txt"), header=FALSE)
x_train <- read.table(paste0(dataTrainDirectory, "X_train.txt"), header=FALSE)
y_train <- read.table(paste0(dataTrainDirectory, "y_train.txt"), header=FALSE)
tmp <- data.frame(Activity = factor(y_train$V1, labels = activities$V2))
trainData <- cbind(tmp, subject_train, x_train)
# Tidy Data
testTidyData <- rbind(testData, trainData)
names(testTidyData) <- c("Activity", "Subject", features[,2])
select <- features$V2[grep("mean()|std()", features$V2)]
tidyData <- testTidyData[c("Activity", "Subject", select)]
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
Extracción de datos
# Write Tidy Data to Disk
write.table(tidyData, file="./tidyData.txt", row.names=FALSE)
# Tidy Data Average/Activity. Melt and Cast.
tidyData_Melt <- melt(tidyData, id=c("Activity", "Subject"), measure.vars=select)
tidyData_Mean <- dcast(tidyData_Melt, Activity + Subject ~ variable, mean)
# Write Tidy Average Data
write.table(tidyData_Mean, file="./tidyAverageData.txt", row.names=FALSE)
message(" DONE")
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
Limpieza básica
microdataSurvey <- read.table("/Users/administrador/Specialization/microdataSurvey.csv", sep = ",", header = TRUE)
head(microdataSurvey)
# Extraer solamente la columna que me interesa
propertyValue <- microdataSurvey[,c(37)]
propertyValue
# Limpiar datos
ld = complete.cases(propertyValue)
propertyValue = propertyValue[ld]
propertyValue
# Utilizo el comando which para saber cuáles índices del vector o columna cumplen con una condición lógica
which(propertyValue >= 24)
# Asigno el resultado a un vector
mayorValue <- which(propertyValue >= 24)
# Extraigo el resultado o la cantidad de casos que cumplen con la condición
length(mayorValue)	
  
	
  	
  
Conclusiones
Ante	
  la	
  pregunta	
  de	
  que	
  herramienta	
  es	
  mejor	
  para	
  trabajar	
  con	
  
Minería	
   de	
   Datos,tendré	
   que	
   responder	
   que	
   aquella	
   que	
   les	
  
facilite	
  más	
  su	
  propio	
  trabajo	
  y	
  comprensión	
  sobre	
  lo	
  que	
  están	
  
haciendo,	
   Matlab	
   es	
   una	
   buena	
   opción	
   pero	
   Mene	
   un	
   costo,	
  
Octave,	
  es	
  open	
  source	
  pero	
  conlleva	
  un	
  poco	
  más	
  de	
  trabajo,	
  R	
  
es	
  una	
  herramienta	
  formidable,	
  pero	
  como	
  podrán	
  notar	
  exige	
  
cierto	
   dominio	
   de	
   programación	
   y	
   sobre	
   todo	
   mucho	
   interés,	
  
teniendo	
  en	
  cuenta	
  que	
  en	
  Minería	
  de	
  datos	
  lo	
  importante	
  no	
  
son	
  los	
  datos,	
  sino	
  la	
  pregunta	
  que	
  se	
  quiere	
  responder.	
  
Referencias	
  
1.  Paradis, E.: R para Principiantes, The Comprehensive R Archive Networkhttp://cran.rproject.org/doc/
contrib/rdebuts_es.pdf (2003). Accedido el 26 de marzo de 2014.
2.  Sauter, V.L.: Decision Support Systems for Business Intelligence. John Wiley & Sons (2010).
3.  Gilchrist, M.; Lehmann, D.; Skrubbeltrang, G.;Vachon, F.: Knowledge Discovery in Databases for
Competitive Advantage. Journal of Management and Strategy, Vol. 3, No. 2, pp. 2-15 (2012).
4.  Jiawei, H.; Kamber, M.: Data Mining: Concepts and Techniques. Elsevier (2006).
5.  Marbán, O.; Mariscal, G.; Segovia, J.: A Data Mining & Knowledge DiscoveryProcess Model. Ponce,
J.; Karahoca, A.: En Data Mining and Knowledge Discovery in Real Life Applications, I-Tech
Education and Publishing, pp. 1-17 (2009).
6.  Torgo, L.: Data Mining with R: Learning with case studies. CRC Press Taylor &Francis Group (2011).
7.  Chapman, P.; Clinton, J.; Kerber, R.; Khabaza, T.; Reinartz, T.; Thomas, C.; Wirth, R.: CRISP-DM 1.0
Step-by-step data mining guide. CRISP-DM Consortium,
8.  ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/User Manual/
CRISP-DM.pdf (2000). Accedido el 17 de Noviembre de 2013.
Datos	
  de	
  contacto	
  
"
GRACIAS POR SU ATENCIÓN"
"
"
Rafael Reséndiz Ramírez"
Instituto de Ingeniería"
Universidad Autónoma de Baja California"
"
Calle de la Norma s/n y Blvd Benito Juárez, "
Col. Insurgentes Este. C.P. 21280"
Mexicali, Baja California, México"
"
rafael.resendiz@uabc.edu.mx"
rafael.resendiz@educacionbc.edu.mx "
rafaresend@gmail.com 	
  

More Related Content

What's hot

Tipos de usuarios de base de datos diapositivas
Tipos de usuarios de base de datos diapositivasTipos de usuarios de base de datos diapositivas
Tipos de usuarios de base de datos diapositivas
grupo niche ortega
 
Análisis de riesgos de un proyecto de software
Análisis de riesgos de un proyecto de softwareAnálisis de riesgos de un proyecto de software
Análisis de riesgos de un proyecto de software
Angel Reyes
 
Caso practico de base de datos orientada a objetos
Caso practico de base de datos orientada a objetosCaso practico de base de datos orientada a objetos
Caso practico de base de datos orientada a objetos
Miguel Martinez
 
Database management system presentation
Database management system presentationDatabase management system presentation
Database management system presentation
sameerraaj
 

What's hot (20)

Md unidad 2 2.1 limpieza de datos
Md unidad 2   2.1 limpieza de datosMd unidad 2   2.1 limpieza de datos
Md unidad 2 2.1 limpieza de datos
 
Diseño de un Sistema de Informacion
Diseño de un Sistema de InformacionDiseño de un Sistema de Informacion
Diseño de un Sistema de Informacion
 
Tipos de usuarios de base de datos diapositivas
Tipos de usuarios de base de datos diapositivasTipos de usuarios de base de datos diapositivas
Tipos de usuarios de base de datos diapositivas
 
Análisis de riesgos de un proyecto de software
Análisis de riesgos de un proyecto de softwareAnálisis de riesgos de un proyecto de software
Análisis de riesgos de un proyecto de software
 
Ejercicios sql
Ejercicios sqlEjercicios sql
Ejercicios sql
 
TIPOS DE USUARIOS EN UNA BASE DE DATOS
TIPOS DE USUARIOS EN UNA BASE DE DATOSTIPOS DE USUARIOS EN UNA BASE DE DATOS
TIPOS DE USUARIOS EN UNA BASE DE DATOS
 
IN Unidad 4: Visualización de información
IN Unidad 4: Visualización de informaciónIN Unidad 4: Visualización de información
IN Unidad 4: Visualización de información
 
Caso practico de base de datos orientada a objetos
Caso practico de base de datos orientada a objetosCaso practico de base de datos orientada a objetos
Caso practico de base de datos orientada a objetos
 
Herramientas case
Herramientas caseHerramientas case
Herramientas case
 
Estructura de Datos
Estructura de DatosEstructura de Datos
Estructura de Datos
 
Investigación de Operaciones
Investigación de OperacionesInvestigación de Operaciones
Investigación de Operaciones
 
Capas de la ingenieria de software
Capas de la ingenieria de softwareCapas de la ingenieria de software
Capas de la ingenieria de software
 
Base de datos
Base de datosBase de datos
Base de datos
 
Programacion de base de datos - Unidad 1: Conexion a la base de datos con un ...
Programacion de base de datos - Unidad 1: Conexion a la base de datos con un ...Programacion de base de datos - Unidad 1: Conexion a la base de datos con un ...
Programacion de base de datos - Unidad 1: Conexion a la base de datos con un ...
 
Exposicion base datos
Exposicion  base datosExposicion  base datos
Exposicion base datos
 
Estructura de almacenamiento
Estructura de almacenamientoEstructura de almacenamiento
Estructura de almacenamiento
 
Metodologías para el desarrollo de aplicaciones móviles
Metodologías para el desarrollo de aplicaciones móvilesMetodologías para el desarrollo de aplicaciones móviles
Metodologías para el desarrollo de aplicaciones móviles
 
Diapositivas sobre BD (Base de Datos)
Diapositivas sobre BD (Base de Datos)Diapositivas sobre BD (Base de Datos)
Diapositivas sobre BD (Base de Datos)
 
Procedimiento Para Utilizar Flex Y Bison
Procedimiento Para Utilizar Flex Y Bison Procedimiento Para Utilizar Flex Y Bison
Procedimiento Para Utilizar Flex Y Bison
 
Database management system presentation
Database management system presentationDatabase management system presentation
Database management system presentation
 

Similar to Fundamentos de Data Mining con R

Similar to Fundamentos de Data Mining con R (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD
 
Mineria de datos-una_introduccion
Mineria de datos-una_introduccionMineria de datos-una_introduccion
Mineria de datos-una_introduccion
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Revista TicNews Marzo 2015
Revista TicNews Marzo 2015Revista TicNews Marzo 2015
Revista TicNews Marzo 2015
 
Minería de Datos - Unidad 1
Minería de Datos - Unidad 1Minería de Datos - Unidad 1
Minería de Datos - Unidad 1
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
Guia examen adsi
Guia examen adsiGuia examen adsi
Guia examen adsi
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
SEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdfSEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdf
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
 
R Services con SQL Server
R Services con SQL ServerR Services con SQL Server
R Services con SQL Server
 
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
 
Diapositiva d
Diapositiva dDiapositiva d
Diapositiva d
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 

More from Software Guru

More from Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Recently uploaded

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Recently uploaded (10)

EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 

Fundamentos de Data Mining con R

  • 1.   “Fundamentos de Data Mining con R” .        www.sgcampus.com.mx  
  • 2. Temario 1.  Minería de Datos 2.  Herramientas y requerimientos para Minería de datos a)  R b)  RStudio c)  Shiny d)  Miktex 3.  Auto-aprendizaje utilizando el lenguaje R. 4.  Modelos, técnicas y funciones. a)  acceso a datos. b)  Descarga c)  lectura de archivos d)  Limpieza básica e)  Extracción de datos f)  Técnicas y minería de datos 5.  Conclusiones 6.  Referencias
  • 3. Objetivo El participante conocerá algunos conceptos fundamentales de la Minería de Datos a partir del uso de funciones y paquetes del lenguaje R, para facilitar tanto su comprensión y manejo del lenguaje, como de la minería de datos, sus modelos y técnicas.
  • 4. Minería de Datos •  Minería de Datos, Inteligencia de Negocios y Sistemas de soporte.
  • 5. Minería de Datos En   la   figura,   se   muestra   el   nivel   de   anidación   de   cada   elemento  del  universo,  donde  se  enmarca  la  minería  de   datos:    un  entorno  o  ambiente  general,  en  el  que  se  sitúa   el   Sistema   de   Soporte   para   la   toma   de   Decisiones   (Decision   Support   Systems),   en   cuyo   seno   se   diseñan,   conforman,   administran,   y   dirigen   los   negocios,   mismos   que  crean  las  bases  de  datos  de  las  cuales  se  aplicará  la   Inteligencia   de   Negocios(Bussines   Intelligence),   para   que   emerja  el  KDD  (Knowledge  Discovery  Data),  que  sigue  una   serie   de   pasos   o   procesos   entre   los   que   destaca   el   DM   (Data  Mining),  herramienta  informáMca  del  KDD  en  la  cual   se  aplican  métodos  inteligentes  para  extraer  patrones  de   datos  (Han  &  Kamber,  2006).     Minería de Datos, Inteligencia de Negocios y Sistemas de soporte.
  • 6. Minería de Datos  Existen  cuatro  metodologías:  1.-­‐  SEMMA,  2.-­‐  KDD  Roadmap,  3.-­‐  RAMSYS,  y  4.-­‐  DMIE.  Finalmente,   CRISP-­‐DM  es  un  modelo  con  un  fuerte  componente  metodológico  (Marbán,  Mariscal,  &  Segovia,  2009).     Metodologías en Minería de Datos,.
  • 7. Minería de Datos Tipologías de la Minería de Datos   La   Minería   de   Datos   es:   ‘…Extracción   no   trivial   de   información   implícita,   previamente   desconocida  y  potencialmente  úMl  a  parMr  de  datos.”.       Existen   algoritmos   tanto   de   aprendizaje   supervisado,   como   de   aprendizaje   no   supervisado   cuyo   conocimiento   y   opMmización   facilita   el   descubrimiento   o   reconocimiento   de   patrones,   a   través  de  la  clasificación  y  la  predicción.              En  la  MDD,  algunas  variables  son  señaladas  como  el  objeMvo  y  existen  datos  sobre  su  desMno,   mientras   que   en   la   MDI,   no   destaca   ninguna   variable   como   un   objeMvo,   pues   la   meta   es   descubrir  algún  Mpo  de  relación  entre  todas  las  variables.  
  • 8. Herramientas de Data Mining Herramientas y requerimientos para Minería de datos
  • 9. Auto-aprendizaje mediante R. Requerimientos para el auto-aprendizaje a)  Después de instalas las herramientas R , Rstudio, Shiny, Miktex, deberá continuar con la instalación de algunos paquetes adicionales, tales como rmarkdown, laticce, knitr, etc., los cuales podrá ir siguiendo durante la presentación. b)  En esta primera parte les recomiendo el paquete swirl, install.packages(“swirl"), después d edla instalación deberás escribir library(swirl) para poder utilizarlo. c)  Después de instalarlo deberán abrirlo a fin de poder obtener información básica, pero podemos empezar a trabajar con él. En este caso, si no sabes mucho sobre matrices te recomiendo el primer modulo, de otra forma, toma el segundo modulo sobre modelos de regresión. Un buen repaso a nadie le perjudica  
  • 10. Modelos, técnicas y funciones   •  R  en  acción   a)  acceso a datos. b)  Descarga c)  lectura de archivos d)  Limpieza básica e)  Extracción de datos f)  Técnicas y minería de datos
  • 11. Modelos, técnicas y funciones   •  Ejemplos   a)  acceso a datos. library(XML)   url<-­‐  'hgp://en.wikipedia.org/wiki/World_populaMon'   tbls  <-­‐readHTMLTable  (url)   length(tbls)     tbl  <-­‐readHTMLTable  (url,which=4)   tbl[,c(1:3,5)]  
  • 12. Modelos, técnicas y funciones   •  R  en  acción   Descarga # fileUrl <- "link?accessType=DOWNLOAD" if(!file.exists(".UCI_HAR_Dataset")){dir.create("./UCI_HAR_Dataset")} fileUrl <- "https://d396qusza40orc.cloudfront.net/getdata%2Fprojectfiles%2FUCI%20HAR%20Dataset.zip?accessType=DOWNLOAD" # download.file(fileUrl, destfile = "directorio/nombre_archivo.csv", method = "curl") download.file(fileUrl, destfile = "/Users/administrador/Specialization/UCI_HAR_Dataset/UCI_HAR_Dataset.zip", method = "curl”) list.files("../Specialization") dateDownloaded <- date() dateDownloaded ### Step two # Unzziped the file # Set working directory setwd() # Unzipped the data set in 'UCI_HAR_Dataset' # The dataset directory is same as this script. setwd("../Specialization/UCI_HAR_Dataset")  
  • 13. Modelos, técnicas y funciones   •  R  en  acción   lectura de archivos #  Package  Check  and  Install   library(reshape2)   #  or     pkg  <-­‐  "reshape2"   if  (!require(pkg,  character.only  =  TRUE))  {      install.packages(pkg)      if  (!require(pkg,  character.only  =  TRUE))            stop(paste("Load  failure:  ",  pkg))   }     #  Read  dataset   acMviMes  <-­‐  read.table(paste0(dataBaseDirectory,  "acMvity_labels.txt"),  header=FALSE,  stringsAsFactors=FALSE)   features  <-­‐  read.table(paste0(dataBaseDirectory,  "features.txt"),  header=FALSE,  stringsAsFactors=FALSE)    
  • 14. Modelos, técnicas y funciones   •  R  en  acción   lectura de archivos # Import and prepare the test Data subject_test <- read.table(paste0(dataTestDirectory, "subject_test.txt"), header=FALSE) x_test <- read.table(paste0(dataTestDirectory, "X_test.txt"), header=FALSE) y_test <- read.table(paste0(dataTestDirectory, "y_test.txt"), header=FALSE) tmp <- data.frame(Activity = factor(y_test$V1, labels = activities$V2)) testData <- cbind(tmp, subject_test, x_test) # Import and prepare the train Data subject_train <- read.table(paste0(dataTrainDirectory, "subject_train.txt"), header=FALSE) x_train <- read.table(paste0(dataTrainDirectory, "X_train.txt"), header=FALSE) y_train <- read.table(paste0(dataTrainDirectory, "y_train.txt"), header=FALSE) tmp <- data.frame(Activity = factor(y_train$V1, labels = activities$V2)) trainData <- cbind(tmp, subject_train, x_train) # Tidy Data testTidyData <- rbind(testData, trainData) names(testTidyData) <- c("Activity", "Subject", features[,2]) select <- features$V2[grep("mean()|std()", features$V2)] tidyData <- testTidyData[c("Activity", "Subject", select)]
  • 15. Modelos, técnicas y funciones   •  R  en  acción   Extracción de datos # Write Tidy Data to Disk write.table(tidyData, file="./tidyData.txt", row.names=FALSE) # Tidy Data Average/Activity. Melt and Cast. tidyData_Melt <- melt(tidyData, id=c("Activity", "Subject"), measure.vars=select) tidyData_Mean <- dcast(tidyData_Melt, Activity + Subject ~ variable, mean) # Write Tidy Average Data write.table(tidyData_Mean, file="./tidyAverageData.txt", row.names=FALSE) message(" DONE")
  • 16. Modelos, técnicas y funciones   •  R  en  acción   Limpieza básica microdataSurvey <- read.table("/Users/administrador/Specialization/microdataSurvey.csv", sep = ",", header = TRUE) head(microdataSurvey) # Extraer solamente la columna que me interesa propertyValue <- microdataSurvey[,c(37)] propertyValue # Limpiar datos ld = complete.cases(propertyValue) propertyValue = propertyValue[ld] propertyValue # Utilizo el comando which para saber cuáles índices del vector o columna cumplen con una condición lógica which(propertyValue >= 24) # Asigno el resultado a un vector mayorValue <- which(propertyValue >= 24) # Extraigo el resultado o la cantidad de casos que cumplen con la condición length(mayorValue)      
  • 17. Conclusiones Ante  la  pregunta  de  que  herramienta  es  mejor  para  trabajar  con   Minería   de   Datos,tendré   que   responder   que   aquella   que   les   facilite  más  su  propio  trabajo  y  comprensión  sobre  lo  que  están   haciendo,   Matlab   es   una   buena   opción   pero   Mene   un   costo,   Octave,  es  open  source  pero  conlleva  un  poco  más  de  trabajo,  R   es  una  herramienta  formidable,  pero  como  podrán  notar  exige   cierto   dominio   de   programación   y   sobre   todo   mucho   interés,   teniendo  en  cuenta  que  en  Minería  de  datos  lo  importante  no   son  los  datos,  sino  la  pregunta  que  se  quiere  responder.  
  • 18. Referencias   1.  Paradis, E.: R para Principiantes, The Comprehensive R Archive Networkhttp://cran.rproject.org/doc/ contrib/rdebuts_es.pdf (2003). Accedido el 26 de marzo de 2014. 2.  Sauter, V.L.: Decision Support Systems for Business Intelligence. John Wiley & Sons (2010). 3.  Gilchrist, M.; Lehmann, D.; Skrubbeltrang, G.;Vachon, F.: Knowledge Discovery in Databases for Competitive Advantage. Journal of Management and Strategy, Vol. 3, No. 2, pp. 2-15 (2012). 4.  Jiawei, H.; Kamber, M.: Data Mining: Concepts and Techniques. Elsevier (2006). 5.  Marbán, O.; Mariscal, G.; Segovia, J.: A Data Mining & Knowledge DiscoveryProcess Model. Ponce, J.; Karahoca, A.: En Data Mining and Knowledge Discovery in Real Life Applications, I-Tech Education and Publishing, pp. 1-17 (2009). 6.  Torgo, L.: Data Mining with R: Learning with case studies. CRC Press Taylor &Francis Group (2011). 7.  Chapman, P.; Clinton, J.; Kerber, R.; Khabaza, T.; Reinartz, T.; Thomas, C.; Wirth, R.: CRISP-DM 1.0 Step-by-step data mining guide. CRISP-DM Consortium, 8.  ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/User Manual/ CRISP-DM.pdf (2000). Accedido el 17 de Noviembre de 2013.
  • 19. Datos  de  contacto   " GRACIAS POR SU ATENCIÓN" " " Rafael Reséndiz Ramírez" Instituto de Ingeniería" Universidad Autónoma de Baja California" " Calle de la Norma s/n y Blvd Benito Juárez, " Col. Insurgentes Este. C.P. 21280" Mexicali, Baja California, México" " rafael.resendiz@uabc.edu.mx" rafael.resendiz@educacionbc.edu.mx " rafaresend@gmail.com