Caracterización geográfica de la población de la Ciudad de México

CARACTERIZACIÓN GEOGRÁFICA DE LA POBLACIÓN DECARACTERIZACIÓN GEOGRÁFICA DE LA POBLACIÓN DE
LA CIUDAD DE MÉXICOLA CIUDAD DE MÉXICO
Jacobo Gerardo González LeónJacobo Gerardo González León
https://sg.com.mx/dataday
#DataDayMx 1

"Mexico physical and human geography". DIVA-GIS. AutoCAD
3D
Área de oportunidad: caracterización de la relación entre la población y su
entorno geográﬁco, con base en el análisis de datos.
IntroducciónIntroducción
2

¿Cómo explorar el contexto social, económico y demográﬁco desde un enfoque
cientíﬁco e interdisciplinario con técnicas de aprendizaje automatizado?
"Zona oriente, con mayor presencia de captores".
El Universal. 06/02/2017
Planteamiento del problemaPlanteamiento del problema
Estrategia IA-MX 2018
3

Conjunto de datos conocido X
Función desconocida enf X
Aproximación def^ f
Esto es el aprendizaje f^
Objetivo: encontrar la función que generalice o describa af^ X
Knox S.: Machine Learning: a Concise Introduction. Wiley, 2018.
Aprendizaje AutomatizadoAprendizaje Automatizado
Neuralnet simple function approximation
4 . 1

Machine Learning Tutorial, http://www.machinelearningtutorial.net, último acceso 11/10/2018
Aprendizaje AutomatizadoAprendizaje Automatizado
4 . 2

Problema del aprendizajeProblema del aprendizaje
Abu-Mostafa Y., Magdon-Ismail M., Lin H.: Learning From Data. AMLBook, 2012.
Conﬁguración básica del problema del aprendizaje
4 . 3

DataData
Par dominio-rango (X, f(X)) Dominio (X)
Aprendizaje Supervizado Aprendizaje No Supervizado
(x , y ) … (x , y ) ∈1 1 n n X × f(X)
Encontrar una función
que generalice (X) f^
(x ) … (x ) ∈1 n X
Encontrar una función
que describa (X) f^
4 . 4

Aprendizaje Supervisado
Regresión Clasiﬁcación
Agrupamiento
Aprendizaje
No Supervisado
4 . 5

ObjetivoObjetivo
Diseñar una metodología para el análisis de la percepción social y su
entorno, a partir del procesamiento de datos obtenido desde fuentes
estructuradas y no estructuradas, usando técnicas de Machine Learning
5

EnfoqueEnfoque
Formalizar el proceso de Ciencia de Datos para conjuntos de datos
mixtos
Análisis de la percepción social y su entorno con técnicas de
aprendizaje automatizado no supervisado
Predicción de fenómenos humanos, con técnicas de aprendizaje
automatizado supervsiado, a partir de su caracterización
6

MetodologíaMetodología
7 . 1

MetodologíaMetodología
7 . 2

Lugar Caract.
Demográﬁca
Caract.
Económica    ...
Probabilidad
Casa de Seguridad

Municipio 1 6 5    ... 0.73
Municipio 2 4 2    ... 0.05
Caract.
Demográﬁca
Caract.
Económica
Caract.
...
7 . 3

CaracterizaciónCaracterización
8

PreprocesamientoPreprocesamiento
9 . 1

CargaCarga
(254928 observaciones, 200 variables)
9 . 2

CargaCarga
9 . 3

LimpiezaLimpieza
9 . 4

LimpiezaLimpieza
9 . 5

LimpiezaLimpieza
9 . 6

ImputeImpute
Regression para numéricos Random Forest para categóricos
Stekhoven D., Bühlmann P.: MissForest—non-parametric missing value imputation for mixed-type data, Bioinformatics, 28(1), 112–118 (2012) 9 . 7

TransformarTransformar
Patki N..: The Synthetic Data Vault: Generative Modeling for Relational Databases, MIT (2016)
El método que convierte variables categóricos a numéricos
9 . 8

AgruparAgrupar
9 . 9

Tendencia delTendencia del clusteringclustering
Estadística deEstadística de HopkinsHopkins
Banerjee A., Dave R.: Validating clusters using the Hopkins statistic. 2004 IEEE International Conference on Fuzzy Systems, vol.1, pp. 149-153. Budapest,
Hungary (2004)
H =
x + y
i=1
∑
n
i
i=1
∑
n
i
y
i=1
∑
n
i
Objetivo: cálcular la probabilidad de que dichos datos procedan de una
distribución uniforme
x :i dist(p , p ) i j
y :i dist(q , q ) i j
10 . 1

Estadística deEstadística de HopkinsHopkins
Hipótesis 1 no es uniformemente distribuido {0 < H < 0.5} : D
H=0.167
Hipótesis 2 es uniformemente distribuido {0.5 ≤ H ≤ 1} : D
10 . 2

VATVAT: visual assessment of cluster tendency: visual assessment of cluster tendency
Bezdek J., Hathaway R.: VAT: a tool for visual assessment of (cluster) tendency. Proceedings of the 2002 International Joint Conference on Neural Networks, vol.3, vol.3, pp.
2225-2230. HI, USA, (2002)
Rojo: alta similaridad dist(x , y ) ≈i j 0
Azul: baja similaridad dist(x , y ) ≈i j 1
10 . 3

Medidas internas delMedidas internas del ClusteringClustering
Desgraupes B.: Clustering Indices. University Paris Ouest. Lab Modal’ X, (2017)
Index = cohesi noˊ
separaci noˊ
Método para determinar la mejor partición
11 . 1

Medidas internas delMedidas internas del ClusteringClustering
Índice Calinski-Harabasz: la razón entre la dispersión interior de los clusters y la
dispersión entre los clusters.
Índice Dunn: la razón entre la distancia más pequeña entre las observaciones de
diferentes clusters y la distancia inter-cluster más grande
11 . 2

ÍndiceÍndice DunnDunn
D = =dmax
dmin
D
1≤i≤j≤n
max k
d
k=k/ ′
min kk′
: la mayor distancia dentro del cluster d max
: distancia mínima entre puntos de diferentes clusters d min
: diámetro del cluster D k
: cluster a k
: cluster b k ′
11 . 3

D = WGSS/(N−k)
BGSS/(k−1)
: la dispersión entre clusters BGSS
: número de clusters k
: número de observaciones N
: la dispersión dentro de los clusters WGSS
ÍndiceÍndice Calinsky-HarabaszCalinsky-Harabasz
11 . 4

Algoritmos deAlgoritmos de ClusteringClustering
Partición: k-meansPartición: k-means
Hartigan J., Wong M.: Algorithm AS 136: A K-means clustering algorithm. Applied Statistics, 28(0), 100-108 (1979)
Índice Dunn
12 . 1

Partición: k-meansPartición: k-means
12 . 2

Densidad: DBSCANDensidad: DBSCAN
(Density-based spatial clustering of applications with noise)
Algorithm of DBSCAN
Kassambara A.: Practical Guide to Cluster Analysis in R. Unsupervised Machine Learning. STHDA (2017) 12 . 3

Índice Dunn
12 . 4

12 . 5

Jerarquicos:AGNES & DIANAJerarquicos:AGNES & DIANA
Kassambara A.: Practical Guide to Cluster Analysis in R. Unsupervised Machine Learning. STHDA (2017)
Hierarchical algorithms
12 . 6

Jerárquicos: DIANAJerárquicos: DIANA
12 . 7

Jerárquicos: DIANAJerárquicos: DIANA
12 . 8

Jerárquicos: AGNESJerárquicos: AGNES
12 . 9

Jerárquicos: AGNESJerárquicos: AGNES
12 . 10

Validación delValidación del ClusteringClustering
Índice Calinski-HarabaszÍndice Calinski-Harabasz
13

Catálogo Único de Claves de Áreas Geoestadísticas Estatales, Municipales y Localidades. http://www.inegi.org.mx/ último acceso 11/10/18
DiscusiónDiscusión
Datos Localidades Municipios
Catálogo de
Localidades
Nacional
304,221 2,463
ENH 5,640 1,422
15 . 1

Catálogo Único de Claves de Áreas Geoestadísticas Estatales, Municipales y Localidades. http://www.inegi.org.mx/ último acceso 11/10/18
DiscusiónDiscusión
15 . 2

ConclusionesConclusiones
Se generó una metodología para data sets mixtos basada en el estado
del arte del aprendizaje automatizado
Se están creando data sets con la caracterización de diversos aspectos
sociales, a partir del análisis con técnicas de clustering
Se están creando mapas con esta caracterización
15 . 3

FeedbackFeedback
@jacoboggleon
¡Gracias por su atención!¡Gracias por su atención!
16

Caracterización geográfica de la población de la Ciudad de México

Recomendados

Recomendados

Más contenido relacionado

Similar a Caracterización geográfica de la población de la Ciudad de México

Similar a Caracterización geográfica de la población de la Ciudad de México (20)

Más de Software Guru

Más de Software Guru (20)

Último

Último (20)

Caracterización geográfica de la población de la Ciudad de México