Universidad Torcuato Di Tella 2002 Análisis de Datos
Análisis Discriminante <ul><li>Muchos problemas en marketing implican la investigación de diferencias entre grupos. </li><...
Análisis Discriminante <ul><ul><li>Representantes de venta buenos, mediocres y malos. </li></ul></ul><ul><ul><li>Grandes c...
Análisis Discriminante <ul><li>Un problema con esta metodología es que no toma en cuenta la relación que existe entre las ...
Análisis Discriminante <ul><li>Necesitamos un mecanismo que nos permita considerar a las variables en forma simultánea. </...
Análisis Discriminante <ul><li>El Análisis Discriminante es el método por el cual se determina la combinación lineal. </li...
Análisis Discriminante <ul><li>La separación de estos dos conjuntos de valores se establece en función de: </li></ul><ul><...
Análisis Discriminante <ul><li>El método de Fisher se basa en la maximización de la distancia promedio entre los dos grupo...
Análisis Discriminante <ul><li>El análisis discriminante toma la información de todas las variables (las Xs) y las reduce ...
Análisis Discriminante <ul><li>Ejemplo: Considere los siguientes grupos de consumidores. El grupo 1 (G1) realiza sus compr...
Análisis Discriminante
Análisis Discriminante <ul><li>Maximizando la función discriminante de Fisher tenemos los coeficientes   1 = 0.098 y   2...
Análisis por Factores <ul><li>El propósito fundamental del análisis por factores es describir las relaciones subyacentes e...
Análisis por Factores <ul><li>El modelo de factores es motivado por el siguiente argumento: Supongamos que las variables p...
Análisis por Factores <ul><li>Supongamos que observamos  p  variables agrupadas en el vector  </li></ul><ul><li>con media ...
<ul><li>En particular, </li></ul><ul><li>ó, en notación matricial: </li></ul>Análisis por Factores
Análisis por Factores <ul><li>El coeficiente  se denomina carga de la variable  i  sobre el factor  j . Por lo tanto, la m...
<ul><li>Supuestos: </li></ul>Análisis por Factores
Análisis por Factores <ul><li>Además: </li></ul><ul><li>Ya que F y    son independientes. </li></ul>
Análisis por Factores <ul><li>Estructura de Covarianzas del Modelo </li></ul>
Análisis por Factores <ul><li>La porción de varianza de la variable  i  explicada por los  m  factores comunes se denomina...
Análisis por Factores <ul><li>Solución del Modelo por Componentes Principales (CP): </li></ul><ul><ul><li>La solución del ...
Análisis por Factores <ul><li>Sea  m  <  p  el número de factores comunes. Entonces, la matriz de cargas factoriales estim...
Análisis por Factores <ul><li>y las comunalidades se estiman como: </li></ul>
Análisis por Factores <ul><li>Cualquier transformación ortogonal de la matriz de cargas de factores tiene la capacidad de ...
Análisis por Factores <ul><li>Si  es la matriz (p×m) de cargas estimada, entonces, </li></ul><ul><li>es una matriz (p×m) d...
Análisis por Factores <ul><li>Por lo tanto, la matriz de varianzas específicas y las comunalidades permanecen inalteradas....
Análisis por Factores Factor 1 Factor 2 x .5 .4 x .36 .6 Nuevo Factor 1 Nuevo Factor 2 .6 .2 .76 .6
Análisis por Factores: Ejemplo <ul><li>En un estudio de preferencias, a una muestra aleatoria de consumidores se le pidió ...
Análisis por Factores: Ejemplo 0.94 0.84 0.99 0.98 0.97
Análisis por Factores: Ejemplo
Análisis por Factores: Ejemplo <ul><li>Note que la última matriz reproduce con bastante aproximación la matriz de correlac...
Análisis por Factores: Comentarios Generales <ul><li>Las cargas de los factores son las correlaciones entre las variables ...
Análisis por Factores: Comentarios Generales <ul><li>El promedio de las cargas al cuadrado de un factor muestra el procent...
Análisis por Factores: Comentarios Generales <ul><li>Las cargas en las filas de una matriz de factores pueden elevarse al ...
Análisis por Factores: Métodos Alternativos de Solución <ul><li>1. Análisis por Factores Principales </li></ul><ul><li>El ...
Análisis por Factores: Métodos Alternativos de Solución <ul><li>El procedimiento es el siguiente. Se estiman las comunalid...
Análisis por Factores: Métodos Alternativos de Solución <ul><li>Una vez que tenemos la matriz de factores, calculamos las ...
Análisis por Factores: Métodos Alternativos de Solución <ul><li>Este ciclo se repite hasta que los valores de h 2  no difi...
Análisis por Factores: Métodos Alternativos de Solución <ul><li>2. Análisis por Factores de Residuos Mínimos </li></ul><ul...
Análisis por Factores: Métodos Alternativos de Solución <ul><li>En el método de los residuos mínimos, los factores se extr...
Análisis de Conglomerados (Cluster Analysis) <ul><li>El análisis de conglomerados es una técnica estadística para agrupar ...
Análisis de Conglomerados (Cluster Analysis) <ul><li>En marketing esta técnica es de particular interés porque muchas vece...
Análisis de Conglomerados (Cluster Analysis) <ul><li>La segmentación puede basarse en muchas características: socioeconómi...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Formulación del problema:  Si  n  es el número de observaciones en la...
Análisis de Conglomerados (Cluster Analysis) <ul><li>A partir de la representación de los  n  puntos en el espacio, tenien...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Ejemplo: supongamos que una agencia de venta de autos quiere promocio...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Por lo tanto, cada cliente puede ser considerado como un punto en un ...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Antes de poder agrupar a los clientes en conglomerados, debemos defin...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Es decir, esta distancia será positiva cuando las dos observaciones (...
Análisis de Conglomerados (Cluster Analysis) <ul><li>En nuestro ejemplo, consideremos los individuos  k  y  j . Cada una d...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Como puede observarse, el número de variables implicadas en el cálcul...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Por lo tanto si, por ejemplo, tres variables contienen la misma infor...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Una forma de hacer esto es simplemente calcular la matriz de correlac...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Supongamos que en nuestro ejemplo los tres conjuntos de variables no ...
Análisis de Conglomerados (Cluster Analysis) <ul><li>La distancia euclídea entre dos personas considerando únicamente la i...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Observe que esta medida tiene el inconveniente de que su valor depend...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Para solucionar este inconveniente, lo que hacemos en la práctica es ...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Estas nuevas variables tendrán media cero y varianza igual a uno. En ...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Existen varios métodos para la formación de los conglomerados, a cont...
Análisis de Conglomerados (Cluster Analysis) <ul><li>El procedimiento del método de las K-medias es: </li></ul><ul><ul><li...
Análisis de Conglomerados (Cluster Analysis) <ul><li>En la práctica, lo que se hace es representar gráficamente las observ...
Análisis de Conglomerados (Cluster Analysis) <ul><li>El segundo paso consiste en determinar los centros de estos K conglom...
Análisis de Conglomerados (Cluster Analysis) <ul><li>En nuestro caso, la solución inicial corresponde a los valores  de la...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Teniendo en cuenta que los valores de las tres variables están estand...
Análisis de Conglomerados (Cluster Analysis) <ul><li>A partir de esta solución inicial, se procede con las iteraciones ind...
Análisis de Conglomerados (Cluster Analysis) <ul><li>En función de la mínima distancia obtenida, las observaciones se agru...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Agrupadas las observaciones en conglomerados, el paso siguiente consi...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Calculados los centros de los conglomerados, el siguiente paso es agr...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Este proceso se repite tantas veces como sea necesario hasta que ning...
Análisis de Conglomerados (Cluster Analysis) <ul><li>El Método Jerárquico de Promedio entre Grupos </li></ul><ul><li>En lo...
Análisis de Conglomerados (Cluster Analysis) <ul><li>Al final del proceso todos los individuos deberían estar agrupados en...
Análisis de Conglomerados (Cluster Analysis) <ul><li>La ventaja de este método radica en que el proceso de formación de co...
Upcoming SlideShare
Loading in …5
×

Social Science From Mexico Unam 126

835 views

Published on

Published in: Education, Business, Travel
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
835
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
31
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Social Science From Mexico Unam 126

  1. 1. Universidad Torcuato Di Tella 2002 Análisis de Datos
  2. 2. Análisis Discriminante <ul><li>Muchos problemas en marketing implican la investigación de diferencias entre grupos. </li></ul><ul><li>Pueden compararse dos o más grupos y el problema principal es determinar si ellos difieren, y en el caso de que difirieran entender la naturaleza de esa diferencia. </li></ul><ul><li>Ejemplos en los que estamos interesados en comprender las diferencias entre grupos son: </li></ul><ul><ul><li>Clientes leales a una marca y no-leales </li></ul></ul>
  3. 3. Análisis Discriminante <ul><ul><li>Representantes de venta buenos, mediocres y malos. </li></ul></ul><ul><ul><li>Grandes consumidores y pequeños consumidores de un producto. </li></ul></ul><ul><ul><li>Consumidores que asisten a diferentes puntos de venta (shoppings, negocios barriales, outlets etc.) </li></ul></ul><ul><li>Una alternativa es comparar estos grupos utilizando sus características socio-económicas. </li></ul><ul><li>Por ejemplo calculando los promedios de ingreso, edad, nivel educativo etc. y determinar que grupo tiene los mayores valores por ejemplo. </li></ul>
  4. 4. Análisis Discriminante <ul><li>Un problema con esta metodología es que no toma en cuenta la relación que existe entre las variables. Por ejemplo, si los grupos muestran diferencias en ingreso promedio es muy probable que también muestren diferencias en los niveles educativos ya que existe una correlación positiva entre ingresos y educación. </li></ul><ul><li>Si utilizamos ingreso y educación para segmentar el mercado de consumidores estamos interesados en el efecto total de estas variables combinadas. Además de estar interesados en cual de las variables es más importante o tiene mayor impacto. </li></ul>
  5. 5. Análisis Discriminante <ul><li>Necesitamos un mecanismo que nos permita considerar a las variables en forma simultánea. </li></ul><ul><li>Una alternativa consiste en construir una combinación lineal de las variables (una suma ponderada) de forma tal que esta combinación discrimine de la mejor manera a los grupos. </li></ul><ul><li>Podemos luego comparar como difieren los grupos con respecto a esta combinación lineal y también observar los pesos relativos de cada variable para determinar su importancia relativa. </li></ul>
  6. 6. Análisis Discriminante <ul><li>El Análisis Discriminante es el método por el cual se determina la combinación lineal. </li></ul><ul><li>Función Discriminante de Fisher: Dos Grupos . </li></ul><ul><ul><li>Supongamos que tenemos información para dos grupos de consumidores de k variables X 1 , X 2 , …, X k y queremos investigar las diferencias entre los individuos de los dos grupos. </li></ul></ul><ul><ul><li>Tenemos n 1 consumidores en el primer grupo y n 2 en el segundo grupo tal que: </li></ul></ul>
  7. 7. Análisis Discriminante <ul><li>La separación de estos dos conjuntos de valores se establece en función de: </li></ul><ul><li>Donde: </li></ul>
  8. 8. Análisis Discriminante <ul><li>El método de Fisher se basa en la maximización de la distancia promedio entre los dos grupos en términos del desvío estándar. </li></ul>x 2 x 1 y x x x x x x x o o o o o o o o o o o o y 1 x x x x x x x y 2 ½(y 1 +y 2 ) Clasificar en 1 Clasificar en 2
  9. 9. Análisis Discriminante <ul><li>El análisis discriminante toma la información de todas las variables (las Xs) y las reduce a una nueva variable (y) mediante una combinación lineal. </li></ul><ul><li>Esta nueva variable se construye de forma tal que su distribución provee la mayor separación posible entre los dos grupos en términos de sus promedios. </li></ul><ul><li>Los coeficientes discriminantes (los  s) representan la contribución relativa de cada variable a la separación. </li></ul>
  10. 10. Análisis Discriminante <ul><li>Ejemplo: Considere los siguientes grupos de consumidores. El grupo 1 (G1) realiza sus compras en shoopings y el grupo 2 (G2) en outlets. Queremos establecer las diferencias de comportamiento entre estos dos grupos en base al ingreso y al número de compras que realizan en el año para poder decidir si un consumidor con un ingreso de 60,000 y que realiza 25 compras por año puede clasificarse en alguno de los grupos. </li></ul><ul><li>La siguiente tabla muestra los datos para estas variables: </li></ul>
  11. 11. Análisis Discriminante
  12. 12. Análisis Discriminante <ul><li>Maximizando la función discriminante de Fisher tenemos los coeficientes  1 = 0.098 y  2 =0.768 </li></ul><ul><li>Además </li></ul><ul><li>Como 25.08 > 21.27 Entonces el nuevo consumidor puede clasificarse como proveniente del G1 </li></ul>
  13. 13. Análisis por Factores <ul><li>El propósito fundamental del análisis por factores es describir las relaciones subyacentes entre las muchas variables de una investigación en términos de unas pocas variables no observadas que se denominan factores . </li></ul><ul><li>Las relaciones entre las variables se describen a través de la estructura de covarianzas (correlaciones) de las mismas. </li></ul>
  14. 14. Análisis por Factores <ul><li>El modelo de factores es motivado por el siguiente argumento: Supongamos que las variables pueden ser agrupadas por sus correlaciones. Esto es, supongamos que todas las variables agrupadas dentro de un grupo particular están altamente correlacionadas entre ellas pero tienen muy poca correlación con las variables de grupos diferentes. </li></ul><ul><li>Entonces, es posible que cada grupo de variables represente un solo “factor” responsable de las correlaciones observadas. </li></ul>
  15. 15. Análisis por Factores <ul><li>Supongamos que observamos p variables agrupadas en el vector </li></ul><ul><li>con media  y matriz de varianzas y covarianzas  . </li></ul><ul><li>El modelo de factores postula que X se relaciona en forma lineal con unas pocas variables no observables F 1 , F 2 , …, F m , llamadas factores comunes, y p fuentes adicionales de variación  1 ,  2 , …,  p denominadas factores específicos . </li></ul>
  16. 16. <ul><li>En particular, </li></ul><ul><li>ó, en notación matricial: </li></ul>Análisis por Factores
  17. 17. Análisis por Factores <ul><li>El coeficiente se denomina carga de la variable i sobre el factor j . Por lo tanto, la matriz L es la matriz de las cargas factoriales. </li></ul><ul><li>Note que el factor específico  i esta asociado solamente con la variable X i . </li></ul><ul><li>Los p desvíos X 1 -  1 , X 2 -  2 ,…, X p -  p estan expresados en términos de p+m variables aleatorias no observables: F 1 , F 2 ,…, F m ,  1 ,  2 ,…,  p . </li></ul>
  18. 18. <ul><li>Supuestos: </li></ul>Análisis por Factores
  19. 19. Análisis por Factores <ul><li>Además: </li></ul><ul><li>Ya que F y  son independientes. </li></ul>
  20. 20. Análisis por Factores <ul><li>Estructura de Covarianzas del Modelo </li></ul>
  21. 21. Análisis por Factores <ul><li>La porción de varianza de la variable i explicada por los m factores comunes se denomina la comunalidad de i . </li></ul><ul><li>La porción de la varianza de la variable i explicada por el factor específico se denomina varianza específica. </li></ul>
  22. 22. Análisis por Factores <ul><li>Solución del Modelo por Componentes Principales (CP): </li></ul><ul><ul><li>La solución del método de CP se puede obtener de la especificación de la matriz de varianzas y covarianzas muestrales S en función de sus autovalores y autovectores </li></ul></ul>
  23. 23. Análisis por Factores <ul><li>Sea m < p el número de factores comunes. Entonces, la matriz de cargas factoriales estimada </li></ul><ul><li>esta dada por </li></ul><ul><li>Las varianzas específicas estimadas vienen dadas por los elementos de la diagonal principal de la matriz </li></ul>
  24. 24. Análisis por Factores <ul><li>y las comunalidades se estiman como: </li></ul>
  25. 25. Análisis por Factores <ul><li>Cualquier transformación ortogonal de la matriz de cargas de factores tiene la capacidad de reproducir la matriz de varianzas y covarianzas de las variables del estudio. </li></ul><ul><li>La transformación ortogonal se denomina “rotación factorial” y se la utiliza para poder interpretar los factores obtenidos. </li></ul><ul><li>La rotación factorial es necesaria debido a que el método de resolución del modelo siempre da un primer factor con cargas altas en todas las variables y los siguientes factores bipolares. </li></ul>
  26. 26. Análisis por Factores <ul><li>Si es la matriz (p×m) de cargas estimada, entonces, </li></ul><ul><li>es una matriz (p×m) de cargas factoriales rotadas. </li></ul><ul><li>Note que la matriz de varianzas y covarianzas permanece sin cambios. </li></ul>
  27. 27. Análisis por Factores <ul><li>Por lo tanto, la matriz de varianzas específicas y las comunalidades permanecen inalteradas. </li></ul><ul><li>Existen diversos métodos que permiten rotar los factores. Para utilizarlos uno debe decidir de alguna forma cuantos factores va a rotar. </li></ul><ul><li>El método más comun de rotación es una rotación hacia lo que se denomina una “estructura simple”. </li></ul><ul><li>Una estructura simple se caracteriza por que cada variable solo tiene una carga alta en un factor determinado y en el resto cargas bajas. </li></ul>
  28. 28. Análisis por Factores Factor 1 Factor 2 x .5 .4 x .36 .6 Nuevo Factor 1 Nuevo Factor 2 .6 .2 .76 .6
  29. 29. Análisis por Factores: Ejemplo <ul><li>En un estudio de preferencias, a una muestra aleatoria de consumidores se le pidió que evaluara varios atributos de un nuevo vino tinto en una escala de 1 a 7. Los resultados fueron tabulados y se construyó la siguiente matriz de correlaciones: </li></ul>.96 .85 .79
  30. 30. Análisis por Factores: Ejemplo 0.94 0.84 0.99 0.98 0.97
  31. 31. Análisis por Factores: Ejemplo
  32. 32. Análisis por Factores: Ejemplo <ul><li>Note que la última matriz reproduce con bastante aproximación la matriz de correlaciones originales. </li></ul><ul><li>Utilizando el método de los componentes principales los factores obtenidos fueron: F1 = [.56, .78, .65, .94, .80]; F2 = [.82, -.53, .75, -.10, -.54]. Verifique los valores obtenidos en el ejercicio con los factores rotados. </li></ul>
  33. 33. Análisis por Factores: Comentarios Generales <ul><li>Las cargas de los factores son las correlaciones entre las variables y el factor. </li></ul><ul><li>Los cuadrados de las cargas de los factores para cada variable indican el porcentaje de la varianza explicada por el factor. (70.6% en el caso de la variable Aroma del ejemplo anterior) </li></ul>
  34. 34. Análisis por Factores: Comentarios Generales <ul><li>El promedio de las cargas al cuadrado de un factor muestra el procentaje de la varianza, en la matriz de correlación, explicada por ese factor. En nuestro ejemplo, el primer componente principal explica 2.85/5 = 0.57, 57% de la varianza. </li></ul><ul><li>La suma de los promedios de las cargas al cuadrado sobre todos los factores es la proporción de la varianza, en la matriz, explicada por esos factores. En nuestro ejemplo los dos componentes principales explican el 57% + 36% = 93% de la varianza. </li></ul>
  35. 35. Análisis por Factores: Comentarios Generales <ul><li>Las cargas en las filas de una matriz de factores pueden elevarse al cuadrado y sumarse. La suma de los cuadrados de las cargas en cada fila indica la proporción de la varianza de cada variable que es explicada por los factores. En nuestro caso si tomamos por ejemplo la variable Aroma, tenemos que la suma de las cargas al cuadrado de los factores explica el 89% de la varianza de la variable. </li></ul>
  36. 36. Análisis por Factores: Métodos Alternativos de Solución <ul><li>1. Análisis por Factores Principales </li></ul><ul><li>El análisis por factores principales es idéntico al de los componentes principales excepto que en lugar de poner un valor unitario en la diagonal principal de la matriz de correlaciones se estiman valores para las comunalidades de cada variable. </li></ul>
  37. 37. Análisis por Factores: Métodos Alternativos de Solución <ul><li>El procedimiento es el siguiente. Se estiman las comunalidades, por ejemplo utilizando una regresión múltiple con cada una de las variables de la matriz como variables dependientes y el resto como independientes y se toma el R 2 de cada regresión como la comunalidad correspondiente a la variable que actúa como variable dependiente. Es decir que en lugar de poner el valor unitario en la diagonal de la matriz de correlación se pone este R 2 . Luego se aplica el método de componentes principales. </li></ul>
  38. 38. Análisis por Factores: Métodos Alternativos de Solución <ul><li>Una vez que tenemos la matriz de factores, calculamos las comunalidades para cada variable y las comparamos con las comunalidades con las que empezamos. A menos que las diferencias sean pequeñas, lo que hacemos es poner estas nuevas comunalidades en la diagonal principal de la matriz de correlaciones y volvemos a aplicar el método de los componentes principales y a extraer el mismo número de componentes que antes. </li></ul>
  39. 39. Análisis por Factores: Métodos Alternativos de Solución <ul><li>Este ciclo se repite hasta que los valores de h 2 no difieran en dos iteraciones sucesivas. Las cargas de los factores de la última iteración son las cargas finales. </li></ul>
  40. 40. Análisis por Factores: Métodos Alternativos de Solución <ul><li>2. Análisis por Factores de Residuos Mínimos </li></ul><ul><li>En el análisis por factores de residuos mínimos no se hace uso de los elementos de la diagonal principal de la matriz de correlaciones. En el método de los componentes principales, cada factor se extraía de tal forma que explicara tanta varianza como pudiera. </li></ul>
  41. 41. Análisis por Factores: Métodos Alternativos de Solución <ul><li>En el método de los residuos mínimos, los factores se extraen de forma de minimizar la suma de los residuos al cuadrado de los elementos fuera de la diagonal principal después de que los factores se extrajeron. </li></ul><ul><li>El algoritmo utilizado para extraer los factores de esta manera es muy similar al de los componentes principales pero no hace uso de los elementos de la diagonal de la matriz. </li></ul>
  42. 42. Análisis de Conglomerados (Cluster Analysis) <ul><li>El análisis de conglomerados es una técnica estadística para agrupar a los elementos de la muestra en grupos, denominados conglomerados, de forma tal que, respecto a la distribución de los valores de las variables, por un lado, cada conglomerado sea lo más homogéneo posible y, por otro, los conglomerados sean muy distintos entre sí. </li></ul>
  43. 43. Análisis de Conglomerados (Cluster Analysis) <ul><li>En marketing esta técnica es de particular interés porque muchas veces las firmas necesitan clasificar consumidores de forma tal de poder segmentar su mercado en grupos de consumidores que sean lo más homogeneos posibles (es decir que se comporten de forma similar). </li></ul><ul><li>Esta segmentación luego sirve para que las empresas testeen nuevos productos, precios, campañas de promoción etc. </li></ul>
  44. 44. Análisis de Conglomerados (Cluster Analysis) <ul><li>La segmentación puede basarse en muchas características: socioeconómicas, comportamiento del comprador, psicológicas, etc. </li></ul><ul><li>En general, la segmentación se basa en un gran número de variables lo que representa un problema para quién realiza la clasificación. </li></ul><ul><li>El análisis de conglomerados ofrece una forma posible de clasificación. Este análisis trata específicamente de como asignar objetos a grupos tales que dentro de los grupos exista mucha similaridad y entre grupos mucha diferencia. </li></ul>
  45. 45. Análisis de Conglomerados (Cluster Analysis) <ul><li>Formulación del problema: Si n es el número de observaciones en la muestra y p es el número de variables observadas, la tabla de datos que contiene las n × p observaciones tendrá n filas y p columnas. </li></ul><ul><li>Cada fila se considera como como un punto en el espacio de p dimensiones. Las coordenadas de cada punto se obtienen a partir de los valores de las p variables de la observación correspondiente. </li></ul>
  46. 46. Análisis de Conglomerados (Cluster Analysis) <ul><li>A partir de la representación de los n puntos en el espacio, teniendo en cuenta la distancia entre ellos, se tratará de agruparlos en conglomerados de forma tal que, por un lado, las distancias dentro de un mismo conglomerado sean pequeñas y, por el otro, las distancias entre conglomerados sean grandes. </li></ul>
  47. 47. Análisis de Conglomerados (Cluster Analysis) <ul><li>Ejemplo: supongamos que una agencia de venta de autos quiere promocionar la venta de un nuevo automovil deportivo. El problema que enfrenta es seleccionar clientes potenciales similares. Para ello recurre a sus archivos donde encuentra información acerca de 14 clientes anteriores sobre los cuales tiene la siguiente información: Ingreso annual (Y), edad (E), número de hijos (H). </li></ul><ul><li>Además tiene información acerca de la importancia de los siguiente atributos de un automovil: velocidad (V), seguridad (S), espacio (P), diseño del auto (D). </li></ul>
  48. 48. Análisis de Conglomerados (Cluster Analysis) <ul><li>Por lo tanto, cada cliente puede ser considerado como un punto en un espacio de p=7 dimensiones (una dimensión por cada variable). </li></ul><ul><li>A partir de la representación de los n=14 puntos, se trata de, teniendo en cuenta la distancia entre ellos, agruparlos en conglomerados de tal forma que, respecto del resultado de las variables, las personas pertenecientes a un mismo conglomerado sean semejantes entre sí y diferentes de las que pertenecen a otros conglomerados. </li></ul>
  49. 49. Análisis de Conglomerados (Cluster Analysis) <ul><li>Antes de poder agrupar a los clientes en conglomerados, debemos definir que es lo que se entiende por distancia entre los mismos. </li></ul><ul><li>Existen diferentes medidas de distancia entre observaciones, pero la más común es la distancia euclídea . </li></ul><ul><li>La distancia euclídea entre dos observaciones se define como la raíz cuadrada de la suma de los p cuadrados de las diferencias entre los valores observados de las p variables para las dos observaciones correspondientes. </li></ul>
  50. 50. Análisis de Conglomerados (Cluster Analysis) <ul><li>Es decir, esta distancia será positiva cuando las dos observaciones (en nuestro caso clientes) difieran en al menos un valor de los resultados de las variables y será cero cuando los dos individuos presenten los mismos resultados en las p=7 variables. </li></ul>
  51. 51. Análisis de Conglomerados (Cluster Analysis) <ul><li>En nuestro ejemplo, consideremos los individuos k y j . Cada una de estas personas está representada por un punto de siete dimensiones de la forma: </li></ul><ul><li>k = {Y k , E k , H k , V k , S k , P k , D k } </li></ul><ul><li>j = {Y j , E j , H j , V j , S j , P j , D j } </li></ul><ul><li>La distancia euclídea entre ellos se define como: </li></ul><ul><li>d(k,j) = {( Y k - Y j ) 2 + … + (D k - D j ) 2 } 1/2 </li></ul>
  52. 52. Análisis de Conglomerados (Cluster Analysis) <ul><li>Como puede observarse, el número de variables implicadas en el cálculo de la distancia puede ser grande. Si algunas de estas variables brindan información similar, estarán relacionadas de alguna manera, esto es, estarán correlacionadas. </li></ul><ul><li>Al calcular la distancia entre dos personas, la componente debida a una variable tendrá la misma ponderación que cada una de las restantes variables. </li></ul>
  53. 53. Análisis de Conglomerados (Cluster Analysis) <ul><li>Por lo tanto si, por ejemplo, tres variables contienen la misma información, dicha información tendrá una ponderación tres veces mayor al de otra variable que no tenga la misma información y, en consecuencia, en el proceso de formación de los grupos, la primera información será más determinante que la segunda. </li></ul><ul><li>Para evitar este tipo de situaciones, lo que se hace es reducir el conjunto original de variables a un subconjunto de variables que no esten correlacionadas entre sí. </li></ul>
  54. 54. Análisis de Conglomerados (Cluster Analysis) <ul><li>Una forma de hacer esto es simplemente calcular la matriz de correlaciones entre las 7 variables originales y agrupar las variables de acuerdo a esa matriz. </li></ul><ul><li>Otra forma de hacer esto es partiendo de la teoría. Si la teoría me dice que dos variables me dan la misma información entonces pertenecen al mismo grupo. </li></ul>
  55. 55. Análisis de Conglomerados (Cluster Analysis) <ul><li>Supongamos que en nuestro ejemplo los tres conjuntos de variables no correlacionadas entre sí son: </li></ul><ul><li>{S, P, H}, {Y, E} y {V, D} </li></ul><ul><li>De estos tres grupos, el subconjunto de variables elegidas es: S, Y y V. </li></ul>
  56. 56. Análisis de Conglomerados (Cluster Analysis) <ul><li>La distancia euclídea entre dos personas considerando únicamente la información del subconjunto de variables es: </li></ul><ul><li>d(k,j) = {(S k - S j ) 2 + (Y k - Y j ) 2 + </li></ul><ul><ul><ul><li>+ (V k - V j ) 2 } 1/2 </li></ul></ul></ul>
  57. 57. Análisis de Conglomerados (Cluster Analysis) <ul><li>Observe que esta medida tiene el inconveniente de que su valor depende de las unidades de medida de las variables. </li></ul><ul><li>Si esto ocurre el problema que se presenta es que si, por ejemplo, dos personas tienen iguales medidas en dos de las variables y difieren en una unidad en la tercera, si las variables no están medidas en las mismas unidades esa diferencia de una unidad puede ser una cantidad muy grande o muy pequeña. </li></ul>
  58. 58. Análisis de Conglomerados (Cluster Analysis) <ul><li>Para solucionar este inconveniente, lo que hacemos en la práctica es considerar a las variables en forma estandarizada. </li></ul><ul><li>Esto es, la variable original menos su media dividida por la desviación estándar. Creamos nuevas variables de la siguiente forma: </li></ul>
  59. 59. Análisis de Conglomerados (Cluster Analysis) <ul><li>Estas nuevas variables tendrán media cero y varianza igual a uno. En esta nueva situación la distancia euclídea entre las personas k y j es: </li></ul><ul><li>d(k,j) = {(ZS k - ZS j ) 2 + (ZY k - ZY j ) 2 + </li></ul><ul><li>+ (ZV k -ZV j ) 2 } 1/2 </li></ul><ul><li>Una vez establecida la distancia entre las observaciones, el siguiente paso consiste en definir el criterio para la formación de los conglomerados. </li></ul>
  60. 60. Análisis de Conglomerados (Cluster Analysis) <ul><li>Existen varios métodos para la formación de los conglomerados, a continuación se expondrán dos de esos métodos. </li></ul><ul><li>El Método de las K-medias </li></ul><ul><li>Este método de formación de conglomerados realiza una partición de las observaciones en K grupos, donde K es un número que debe ser fijado a priori . </li></ul>
  61. 61. Análisis de Conglomerados (Cluster Analysis) <ul><li>El procedimiento del método de las K-medias es: </li></ul><ul><ul><li>Paso 1: Elegir el número de conglomerados, K. </li></ul></ul><ul><ul><li>Paso 2: Especificar los centros de los K conglomerados iniciales (en el caso de que sean desconocidos estimarlos) </li></ul></ul><ul><ul><li>Paso 3: En función del centro más próximo, agrupar a los individuos en conglomerados . </li></ul></ul><ul><ul><li>Paso 4: Calcular los nuevos centros de los conglomerados obtenidos en el Paso 3. </li></ul></ul><ul><ul><li>Paso 5: Repetir los pasos 3 y 4 hasta que llegue un punto en el que los centros en dos pasos sucesivos sean iguales. </li></ul></ul>
  62. 62. Análisis de Conglomerados (Cluster Analysis) <ul><li>En la práctica, lo que se hace es representar gráficamente las observaciones (cuando las variables estandarizadas son menores a cuatro) en función de los valores de las variables estandarizadas y se realiza un primer agrupamiento de acuerdo a la proximidad de las observaciones. </li></ul><ul><li>Supongamos que se detectan 4 grupos diferentes, entonces K se fija en 4. Si no fuera posible representar gráficamente los valores, entonces K se fija arbitrariamente. </li></ul>
  63. 63. Análisis de Conglomerados (Cluster Analysis) <ul><li>El segundo paso consiste en determinar los centros de estos K conglomerados. </li></ul><ul><li>La solución adopatada en la práctica consiste en estimar centros iniciales temporales a partir de los primeros K casos del archivo de datos. A partir de estos centros y a partir de un proceso iterativo se trata de mejorar la solución inicial procediendo de la siguiente forma: si la menor distancia de una observación a un centro es mayor que la menor distancia entre dicho centro y los restantes o que la distancia entre los dos centros más cercanos, se sustituirá la observación por el centro más próximo. </li></ul>
  64. 64. Análisis de Conglomerados (Cluster Analysis) <ul><li>En nuestro caso, la solución inicial corresponde a los valores de las tres variables para las cuatro primeras personas de la muestra. Supongamos que los valores son: </li></ul><ul><li>Persona ZS ZY ZV </li></ul><ul><li>1 0.5030 1.8384 0.2861 </li></ul><ul><li>2 0.5030 -0.1649 -2.4870 </li></ul><ul><li>3 0.5030 -1.1230 0.2861 </li></ul><ul><li>4 -1.9255 -0.1649 0.5942 </li></ul>
  65. 65. Análisis de Conglomerados (Cluster Analysis) <ul><li>Teniendo en cuenta que los valores de las tres variables están estandarizados se puede considerar que un valor mayor a 1 (en valor absoluto) corresponde a un valor extremo de la variable. </li></ul><ul><li>Hecha esta consideración, se observa que el primer centro (Conglomerado 1 ó Cluster 1) corresponde a una persona con alto valor en ZY. </li></ul><ul><li>Análogamente, los centros dos, tres y cuatro tienen valores bajos de ZV, ZY y ZS, respectivamente. </li></ul>
  66. 66. Análisis de Conglomerados (Cluster Analysis) <ul><li>A partir de esta solución inicial, se procede con las iteraciones indicadas más arriba hasta obtener centros finales. </li></ul><ul><li>Obviamente, hay programas econométricos que realizan estas iteraciones automáticamente y nos brindan la solución final. </li></ul><ul><li>Estimados los centros finales, el siguiente paso consiste en calcular la distancia de cada observación con cada uno de ellos. </li></ul>
  67. 67. Análisis de Conglomerados (Cluster Analysis) <ul><li>En función de la mínima distancia obtenida, las observaciones se agruparán en cuatro conglomerados. </li></ul><ul><li>Cada grupo estará formado por la persona correspondiente al centro inicial y todos aquellos tales que la distancia a dicho centro sea la mínima entre las cuatro posibles. </li></ul>
  68. 68. Análisis de Conglomerados (Cluster Analysis) <ul><li>Agrupadas las observaciones en conglomerados, el paso siguiente consiste en estimar centros de cada uno de los conglomerados para proceder a la siguiente agrupación. </li></ul><ul><li>El centro de un conglomerado es el vector de las medias de las variables para el grupo de observaciones correspondientes. Es decir, se toman las personas pertenecientes a un determinado conglomerado y se calcula la media de las tres variables para esas personas. Esto se repite para cada uno de los conglomerados. </li></ul>
  69. 69. Análisis de Conglomerados (Cluster Analysis) <ul><li>Calculados los centros de los conglomerados, el siguiente paso es agrupar a las observaciones con respecto a estos nuevos centros, obteniendo una nueva solución de conglomerados. </li></ul><ul><li>Para esto se calcula la distancia entre cada observación y cada uno de los cuatro centros. En función de la mínima distancia obtenida, las observaciones se agruparán en cuatro nuevos conglomerados. </li></ul><ul><li>Cada grupo estará formado por todos aquellos clientes tales que la distancia al centro sea la mínima de las cuatro posibles. </li></ul>
  70. 70. Análisis de Conglomerados (Cluster Analysis) <ul><li>Este proceso se repite tantas veces como sea necesario hasta que ninguno de los centros obtenidos en una iteración se despalce respecto al de la iteración anterior. </li></ul><ul><li>La solución final nos agrupará a las observaciones en cuatro aglomerados con las características deseadas. </li></ul>
  71. 71. Análisis de Conglomerados (Cluster Analysis) <ul><li>El Método Jerárquico de Promedio entre Grupos </li></ul><ul><li>En los métodos jerárquicos aglomerativos, el análisis comienza con tantos conglomerados como observaciones (cada observación es un conglomerado inicial). </li></ul><ul><li>A partir de esas unidades se van formando nuevos conglomerados de forma ascendente, agrupando en cada etapa a los individuos de los dos conglomerados más próximos. </li></ul>
  72. 72. Análisis de Conglomerados (Cluster Analysis) <ul><li>Al final del proceso todos los individuos deberían estar agrupados en un único conglomerado. </li></ul><ul><li>La diferencia entre los diversos métodos jerárquicos reside en la distancia considerada para medir la proximidad entre conglomerados. </li></ul><ul><li>En el método del Promedio entre Grupos se define la distancia entre dos conglomerados como el promedio de las distancias entre todos los pares de individuos, en los que cada componente del par pertenece a un conglomerado distinto. </li></ul>
  73. 73. Análisis de Conglomerados (Cluster Analysis) <ul><li>La ventaja de este método radica en que el proceso de formación de conglomerados se puede seguir etapa por etapa. </li></ul><ul><li>En consecuencia, el número de conglomerados que se desea formar se puede elegir a posteriori , en función de la solución obtenida en cada etapa. </li></ul>

×